深色模式
005_Transformer-Other
在Transformer架构基础上的更多优化,包括软硬件优化
MQA
GQA
Flash Attention
重计算
KV-cache
Page Attention