Skip to content

005_Transformer-Other

在Transformer架构基础上的更多优化,包括软硬件优化

MQA

GQA

Flash Attention

重计算

KV-cache

Page Attention