户外 露出 新留心力让大模子落魄文内存占用砍半!精度不减还能加快2倍
发布日期:2025-03-18 04:36 点击次数:175
大模子雷同的落魄文窗口户外 露出,只需一半内存就能达成,况兼精度无损?
前苹果 ASIC 架构师 Nils Graef,和别称 UC 伯克利在读本科生沿途提议了新的留心力机制Slim Attention。
它以法式多头留心力(MHA)为基准,对其中的 value 缓存惩办过程进行了援救,达成了更少的内存占用。
具体来说,Slim Attention 既不错让KV 缓存大小减半,也不错在 KV 缓存大小不变的情况下让落魄文翻倍,齐不会带来精度耗费。
此外,在内存带宽受限的场景下,它还不错将模子的推理过程加快1.5-2 倍。
网友评价,Slim Attention 诚然简便,但却是一个很酷的主张。
还有 AI 创业者评叙述,这是一项要紧冲破,可能重塑对模子教师和部署的成见。
K-Cache is All You Need
在法式的 MHA 机制当中,关于输入 X 和会过线性变换,经由三个投影矩阵 W_Q、W_K、W_V 获取 Q ( query ) 、K ( key ) 和 V ( value ) 三个矩阵。
在推理阶段,每个输入 token 估量获取的 K 和 V 向量齐需要缓存起来,变成 KV cache 供后续 token 估量时使用。
Slim Attention 的中枢念念路是,垄断 MHA 中 W_K 和 W_V 时常齐是方阵的性质,只存储 K 而不径直存储 V,然后及时垄断 K 估量出 V。
△原始 MHA(左)与篡改版(右)对比
在教师阶段,Slim Attention 与法式 MHA 一样,会对输入 X 估量 Q、K、V 三个矩阵,留心力估量和梯度回传也与法式 MHA 竣工一致。
在 W_K 可逆的前提下,Slim Attention 引入一个新的参数矩阵 W_KV:
W_KV = W_K^ ( -1 ) · W_V
据此,不错获取:
V = X · W_V = X · W_K · W_K^ ( -1 ) · W_V = K · W_KV
推理过程则主要分为两个阶段——教唆阶段(并行估量)和生成阶段(自总结)。
教唆阶段与法式 MHA 一样,将输入的所有 token 并行估量 Q、K 矩阵,但不同的是,这里不径直估量 V,而是将中间截至 K 缓存供后续使用。
生成阶段每个技艺步生成一个新 token,领先估量该技艺步的 Q 向量 q,然后基于 q 和之前技艺步缓存的 K 矩阵,估量留心力得(即 softmax 的输入)。
色酷在 softmax 之前,Slim Attention 通过公式 V = K · W_KV 及时估量 V 矩阵。具体有两种风光 :
径直估量 V,然后将 softmax 截至与 V 相乘(矩阵乘法)获取留心力输出;
先将 softmax 截至与 K 相乘,然后再与 W_KV 相乘,当序列较万古这种风光更高效。
剩余经由(残差斡旋、前馈层等)与法式 MHA 一致,终末将现时步的 k 向量添加到 K 缓存中,供下一技艺步使用。
总之,Slim Attention 是法式 MHA 的精准数学重写,因此与类似步履不同,可确保准确率不会着落。
以此为前提,Slim Attention 达成了 KV 缓存减半或落魄文翻倍的效果。
前苹果架构师与 UC 伯克利本科生后果
Slim Attention 的作家是 AI 初创公司 OpenMachine 的创举东说念主兼 CEO Nils Graef,以及 UC 伯克利在读本科生Andrew Wasielewski。
Nils 的主业是机器学习加快器的架构和策画,曾发表两篇 IEEE 期刊论文和 30 多项专利,援用次数逾越 900 次。
创立 OpenMachine 前,Nils 在著明推理加快平台 Groq(留心不是马斯克的 Grok)担任芯片架构师。
更早的技艺,他先后担任过谷歌 ML 加快器架构 & 策画工程师和苹果 ASIC 架构师。
Andrew Wasielewski 是 UC 伯克利在读本科生,专科是物理和 EECs(电气工程与估量机科学),预测将于来岁毕业。
字据论文签字信息裸露,Slim Attention 的责任是 Andrew 在 OpenMachine 完成的。
客岁 7 月,Nils 和 Andrew 还与其他东说念主互助,发表了一篇名为Flash normalization的论文,提议了一种更快的 RNS 归一化风光。
此外皮 Slim Attention 的致谢中还提到,艾伦实际室的 Dirk Groeneveld,以及 SGLang 三作谢志强,对其责任提供了有利连络;Transformer 作家之一、Character.AI 创举东说念主 Noam Shazeer 给出了积极响应。
论文地址:
https://arxiv.org/abs/2503.05840
参考开通:
https://x.com/rohanpaul_ai/status/1901092052282339474户外 露出