2月18日,DeepSeek团队发布了题为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的技术论文,介绍NSA(Natively Sparse Attention)机制。NSA结合算法创新和硬件优化,旨在高效处理长文本建模。
核心创新包括:
实验结果显示,NSA在长文本任务和指令推理中表现出色,尤其在64k长度序列处理中,实现了解码、前向传播和反向传播的显著加速。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com