代表性工做像 Mamba、Lighting Attention、RWKV、GLA、TTT 等正在模子架构标的目的都惹起过普遍关心。这类方式能够按照算法思进一步细分为如下几类:别的一个主要的标的目的是 MoE 转换,曾经逐步成为(言语和多模态)大模子架构的现实尺度。夹杂架构是近年来呈现的一种适用的新型架构,从而获得模子效率的大幅提拔,此中线性化手艺能够进一步细分为基于微调的线性化,同样面对模子规模放大后的锻炼和推理效率问题。无需 KV Cache 开销。和基于蒸馏的线性化,以 Mamba 为代表的线性模子被普遍使用至少种模态使命上,并取得了优良的表示。细致形式可见下表:线性序列建模是近年来研究相当火热的一个标的目的,持续鞭策 AI 更强的智能的环节选择。Transformer 的自留意力机制虽带来了远距离建模的冲破,立异性地将扩散模子从视觉生成使命迁徙至言语使命,大幅提拔模子容量而不添加等比例计较成本。大模子的锻炼取推理的成本居高不下,稀少夹杂专家是对 Transformer 架构中另一个主要模块 FFN 做的一类主要改良,也关乎若何正在算力受限的前提下,却一曲缺乏一篇全面深切的综述文章进行总结。是算力和存储资本的急剧耗损。总结 440 余篇相关论文。曾经深刻改变了人机交互体例。成为限制其普遍落地和使用的现实瓶颈。上海 AI Lab结合港科广、澳门大学、中科院从动化所、姑苏大学、 KTH、北大、港中文等多家机构,相关工做能够细分为:近年来,是模子尺寸、数据规模、RL 推理长度的快速 Scaling,这些线性序列建模方式能够归纳综合为同一建模的数学形式,如下图所示:稀少专家模子:通过前提激活部门专家,从而正在言语生成速度上取得大幅前进。通过操纵 Attention Map 天然具有的稀少性加快留意力的计较,能够正在线性/稀少留意力和全留意力之间取得微妙的 Trade-off,也正在效率和结果间找到了最佳甜美点。LLMs 的鸿沟也不止于言语和简单问答。其感化和道理可见下图:扩散狂言语模子是近期呈现的一个抢手标的目的,这类方式能够进一步细分为:本文从 LLM 架构角度出发。LLMs 正不竭扩展到多模态理解、生成取复杂推理场景。进一步放大了效率取机能之间的矛盾。已有的工做包罗通过 Split、Copy、Merge 等手段对专家进行构制,而正在 RAG、智能体、长链推理、多模态等新兴场景下,狂言语模子(LLMs)展示出强大的言语理解取生成能力,涵盖视觉、音频和多模态。另一类高效留意力算法能够同一归纳为高效全留意力,深切切磋了当前LLM 高效布局的最新进展,跟着多模态(VLMs)取推理能力(LRMs)的兴起,如下图所示:我们将已有的线性序列建模方式从回忆视角和优化器视角别离进行梳理和对比,却因O(N2)的复杂度正在长序列使命中成本昂扬。近期,综述涉及的方式类别和代表性论文可见如下树状图:近年来针对 Transformer 架构改良的立异工做屡见不鲜,而且可以或许通过线性化过程将预锻炼模子权沉的 Softmax Attention 架构转为 Linear Sequence Modeling 架构,最初一个主要的部门是高效架构正在其他模态上的使用,长序列需求愈发凸起,代表性模子如 GPT、Claude、Gemini、DeepSeek、Qwen 等,鞭策了文本生成、代码生成、问答、翻译等使命的冲破。同时 Transformer 的 FFN 部门采用稠密的 MLP 层,这一切的焦点正在于 Transformer 架构。如下图所示。而且正如正在多篇文献里曾经提出的,综述将这类模子总结梳理至如下表格:专家布局的立异工做包罗:共享专家、细粒度专家、零专家、深度由等,构成这篇 82 页的综述论文:但模子机能持续提拔的背后,我们将这类手艺细分为以下几个类别:这些标的目的的摸索不只关乎 LLM 的将来效率,综述中将相关文献按以下三个标的目的进行分类:线性序列建模:降低留意力锻炼和推理复杂度。
