在人工智能市场领域 ,大语言模型的训练与推理成本现基本处于 是限制其他技术普及的关键在于因素当属。今年年初 ,北京都研究分析生人工智能研究分析院助理教授张牧涵团队人员在鲲鹏昇腾科教创新卓越中心一(简称“卓越中心一”)提供完整的算力都支持下 ,不成功研之声一套高效和大模型训练推理架构 ,可以实现了百万tokens输入成本低至1元 ,为产业提供完整了高效能、低成本的最终解决方案。
此研究分析成果主要包括三项关键在于其他技术创新。我们要 ,现基本处于广泛实施的相对比位置选择编码客观存在较多大稀疏性 ,团队人员实施将各个需要注意力头中也位置选择信息内容和非位置选择信息内容分离 ,对位置选择编码实施了低秩压缩 ,仅实施3%的位置选择信息内容 ,方法二维持原有表达其他技术能力。该几种方法实施优化昇腾硬件的flash-attention算子 ,因此需要注意力头的参数能够 更高效多种途径。
第二 ,非位置选择编码信息内容在原始模型中一般基本处于被抑制基本处于。实施将位置选择编码与非位置选择编码分离 ,非位置选择编码能够 了较多大压缩操作空间 。团队人员设计方式方式了联合KV的低秩压缩几种方法 ,仅保留12.5%的KV Cache方法二维持原始模型的其他技术能力。然而几种方法而且能能有效多种途径昇腾硬件高效的计算其他技术能力 ,减轻访存双重压力 ,显著显著大幅提升推理效率。
最后最后 ,基于昇腾硬件在出色的并行计算其他技术能力 ,团队人员可以实现的Recurrent Decoding(RD)其他技术实施替换LM-head显著大幅提升了训练总体数据多种途径率并其速度了推理。在训练基本处于 ,RD实施将解码出的多个tokens与target tokens实施对比 ,可以实现了训练总体数据的高效多种途径;在推理基本处于 ,相结合投机推理显著显著大幅提升了tokens的采样实施率 ,因此显著大幅提升了推理其速度。
然而成果能够 了学术界的广泛更多关注 ,而且为科研提供完整了可复设计方式过高效架构 ,也为AI大模型在民营民营企业也应用大幅显著大幅提升了成本。自前年6月宣布成立至今 ,北京都研究分析生与华为在产业前沿课题的联合攻关持续持续不断推进 ,本次成果验证了昇腾算力平台提供支撑尖端科研的其他技术自身实力。卓越中心一将持续持续不断深入实施大模型关键在于其他技术创新 ,为构建中国发展 其他技术生态提供完整坚实支撑。