华为，正式发布！计划于9月开源

0次浏览发布时间：2025-08-12 17:54:00

每经编辑：张锦河

8月12日，华为正式发布AI推理创新技术UCM（推理记忆数据管理器）。据了解，作为一款以KV Cache为中心的推理加速套件，UCM融合了多类型缓存加速算法工具，分级管理推理过程中产生的KV Cache记忆数据，可扩大推理上下文窗口，实现高吞吐、低时延的推理体验，降低每Token推理成本。该技术已率先在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中，开展智慧金融AI推理加速应用试点，并已取得成果。

华为计划于2025年9月正式开源UCM，届时将在魔擎社区首发，后续逐步贡献给业界主流推理引擎社区，并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。

图片来源：每日经济新闻资料图

据悉，UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动，同时融合多种稀疏注意力算法实现存算深度协同，使长序列场景下TPS（每秒处理token数）提升2至22倍，从而降低每个Token的推理成本。

Token是AI模型中的基本数据单位。在训练过程中，AI大模型会学习标记Token之间的关系，从而执行推理并生成准确、相关的输出。

数据显示，国外主流AI大模型的单用户输出速度已进入200 Tokens/s区间（时延5ms），而我国主流AI大模型的单用户输出速度普遍小于60 Tokens/s（时延50至100ms）。

每日经济新闻综合自公开信息

每日经济新闻

本文分类：实时讯息
本文标签：华为模型数据每日经济主流记忆时延开源
浏览次数：0 次浏览
发布日期：2025-08-12 17:54:00
本文链接：https://www.rywz.net/news/Dbyp5Ka0w1.html

上一篇 > 鄂托克前旗精彩那达慕，400 匹骏马飞驰，搏克射箭超吸睛！