从魔改PTX到使用 UE8M0 FP8 Scale 的参数精度,DeepSeek先榨取英伟达GPU算力,再适配国产芯片,可能会在软硬件协同方面带来新的突破,进一步提高训练效率,最多可以减少 75% 的内存使用,从而在实际应用中减少对进口先进GPU芯片的依赖。

DeepSeek 正在与下一代国产GPU芯片厂商一起,走向算力自主又迈进一步。正是这样一种令人激动的前景,激活了科技色彩愈发浓厚的中国资本市场。

V3.1,迈向Agent时代

DeepSeek 发布了 V3.1,而不是广受期待的V4或者R2,连R1也消失了。DeepSeek变成了一个混合推理架构,即一个模型同时支持思考模式和非思考模式。这是一个趋势,在V3.1发布一周之前,GPT-5发布了,是一个”统一的系统”,包括一个对话模型,一个思考模型,和一个实时路由用来决定如何结合对话与思考。

这次升级提高了DeepSeek的思考效率,即答对同样的问题,消耗更少的token,花费更短的时间。这既是经济上的考虑,也产品和用户体验上的考虑,避免了过度思考,让回答也更简洁一些。

V3.1展示出更强的 Agent 能力,通过后训练的优化,新模型在工具使用与智能体任务中的表现有较大提升。

V3.1的基础模型在V3的基础上重新做了外扩训练,增加训练了840B token。它的上下文长度,思考模式和非思考模式均达到了128k。性能提升,价格下降,再次秀出它所擅长的的性价比创新。

这次升级让DeepSeek在最近中国AI企业的开源热潮中夺回领先优势,但不仅仅是想用来做科研和展示,而是要在企业服务能力上向国际前沿AI企业看齐。

DeepSeek的API Beta 接口支持了strict模式的Function Calling,以确保输出的Function 满足schema 定义。这其实是大模型API在工程化能力上的一个重要升级。OpenAI、Anthropic、Mistral 等都在逐步推出 strict function calling,向企业级生产环境对齐。Strict模式提升了V3.1的工程可靠性和企业易用性,更容易在企业服务中替代GPT/Claude。

同样的思路,DeepSeek增加了对Anthropic API格式的支持,“让大家可以轻松将 DeepSeek-V3.1 的能力接入 Claude Code 框架。”目的是为了让使用Claude Code的用户,更容易切换到DeepSeek。这样可以直接渗透Anthropic已经打开的企业市场。最近Anthropic的企业服务收入,已经超过了OpenAI。

这次升级,对于DeepSeek来说的里程碑意义,是迈向Agent时代的第一步。

对中国的AI芯片生态,也具有里程碑意义。

深度求索的深水炸弹

DeepSeek在中文官微刻意强调、而在其英文X账号上没有提及的是,V3.1使用了 UE8M0 FP8 Scale 的参数精度。它还在留言处置顶:

这年头,越是低调话少让人有点看不懂,信息量越大。

在Hugginface 的模型卡中,DeepSeek又放出了一点信息:DeepSeek-V3.1 使用 UE8M0 FP8 缩放数据格式进行训练,以确保与微缩放数据格式兼容。

简单解释下,FP8=8-bit floating point(8位浮点数),是一种超低精度表示方式。可以显著减少显存/带宽需求,大幅提升推理和训练效率,但需要精心设计缩放(scaling)来避免数值不稳定。

UE8M0是FP8的一种数字表示格式。U表示没有符号,E8表示8位指数,M0表示没有尾数。相比之下,英伟达在 H100、Blackwell GPU 上提供硬件级 FP8 支持,主推E4M3/E5M2格式,也是大多数模型采取的英伟达官方FP8格式。

所谓“微缩放数据格式”(Microscaling data format),即业界的Microscaling FP8 (MXFP8)标准。英伟达Blackwell GPU支持MXFP8。而V3.1训练所用的数值体系与MXFP8兼容,模型在推理/部署时,可以直接在任何支持MXFP8 + UE8M0 的硬件(包括英伟达Blackwell、未来的国产GPU)上跑,不需要额外转换,能降低内存流量、提升矩阵乘法吞吐。

对比一下E4M3/E5M2,UE8M0是一个变体,全指数,无尾数,能覆盖极宽的动态范围,是一种低算力环境下的工程优化。单就UE8M0而言,因为没有尾数,也没有精度,只用来存scale。高精度在内部计算中使用,过程是这样的:输入FP8,存储时用scale调整,计算时自动转换FP16/BF16/FP32,做乘加运算,输出时再量化回FP8存储,保证了训练、推理的稳定性。

V3.1在训练中使用UE8M0 FP8,并且兼容MXFP8,通过软件定义与更多芯片适配,能让超低精度训练/推理在在中国自研芯片上更容易实现。

目前和即将采用FP8精度的国产GPU芯片,有寒武纪、沐曦、燧原、昇腾等,还有更多主动适配DeepSeek的芯片厂商。

英伟达的低精度之路

值得一提的是,英伟达多年来一直用低精度数字表示法提升推理和训练效率。例如在所谓的“黄氏定律”中,过去十年GPU实现的千倍效能提升,新的数字格式起到了最重要的作用。

英伟达的首席科学家戴利(Bill Dally),曾经把数字表示概括为GPU算力”黄氏定律“的精髓。

在P100之前,英伟达的GPU使用单精度浮点数表示这些权重。根据IEEE 754标准,这些数字长度为32位,其中23是尾数位,8是指数位,还有一位是符号位。

但是,机器学习研究人员很快就发现,在许多计算中,其数字可以不必有那么高的精度,而神经网络仍然可以给出准确的答案。这样做的明显优势在于,执行机器学习的关键计算(乘法和累加)的逻辑可以更快、更小、更高效地完成。如果需要,就处理更少的位数(如戴利所解释的,乘法所需的能量与位数的平方成正比)。因此,使用FP16,英伟达将该数字减少了一半。Google甚至推出了自己的版本,称为Bfloat16。(两者的区别在于分数位的相对数量,这影响精度;以及指数位的相对数量,这影响范围。Bfloat16与FP32具有相同数量的范围位,因此更容易在这两种格式之间切换。)

到了H100这一代,可以使用8位数字执行大规模transformer神经网络的某些部分,例如ChatGPT和其他大型语言模型。然而,英伟达发现这并不是一种大小适合所有情况的解决方案。例如,英伟达的Hopper GPU架构实际上使用两种不同的FP8格式进行计算,一种具有更高的精度,另一种具有更大的范围。英伟达的窍门,在于知道何时使用哪种格式。

英伟达对超低精度的一项研究

加州理工教授、英伟达前研究员Anima Anandkumar指出,V3.1在训练中使用的UE8M0 FP8 scale数据格式,实际上是一种对数数值系统(LNS),来自她当年参与的一个研究项目。

英伟达和加州理工的研究人员,在2021年时曾经发表过一篇论文《LNS-Madam:在对数数值系统中采用乘法式权重更新的低精度训练》(LNS-Madam: Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update),探讨如何以低精度表示深度神经网络(DNN),实现高效加速并减少内存占用。

如果直接用低精度权重进行训练,会因低精度数值系统与学习算法之间的复杂交互而导致精度下降。为了解决这一问题,研究人员设计了对数数值系统(Logarithmic Number System, LNS)和乘法式权重更新算法(Madam)。他们证明了 LNS-Madam 在权重更新过程中能保持较低的量化误差,即使在精度受限的情况下也能获得稳定性能。他们还进一步提出了一种 LNS-Madam 的硬件设计,解决了实现高效 LNS 计算数据通路中的实际挑战,有效降低了由 LNS-整数转换和部分和累加(partial sum acculmlation) 带来的能耗开销。

实验结果表明,在计算机视觉和自然语言等主流任务中,LNS-Madam 仅使用 8 位精度就能实现与全精度相当的准确率。与FP32和FP8相比,LNS-Madam能分别降低超过90% 和 55%的能耗。

DeepSeek的超低精度创新

UE8M0实际上等价于 LNS 的一个极简实现,因此可以说UE8M0是LNS的一种特化(只保留log值的整数部分,没有小数精度),所以Anandkumar教授才会把UE8M0缩放数据格式称作一种LNS。

如果说LNS-Madam 一种学术探索,是重新设计数学体系+算法,是硬件和算法一体化的设计思路,UE8M0+FP8是一种在现有浮点体系上结合缩放的工程技巧。二者低精度训练的目标一致,但路线完全不同。

UE8M0并不是用来直接存权重,而是用来存缩放因子(scale factor),帮助其它 FP8(E4M3/E5M2)稳定表示数据,让 FP8能够覆盖更广的数据分布,从而在硬件上更高效。

追求算力自由

回顾一下DeepSeek两个阶段的突破点。

首先是先榨干现有硬件的潜力。DeepSeek V3直接修改英伟达GPU的虚拟机指令集架构 PTX,绕过英伟达编译器的保守策略,手工调度寄存器、warp、访存和Tensor Core指令。把GPU算力利用率提升到极限,降低硬件受限下的训练/推理成本。在DeepSeek手中,A100/A800等英伟达 GPU上的现有算力都得到最大化利用。

第二阶段降低算力的物理需求。DeepSeek V3.1引入UE8M0 FP8格式,让中国国产 AI 芯片(带宽/算力较弱)也能高效运行大模型。采用更紧凑的低精度浮点格式,大幅压缩内存/带宽占用,减少计算负担,可以期待下一代国产GPU芯片能进行前沿大模型训练推理。

DeepSeek在工程实践中走出了一条算力自主之路:先榨取英伟达,再适配国产芯片,最终走向算力自主。长期来看,DeepSeek将沿着软硬件协同优化的路线,构建一个 “算力无关”的模型生态。

中国还需要H20/B30吗

由于技术与安全等原因,已经传出英伟达停止生产H20的消息。目前依然存在悬念的,是黄仁勋是否向中国提供B30。

回顾一下,英伟达定制H20 / B30给中国市场,因为美国出口管制禁止向中国出售H100/H200/B100/B200等高端GPU。黄仁勋的策略,是推出缩水版芯片,为中国定制了H20(基于 Hopper)和B30(基于 Blackwell),在算力、互联、带宽上降低配置,但仍保持 CUDA 生态兼容,以保住中国市场,避免中国厂商快速完全转向国产芯片。同时遵守美国出口管制。

即使DeepSeek魔改PTX,一时造成了英伟达股价暴跌,也并没有影响黄仁勋的策略,老黄反而一直想见梁文锋。因为它心里明白,也公开表达过,以中国的人才,尤其是软件人才,实现AI芯片与模型生态的自主闭环,只是时间问题。

没想到的是UE8M0+ 超低精度的冲击,以如此低调的方式释放。它意味着中国厂商对于H20/B30的需求,正在发生微妙的变化。如果国产下一代GPU芯片近期推出,而且支持UE8M0+FP8 跑通大模型,英伟达的缩水卡在中国市场上的竞争力下降。一旦国产芯片生态完善,CUDA 生态的锁定效应会逐渐削弱。

中国市场还需不需要B30?有一种业内观点认为,短期依然需要,因为国产GPU产能、软件生态还在追赶。大部分企业,尤其是互联网大厂和科研机构等,仍依赖CUDA工具链和现成框架。H20/B30在推理与训练上仍然比国产芯片更稳健。也许B30本身的相对先进性,即弱于最先进的GPU、但仍强于国产GPU,才能决定它能否得到中美两国有关部门的接受。

随着国产芯片+超低精度训练将逐渐跑通并规模化部署,中长期来看对于B30们的需求会明显下降。国产AI软件栈(昇腾CANN、寒武纪 Neuware、壁仞 BIRENSUPA)逐步成熟,逐渐减少对 CUDA 的依赖。成本敏感的中国企业会更倾向国产方案,同时避免美国找麻烦。

英伟达的优势何在

UE8M0+FP8,好像是DeepSeek接过了英伟达近十年来的低精度数字表示技术的大旗,结合中国的实际进行工程创新,它将加快中国下一代芯片的推出,加快以国产芯片解决中国大规模训练和推理的需求,从而形成中国AI芯片与模型的技术路线。

使用UE8M0 FP8 Scale的参数精度,适配国产下一代芯片,兼容MXFP8,并不意味着英伟达失去了优势主导地位,因为 G200 不只是 FP8,还带来更大带宽、更强互联(NVLink 5)、更大显存。软件生态(CUDA、PyTorch 插件)也牢牢绑定 FP8,迁移到 UE8M0 需要额外工程适配。大部分国际大厂(OpenAI、Anthropic、Meta)还是会首选 G200 来追求极致性能。“黄氏定律”已经推进至FP4精度,英伟达还曾亲自下场发布了优化版的DeepSeek-R1-FP4,内存需求大幅降低,基准测试成绩几乎不变。

如果 UE8M0+FP8 在社区和国产硬件上普及,低成本训练路径会弱化英伟达的必选性。这对中国厂商尤其重要,即使没有 G200,也能在国产 GPU 上稳定训练大模型,形成去英伟达化的路线。