(转)Deepseek 的出现意味着什么?
原文地址:DeepSeek FAQ – Stratechery by Ben Thompson
现在是1月27日星期一。你为什么还没写关于DeepSeek的文章?
我写了!我上周二写了关于R1
的文章。
我完全忘了这事。
这是我的责任。我仍然支持那篇文章,包括我强调的两个最大的要点(通过纯强化学习产生的推理链思维,以及蒸馏的力量),我也提到了低成本(我在Sharp Tech中进行了深入探讨)和芯片禁令的影响,但这些观察过于局限于AI的当前技术水平。我完全没有预见到这个消息对整体元讨论会产生的更广泛影响,特别是在美国和中国方面。
有这样的遗漏先例吗?
确实有。2023年9月,华为发布了采用中芯国际7纳米工艺制造的Mate 60 Pro。对于密切关注的人来说,这款芯片的存在并不令人意外:中芯国际早在一年前就制造了7纳米芯片(我更早就注意到了这一点),而台积电也曾仅使用DUV光刻技术批量生产7纳米芯片(后期的7纳米版本才首次使用EUV)。英特尔也在多年前就用纯DUV技术制造了10纳米(相当于台积电7纳米)芯片,但无法实现盈利性良率;中芯国际如果不在意良率,用现有设备生产7纳米芯片的想法一点也不让人惊讶 - 至少对我来说是这样。
让我完全没有预料到的是华盛顿特区的过度反应。这导致了芯片禁令的戏剧性扩大,最终拜登政府将芯片销售转变为基于许可的结构。这源于人们不了解芯片生产的复杂性,并对华为Mate 60 Pro感到猝不及防。我感觉过去72小时发生了类似的事情:DeepSeek取得的具体成就 - 以及他们没有取得的成就 - 不如人们对这一反应的重视程度以及这种反应对人们既有假设的影响重要。
那么DeepSeek到底宣布了什么?
最接近这个周末舆论风暴的公告是R1
,这是一个类似于OpenAI的o1
的推理模型。然而,许多引发风暴的揭示 - 包括DeepSeek的训练成本 - 实际上是在圣诞节期间V3
公告时就已经出现了。此外,支撑V3
的许多突破实际上是在去年1月发布V2
模型时就已揭示的。
这种模型命名惯例是OpenAI犯下的最大错误吗?
是第二大错误;我们稍后会谈到最大的错误。
让我们倒过来说:V2模型是什么,为什么它很重要?
DeepSeek-V2
模型引入了两个重要的突破:DeepSeekMoE和DeepSeekMLA。DeepSeekMoE中的"MoE"指的是"混合专家"。一些模型,比如GPT-3.5,在训练和推理过程中都会激活整个模型;然而,事实证明并非模型的每个部分都是必需的。MoE将模型分成多个"专家",只激活必要的部分;GPT-4是一个MoE模型,据信有16个专家,每个专家大约有1100亿个参数。
DeepSeekMoE在V2
中实现时,对这个概念进行了重要创新,包括区分更细粒度的专门专家,和具有更通用能力的共享专家。关键是,DeepSeekMoE还在训练过程中引入了新的负载均衡和路由方法;传统上MoE在训练时会增加通信开销以换取高效推理,但DeepSeek的方法也让训练变得更加高效。
DeepSeekMLA是一个更大的突破。推理的最大限制之一是所需的内存量:你既需要将模型加载到内存中,也需要加载整个上下文窗口。上下文窗口在内存使用上特别昂贵,因为每个token都需要一个键和对应的值;DeepSeekMLA,即多头潜在注意力,可以压缩键-值存储,大大减少了推理过程中的内存使用。
我不确定我是否理解了这些内容。
这些突破的关键含义 - 以及你需要理解的部分 - 直到V3
才变得明显,它增加了一种新的负载均衡方法(进一步减少通信开销)和训练中的多token预测(进一步密集化每个训练步骤,再次减少开销):V3
的训练成本令人震惊地低。DeepSeek声称模型训练花费了2,788,000个H800 GPU小时,按每GPU小时2美元计算,仅花费557.6万美元。
这个数字似乎不可能这么低。
DeepSeek明确表示这些成本仅针对最终训练运行,不包括所有其他费用;引用V3论文:
最后,我们再次强调DeepSeek-V3经济的训练成本,如表1所总结,这是通过我们优化的算法、框架和硬件协同设计实现的。在预训练阶段,DeepSeek-V3每训练一万亿个token仅需要180,000个H800 GPU小时,即在我们的2048个H800 GPU集群上只需3.7天。因此,我们的预训练阶段在不到两个月内完成,花费2,664,000个GPU小时。加上上下文长度扩展的119,000个GPU小时和后训练的5,000个GPU小时,DeepSeek-V3完整训练仅花费2,788,000个GPU小时。假设H800 GPU的租用价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。需要注意的是,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据的前期研究和对比实验相关的成本。
所以不,你不能用557.6万美元复制DeepSeek公司。
我还是不相信这个数字。
实际上,一旦你理解了V3
架构,怀疑的责任就在质疑者身上。记住关于DeepSeekMoE的部分:V3有6710亿参数,但每个token只计算370亿个活跃专家参数;这相当于每个token3333亿次浮点运算。这里我应该提到DeepSeek的另一个创新:虽然参数以BF16或FP32精度存储,但计算时降低到FP8精度;2048个H800 GPU的计算能力为3.97exaflops,即3.97亿亿次浮点运算。同时,训练集包含14.8万亿个token;一旦你完成所有计算,就会发现280万H800小时足以训练V3
。再次强调,这只是最终运行而不是总成本,但这是一个合理的数字。
Scale AI的CEO Alexandr Wang说他们有50,000个H100。
我不知道Wang从哪里得到他的信息;我猜他指的是Dylan Patel 2024年11月的这条推文,说DeepSeek有"超过50,000个Hopper GPUs"。H800也是Hopper GPU,只是由于美国制裁内存带宽比H100受到更多限制。
关键是:我之前解释的许多创新都是为了克服使用H800而不是H100带来的内存带宽限制。此外,如果你真的做了前面问题的数学计算,你会发现DeepSeek实际上有多余的计算能力;这是因为DeepSeek实际上专门编程了每个H800上132个处理单元中的20个来管理芯片间通信。这在CUDA中实际上是不可能做到的。 DeepSeek工程师不得不降级到PTX,这是Nvidia GPU的一个底层指令集,基本上就像汇编语言。这是一个疯狂的优化水平,只有在使用H800时才说得通。
同时,DeepSeek还提供他们的模型用于推理:这需要大量超出训练所用GPU之外的GPU。
所以这违反了芯片禁令吗?
不。芯片禁令禁止了H100,但没有禁止H800。每个人都认为训练最先进的模型需要更多的芯片间内存带宽,但这正是DeepSeek优化他们的模型结构和基础设施所针对的。
再次强调这一点,DeepSeek做出的所有决定只有在受限于H800时才说得通;如果DeepSeek能使用H100,他们可能会使用更大的训练集群而不需要那么多专门针对克服带宽不足的优化。
所以V3
是一个领先的模型吗?
它确实能与OpenAI的4o
和Anthropic的Sonnet-3.5竞争,而且似乎比Llama的最大模型更好。看起来很可能的是,DeepSeek能够对这些模型进行蒸馏,为V3
提供高质量的训练token。
什么是蒸馏?
蒸馏是一种从其他模型中提取理解的方法;你可以向教师模型发送输入并记录输出,用这些来训练学生模型。这就是如何从GPT-4得到GPT-4 Turbo的方法。蒸馏对公司自己的模型来说更容易做到,因为他们有完整的访问权限,但你仍然可以通过API以一种更笨拙的方式进行蒸馏,甚至如果你有创意的话,可以通过聊天客户端进行。
蒸馏显然违反了各种模型的服务条款,但阻止它的唯一方法是真正切断访问,通过IP封禁、速率限制等。在模型训练方面,它被认为是普遍存在的,这也是为什么越来越多的模型在质量上趋近于GPT-4o
。这并不意味着我们确切知道DeepSeek蒸馏了4o
或Claude,但坦白说,如果他们没这么做反而会很奇怪。
蒸馏对领先的模型来说似乎很糟糕。
确实如此!好的一面是,OpenAI、Anthropic和Google几乎肯定在使用蒸馏来优化他们面向消费者应用的推理模型;不好的一面是,他们实际上承担了训练最前沿技术的全部成本,而其他所有人都在搭他们的便车。
事实上,这可能是支撑微软和OpenAI缓慢分道扬镳的核心经济因素。微软对为其客户提供推理感兴趣,但对资助1000亿美元的数据中心来训练领先模型的热情要低得多,因为这些模型很可能在1000亿美元折旧之前就被商品化了。
这就是为什么所有大科技股票都在下跌吗?
从长远来看,模型商品化和更便宜的推理对大科技公司来说是件好事。一个微软能以更低成本为客户提供推理的世界意味着微软需要在数据中心和GPU上花费更少,或者更可能的是,由于推理成本如此之低而看到使用量大幅增加。另一个大赢家是亚马逊:AWS在很大程度上未能制作出自己的高质量模型,但如果有非常高质量的开源模型可以以远低于预期的成本提供服务,这就不重要了。
Apple 也是一个大赢家。推理所需的内存大幅减少,使得边缘推理更加可行,而 Apple 拥有最适合此类任务的硬件。Apple Silicon 采用统一内存架构,这意味着 CPU、GPU 和 NPU(神经处理单元)可以访问共享的内存池;这使得 Apple 的高端硬件实际上成为推理方面最强的消费级芯片(Nvidia 的游戏 GPU 最高配备 32GB VRAM,而 Apple 芯片可达 192GB RAM)。
与此同时,Meta 是最大的赢家。我在去年秋天已经详细说明了(链接),AI 如何惠及 Meta 业务的各个方面;实现这一愿景的主要障碍是推理成本,而大幅降低的推理成本——以及更低的训练成本,使得 Meta 能够保持行业领先——让这一愿景更容易实现。
另一方面,Google 可能处于更糟糕的境地:硬件需求的降低削弱了他们 TPU 的相对优势。更重要的是,零成本推理的世界让取代搜索的产品变得更加可行,尽管 Google 也能受益于降低的成本,但任何偏离现状的变化可能都是负面的。
我问为什么股价下跌,你却描述了一幅积极的图景!
我描述的是长期情况,而今天是短期市场的反应,似乎市场仍在消化 R1 的影响。
等等,你还没谈 R1!
R1 是一个类似 OpenAI o1 的推理模型。它能够思考问题,尤其在编码、数学和逻辑等领域生成更高质量的结果。
它比 V3 更厉害吗?
实际上,我花了很多时间讨论 V3,是因为它展示了许多引发惊讶和争议的动态。然而,R1 仍然值得关注,因为 o1 曾是市场上唯一的推理模型,也是 OpenAI 领先的最明显标志。
R1 在几个关键方面打破了 o1 的神话。首先,它的存在本身就证明 OpenAI 并不具备不可复制的“独门秘诀”。其次,R1 和所有 DeepSeek 模型一样,拥有开放权重(不能称之为“开源”,因为我们没有它的训练数据)。这意味着你不必付费给 OpenAI 来获取推理能力,而是可以在自己的服务器上或本地运行 R1,成本大幅降低。
DeepSeek 是如何打造 R1 的?
DeepSeek 实际上开发了两个模型:R1 和 R1-Zero。我认为 R1-Zero 更具突破性;正如我在上周二的更新中强调的:
R1-Zero 才是更重要的突破。根据 论文描述:
本文的目标是探索纯强化学习(RL)是否可以提升大语言模型的推理能力。我们希望 LLM 能够在没有监督数据的情况下,通过自身进化的 RL 过程发展推理能力。具体而言,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为 RL 框架来增强推理性能。在训练过程中,DeepSeek-R1-Zero 自主形成了许多强大的推理能力。在经过数千次 RL 训练后,DeepSeek-R1-Zero 在推理基准测试上表现卓越。例如,在 AIME 2024 评测中,pass@1 分数从 15.6% 提高到 71.0%,通过多数投票,该分数进一步提高到 86.7%,与 OpenAI-o1-0912 表现相当。
强化学习是一种技术,其中机器学习模型被赋予大量数据和奖励函数。经典的例子是AlphaGo,DeepMind给模型提供了围棋的规则和赢得比赛的奖励函数,然后让模型自己解决其他所有问题。这种方法最终被证明比其他更多依赖人类指导的技术效果更好。
然而,迄今为止,大型语言模型(LLMs)依赖于人类反馈的强化学习(RLHF);人类在循环中帮助指导模型,处理奖励不明显的困难选择等。RLHF是将GPT-3转变为ChatGPT的关键创新,使其能够生成结构良好的段落,回答简洁且不会陷入胡言乱语等。
然而,
R1
-Zero去掉了HF部分——它只是强化学习。DeepSeek给模型提供了一组数学、代码和逻辑问题,并设置了两个奖励函数:一个用于正确答案,另一个用于使用思维过程的正确格式。此外,该技术很简单:不是尝试逐步评估(过程监督),也不是搜索所有可能的答案(像AlphaGo那样),DeepSeek鼓励模型一次尝试几种不同的答案,然后根据两个奖励函数对它们进行评分。结果是一个模型自行发展了推理和思维链,包括DeepSeek所称的“顿悟时刻”:
在DeepSeek-
R1
-Zero的训练过程中观察到一个特别有趣的现象,即“顿悟时刻”的出现。这个时刻,如表3所示,出现在模型的中间版本中。在这个阶段,DeepSeek-R1
-Zero学会了通过重新评估其初始方法来为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力,也是强化学习如何导致意外和复杂结果的一个引人入胜的例子。这个时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的力量和美感:我们不需要明确地教模型如何解决问题,只需提供正确的激励,它就会自主发展出高级的问题解决策略。“顿悟时刻”有力地提醒了RL在人工智能系统中解锁新智能水平的潜力,为未来更自主和适应性更强的模型铺平了道路。
这是对The Bitter Lesson最有力的肯定之一:你不需要教AI如何推理,只需给它足够的计算能力和数据,它就会自己学会!
嗯,几乎是这样:
R1
-Zero 能够推理,但其推理方式让人类难以理解。回到引言部分:然而,DeepSeek-
R1
-Zero 遇到了一些挑战,例如可读性差和语言混合问题。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1
,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千条冷启动数据来微调 DeepSeek-V3
-Base 模型。随后,我们像 DeepSeek-R1
-Zero 一样进行面向推理的强化学习(RL)。在 RL 过程接近收敛时,我们通过对 RL 检查点进行拒绝采样生成新的 SFT 数据,并结合来自 DeepSeek-V3
的监督数据(涵盖写作、事实问答和自我认知等领域),然后重新训练 DeepSeek-V3
-Base 模型。在用新数据微调后,检查点会经历额外的 RL 过程,考虑所有场景的提示。经过这些步骤后,我们得到了一个称为 DeepSeek-R1
的检查点,其性能与 OpenAI-o1
-1217 相当。这听起来很像 OpenAI 为
o1
所做的:DeepSeek 首先用大量链式思维示例启动模型,使其学习适合人类理解的格式,然后通过强化学习增强其推理能力,并经过多次编辑和优化步骤;最终输出的模型与o1
非常具有竞争力。这里再次表明,DeepSeek 可能从蒸馏中受益,尤其是在训练
R1
方面。不过,这本身也是一个重要的启示:我们正在见证一种情况,即 AI 模型在教其他 AI 模型,同时 AI 模型也在自我学习。我们正在实时观察 AI 起飞场景的构建。
那么我们离 AGI(通用人工智能)还有多远?
看起来确实很接近了。这也解释了为什么软银(以及孙正义召集的其他投资者)会为 OpenAI 提供微软不愿提供的资金:他们认为我们正在接近一个起飞点,率先实现突破将带来真正的回报。
但 R1
现在是领先者吗?
我不这么认为;这种说法被夸大了。R1
确实与 o1
竞争激烈,尽管其能力似乎存在一些漏洞,表明它可能从 o1
-Pro 中蒸馏了一部分能力。与此同时,OpenAI 已经展示了 o3
,这是一个更强大的推理模型。DeepSeek 在效率方面绝对是领先者,但这与整体领先不同。
那么为什么大家都在恐慌?
我认为有多个因素。首先,中国已经赶上了美国领先的实验室,尽管普遍认为中国在软件方面不如美国。这可能是我对反应感到惊讶的最大原因。现实是,中国在软件行业整体上非常精通,尤其是在 AI 模型构建方面有着良好的记录。
其次是 V3
的低训练成本以及 DeepSeek 的低推理成本。这部分对我来说也是一个很大的惊喜,但数据是可信的。这进而可能让所有人对英伟达感到紧张,显然这对市场有很大影响。
第三是 DeepSeek 在芯片禁令的情况下仍然完成了这一壮举。不过,尽管芯片禁令存在很大的漏洞,但 DeepSeek 很可能是通过合法芯片实现这一目标的。
我持有英伟达的股票!我完蛋了吗?
这一消息确实对英伟达的故事提出了真正的挑战。英伟达有两个主要的护城河:
- CUDA 是编程这些模型的首选语言,而 CUDA 只能在英伟达芯片上运行。
- 英伟达在将多个芯片组合成一个大型虚拟 GPU 方面具有巨大优势。
这两个护城河相辅相成。我上面提到,如果 DeepSeek 能够使用 H100,他们可能会使用更大的集群来训练模型,因为这会是更简单的选择;而他们没有这样做,并且受限于带宽,这促使他们在模型架构和训练基础设施方面做出了许多决策。看看美国的实验室:他们没有花太多时间在优化上,因为英伟达一直在积极推出越来越强大的系统来满足他们的需求。最简单的路径就是付钱给英伟达。然而,DeepSeek 刚刚展示了另一种路径:在较弱的硬件和较低的内存带宽上进行深度优化,可以产生显著的结果;仅仅付更多钱给英伟达并不是制作更好模型的唯一途径。
尽管如此,英伟达仍有三个有利因素。首先,如果将 DeepSeek 的方法应用于 H100 或即将推出的 GB100,其能力会有多强?仅仅因为他们找到了一种更高效的计算方式,并不意味着更多的计算能力没有用处。其次,从长远来看,较低的推理成本应该会推动更大的使用量。微软 CEO 萨提亚·纳德拉在深夜发推文(几乎可以肯定是对市场喊话)时明确表示:
第三,像 R1
和 o1
这样的推理模型之所以表现出色,是因为它们使用了更多的计算资源。如果提高 AI 的能力和性能依赖于更多的计算资源,那么英伟达将从中受益!
不过,情况并非完全乐观。至少 DeepSeek 的效率和广泛可用性对英伟达最乐观的增长故事提出了重大质疑,尤其是在短期内。模型和基础设施优化的回报也表明,探索替代的推理方法(尤其是推理)可能会带来显著的收益。例如,在独立的 AMD GPU 上运行推理可能更加可行,完全绕过 AMD 较弱的芯片间通信能力。推理模型还增加了对专门化推理芯片的回报,这些芯片甚至比英伟达的 GPU 更加专用。
简而言之,英伟达不会消失;然而,英伟达的股票突然面临更多未被市场定价的不确定性。而这种不确定性将拖累整个市场。
那么芯片禁令呢?
最容易得出的结论是,鉴于美国在软件领域的领先地位迅速消失,芯片禁令的重要性更加凸显。软件和知识无法被禁运——我们之前已经有过这些辩论和认识——但芯片是实物,美国有理由阻止其流入中国。
与此同时,我们应该对芯片禁令早期版本似乎直接催生了 DeepSeek 的创新保持一定的谦逊。此外,这些创新不仅适用于走私的英伟达芯片或被削弱的芯片(如 H800),也适用于华为的昇腾芯片。事实上,你完全可以认为,芯片禁令的主要结果就是今天英伟达股价的暴跌。
让我担忧的是支撑芯片禁令的思维方式:美国不是通过未来的创新来竞争,而是通过阻止过去的创新来竞争。是的,这在短期内可能有所帮助——再次强调,DeepSeek 如果有更多计算资源会更有效——但从长远来看,这只会为美国在芯片和半导体设备行业的主导地位埋下竞争的种子。
就像 AI 模型一样?
AI 模型是一个很好的例子。我上面提到过,我会谈到 OpenAI 的最大罪行,我认为这是 2023 年拜登关于 AI 的行政命令。我在 Attenuating Innovation 中写道:
关键是:如果你接受监管会锁定现有企业这一前提,那么值得注意的是,早期的 AI 赢家似乎最热衷于在华盛顿特区制造关于 AI 的恐慌。尽管他们的担忧显然不足以让他们停止工作。不,他们是负责任的一方,是关心到呼吁监管的一方;如果对想象中的危害的担忧能够削弱不可避免的竞争对手,那就更好了。
这段话专门针对 OpenAI,以及更广泛的旧金山 AI 社区。多年来,我们一直听到那些致力于构建和控制 AI 的人对 AI 危险的担忧。这些所谓的危险是 OpenAI 在 2019 年发布 GPT-2 后关闭的原因:
由于担心大型语言模型被用于大规模生成欺骗性、偏见性或侮辱性语言,我们仅发布了一个小得多的 GPT-2 版本以及采样代码。我们没有发布数据集、训练代码或 GPT-2 模型权重……我们知道一些研究人员具备复制并开源我们成果的技术能力。我们相信我们的发布策略限制了可能选择这样做的初始组织范围,并为 AI 社区提供了更多时间来讨论此类系统的影响。
我们还认为,政府应考虑扩大或启动计划,以更系统地监控 AI 技术的社会影响和传播,并衡量此类系统能力的进展。如果实施,这些努力可以为 AI 实验室和政府关于发布决策和更广泛的 AI 政策的决策提供更好的证据基础。
这份声明中的傲慢程度仅次于其徒劳性:六年后的今天,全世界都可以访问一个显著更强大的模型的权重。OpenAI 通过美国政府强制执行的控制策略彻底失败了。与此同时,由于前沿模型没有开放权重,我们错过了多少创新?更广泛地说,有多少时间和精力被用于游说政府强制执行护城河,而这些护城河刚刚被 DeepSeek 摧毁?这些时间和精力如果用于实际创新,会不会更好?
所以你并不担心 AI 末日场景?
我完全理解这种担忧,并且上面提到我们正在进入 AI 训练 AI 并自行学习推理的阶段。但我认识到,这列火车已经无法停止。更重要的是,这正是开放性如此重要的原因:我们需要世界上有更多的 AI,而不是一个不负责任的董事会统治我们所有人。
等等,为什么中国要开源他们的模型?
明确地说,是 DeepSeek 在开源。CEO 梁文峰在 一篇必读的采访 中表示,开源是吸引人才的关键:
面对颠覆性技术,闭源创造的护城河是暂时的。即使是 OpenAI 的闭源方法也无法阻止其他人追赶。因此,我们将价值锚定在我们的团队上——我们的同事在这个过程中成长,积累专业知识,并形成一个能够创新的组织和文化。这才是我们的护城河。
开源、发表论文实际上并不会让我们损失什么。对于技术人才来说,看到他人追随你的创新会带来巨大的成就感。事实上,开源更像是一种文化行为,而不是商业行为,参与其中为我们赢得了尊重。一家公司这样做也有文化吸引力。
采访者问这是否会改变:
DeepSeek 现在有一种理想主义的光环,让人想起 OpenAI 的早期,而且它是开源的。你们以后会转向闭源吗?OpenAI 和 Mistral 都从开源转向了闭源。
我们不会转向闭源。我们相信首先建立一个强大的技术生态系统更为重要。
这不仅仅是理想主义,实际上是有道理的。如果模型是商品——它们看起来确实如此——那么长期的差异化来自于拥有更优越的成本结构;这正是 DeepSeek 所实现的,这也与中国在其他行业中占据主导地位的方式相呼应。这也与美国大多数公司对差异化的看法相反,后者认为差异化是通过拥有能够维持更高利润率的产品来实现的。
那么 OpenAI 完蛋了吗?
不一定。ChatGPT 让 OpenAI 成为了一家意外的消费科技公司,也就是说它是一家产品公司;通过订阅和广告的结合,可以在商品化的模型上建立一个可持续的消费业务。当然,还有赌注押在赢得 AI 起飞竞赛上。
另一方面,Anthropic 可能是这个周末最大的输家。DeepSeek 登上了 App Store 的榜首,这突显了 Claude 在旧金山之外几乎没有获得任何关注。API 业务表现更好,但总体而言,API 业务最容易受到似乎不可避免的商品化趋势的影响(请注意,OpenAI 和 Anthropic 的推理成本看起来比 DeepSeek 高得多,因为它们之前捕获了大量利润;这种情况正在消失)。
所以这一切都很令人沮丧吗?
其实不然。我认为 DeepSeek 为几乎所有人提供了一份巨大的礼物。最大的赢家是消费者和企业,他们可以期待未来 AI 产品和服务几乎免费。从长远来看,杰文斯悖论将主导一切,使用 AI 的每个人都将成为最大的赢家。
另一组赢家是大型消费科技公司。一个 AI 免费的世界是一个产品和分销最重要的世界,而这些公司已经赢得了这场游戏;The End of the Beginning 是正确的。
中国也是一个大赢家,我怀疑这一点只会随着时间的推移变得更加明显。不仅中国可以使用 DeepSeek,而且我认为 DeepSeek 相对于美国领先 AI 实验室的成功将进一步释放中国的创新潜力,因为他们意识到自己可以竞争。
这留给美国一个我们必须做出的选择。我们可以出于非常合理的理由,加倍采取防御措施,比如大规模扩大芯片禁令,并对芯片和半导体设备实施基于许可的监管制度,类似于欧盟对科技的做法;或者,我们可以意识到我们面临真正的竞争,并真正允许自己参与竞争。停止无谓的担忧,停止游说监管——事实上,反其道而行之,砍掉我们公司中与获胜无关的所有冗余。如果我们选择竞争,我们仍然可以获胜,而且如果我们做到了,我们将感谢一家中国公司。