神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:想当初,美国限制英伟达高性能芯片出口,想要阻止中国企业训练出顶级的大型语言模型。然而,DeepSeek 在技术层面绕过了硬件限制,花小钱、办大事,走出了自己的一条道路。DeepSeek 的开源推理模型极大地降低了 AI 推理的成本,对研究人员、工程师、公司和个人都会产生深远的影响。本文来自编译,希望对您有所启发。
DeepSeek最新的大型语言模型可与OpenAI和Anthropic的产品相媲美,而训练成本要低得多。图片来源:VUK VALCIC/ZUMA PRESS/ALAMY
你可能听说过DeepSeek,这家中国公司于2024年12月发布了一对开放的大型语言模型, DeepSeek- v3和DeepSeek- r1,任何人都可以免费使用和修改。然后,在1月份,该公司发布了一款免费的聊天机器人应用程序,该应用程序迅速火了起来,并升至苹果应用程序商店的榜首。DeepSeek模型的出色表现,可以与OpenAI和Anthropic的最佳封闭大型语言模型相媲美,刺激了1月27日的股市崩盘,导致领先的 AI 股票市值蒸发超过 6000 亿美元。
然而,开放人工智能模型的支持者对DeepSeek的发布充满了热情。目前,在人工智能社区平台HuggingFace上,有700多个基于DeepSeek-V3和R1的模型可供选择。它们的总下载量已经超过500万次。
Netflix的高级研究科学家卡梅隆·沃尔夫(Cameron R. Wolfe)表示,这种热情是有道理的。“DeepSeek-V3和R1确实接近匹配闭源模型。此外,DeepSeek 在严格的硬件限制下(由于美国对英伟达芯片的出口管制)能够制造出这样的模型,这一点真的很了不起。”
1. DeepSeek-V3的训练成本不到600万美元
2022年美国出口限制导致的硬件受限,凸显了DeepSeek的成就。该公司表示,DeepSeek-V3模型使用英伟达的H800芯片进行训练,成本约为560万美元。H800是英伟达硬件的一个不太理想的版本,但能通过美国出口禁令设定的标准,该禁令旨在阻止中国企业训练出顶级的大型语言模型。(H800芯片后来也在2023年10月被禁了。)
DeepSeek 在硬件功能较弱的情况下取得了令人印象深刻的成果,这要归功于“双管道”并行算法,绕过了英伟达 H800 的限制,使用低级编程来精确控制训练任务的调度和批处理。该模型还使用了MoE架构,其中包括许多神经网络,即“专家”, 这些“专家”可以独立激活。由于每个“专家”都更小、更专业,因此训练模型所需的内存更少,并且在部署模型后,计算成本也更低。
结果就是DeepSeek-V3,一个拥有6710亿个参数的大型语言模型,其表现堪比 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet。虽然OpenAI没有透露其尖端模型的参数,但据推测,数据将达到万亿级。
DeepSeek-V3并不是该公司唯一的明星产品,它还发布了一个推理模型DeepSeek-R1,具有像OpenAI的o1一样的链式思维推理能力。虽然R1不是第一个开放的推理模型,但它比之前的模型更强大,比如阿里巴巴的QwQ。与DeepSeek-V3一样,它也采用了非传统的方法。
大多数大型语言模型的训练过程都包括监督微调(SFT),该技术对模型的提示响应进行采样,然后由人类对这些响应进行审查和标记。这些评估结果被反馈到训练中,以改进模型的响应。虽然有效,但让人类审查和标记响应既耗时又昂贵。
DeepSeek最初尝试忽略SFT,转而依靠强化学习(RL)来训练DeepSeek- r1 - zero。该模型白皮书中描述了一个基于规则的奖励系统,旨在帮助DeepSeek-R1-Zero学习推理,但这种方法导致了一些问题,比如语言混合(在一个回复中使用多种语言),使其回复难以阅读。为了解决这个问题,DeepSeek-R1使用了一种“冷启动”技术,从一个只有几千个例子的 SFT 数据集开始,然后,使用强化学习来完成训练。卡梅隆·沃尔夫称这是一个“非常重要的发现”。
2. 将 DeepSeek 付诸实践
对于印度公司Krutrim的生成式人工智能应用高级总监拉杰基兰·帕努甘蒂(Rajkiran Panuganti)来说,DeepSeek的收获不仅仅是学术上的。Krutrim为客户提供人工智能服务,并使用了几个开放模型,包括Meta的Llama系列模型,来构建自己的产品和服务。拉杰基兰·帕努甘蒂表示,他“绝对”建议在未来的项目中使用DeepSeek。
“早期的Llama模型是很好的开放模型,但不适合解决复杂的问题,有时甚至不能回答简单的问题,比如字母r在strawberry中出现了几次,”他说,“DeepSeek的模型无法击败领先的封闭推理模型,比如OpenAI的o1,后者可能更适合最具挑战性的任务。然而,DeepSeek-R1 的成本‘低很多倍’。”这还是在你支付DeepSeek API费用的情况下。虽然该公司有一个商业API,对其模型的访问收费,但它们也可以在宽松的许可下免费下载、使用和修改。
更好的是,DeepSeek提供了几个更小、更高效的主模型版本,被称为“蒸馏模型”。 这些模型参数较少,使其更容易在不太强大的设备上运行。Youtube用户Jeff Geerling已经演示了可以在Raspberry Pi上运行DeepSeek R1。用于在本地计算机上运行大型语言模型的常用界面,如 Ollama,也已经支持 DeepSeek R1。我在不到 10 分钟的时间内,在配备 16 GB RAM 的 Mac Mini M4 上运行了 DeepSeek-R1-7B,这是第二小的“蒸馏模型”。
3. 从单纯的“开放”到开源
虽然DeepSeek是“开放的”,但一些细节仍然隐藏在幕后。DeepSeek 没有披露用于训练其模型的训练数据集或代码。
这是开源社区争论的焦点。大多数“开放”模型只提供运行或微调模型所需的模型权重。完整的训练数据集以及训练中使用的代码仍然是隐藏的。开源促进会主任斯特凡诺·马弗利(Stefano Maffulli)多次在社交媒体上指责Meta,称其将Llama模型标记为开源是一个“无耻的谎言”。
DeepSeek的模型同样不够透明,但HuggingFace正试图解开这个谜团。1月28日,它宣布了Open-R1,这是一项创建DeepSeek-R1完全开源版本的努力。
HuggingFace的人工智能研究工程师Elie Bakouch表示:“强化学习是出了名的棘手,微小的差异可能导致重大的性能差距。”重新生成DeepSeek的数据集所需的计算成本也将被证明是巨大的。然而,Bakouch说HuggingFace有一个“科学集群”,应该可以完成这项任务。研究人员和工程师可以在HuggingFace和Github上关注Open-R1的进展。
无论 Open-R1 成功与否,Bakouch 都表示,DeepSeek 的影响远远超出了开放人工智能社区。“兴奋不仅仅是在开源社区,而是无处不在。研究人员、工程师、公司,甚至非技术人员都在关注,”他说。
译者:Teresa
还没有评论,来说两句吧...