首页
返回列表

DeepSeek论文登《自然》封面,披露R1训练费200万,不依赖对手内容

来源:网络转载作者:网易科技报道 时间:2025-09-18

01由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》杂志封面。论文声明,该模型的成功并不依赖于使用其竞争对手的输出内容进行训练


02R1是首个经历同行评议的主流大语言模型,被认为是“值得欢迎的先例”。作为开放权重模型,它在Hugging Face上下载量已达1090万次,并被研究人员认为“引发了一场革命”。03论文还首次披露,其增量训练成本仅29.4万美元,且主要在英伟达H800芯片上进行训练。9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》(Nature)杂志封面。


论文研究人员表示,DeepSeek强大的AI模型R1之所以能成功,并不依赖于使用其竞争对手的输出内容进行训练。今年一月,R1的发布曾引发美国股市暴跌。这一声明出自今天发表于《自然》(Nature)杂志的一篇经同行评议的R1模型论文的附带文件中。


R1旨在出色地完成数学和编程等“推理”任务,是美国科技公司所开发工具的一个更廉价的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载它,并且它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。


这篇论文是对今年一月所发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2023年起已被禁止向中国销售。


严格的同行评审


R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”


为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”


DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类推理策略,例如如何在不遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估算值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。


孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。”


关于训练方式的争议


今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。


DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。


孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。


孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。


坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)

声明:文章来源于网络转载,是作者独立观点,不代表浙北数据立场
如有不合适或侵权等问题请及时联络我们0572-2100075,会第一时间删除,保障作者权益

推荐资讯

1
DeepSeek论文登《自然》封面,披露R1训练费200万,不依赖对手内容
2
国产5nm自研GPU已完成流片验证!象帝先新一代伏羲架构官宣
3
美业界人士认了:我们没得选,每一架无人机都比大疆差且贵
4
全球首款:浙大一院、阿里达摩院发布主动脉急诊AI模型
5
OpenAI、Anthropic互评:GPT存在谄媚行为,Claude不易出现幻觉”
6
中国大陆唯一一家!卢伟冰称小米正开发玄戒O1下一代芯片:应该还是3nm 会上车
7
罗永浩曝董宇辉年入二三十亿,与辉同行回应:信息不属实
8
淘宝内测“AI万能搜”,电商搜索开始学会“思考”
9
奇瑞 iCAUR 新车在迪拜首发亮相,美团申请美团借钱商标,美团 Keeta 将在中东多城市开启业务
10
为联想、小米供货,氮化镓功率器件研发商「镓未来」获亿元B++轮融资 |
电话:18905829229(微信同号)邮箱:kf@057123.com
版权所有©2025 浙北数据 浙ICP备2025164355号