English
Espagnol
Français
Русский
Deutsch
梁文锋入选《自然》年度十大科学人物
今年1月,中国公司DeepSeek发布了功能强大且性价比极高的语言模型R1。这款综合性的中文模型的发布引起了全球轰动。
梁文峰是这一重大发布背后的关键人物。他很少公开露面,但他的模型却异常开放。R1是一款“逻辑型”语言模型,擅长将复杂的任务(例如数学和编程)分解成更小的步骤。在同类产品中,R1是第一个公开权重的模型。因此,研究人员可以免费下载并对其进行进一步开发,这启发了中美多家公司发布自己的开源模型。
自成立以来,DeepSeek在诸多领域产生了深远的影响。众多人工智能专家指出,R1在许多领域都能与美国领先的模型相媲美,而其训练成本却远低于竞争对手——仅为它们的几分之一。为了确保透明度,DeepSeek还公开了R1的构建和训练细节。今年9月,该模型成为首个接受同行评审的大型语言模型。 DeepSeek通过公开分享其技术方案,教会了其他人工智能研究人员如何训练推理模型。
梁文峰在广东农村长大,父母都是小学教师。他毕业于浙江大学,2010年获得工程硕士学位,硕士论文研究的是视频目标跟踪算法的开发。毕业后,梁文峰迅速将他对人工智能的热情投入到金融市场,赚取了数百万美元。2015年,他联合创立了对冲基金Magic Square Quant,该公司于2023年发展成为DeepSeek。
当时,中国面临着美国对大型语言模型开发的出口管制,这禁止中国企业从美国芯片制造商英伟达(Nvidia)购买某些高性能图形处理器(GPU)——而这些GPU正是训练大型语言模型的首选。在过去的十年里,梁文峰总共购入了1万块英伟达GPU。在2023年的一次采访中,他将这次购买比作给家里买架钢琴:“首先,因为我买得起;其次,因为有人渴望弹奏它。”
与许多西方人工智能企业家一样,梁文峰追求通用人工智能的目标,并将公司的组织架构与这一核心目标紧密结合。DeepSeek在选拔员工时优先考虑个人潜力而非经验;R1论文的作者之一当时还是一名学生。公司采用扁平化的管理结构,允许研究人员选择自己的研究课题,梁文峰本人也深度参与研究。DeepSeek并未利用其知名度谋取商业利益,而是始终专注于解决人工智能研究中的基础性问题。
DeepSeek并未利用其声誉谋取商业利益,而是始终专注于解决人工智能研究中的基础性问题。如今,许多DeepSeek的模型已深度融入中国社会,这在一定程度上得益于中国政府对“人工智能+”计划的大力支持。梁文峰强调,“深海探索”项目象征着中国在科技领域从“追随者”加速向“创新者”转型。
深海潜水员杜梦然发现全球“化学生命走廊”
在9000多米的深海,杜梦然站在载人潜水器“奋斗者号”上眺望远方:探照灯照亮了生机勃勃的深海生态系统——幽灵般的刚毛虫在血红色的管状蠕虫群落间游弋。
2024年,杜梦然和她的团队探索了6000米深的超深海区域。在日本东北部的千叶-堪察加海沟底部,他们发现了地球上已知最深的动物生态系统。他们的研究成果已于今年发表。中国科学院深海科学技术研究所科学家杜梦然解释说,她一直对探索海洋最深处的未知生命充满好奇。