哈尔滨北大荒知青网

 找回密码
 中文注册
搜索
查看: 495|回复: 0

中国的DeepSeek并没有改变一切

[复制链接]
农场章文 发表于 2025-2-6 18:47 | 显示全部楼层 |阅读模式
https://mp.weixin.qq.com/s/Uyqk6c3y4T2NBpOZCBCUZg

李炼推荐
尽管DeepSeek利用其模型引起了巨大的关注,但它并没有改变一切,专有模型相对于开源的优势仍然存在。
本文译自托比·E.斯图尔特(Toby E. Stuart)于2025年2月5日刊发在《哈佛商业评论》网站(hbr.org)的英文文章What DeepSeek Signals About Where AI Is Headed(DeepSeek关于AI发展方向的信号),标题为编者所加


[color=var(--weui-FG-HALF)]
【普及型佳作,稀缺签名版】冯兴元、朱海就、黄春兴合著的《经济学通识课100讲》,“此时开始阅读,时机正好。书中涵盖了三大主题:理论基础、时事探讨和跨学科探讨”。“作者不但从理论入手,将深奥的大学经济学课堂中的内容娓娓道来,还将探讨发展到当下最时兴的话题中去。从一些人学习微观和宏观经济学时百思不得其解的问题,到新兴的话题如金融区块链,到外卖半成品制作的行为,都能在书中获得或多或少的答案。”豆瓣评分8.4……敬请读者朋友点击上图订购




领导者们不应该将DeepSeek的R1理解为一个分水岭,而应该将其视为人工智能领域目前的一个信号,以及未来发展的一个预兆。他们应该学到五点:1)我们正在从识别模式的模型转向那些可以推理的模型;2)人工智能的经济学正处于拐点;3)当前的时刻表明专有模型和开源模型可以共存;4)硅的稀缺推动创新;5)尽管DeepSeek利用这个模型引起了巨大的关注,但它并没有改变一切,专有模型相对于开源的优势仍然存在。
DeepSeek在2025年1月下旬推出了R1模型,引发了从模型开发商到基础设施提供商的整个人工智能价值链的市场估值急剧下降。投资者将R1视为对美国现有人工智能模型的强大而廉价的挑战者,并将其视为对(此前的)极高增长预期的威胁。然而,对于那些一直关注的人来说,DeepSeek(或类似的东西)的到来是不可避免的。即便如此,这也是一个反思人工智能发展方向的好时机。与其把DeepSeek的R1理解为一个分水岭,不如把它看作是我们现在所处位置的一个信号,以及未来发展的一个预兆。以下是商业领袖应该从这个时刻学到的五点。从模式识别到问题解决大语言模型在2023年和2024年大出风头,但到2025年,我们将对能够自主推理、规划和操作的人工智能系统感到敬畏。这是因为两个相关的趋势将主导今年的人工智能领域:推理模型的兴起和人工智能代理的到来。这些能力在很大程度上依赖于强化学习(RL),这是一种训练智能代理做出一系列良好决策的方法。把它想象成学习玩电子游戏。当你命中靶心或跳过宽沟渠或猜出一个单词时,你就可以获得积分。当你在玩游戏时,你会学会执行一些有奖励的动作。像GPT 4这样的上一代模型是惊人的模式匹配器——它们对大量的信息进行预训练,将其全部语境化,并以其不可思议的下一个单词预测来响应我们的提示,让我们大吃一惊。DeepSeek R1是一个免费对所有人开放的推理模型,OpenAI刚刚发布的ChatGPT o3-mini和微软的Copilot 01模型也是如此。这些模型代表了从不确定的下一个单词预测到很大程度上依赖强化学习实现系统问题解决的关键转变。推理使它们能够比以前的模型更好地执行某些任务,比如解决数学问题。想想两个大数的乘法。大多数人不能看着题目就猜出答案——他们需要拿出铅笔和便笺簿,把问题分成几个步骤,然后解决它。推理模型也可以越来越多地做到这一点。由于具有分解和推理问题的能力,人工智能代理能够学习动态地导航复杂的工作流程,适应任务完成过程中出现的新信息,而不是局限于僵化的预定义脚本。这正是人类在我们的工作中所做的,例如当客户服务代表回答查询,行政人员创建日程安排和计划旅行时,以及当数据分析师收集信息,分析它并撰写报告时。人工智能的经济拐点据报道,DeepSeek R1的开发成本为550万美元,这是其最大的头条新闻之一。这个数字具有误导性。它可能只反映了单个训练运行的成本,不包括基础设施、工程和部署费用。包括这些费用在内的总数字要高得多——尽管仍然明显低于OpenAI、Anthropic、谷歌和其他的R1所竞争的模型的开发成本。我们不应该只关注这些数字,而应该更多地关注推理成本——即在模型经过训练后实际使用模型的费用。训练需要大量的前期投资,但推理成本对企业应用至关重要。DeepSeek R1和Meta的Llama系列等新产品都能大幅降低这些费用。一般来说,价格下降往往会刺激竞争,推动用户接受。想想看,在半导体生产效率提高的推动下,所有电子产品(智能手机、电视机、笔记本电脑)的性能调整后价格都出现了下降。摩尔定律推动了价格的下降和数不胜数的种种终端产品的高采用率。同样的情况正发生在人工智能领域。开源和专有人工智能将共存我们应该预料到像DeepSeek R1这样的开发,一个原因是开源软件的基本经济学。从历史上看,开源项目通过显著降低成本来挑战专有解决方案,例如企业计算领域的Unix/Linux,移动操作系统领域的安卓,数据库领域的MySQL,当然还有人工智能领域的Llama。开源软件的成本优势是有据可查的。可以预见,人工智能也会遵循类似的轨迹。在人工智能领域,OpenAI、Alphabet和Anthropic等公司的专有模型在多模式功能、安全性(DeepSeek R1似乎很容易被“越狱”破解)和其他基准方面仍处于领先地位。即便如此,像DeepSeek R1这样的开放权重模型已经缩小了基于文本推理的差距,并且该模型非常高效。微软一夜之间决定将DeepSeek R1集成到Azure中,这反映了该模型在企业用例中的潜力。像DeepSeek R1这样的开放模型,由于它们更低的成本和更大的灵活性,将对用户非常有吸引力。许多小型语言模型也将如此,比如微软的Phi-4,它已经在许多用例中展示了强大的性能。就目前而言,我们似乎可以期待一个拥有多样化参与者的市场结构,而不是赢家几乎通吃的局面。硅稀缺驱动算法创新对DeepSeek R1的另一部分反应集中在“令人惊讶”的消息上,即中国似乎在前沿人工智能模型方面缩小了与美国的差距。美国的出口管制旨在限制中国获得最先进的半导体,并帮助保持美国公司在人工智能研究方面的领先地位。(一些人认为,这只会加强此类控制的必要性。)这种做法并没有完全成功,这一事实不应该是一个很大的惊奇。还记得那句老话吗?需求是发明之母。硅的限制导致中国研究人员优先考虑算法效率而不是原始算力——随着数据中心能源消耗的爆炸式增长,这种策略可能被证明是有先见之明的。但这一事实——以及在中国进行的算法研究的简练——已经存在一段时间了。中国的大语言模型(LLM)领域发展迅速,去年共有117个大语言模型可供公众使用。尽管训练数据和产出受到严格限制,但不少中国大语言模型在全球排行榜上具有竞争力,尤其擅长中文任务。那里的人工智能人才库非常出色;DeepSeek本身就拥有一支极具创新精神的研究团队,而且该国人工智能人才的深度是巨大的。DeepSeek R1并没有改变一切话虽如此,西方主要的人工智能实验室和超大规模企业——包括微软、Meta、Alphabet和亚马逊——将继续以令人眼花缭乱的水平进行投资,确保把对最先进的图形处理器芯片(GPU)和人工智能基础设施的需求保持在高位。开放模型不会完全取代专有模型,并且我们可能会看到在模型训练和推理中消耗大量的计算资源。因此,最强大的人工智能系统的并驾齐驱式竞争将继续推动对高性能芯片和大规模云基础设施的需求,尽管投资成本现在大大超过了该行业许多参与者的收入。此外,西方大型基础设施买家无疑担心供应风险,因为大多数先进半导体都是在台积电位于T……n的工厂生产的。考虑到美中关系的紧张和T……n的战略价值,西方的主要买家可能正在考虑储备算力。人工智能的发展速度——以及这一系列技术的社会和经济重要性——可以说是史无前例的。随着强化学习在推理模型和人工智能代理方面取得突破,这将继而导致无数新的应用,2025年将充满“DeepSeek”时刻。期待持续的进步、增加的真实世界用例,并期待一场地震式经济重塑的真正开始。

















回复

使用道具 举报

您需要登录后才可以回帖 登录 | 中文注册

本版积分规则

百度搜索|哈尔滨北大荒知青网 ( 黑ICP备2020005852号 )

GMT+8, 2025-6-16 12:49

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表