DeepSeek-V3低调发布后 业内震惊之余再次怀疑硅谷模式

admin1周前文化8

转自:财联社

财联社3月25日讯(编辑 马兰)中国人工智能初创公司DeepSeek周一悄然发布了新的模型,这款参数达6850亿个的模型被称为DeepSeek-V3-0324,在没有任何公告的情况下在AI存储库Hugging Face上线,但仍引起了业内的轰动。

这款模型已经取得了MIT许可证,也就意味着其可以被自由用于商业用途,且业内的早期测试证实,该模型可以直接在消费级硬件上运行,比如高端市场的苹果Mac Studio。

AI 研究员Awni Hannun表示,新的DeepSeek-V3模型可以在配备M3 Ultra芯片的苹果电脑上,以每秒20个token的速度运行。这打破了业界关于人工智能模型能力与本地化运行或冲突的早前共识,也意味着数据中心并不是大模型的必要搭配。

另一名人工智能研究员Xeophon则在X上宣称,在内部工作台上测试了新版DeepSeek-V3后,发现它在测试的所有指标上都有了巨大飞跃。它现在是最好的非推理模型,超越了甲骨文的Claude Sonnet 3.5。

低调但轰动

DeepSeek-V3-0324面世时没有附带白皮书,也没有任何宣传,只有一个空的ReadMe文件。这一近乎朴素的发布形式,与硅谷精心策划的产品宣传模型形成鲜明对比。

与此同时,DeepSeek的模型都是开源模型,可供任何人免费下载和使用,与最好商业模型之一的Claude Sonnet截然相反,后者按月收取20美元的费用。

此外,DeepSeek还从根本上重新构想了大型语言模型的运作方式,在特定任务期间仅激活约370亿个参数而非全部,也就是所谓的“专家”模块,这大大降低了计算需求。

该模型还有另外两项突破性技术:多头潜在注意力(MLA) 和多标记预测(MTP)。MLA增强了模型在长篇文本中保持上下文的能力,而MTP每一步生成多个标记,而不是通常的一次生成一个标记的方法。这些创新共同将输出速度提高了近 80%。

某种程度上,DeepSeek体现了中国企业对效率和资源极致追求的精神,即如何以有限的计算资源实现相等或者更加优化的性能。而这种由需求驱动的创新已经使中国的人工智能在几个月时间内震惊了全球。

DeepSeek新模型的改变对于业内来说也具有重大意义,一方面其大大降低了大模型的能耗及计算成本,进一步动摇了华尔街对于顶级模型基础设施的投资规模假设;另一方面,中国人工智能行业对开源的广泛共识又迅速推动国内AI行业的发展,不断缩短其与世界顶尖对手的距离。

还有人认为,在DeepSeek的快速追赶下,其计划在4月发布的R2模型有可能直接挑战OpenAI宣传已久的GPT-5模型。如果这一前景真的发生,那么中美两国发展人工智能的不同思路可能将迎来直接的交锋。

(财联社 马兰)

本站非盈利性质,内容来源于互联网。

相关文章

日经225指数周一收盘大涨近1% 美股大涨提振市场信心

  日股日经225指数周一大涨近1%,大盘普遍上涨,上周末美股大幅上涨提振了投资者信心。日经指数上涨 0.9%,收于 37396.52 点,为逾一周高位;东证股价指数收涨1.2%,报2748.12 点...

9个月狂赚1个亿,福建老板要被《哪吒2》“送上市”

9个月狂赚1个亿,福建老板要被《哪吒2》“送上市”

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   从“捶打机器”到“AI按摩师”   作者 | 吕敬之   来源 | 融中财经(ID:thecapital)   福建...

中联重科公布2024年业绩 股东应占溢利35.21 亿元同比减少0.82%

中联重科公布2024年业绩 股东应占溢利35.21 亿元同比减少0.82%

  中联重科(01157)公布2024年业绩,持续经营收入为人民币454.78亿元, 同比减少3.39%。归属于公司股东的本年度利润为人民币35.21 亿元,同比减少0.82%。基本每股收益为人民币...

成都高速(01785.HK)拟3月26日举行董事会会议审批年度业绩

格隆汇3月10日丨成都高速(01785.HK)公告,董事会将于2025年3月26日(星期三)举行董事会会议,藉以(其中包括)(i)审议及批准公司及其附属公司截至2024年12月31日止财政年度全年业绩...

如何评估房地产项目的区域价值与居住环境?这种评估对购房者有何意义?

如何评估房地产项目的区域价值与居住环境?这种评估对购房者有何意义?

在购房过程中,评估房地产项目的区域价值与居住环境至关重要。这不仅关系到居住的舒适度,还对房产的长期价值产生深远影响。首先,区域价值的评估需要考虑多个方面。经济发展状况是关键因素之一。一个地区如果有强大...