计算机行业专题报告：DEEPSEEK开源六连击尽显极客风采

admin1天前旅游1

　　DeepSeek 开源周：更大的吞吐，更低的延迟，更极致的性价比。DeepSeek在2 月24 日至28 日进行了为期5 天的开源周“技术轰炸”，开源了5 大代码库，覆盖训练、推理、通信、负载均衡以及数据加速的全链路，惊喜连连。开源周第1 天发布FlashMLA，一款专为Hopper 架构打造的高效MLA 解码器，可高效处理变长序列，优化内存管理，榨取GPU 极致性能。开源周第2 天发布DeepEP，聚焦通信资源利用，提升数据高效传输，是首个为MoE 量身定制的灵活GPU 资源控制通信库。开源周的第三天，DeepSeek 推出了支持稠密和MoE 模型的FP8 计算库――DeepGEMM，核心逻辑仅约300 行代码直面AI 计算中最频繁的矩阵乘法，可为V3/R1 的训练和推理提供强大支持。开源周第4 天，DeepSeek 推出了一系列优化并行策略，包括DualPipe――一种用于V3/R1 模型训练中实现计算与通信重叠的双向流水线并行算法；以及EPLB――一个针对V3/R1 模型的专家并行负载均衡工具，并深入分析了V3/R1 模型中的计算与通信重叠机制。开源周的最后一天，DeepSeek 发布了3FS 并行文件系统，旨在应对人工智能训练和推理工作负载带来的挑战。该系统利用现代固态硬盘（SSDs）和RDMA 网络，提供一个共享存储层，从而简化分布式应用程序的开发，并加速DeepSeek 平台上所有数据访问操作。　　One More Thing：DeepSeek-V3/R1 推理系统实现大模型推理545%理论成本利润率。在开源周结束5 天“技术轰炸”后，DeepSeek 于第6 天惊喜发布关于DeepSeek-V3/R1 推理系统概述的文档，展示了如何通过跨节点并行、负载均衡和动态资源管理实现高吞吐量、低延迟和高性价比的推理服务，以实现545%理论成本利润率。DeepSeek 提出了三种负载均衡器：Prefill LoadBalancer、Decode Load Balancer 和Expert-Parallel Load Balancer。它们分别针对不同的核心问题进行优化，目标是为每个GPU 分配均衡的计算和通信负载，从而提高整体系统效率。　　DeepSeek 开源六连击，尽显极客风采：DeepSeek 开源周上接连不断的技术发布，彰显了团队的极客精神和开源理念。正如其官方所言：“这里没有象牙塔，只有秉持纯粹的车库创业精神和社区驱动的创新理念。”此次FlashMLA项目中同样包含了一行内联代码，这表明DeepSeek 团队深入至高级编程语言CUDA 和GPU 的底层机器代码之间，对GPU 的并行计算、内存访问等进行更加细致的控制，进一步提升程序的性能。这不仅体现了团队对算法的深耕，也展现了他们对效率的极致工程化追求。　　投资建议：我们对计算机行业维持看好评级。见正文。　　风险提示：技术迭代不及预期的风险；商业化落地不及预期的风险；政策支持不及预期风险；全球宏观经济风险。【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：

本站非盈利性质，内容来源于互联网。

返回列表

上一篇：2连板好想你：未发现前期披露的业绩预告存在应修正情况

下一篇：:大众途观降价10万-美官员：拟通过欧洲主导安全保障结束俄乌冲突