为DeepSeek辟谣:五大误解与真相解读
为DeepSeek辟谣:五大误解与真相解读

春节至今,DeepSeek 的热度持续攀升,伴随而来的,还有很多误解和争议,有人说它是"吊打OpenAI的国货之光",也有人说它"不过是抄国外大模型作业的小聪明"。

这些误解与争议主要集中在五个方面:

1、过度神话与无脑贬低,DeepSeek到底是不是底层创新?所谓的蒸馏ChatGPT之说究竟有没有依据?

2、DeepSeek的成本,真的只有550万美元吗?

3、如果DeepSeek真的能做到这么高效,那么全球各大巨头巨额的AI资本支出,是不是都打了水漂?

4、DeepSeek是否采用了PTX编程,能否真的能够绕开对Nvidia CUDA的依赖?

5、DeepSeek全球爆火,但因为合规、地缘政治等问题,会被国外陆续禁用?

争议一:过度神话与无脑贬低,DeepSeek到底是不是底层创新?

互联网从业者caoz认为,它对行业发展的促进价值是值得肯定的,但谈及颠覆还为时尚早。一些专业测评来看,在一些关键问题的解决上并没有超越ChatGPT。

比如有人测试,模拟典型的小球在封闭空间的弹跳代码,DeepSeek编写出来的程序表现,和ChatGPT o3-mini 相比,从物理学的遵循度角度来看,还是有差距的。

不要过度神话它,但也不要无脑贬低它。

关于 DeepSeek 的技术成就,目前存在两种极端观点:一种把它的技术突破,称为"颠覆性革命";另一种则认为这不过是对国外模型的模仿,甚至还有猜测,它是通过蒸馏 OpenAI 模型获得进展。

微软说DeepSeek蒸馏了ChatGPT的结果,所以一些人也借题发挥,把DeepSeek贬低的一钱不值。

事实上,这两种观点都过于片面。

更准确地说,DeepSeek的突破是一次面向产业痛点的工程范式升级,为AI推理开辟“少即是多”新路径。

它主要做了三个层面的创新:

首先通过训练架构瘦身——例如GRPO算法通过省去传统强化学习中必须的Critic模型(即"双引擎"设计),将复杂算法简化为可落地执行的工程方案;

第二,采用了简评估标准,典型如在代码生成场景直接用编译结果和单元测试通过率替代人工评分,这种基于确定性的规则体系有效破解了AI训练中的主观偏差难题;

最后在数据策略上找到精妙平衡点,通过纯算法自主进化的Zero模式与仅需数千条人工标注数据的R1模式组合,既保留模型自主进化能力又保障人类可解释性。

但是,这些改进并没有突破深度学习的理论边界,也没有彻底颠覆OpenAI o1/o3等头部模型的技术范式,而是通过系统级优化解决了产业的痛点。

DeepSeek 完全开源并详细记录了这些创新点,全世界都能借助这些进展来改进自己的 AI 模型训练。这些创新点可以从开源文件中看出。

Stability AI 前研究主管 Tanishq Mathew Abraham 在近期的博文中也强调了 DeepSeek 的三个创新点:

1、多头注意力机制:大语言模型通常是基于Transformer架构,使用所谓的多头注意力(MHA)机制。DeepSeek团队开发了一种MHA机制的变体,这种机制既能更高效地利用内存,又能获得更好的性能表现。

2、可验证奖励的GRPO:DeepSeek证明了一个非常简单的强化学习(RL)流程实际上可以达到类似GPT-4的效果。更重要的是,他们开发了一种称为GRPO的PPO强化学习算法变体,这种算法更加高效且性能更好。

3、DualPipe:在多GPU环境下训练AI模型时,需要考虑很多效率相关的因素。DeepSeek团队设计了一种称为DualPipe的新方法,这种方法的效率和速度都显著提高。

传统意义上的"蒸馏"指的是对token概率(logits)的训练,而ChatGPT并未开放这类数据,所以基本不可能去“蒸馏”ChatGPT。

因此,从技术角度看,DeepSeek的成就不应因此受到质疑。由于OpenAI o1相关思维链推理过程从未公开,单纯依靠"蒸馏"ChatGPT根本难以实现这一成果。

而caoz认为,DeepSeek的训练中,可能部分利用了一些蒸馏的语料信息,或者做了少许的蒸馏验证,但这个对它整个模型的质量和价值影响应该很低。

此外,基于领先模型蒸馏验证优化自己的模型,是很多大模型团队的一个常规操作,但毕竟需要联网API,能获得的信息非常有限,不太可能是决定性的影响因素,相对于海量的互联网数据信息来说,通过api调用领先大模型能获得的语料杯水车薪,合理的猜测是更多用于对策略的验证分析,而不是直接用作大规模训练。

所有大模型都需要从互联网获得语料训练,而领先的大模型也在不断为互联网贡献语料,从这个角度来说,每个领先的大模型都摆脱不了被采集,被蒸馏的宿命,但其实也没必要把这个当作是决定成败的关键。

最终大家都是你中有我,我中有你,迭代前进。

争议二:DeepSeek的成本仅有550万美元?

550万美元成本,这个结论既正确也错误,因为没有说清楚是什么成本。

Tanishq Mathew Abraham 客观估算了DeepSeek的成本:

首先,我们有必要理解这个数字是从何而来。这个数字最早出现在 DeepSeek-V3 的论文中,该论文比 DeepSeek-R1 的论文早发布了一个月;

DeepSeek-V3 是 DeepSeek-R1 的基础模型,这意味着 DeepSeek-R1 实际上就是在 DeepSeek-V3 的基础上进行了额外的强化学习训练。

因此,从某种意义上说,这个成本数据本身就不够准确,因为它没有计入强化学习训练的额外成本。不过这部分额外成本可能也就几十万美元。

图片图:DeepSeek-V3论文中关于成本的论述

那么,DeepSeek-V3 论文中声称的550万美元成本是否准确呢?

基于 GPU 成本、数据集大小和模型规模的多项分析都得出了类似的估算结果。值得注意的是,虽然 DeepSeek V3/R1 是一个拥有6710亿参数的模型,但它采用了专家混合系统(mixture-of-experts)架构,这意味着在任何函数调用或前向传播时只会使用约370亿参数,这个数值才是训练成本计算的基础。

需要注意的是,DeepSeek 报告的是基于当前市场价格估算的成本。我们并不知道他们的2048个 H800 GPU 集群(注意:不是 H100,这是一个常见的误解)实际花费了多少。通常情况下,整批购买 GPU 集群会比零散购买便宜,所以实际成本可能更低。

但关键在于,这只是最终训练运行的成本。在达到最终训练之前,还有许多小规模的实验和消融研究,这些都会产生相当可观的成本,而这部分成本并未在此报告中体现。

此外,还有其他诸多成本,比如研究人员的薪资。据 SemiAnalysis 报道,DeepSeek 的研究人员薪资据传高达100万美元。这与 OpenAI 或 Anthropic 等 AGI 前沿实验室的高端薪资水平相当。

有人因为这些额外成本的存在,而否定了 DeepSeek 的低成本和其运营效率。这种说法极不公平。因为其它AI公司在人员上也会花费大量的薪资,这通常都没有被计算到模型的成本中去。”

Semianalysis(一家专注半导体和人工智能的独立研究与分析公司)也给出了DeepSeek的AI TCO (人工智能领域中的总成本)分析,这张表总结了DeepSeek AI在使用四种不同型号GPU(A100、H20、H800和H100)时的总成本情况,包括买设备、建服务器和运营的费用。按照四年周期来算,这60,000块GPU的总花费是25.73亿美元,其中主要是买服务器的费用(16.29亿美元)和运营的费用(9.44亿美元)。

图片

当然,外界没有人准确知道DeepSeek究竟拥有多少卡以及各个型号的占比究竟有多少,所有的一切都只是估算。

总结来说,如果把所有的设备、服务器、运营等成本全部算下来,成本肯定远超550万美元,但是,550万美元的净算力成本,已经十分高效。

争议三:巨额资本支出投资算力,只是巨大的浪费?

这是一个广为流传但相当片面的观点。确实,DeepSeek 在训练效率上展现出了优势,也暴露出一些头部的AI公司在计算资源使用上可能存在效率问题。甚至英伟达短期的暴跌也可能也与这个误读广为流传有关。

但这并不意味着拥有更多计算资源是一件坏事。从 Scaling Laws(扩展定律)的角度来看,更多的计算能力始终意味着更好的性能。自2017年 Transformer 架构问世以来,这一趋势一直延续,而DeepSeek的模型,也是基于Transformer架构的。

AI 发展的重点虽然在不断演变——从最初的模型规模,到数据集大小,再到现在的推理计算和合成数据,但"更多计算等于更好性能"的核心规律并未改变。

虽然Deep Seek找到了一个更高效的路径,规模定律依然有效,但是,更多的计算资源,仍然能获得更好的效果。

争议四:DeepSeek是否采用了PTX,绕过了对 NVIDIA CUDA的依赖?

DeepSeek的论文中提到了DeepSeek 采用了PTX(Parallel Thread Execution)编程,通过这样的一个定制的PTX优化,使DeepSeek的系统和模型可以更好释放底层硬件的性能。

论文的原文如下:

“we employ customized PTX(Parallel Thread Execution)instructions and auto-tune the communication chunk size, which significantly reduces the use of the L2 cache and the interference to other SMs。”“我们采用定制的PTX(并行线程执行)指令并自动调整通信块大小,这大大减少了L2缓存的使用和对其他SM的干扰。”

这段内容,网络上流传着两个解读,一种声音认为,这是为了“绕开CUDA垄断”;另外一种声音是, 因为DeepSeek无法获得最高端的芯片,为了解决H800 GPU 互联带宽受限的问题,不得不下沉到更低一层,来提升跨芯片通信能力。

上海交通大学副教授戴国浩认为,这两种说法都不太准确。首先,PTX(并行线程执行)指令实际上是位于CUDA驱动层内部的一个组件,它仍然依赖于CUDA生态系统。所以,用PTX绕过CUDA的垄断这种说法是错误的。

戴国浩教授用一张PPT清晰地解释了PTX和CUDA的关系:

图片来源:上海交通大学副教授戴国浩提供的PPT

CUDA是一个相对更上层的接口,提供了面向用户的一系列编程接口。而PTX一般被隐藏在了CUDA的驱动中,所以几乎所有的深度学习或大模型算法工程师是不会接触到这一层。

那为什么这一层会很重要呢?原因是在于可以看到从这个身位上,PTX是直接和底层的硬件去发生交互的,能够实现对底层硬件更好的编程和调用。

用通俗的话来讲,DeepSeek这种优化方案并不是在芯片受限的现实条件下的不得已为之,而是主动做的优化,不管芯片用的是H800还是H100,这种方法都能够提高通信互联效率。

争议五:DeepSeek会被国外禁用吗?

DeepSeek爆火之后,英伟达、微软、英特尔、AMD、AWS五大云巨头都上架或集成了DeepSeek,国内来看,华为、腾讯、百度、阿里、火山引擎也都支持部署了DeepSeek。

但是,网络上有一些过度情绪化的言论,一方面是,国外云巨头上架了DeepSeek,“老外被打服了”。

其实,这些公司对于DeepSeek的部署,更多是因为商业的考量。作为云厂商,尽可能多地支持部署最受欢迎、及能力最强的模型,可以为客户提供更好的服务,同时,也能蹭一波与DeepSeek相关的流量,或许也会带来一部分的新用户转化。

在DeepSeek大热的时候集中部署是真,但是对DeepSeek情有独钟或者是“被打服”等说法却过分夸大了。

更有甚者,编造出了DeepSeek遭受攻击之后,中国科技圈组成复仇者联盟,共同驰援DeepSeek的说法。

另外一方面,还有声音说,因为地缘政治等现实原因,很快国外就会陆续禁止DeepSeek使用。

对此,caoz给出了比较清晰的解读:其实我们所说的DeepSeek,实际上包括了两个产品,一个是DeepSeek这个风靡世界的App,另一个是github上的开源代码库。前者可以认为是后者的Demo,一个完整的能力展示。而后者,也许会成长为一个蓬勃的开源生态。

被限制使用的,是DeepSeek的App,而巨头接入和提供的,是DeepSeek开源软件的部署。这完全是两件事。

DeepSeek以"中国大模型"的姿态闯入全球AI竞技场,且采用了最大气的开源协议——Apache License 2.0,甚至允许商用。目前对它的讨论已经远远超越了技术创新的范畴,但技术的进步从来不是非黑即白的对错之争。与其陷入过度吹捧或全盘否定,不如让时间和市场检验其真实价值。毕竟,在AI这场马拉松中,真正的竞争才刚刚开始。

参考资料:

《关于deepseek的一些普遍误读》 作者:caoz

https://mp.weixin.qq.com/s/LsMOIgQinPZBnsga0imcvA 作者:ZeR0

https://www.tanishq.ai/blog/posts/deepseek-delusions.html 作者:Stability AI 前研究主管 Tanishq Mathew Abraham

“特别声明:以上作品内容(包括在内的视频 图片或音频)为国通网旗下企业用户上传并发布 本平台仅提供信息存储空间服务。
Notice: The content of the above works (including video, pictures or audio) is uploaded and published by GuTon's enterprise users, and this platform only provides information storage space services.
广告链接: 宝安网站建设 布吉网站建设 长沙网站建设 东莞网站建设 大鹏网站建设 淡水网站建设 凤岗网站建设 佛山网站建设 福田网站建设 广东网站建设 坂田网站建设 光明网站建设 博罗网站建设 广州网站建设 横岗网站建设 惠州网站建设 葵涌网站建设 坑梓网站建设 罗湖网站建设 龙华网站建设 南山网站建设 坪地网站建设 平湖网站建设 坪山网站建设 邵阳网站建设 深圳网站建设 盐田网站建设 中山网站建设 香港网站建设 澳门网站建设 台湾网站建设
最热文章
怎样做一个高端大气的网站?
怎样做一个高端大气的网站?
简洁大气的布局 采用清晰的分层结构,避免元素堆砌,通过留白增强页面呼吸感。例如,使用大背景图或视频吸引用户注意力,同时保持内容聚焦。统一品牌视觉语言:颜色选择以深蓝、灰、金等低调色系为主,搭配简洁字体,突出专业感。
做一个高端大气的外贸网站
做一个高端大气的外贸网站
用扁平化设计+欧美极简风格,主色调选择深蓝、暗红或墨绿等商务色系,搭配高质量产品图和品牌视觉元素,避免复杂装饰。例如,隐藏式侧边栏导航和全屏轮播图能提升页面整洁度。
做一个高端大气的网站因素
做一个高端大气的网站因素
采用低饱和度、高对比度的色彩方案(如深蓝、灰白、金色)提升专业感。 品牌色与辅助色搭配需和谐,避免杂乱鲜艳的组合。 选择清晰的无衬线字体(如Helvetica、Arial),保持字号和行距的一致性。
高端定制网站的优势?
高端定制网站的优势?
高端定制网站:根据企业VI、行业特点及用户习惯量身设计,确保视觉风格与品牌文化高度契合,避免同质化。 模板网站:使用预设模板,设计元素固定,难以体现企业个性,易与其他网站雷同。
高端定制网站与模板网站的核心区别
高端定制网站与模板网站的核心区别
高端定制网站‌, 完全个性化设计,从品牌调性到交互逻辑均量身定制,确保与竞品形成差异化。 支持沉浸式交互和细节优化(如色彩、布局、动态效果),强化品牌记忆点。
高端定制网站与模板网站的驱别
高端定制网站与模板网站的驱别
高端定制网站:根据企业VI、行业特点及用户习惯量身设计,确保视觉风格与品牌文化高度契合,避免同质化。 模板网站:使用预设模板,设计元素固定,难以体现企业个性,易与其他网站雷同。
保费要暴涨?首批小米车主开始续保了宁波地区保费情况如何
保费要暴涨?首批小米车主开始续保了宁波地区保费情况如何
科技迅猛发展今天,新能源汽车已成为时代象征,小米SU7问世,犹如一颗耀眼星星,吸引众多年轻消费者目光,伴随着上市一周年到来,车主们心态也开始发生微妙变化,尤其是续保费用方面,随着网络上关于续保费用将大幅上涨传言不断蔓延,车主们心中不免升起一丝忧虑
如何确定网站的目标用户群体?
如何确定网站的目标用户群体?
分析用户的兴趣、价值观、生活方式等心理特征。将用户分为追求时尚、注重品质、追求性价比等不同类型,根据这些特征设计网站内容和营销策略。 通过用户画像工具,将心理特征与人口统计学特征相结合,创建更立体的目标用户画像。
怎样为客户做好一个高端企业官网?
怎样为客户做好一个高端企业官网?
目标用户分析:明确客户网站的目标用户群体,包括其年龄、性别、职业、兴趣爱好等特征,以及用户的上网习惯、需求痛点和期望体验,从而为网站设计提供精准的用户画像。
建站对高端网站开发策划的方案
建站对高端网站开发策划的方案
深入剖析客户企业定位,明确其在行业中的角色与发展方向。调研行业特性,选取医疗、金融等行业头部企业网站作为分析样本,了解行业趋势、共性功能与设计风格。挖掘企业核心竞争优势,例如医疗行业的先进技术、金融行业的专业服务团队等,为网站定位提供依据。
高端网站开发,对网络公司设计师和策划要求?
高端网站开发,对网络公司设计师和策划要求?
需结合企业定位、行业特性及目标用户群体画像,挖掘核心竞争优势。 通过竞品研究提炼差异化策略,明确网站的品牌形象与功能定位。
《中小企业互联网转型的“超值快车道”——国通网,开启低成本营销新纪元!》
《中小企业互联网转型的“超值快车道”——国通网,开启低成本营销新纪元!》
在当今数字化浪潮席卷全球的时代,互联网已成为企业发展的核心战场。无论是传统制造业巨头,还是中小微企业,都渴望在互联网的浪潮中分得一杯羹,实现业务的突破与增长。然而,许多中小企业老板在面对互联网转型时,往往陷入困境:高昂的建站成本、复杂的营销推广流程、专业人才的匮乏,以及对技术维护的担忧,这些都像一座座大山,阻挡着企业迈向互联网的步伐。
中小企业数字化转型,仅需1280元起!
中小企业数字化转型,仅需1280元起!
在互联网浪潮下,中小企业的转型迫在眉睫。您是否也在为企业的互联网转型之路而发愁?搭建网站成本高、营销推广没效果、技术维护没团队……这些难题是不是一直困扰着您?现在,这些问题都能一站式解决!
为DeepSeek辟谣:五大误解与真相解读
为DeepSeek辟谣:五大误解与真相解读
DeepSeek 的热度持续攀升,伴随而来的,还有很多误解和争议,有人说它是"吊打OpenAI的国货之光",也有人说它"不过是抄国外大模型作业的小聪明"。
DeepSeek横空出世后,多家银行启动深度研究测试,银行业大模型落地仍在开放探索
DeepSeek横空出世后,多家银行启动深度研究测试,银行业大模型落地仍在开放探索
DeepSeek横空出世之后,引发银行金融科技领域的高度关注。 多家银行金融科技负责人对财联社表示,已经关注并开始研究DeepSeek对银行金融科技带来的影响,其中兴业银行相关人士透露,该行已经在春节前做了测试。
Anthropic CEO:希望DeepSeek能来美国,为我们工作
Anthropic CEO:希望DeepSeek能来美国,为我们工作
美国AI创企Anthropic的CEO Dario Amodei“”受邀做客美国知名中国研究播客“中国说(ChinaTalk)”,对其前不久发表的关于DeepSeek的万字檄文做出了更详细的解释和回应。
DeepSeek繁荣了欧洲AI生态,有初创公司已弃用ChatGPT
DeepSeek繁荣了欧洲AI生态,有初创公司已弃用ChatGPT
在瑞典的斯德哥尔摩举行的一场GoWest风险投资人会议上,DeepSeek引发热议。不少欧洲初创公司纷纷表示,他们已经从OpenAI的ChatGPT迁移到了这个中国的AI应用程序。
seo优化技术关于SEO优化新手刚入职需要做的事情有哪些?技术搜索引擎优化教程seo
seo优化技术关于SEO优化新手刚入职需要做的事情有哪些?技术搜索引擎优化教程seo
作为SEO优化的新人,你要学会主动去学习和理解SEO优化的知识seo排名,而不是被动地等着别人教你。一定要主动去了解你正在优化的网站,使用网上的一些工具,或者请你的师傅挖出一些有价值的关键词。
seo优化技术面对正规白帽seo优化技术大同小异,提升网站优化该如何做?seo技术seo优化
seo优化技术面对正规白帽seo优化技术大同小异,提升网站优化该如何做?seo技术seo优化
目前优化的网站越来越多,这从另一个方面体现了SEO行业的知名度和推广的重要性。虽然SEO的技术是一样的,但还是有很多需要注意的地方,尤其是现在搜索引擎一天几次的情况下,我们更要注意自己的习惯,不要碰红SEO优化 行。导致您的网站受到影响或K站
很多人总是会问,为什么我的网站转化率总是居高不下?也许你的网站很美观大气
很多人总是会问,为什么我的网站转化率总是居高不下?也许你的网站很美观大气
很多人总是会问,为什么我的网站转化率总是居高不下?也许你的网站很美观大气
为什么我的网站收录下降了
为什么我的网站收录下降了
为什么我的网站收录下降了
行业网站兴起 互联网加速个人门户商业化
行业网站兴起 互联网加速个人门户商业化
行业网站兴起 互联网加速个人门户商业化
网站与网页的关系?有何差别
网站与网页的关系?有何差别
网站与网页的关系?有何差别
做好五个稳定性 打造高效的网站排名
做好五个稳定性 打造高效的网站排名
做好五个稳定性 打造高效的网站排名
提升网站用户转化率需要情绪在网站设计上如何体现呢
提升网站用户转化率需要情绪在网站设计上如何体现呢
情绪很重要,每到年底,我们会看到超市熙熙攘攘的人群,而保险公司业务员也是过的最滋润的时候,因为这个时候,辛苦了一年,大家口袋都有点钱,都想消费一下,如果走在露天大集上,总给人一种过年的味道,这里面体现就是一种情绪,用户情绪来了,感性大于理性,他们更舍得花钱。
如何做好营销型网站建设方案
如何做好营销型网站建设方案
对于企业来说,盈利是其生存和发展的基本条件,更是终极目标,其所有的工作都是为了盈利。网站建设自然也不例外,具备高转化率、高用户体验度、高公信度、高亲和度的营销型网站最受企业主们欢迎。
开发网站需要多久跟这九个因素有关
开发网站需要多久跟这九个因素有关
揭秘百度快速排名原理,声称24小时快速上
揭秘百度快速排名原理,声称24小时快速上
揭秘百度快速排名原理,声称24小时快速上
百度免费"发武器" 布局移动互联网
百度免费"发武器" 布局移动互联网
百度免费"发武器" 布局移动互联网
网络营销最重要的一步,你做到了吗?
网络营销最重要的一步,你做到了吗?
很多人总是会问,为什么我的网站转化率总是居高不下?也许你的网站很美观大气
Copyright © GuTon.com 2004- All Rights Reserved
版权所有:国通网
Top