|
(第
1
篇)
木蘭
於 2025/1/29 下午 02:39:00
說: |
其他公司为何没用DeepSeek方法?
“大厂的模型得低调” 49. OpenAI 和 Anthropic 之前没有做 DeepSeek 的方向是一个公司聚焦方向的问题,OpenAI 和 Anthropic 可能觉得把现有算力投入其他地方会更有价值。
50. 相比大厂,DeepSeek 可能因为没有在多模态上做事,而是集中在语言,所以能做出成果。大厂的模型能力不弱,但得低调,不能发太多。现在多模态不是很关键,智能来源主要是语言,对于提升智能没有帮助。
2025技术的分化与押注
“除Transformer能不能找别的架构” 51. 模型在 25 年会发生分化。最诱人的愿景是不断推进智能的边界,可能有很多突破的路径,方法可能会发生变化,比如合成数据、别的架构。
52. 25 年首先关注新的架构,除了 Transformer 之外能不能找别的,现在已经有了一些探索,可以降低成本,在降低成本的同时也可以探索智能的边界;其次,RL 的全部潜力还没有发挥出来;产品上,大家关心 agent,还没有被大规模应用。
53. 25 年多模态可能会出现能挑战 ChatGPT 形态的产品。
54. R1 和 V3 带来的低成本、高效果,说明这是一个方向,和另一个扩硬件、涨参数的方向是不冲突的,国内是受到限制只能走前者。
55. 第一,DeepSeek 是从 base model 逼出来的,还是遵循 Scaling Law,第二,从蒸馏角度,DeepSeek 蒸馏还是先大后小,对于越做越大的闭源模型是好事,第三,对技术发展中,还没有出现反规模指标,如果出现,那对于 Scaling Law 可能是一个比较大的打击,而且开源模型的所有东西都可以在闭源模型做一遍,同时还可以降低成本,对于闭源模型也是利好。
56. 据了解,Meta 目前还在复现 DeepSeek 的过程中,但目前还没有特别影响 infra 或者长期 roadmap(路线图) 的地方出现。长期来说除了探索边界之外,也要考虑成本,只有成本更低,才能有更多的玩法。
开发者是否从闭源模型迁移至 DeepSeek?
“目前还没有” 57. 开发者是否会从闭源模型迁移至 DeepSeek?目前看还没出现大批迁移,因为领先模型的 coding 指令遵循能力是比较有利的,但不确定这一优势在未来是否会被攻克。
58. 开发者角度来说,Claude-3.5-Sonnet 是做了 tool use(工具使用)专门训练,对于做 agent 非常有利,但 DeepSeek 之类模型暂时没有提供,但 DeepSeek 带来的空间很大。
59. 对于大模型应用者,DeepSeek V2 就已经满足了所有需求,R1 速度提高了,没有带来特别大的额外价值,但开启深度思考的时候,以前能答对的题目现在反而错了。
60. 应用者选择模型的时候会用工程方法把问题简化,25 年可能是一个应用年,各行各业会使用现有的能力做,可能慢慢会到一个瓶颈了,因为日常可能用不到那么聪明的模型。
61. 现在 RL 是解决了有标准答案的问题,并没有比 AlphaZero 做更多突破,甚至更简单,蒸馏解决了标准答案的问题,有标准答案后用 RL 的方法去训练时可以得到很好的效果,这是为什么现在蒸馏或者 RL 能很快突破的原因。
62. 人类对智能的需求是远远被低估的,比如癌症问题、SpaceX 上的隔热材料都还没有被解决。现有的任务是自动化的问题,还有很多问题,对未来增量的爆发非常乐观,智能是不能停下来的。
OpenAI Stargate 500B叙事
与算力需求变化 63. DeepSeek 的出现让大家开始质疑英伟达(NVIDIA)和 OpenAI 最新的 500B 叙事。训练资源问题目前还没有清晰判断,OpenAI 的 500B 叙事是给自己加救命稻草。
64. 对于 OpenAI 500B 基础设施投入的事情是存疑的,因为 OpenAI 是商业公司,如果涉及举债,那可能是有风险的。
65. 500B 是一个很夸张的数字,可能会分 4、5 年去执行。因为 leading 的角色是软银和 OpenAI,前者是资金,后者是技术,软银现在账上的资金没有办法支持 500B,而是用手上的资产去做抵押,而 OpenAI 本身资金也不是很充沛,其他更多是技术参与方,而不是资金提供方,因此要完整实现 500B 是有挑战。
66. OpenAI 500B 的算力是有道理的,在探索阶段,试错成本很高,人力和投资成本都很高,但因为路线是不明确的,从 o1 到 R1 可能也不容易,但至少知道最后是怎么样的一个结果,中间的特征词也可以观察到,可以一开始就对着别人的最终形态去做,比较有方向感。而如果是在前线探索下一代,是最费资源的,而追赶者不需要承担探索,但永远只是追赶。如果 Google、Anthropic 在探索的领域做成功了,可能就会成为最前沿的那家公司
67. Anthropic 未来有可能把所有的 inference 都换成 TPU 或者 AWS Chip。
68. 国内公司原来受困于算力,现在证明了潜在的技术空间是非常大的。对于更加 efficient 的模型,可能不需要特别大的卡,可以提供相对定制化的芯片,可以在 AMD、ASIC 芯片上提供适配,从投资角度,英伟达壁垒非常高,但 ASIC 也会有更大的机会。
69. DeepSeek 的事情和算力没有太大关系,更多让美国觉得中国比较厉害,比较有效率,英伟达的软肋不在 DeepSeek,只要 AI 还在发展,英伟达就能发展,英伟达的优势在生态,这是靠时间积累的。技术在快速发展的时候,生态就很重要,真正危机在于技术成熟后,类似电力,变成标准品,大家会关注做产品,就会有很多 ASIC 芯片出来做特定场景的优化。
对二级市场的影响
“短期情绪有压力,长期叙事继续” 70. DeepSeek 短期对美国 AI 圈冲击大,短期上对股价有影响:pretrain 需求增速放缓,post-train 和 inference scaling 还没有足够快地 scale up,在相关公司的叙事上会有一个 gap,对于短期交易确实会有影响;
71. DeepSeek 更多是 FP8,美国是 FP16,DeepSeek 所有都是基于有限算力工程能力的提升,对于算力高效的使用是最大亮点。上周五 DeepSeek 在北美有巨大的发酵,扎克伯格对 Meta 资本支出给了更高的预期,但英伟达和台积电都是跌,只有博通是涨的。
72. DeepSeek 在短期情绪上对股价、估值有压力,对二级的算力相关公司,甚至能源公司有压力,但长期叙事会继续。
73. 二级从业者会担心英伟达从 H 卡到 B 卡的转换上会有一些 air pocket,再加上 DeepSeek 的压力,短期会有股价承压,但可能是长期看更好的机会。
74. 短期受影响是 DeepSeek 在训练上的低成本投入的情绪体现,比如英伟达的股价就很直接,但 AI 是一个增量市场,潜力很大,长期来看,AI 才刚开始,如果 CUDA 还是大家喜欢的选择,那硬件增长空间还是很大的。
开源 VS 闭源
“如果能力差不多,对闭源是挑战” 75. DeepSeek 之所以受关注,更多是开源和闭源路线之争。
76. 有可能会导致 OpenAI 等把好的模型藏在后面,目前看领先的模型都没发布。但 DeepSeek 拿出来之后,其他 AI 公司好的模型可能也藏不住了。
77. DeepSeek 成本上做了很多优化,Amazon 等还没有看到因此做出的改变,还是按照既定的计划做,目前是一个共存的状态。开源和闭源模型并不矛盾,高校和小 lab 应该会优先选择 DeepSeek,不会对云厂商有竞争,因为云厂商对开源、闭源都是支持的,生态不会改变,目前也是共存状态。DeepSeek 在 tool use 等上面还没有像 Anthropic 这么成熟,以及后者已经花了很多时间在 AI 安全上,DeepSeek 如果长期希望得到欧美市场的认可,是需要考虑的。
78. 开源对整个市场的 margin 是有控制的,如果开源能做到闭源的 95%,那如果闭源太贵,那完全就可以用开源来做,如果开源和闭源能力差不多,那对闭源是一个很大的挑战。
DeepSeek出圈的影响
“比技术更重要的是愿景” 79. DeepSeek 的出圈让外界意识到了中国的 AI 很强。以前外界认为中国的 AI 进展落后美国两年,但DeepSeek表明其实差距在3-9个月,甚至某些方面更强。
80. 历史上中国被美国封锁的东西,如果能被突破的话最终都会很卷,AI 可能也是,DeepSeek能跑出来就是一个证明。
81. DeepSeek 不是突然爆发的,这次 R1 结果很漂亮,触及到了美国从上到下的核心圈。
82. DeepSeek 是站在巨人的肩膀上,但探索前沿需要的时间和人力成本还是要高很多,R1 并不代表以后的训练成本会同时降低。
83. AI 探索者一定是需要更多算力的,中国作为追赶者可以发挥在工程能力上的优势。中国的大模型团队怎么用较少的算力做出成果,从而有一定的抵御能力、甚至做的更好,可能是未来中美 AI 格局的推演。
84. 中国今天还是在复现技术方案,reasoning 是 OpenAI 在 o1 提出的,所以接下来各个 AI labs 之间的差距在于谁能提出下一个 reasoning。无限长度的 reasoning 可能是一个愿景。
85. 不同 AI labs 的模型之间的核心差别在于 AI labs 本身的下一个愿景是什么,而不是技术。
86. 毕竟,比技术更重要的是愿景。
本文作者:张小珺,来源:腾讯科技,原文标题:《一场关于DeepSeek的高质量闭门会:比技术更重要的是愿景》
|
|
|
(第
2
篇)
木蘭
於 2025/1/29 下午 02:53:00
說: |
一图读懂DeepSeek对美国科技巨头的冲击.
2025年01月28日 10:19
摩根大通资管这张图说明,为何美国科技巨头股如此害怕DeepSeek?
.简而言之,由于这些新资本支出,美国云巨头将需要数千亿美元的新增量 AI 收入来维持当前的利润率……并且如果整个应用可以在像 DeepSeek 这样的模型上运行,那么资本支出的大幅增长就不会流向英伟达(并推动对数据中心和电力的需求)。
|
|