黄仁勋 2 个半小时演讲,英伟达已经进入「Agentic AI」时代

内容摘要资本看空,只是在让英伟达股票更「亲民」而已。「AI 届春晚」过去以来一直是 GTC 的外号之一,但在 GTC 2025 的开幕主题演讲中,这个梗被英伟达创始人、爱穿皮衣的老黄「偷了」。「我觉得 GTC 已经变成了 AI 界的超级碗」黄仁勋这

资本看空,只是在让英伟达股票更「亲民」而已。

「AI 届春晚」过去以来一直是 GTC 的外号之一,但在 GTC 2025 的开幕主题演讲中,这个梗被英伟达创始人、爱穿皮衣的老黄「偷了」。「我觉得 GTC 已经变成了 AI 界的超级碗」黄仁勋这样介绍 GTC 的盛况。「但在这里,AI 会让我们每个人都成为赢家」。但面对近期股价的数次暴跌,尤其是以 DeepSeek R1 为代表的、对业内「我们真的需要这么多 GPU 吗」的质疑,GTC 作为「春晚」,英伟达就必须拿出更多真的能镇住场子的「硬货」出来。虽然不知是否也是受到股价影响,今天老黄的口条,相比以往明显要「磕巴」了不少,但他在 150 分钟内,接连给从 AI Agent 到数据中心的 AI 芯片、再到具身智能的多个行业生态,再次指明了未来。再一次地,英伟达看到了 AI 的未来,现在,他们需要让全世界一起相信。01、Agentic 拯救英伟达「It s all about Tokens」。不同往届GTC上来先介绍英伟达的硬通货,今天的开场,老黄用40分钟解读了:Agentic AI时代,英伟达的立身之本——越来越高效地处理tokens(词元)。单位时间内能处理的tokens百倍万倍增长,同时单位算力成本和能耗下降。在他看来,英伟达踩中AI风口的十几年,AI已经经历了三代技术范式的转移。最早是判别式AI(语音识别、图像识别),接着是生成式AI,然后就是当下我们身处的Agentic AI,未来会是影响物理世界的Physical AI。每一代AI技术迁移,计算的方式都会发生改变。从AlexNet到ChatGPT,是从检索的计算方式转变为生成的计算方式。而当AI从ChatGPT那种靠预测下一个tokens、大概率出现幻觉的生成式AI,迈向Deep Research、Manus这样的agentic AI应用时,每一层计算都不同,所需要的tokens比想象的多100倍。因为在Agentic AI应用中,上一个token是下一个token生成时输入的上下文、是感知、规划、行动的一步步推理。此刻,Agentic AI就是我们现在所处的时代,AI正在经历一个新的拐点,它变得越来越智能、应用越来越广泛,同时也需要更多的算力来支持它。老黄用同一段提示词下,代表两种技术范式的开源模型——Llama3.3和Deepseek-R1所消耗的tokens举例说明,以强化学习为主导的推理类应用,消耗了越来越多的tokens、同时也让AI应用也变得越来越可靠。这段提示词是:「在我的婚宴上,需要7个人围着一张桌子坐,我的父母和岳父岳母不应该坐在一起。而且,我媳妇坚持说她坐在我左边照相时会更好看,但同时我需要坐在伴郎旁边。我们这一轮怎么坐?如果我们邀请牧师和我们坐在一起呢?」如上图左边,Llama3.3作为大语言模型,用不到500个tokens快速回答,但安排的客人座位并不满足要求。对比之下,右边的R1作为推理模型,用掉8000多个tokens得出了正确答案。差别在于,左边的大语言模型只尝试了一次,右边的推理模型尝试了所有不同的可能性,然后反思、验证了自己的答案。而且推理模型需要更多的计算,因为模型更复杂。R1的尺寸是6800亿个参数,它的下一代版本可能有数万亿个参数。更进一步,Agentic AI应用是无数次调用类似DeepSeek-R1做推理的过程,需要的计算只会更多。这也是为什么ChatGPT可以免费、Deep Research和Operator这种agent免费不起的原因(当前OpenAI分别以20美元、200美元的价格提供服务)。用预训练放缓来审判英伟达还是太早了,因为,Scaling Law(缩放定律)的故事还没有讲完。老黄表示,除了预训练和后训练(微调),测试时的Scaling Law才刚刚开始。(指模型推理阶段,动态分配计算资源以提升性能。例如,根据问题复杂度自动延长“思考时间”,或通过多次推理生成多个候选答案并择优输出)在英伟达GTC的一篇官方博文中,Tokens(词元)被视为AI的语言与货币。它是AI在训练和推理过程中处理的数据单位,用在预测、生成和推理的每一个场景。在老黄看来,加速AI工作负载的新型数据中心「AI 工厂」,就是要高效地处理这些tokens,将其从AI语言转换为AI货币——即智能。通过软硬一体优化,以更低的计算成本处理更多tokens。如此一来,当更复杂、智能的推理模型,需要更快、更多地吞吐tokens时,如何能够有一套软硬兼施的计算系统让它更加高效,就成为AI应用能不能赚钱的关键。这就是Agentic AI下,新黄氏定律曲线。而要想达到「Revenue」那个切面、让AI应用实现商业化闭环,还得买英伟达,依旧是「买得多省得多」——不,现在是「买得多,赚得多」。02、「AI工厂」的操作系统——Dynamo不久前,最了解英伟达的「DeepSeek靠软硬一体优化实现了550%的理论利润率」新闻刷屏。别忘了,了解英伟达的,也包括他自己。DeepSeek在Infra上的弹药,老黄也给你配齐了!英伟达此次推出了一个新的「AI 工厂」引擎的操作系统,Dynamo。有了它,tokens的吞吐和延迟还能大幅优化!为了让一个更大的模型,更高效地产出更多 token,本身已经成为了一个工程学问题。如何合理利用流水线并行、张量并行、专家并行、在途批量化、pd 分离、工作负载管理,如何管理 KV cache,各家都拿出了不同的方案。英伟达此次也推出了自己的方案,Dynamo。黄仁勋把这个推理服务库比作新时代的 VMware,能够自动编排如何让 AI 在推理时代跑的更好——每秒能产生更多 token。接下来黄仁勋简直在直接对需要采购英伟达的数据中心喊话了:未来的每一个数据中心都会受到功耗的限制。你的营收也会受到功耗的限制,你能使用的电力就能推算出潜在营收。采用 Blackwell,你在同样电力下,能收获更好的性能;再加上Dynamo,Blackwell 将能进一步优化——Hopper 也能优化,但是没那么多。按照英伟达的说法,使用 Dynamo 优化推理,能让  Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全开源。黄仁勋直接帮企业算起了账:在同等功耗下,Blackwell 的性能比 Hopper 高出 4—5 倍的幅度。在「推理模型」的测试里,Blackwell 的性能大约是 Hopper 的 40 倍。同样的 100 兆瓦数据中心,使用 H100 需要 1400 个机架,每秒可以生产 3 亿个 token,使用 GB200,只需要 600 个机架,每秒可以产生 120 亿个 token。老黄:你买的越多,省的越多!03、不只有 Blackwell「超大杯」,还有光芯片落地在硬件领域,老黄还宣布了其 Blackwell AI 工厂平台的下一个演进版本 ———— Blackwell Ultra,旨在进一步提升 AI 推理能力。与现存的 Blackwell 不同,据老黄介绍,Blackwell Ultra 专为 AI 推理而设计的:在 DeepSeek R1 发布之后,目前 OpenAI o1 与 Google Gemini 2.0 Flash Thinking 都是已经上市的推理模型产品。Blackwell Ultra 具体包含 GB300 NVL72 和 HGX B300 NVL16 系统,其 AI 性能比其前代产品高出 1.5 倍。GB300 NVL72 在一个机架规模设计中连接了 72 个 Blackwell Ultra GPU 和 36 个基于 Arm Neoverse 的 NVIDIA Grace CPU。与 Hopper 一代相比,HGX B300 NVL16 在大型语言模型上提供了快 11 倍的推理速度,多 7 倍的计算能力和 4 倍的内存。同样支持一道发布的 NVIDIA Dynamo 推理框架。包括 AWS、谷歌云和微软 Azure 在内的主要科技公司和云服务提供商,将从 2025 年下半年开始提供由 Blackwell Ultra 驱动的实例。除了 Blackwell Ultra,英伟达还公布了其 2026 年和 2027 年数据中心路线图的更新,其中就包括即将推出的下一代 AI 芯片 Rubin(以天文学家 Vera Rubin 命名)与 Rubin Ultra的计划配置。Rubin NVL144 机架,将与现有的 Blackwell NVL72 基础设施直接兼容。而 Rubin Ultra 的整个机架将被新的布局 NVL576 取代。一个机架最多可容纳 576 个 GPU。除了这些相对枯燥的芯片迭代,英伟达还第一次公开了其光芯片在 AI 计算领域的进展,老黄将其称之为:「下一代人工智能的基础设施」硅光芯片具有高运算速度、低功耗、低时延等特点,且不必追求工艺尺寸的极限缩小,在制造工艺上,也不必像电子芯片那样严苛,必须使用极紫外光刻机,也就是因为「芯片战争」,被大众所熟知的 EUV。目前,英伟达并未直接将光芯片技术用户 AI 芯片上,而是与台积电(TSMC)合作,采用台积电的硅光子平台Compact Universal Photonic Engine (COUPE),该平台使用台积电的SoIC-X封装技术,同时结合了电子集成电路(EIC)与光子集成电路(PIC)。打造出两款名为 Spectrum-X和Quantum-X 采用硅光子技术的交换机。随着「人工智能工厂」在世界各地兴建,能耗与运营成本,已经成为困扰巨型数据中心继续拓展的关键问题;因此英伟达也在用硅光子技术,来尝试进一步优化现有的巨型数据中心。这些也正是硅光子技术大显身手的场景,硅光子芯片有潜力彻底改变数据处理速度,同时加快推动量子计算技术的发展。同时新光子技术还将为数据中心的 GPU 集群节省数兆瓦的能源。「人工智能工厂是一种具有极端规模的新型数据中心,网络基础设施必须进行改造以跟上步伐。」黄仁勋这样介绍硅光子芯片在数据中心的应用前景。据英伟达公开的信息,Spectrum-X 提供100Tb/s 的总带宽,总吞吐量为 400Tb/s,并且提供每端口最高 1.6Tb/s 的速度 —— 是目前顶级铜缆传输最快速度的两倍),连老黄自己都吐槽「这段介绍里实在是太多 TB 了」。Quantum-X 光子 InfiniBand 交换机将于 2025 年晚些时候上市,而 Spectrum-X 光子以太网交换机计划于 2026 年发布。最后,老黄还宣布了在 Rubin 之后的下一代 AI 芯片的架构命名 Feynman;这个名称源自对量子计算领域有着重要贡献的科学家 Richard Phillips Feynman,他同时也是现代量子计算机概念的奠基人,于 20 世纪 80 年代提出了量子计算机的概念。根据老黄公布的路线图,Feynman 架构将于 2028 年登场 —— 或许到那个时候,我们真的能看到量子计算技术出现重大突破了。04、英伟达机器人生态完整成型去年老黄在 GTC 上,伸出手臂,和一排人形机器人站在一起,已经成为经典一幕,而今年,仿真数据和机器人,仍然出现在 GTC 的各个角落中。甚至在演讲的一开始,老黄的讲稿中,直接就把物理 AI 放在了 AI 发展的最高点上。不过,在整个 GTC 中,单就时长而言,涉及到物理 AI 的比重,并没有想象中的高。自动驾驶部分和机器人部分的介绍加在一起,可能不足半个小时。虽然时长不长,英伟达此次的发布,却仍然让人看到了英伟达的野心。对于所有 AI 而言,数据、算法和算力,都是最重要的要素。我们熟悉的生成式 AI,是在海量的互联网文字和视频数据中训练出来的,英伟达的贡献,更多的在算力方面。而走到物理 AI,英伟达却是想在数据、算法、算力上全方面发力,一个产业地图已经呼之欲出。在算力上,英伟达有之前发布的 Orin 和 Thor 芯片。在数据上,英伟达也是重要的贡献者。物理 AI 强调让 AI 能够理解物理世界,而世界在过去并没有像积累文字和视频数据一样,积累足够多的 3D 环境数据。要大量产生数据,还得看英伟达推动的仿真数据的进展。而通过几届 GTC 下来,英伟达已经全面补齐了数据的生产流程:Omniverse 数字孪生环境,相当于一个超强的 3D 编辑器,能够生成逼真的场景和物品。开发者可以根据不同的领域、机器人类型和任务,整合真实世界的传感器数据或示范数据。Cosmos 模型训练平台,相当于一个专门为汽车和机器人搭建的虚拟世界,利用 Omniverse 训练 Cosmos,能够让 Cosmos 生成无限多样的虚拟环境,创建既受控、又具备系统性无限扩展能力的数据。两者结合,就能产出无限多各种各样环境、光线、布景的虚拟仿真数据。正如下图所示,Omniverse 中的机器人呈糖果色,主打与现实呈现数字孪生,而 Cosmos 中的布景则可以完全变换,生成不同的布景。而针对人形机器人,英伟达还特别推出了一系列其他的工具,比如今年主推的蓝图(blueprint)工具中的 Mega,就可以测试大规模的机器人部署的效果。英伟达希望人形机器人的开发者能够先采集一部分现实世界的数据,导入 Omniverse 里面,然后利用 Cosmos,将这部分现实世界的数据转换成多样化的虚拟数据,直接导入英伟达的 Issac Lab 中进行后期训练——或者模仿学习复制行为,或者强化学习在试错中学习新技能。在落地更快的自动驾驶领域,这种 Ominiverse 和 Cosmos 相互依仗的数据能力已经初见成效。此次的 GTC,英伟达宣布通用汽车(GM)已选择与英伟达合作,共同打造未来的自动驾驶车队。除了对利用仿真环境对工厂和汽车的设计进行改进之外,英伟达还将帮助通用汽车改进智驾体验。其中,通用汽车重点看中的,应该就是 Cosmos 的整套端到端的 AI 训练体系。3D 合成数据生成(3D Synthetic Data Generation)能够通过 Omniverse,将日志数据转化为高精度 4D 驾驶环境,结合地图和图像生成真实世界的数字孪生,包括像素级的语义分割。Cosmos 再通过这些数据扩展训练集,生成更多准确且多样化的驾驶场景,缩小仿真与现实(sim-to-real)的差距。同时 Cosmos 为模型训练也做了专门的优化,可以进行模型蒸馏和闭环训练。而落地更慢的人形机器人领域,在去年到今年的 GTC 之间,我们甚至看到英伟达在算法上,也在发力。在去年发布了 GR00T 模型之后,今年英伟达发布了 GR00T N1 模型。英伟达宣布这是全球首个开放的、完全可定制的通用人形机器人推理与技能基础模型。Groot N1 基于合成数据生成与仿真学习的技术基础,采用了「快思考与慢思考」的双系统架构。其中,「慢思考」系统让机器人能够感知环境、理解指令,并规划正确的行动,而「快思考」系统则将规划转换为精准、连续的机器人动作。Groot N1 本身并不是一个重大的技术突破——之前 FigureAI的 Helix 等模型,都是采取了类似的双系统架构。英伟达很明显,希望的是通过将一套先进的模型开源,再加上完整的合成数据生成与机器人学习管道,人形机器人开发者可以在全球各个行业的不同环境和任务场景中对 Groot N1 进行后期训练——正如 DeepSeek 对人工智能产业的带动一样。英伟达在机器人领域的进展似乎一直没有停歇,一直在不断补齐产业链上的每一个空缺,速度惊人。似乎要让机器人开发,变得像目前的 AI 应用开发一样容易,才能停歇。专门针对机器人的研发,今年英伟达还与 DeepMind、迪士尼研究院(Disney Research)共同合作,联合推出了一款新的物理引擎 Newton。当前的大多数物理引擎都是针对特定需求设计的,例如大型机械模拟、虚拟世界或电子游戏等,而机器人需要的,是能够精确模拟刚体、软体材料,支持触觉反馈、时间序列技能学习、执行器控制,基于 GPU 加速,从而在超实时的虚拟世界中,以惊人的速度训练 AI 模型的物理引擎。在演讲的结束,一款小小的 Blue 机器人登台亮相了。Blue 机器人内置了两个英伟达芯片,而它的训练,则是完全是在英伟达的建设的训练体系和 Newton 引擎中,通过实时模拟完成的。英伟达对于机器人的投入看来不会停止,机器人演示不断出现小故障,抢走老黄的风头,似乎也将成为接下来几年英伟达 GTC 经常性的看点了。在GTC 主演讲结束之前,老黄在视频播放的间隙,摆了一个 Pose。你可以说是随性,但从某种意义上来看,这个经典画面——明显是名画「创造亚当」的一个镜像——可能会在以后 AI 科技的历史中不断出现。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-4