先看看英伟达新推出的产品有多炸裂:
  1. 相较于Blackwell,新一代Rubin GPU 在晶体管数量提升1.6倍的情况下,单片推理性能提升 5 倍,训练性能提升3.5 倍
  2. 英伟达的Vera CPU有88 个 ARM 核心,176 线程,最高可配 1.5 TB 内存,性能是上一代的 2 倍
  3. 一个 NVL72 机架包括72 片Rubin GPU + 36颗 Vera CPU, 推理性能3,600 PFLOPS,训练性能2,520 PFLOPS,相当于把过去一座超级计算中心压缩成一个可量产的机柜。价格预估在500万美元以上,供不应求。
    整个机架 NVLink Spine 总带宽约 240 TB/s,比 全球互联网横截    面带宽(约100 TB/s)的 2 倍还多
  4. Rubin 平台相较上一代 Blackwell 平台,推理性能提升5 倍,训练同级模型只需要 约 1/4 的 GPU 数量 就能在相同时间内训练完,推理成本是上一代的1/7~1/10。
  5. Spectrum-6 / Spectrum-X 以太网交换机的总带宽是 409.6 Tb/s,可以把成百上千个机架整合成一个整体。


当英伟达成为人类目前市值最高的上市公司,市值超过30,000,000,000,000(30万亿)人民币,全世界的 AI 发展轨迹都要围绕它进行的时候,来看看英伟达CEO黄仁勋在2026年CES的重磅演讲都说了什么?

以下是演讲内容总结。

01
AI 驱动的新一轮计算平台大迁移
Image

1、两场“平台转移”同时发生
1.1 计算方式的根本重置
每隔 10~15 年,计算机行业都会经历一次“平台转移”。
从大型机到 PC,再从 PC 到互联网、从互联网到云、再到移动端,每一次都是应用世界整体迁移到一个全新平台上。
而当前这一轮变革是两场平台转移同时发生:
一方面,应用开始“建立在 AI 之上”,不再只是为传统计算机编写程序;
另一方面,软件生产与运行的整体堆栈也在被重构,促使整个计算范式发生系统性重置。
1.2 软件开发范式的根本变化(原文保留)
在这种重构中,经典软件工程的逻辑被颠倒过来——“你不再编写软件,而是训练软件。你不再在 CPU 上运行它,而是在 GPU 上运行它。”
过去的应用是“预先录制、预先编译并在你的设备上运行的”,而如今的应用则能够理解上下文,并且“每一次都完全从零开始生成每一个像素、每一个 Token(词元)”。
1.3 五层蛋糕与资本迁移
整个计算生态被比喻为一个“五层蛋糕”,从最底层的土地、电力、机房,到其上的芯片、基础设施、模型直至应用,每一层都正在被重新发明。
这也意味着,“过去十年中大约10万亿美元的计算基础设施现在正在向这种新的计算方式现代化”,进而带动每年数千亿美元的风险投资持续涌入 AI 基础设施与新应用的建设。
与此同时,约 100 万亿美元产业中的研发预算也在从传统方法向 AI 方法迁移,形成从经典软件工程向人工智能方法的结构性资金转移。

02
从 Scaling Laws 到 Agentic Systems:2024–2025 的关键拐点
Image

1、LLM 与推理革命:BERT → Transformer → ChatGPT → o1
1.1 时间轴与“测试时缩放(Test Time Scaling)”
沿着时间轴来看,2015 年 BERT 带来了第一个真正有行业影响力的语言模型拐点,2017 年 Transformer 作为基础架构出现,而直到五年后的 2022 年,“ChatGPT 时刻”才真正唤醒全球对人工智能潜力的集体认知。
此后出现的 o1 推理模型引入了“测试时缩放(Test Time Scaling)”这一观念:在训练阶段,模型先通过预训练“学习”,再通过强化学习进行后训练(Post-train)以“学会技能”,而在推理阶段则通过测试时缩放实现实时“思考——换句话说就是‘思考’。你在实时地思考。”
1.2 推理能力与链式分解
随着强化学习、Chain of Thought(思维链)、搜索与规划等技术的引入,大型语言模型逐渐具备了把复杂任务拆解为若干自己“会做”的子任务的能力,从而像人类一样,在面对从未见过的情景时,能够把它拆解为一组曾经见过的情景、知识或规则,再重新组合执行。
这种能力构成了 LLM 从“生成文本”走向“具备推理能力”的根本飞跃。
2、Agentic Systems:智能体时代的到来
2.1 代理系统的能力
在这样的技术积累下,2024 年开始的突破很快在 2025 年形成浪潮,代理系统(Agentic Systems)开始在几乎所有领域涌现并普及。
这类智能体既具备推理、查找信息和做研究的能力,又可以调用工具、规划未来和模拟结果,从而开始解决“非常非常重要的问题”。
例如,Cursor 这一代理模型就“彻底改变了我们在 NVIDIA 进行软件编程的方式”,预示着软件开发也在进入智能体时代。
2.2 幻觉与“以研究为基础”的智能体
回顾早期 ChatGPT 被诟病“幻觉严重”的阶段,其根源在于模型虽然可以记住过去,却“无法记住未来和现在的一切”,缺乏实时知识,因此必须通过检索来“以研究为基础(Grounding)”。
现代 AI 智能体会在生成答案前先判断自己是否需要进行检索、是否需要调用工具、如何将问题拆解为可执行步骤,再将这些步骤排列组合完成任务,从而把“记忆+推理+工具使用”统一在一个闭环中。
3、开源模型运动与 DeepSeek R1
3.1 开源模型的集体崛起
随着开源与开源创新成为主流,全球各行各业的公司、研究者、学生乃至各国政府纷纷通过开源模型加入 AI 浪潮,下载量因此呈现爆炸式增长。
对这种趋势的理解是非常朴素的——“数字形式的智能怎么可能抛下任何人呢?”
3.2 DeepSeek R1 的标志性意义(原文保留)
在这一背景下,“去年我们看到了DeepSeek R1 的进步,这是第一个开源的推理系统模型。它让世界大吃一惊,它真正激活了整个运动。”
开源模型虽然稳定地落后前沿模型约 6 个月,但由于每隔 6 个月就会出现新的开源模型版本,整体能力正持续追赶并不断推动创新扩散。

03
NVIDIA 的开源前沿模型与 NeMo 生态
Image

1、从 DGX Cloud 到开源前沿模型矩阵
1.1 自建 AI 超级计算机的目的
多年前,NVIDIA 开始构建并运营 DGX Cloud 超级计算机,并不是为了进入云服务业务,而是“为了自己使用”,也就是通过运营数十亿美元规模的超级计算机来开发并开源自家的前沿模型系统。
1.2 多领域前沿开源模型
在这样的基础设施支撑下,NVIDIA 在多个领域推出了系统性的开源模型矩阵:
在蛋白质与数字生物学领域,Llama-Protina 用于合成与生成蛋白质,OpenFold 3 用于理解蛋白质结构,而 Evo 2 则用于理解与生成多种蛋白质,被视为“细胞表征的开端”;
在 Earth-2 与 AI 物理学方向,ForecastNet 与 CorrDiff 重新定义了天气预测方式;
在通用语言模型方向,Nemotron 系列作为“第一个混合 Transformer SSM 模型”,既能“思考很长时间”,也能“非常快地思考”,Nemotron-3 被视为开创性工作,且会持续推出新版本;
在世界建模方向,Cosmos 被定义为“一个前沿的开源世界基础模型,一个理解世界如何运作的模型”;
在机器人方向,Groot 聚焦人形机器人在关节、移动性和运动上的建模,而 Alpamayo 则面向自动驾驶汽车领域,后文会再展开。
2、NeMo、物理 NeMo 与 Clara NeMo(BioNeMo)
2.1 全生命周期的开源库(原文保留)
值得注意的是,NVIDIA 不仅开源模型本身,还开源用于训练这些模型的数据和全流程工具链——“我们有一整套库,我们称之为 NeMo 库、物理 NeMo 库和 Clara NeMo 库(BioNeMo)。”
每一个库都是完整的 AI 生命周期管理系统,既支持数据处理与生成,也支持训练与创建模型,更支持评估、护栏设置以及最终部署,而且“所有这些都是开源的”,从而为各类公司构建衍生产品提供了公共基础设施。
2.2 全栈开源、赋能全球
通过这种方式,NVIDIA 将自己定位为“前沿 AI 模型构建者”,但又“完全在公开环境中构建它”,目的是“赋能每个公司、每个行业、每个国家成为这场 AI 革命的一部分”。与此同时,NVIDIA 在 PDF 文档理解与解析、语音识别以及语义搜索与 AI 检索等领域的模型经常位居排行榜前列,被反复强调为“世界级”,成为开源生态的技术标杆。

04
AI Agent 架构:多模态、多模型、多云与 Blueprint
Image

1、现代 AI 应用的基本框架
1.1 多模态、多模型、多云、混合云
在未来应用架构的设想中,新一代 AI 应用首先是多模态(Multi-modal) 的,也就是说可以同时理解语音、图像、文本、视频、3D 图形乃至蛋白质等多种信息形态;其次是多模型(Multi-model) 的,也就是能够在推理链条中调用“世界上所有伟大的 AI”,根据具体子任务选择最合适的模型;同时也是多云(Multi-cloud) 与混合云(Hybrid cloud) 的,因为这些模型分布在不同的云环境中,并且通过边缘设备、基站、企业内网或医院等本地基础设施,与现实世界产生紧密耦合。
1.2 智能路由与 Blueprint(原文保留)
在众多前沿与开源模型之上,再加上一个“智能路由器(Smart Router)”作为管理中枢,“那个路由器本质上是一个管理者,根据你给出的提示的意图,决定哪一个模型最适合那个应用程序来解决那个问题。”借助这样的架构,企业一方面可以用自己的数据和领域知识去定制 AI,“教你的 AI 别人没有教过的技能”,保留商业机密与专业优势;另一方面则可以持续连接最前沿的模型,使系统“根据定义总是处于前沿”。整个框架被命名为 Blueprint(蓝图),并已集成到全球各类企业 SaaS 平台之中。
2、个人智能体示例:Reachi 助手
2.1 Demo 的要点
在 CES 现场,这一框架通过一个个人助理 Demo 被具体化:用户利用 Brev 将 DGX Spark 变成个人云,从而无论在云 GPU 还是本地 DGX Spark 上都能通过同一界面调用能力;邮件相关任务被设计为在本地开源模型上运行,以确保隐私,而其他任务则调用前沿模型;基于意图的模型路由器则负责在不同模型之间进行调度。随后,智能体又被连接到 Hugging Face 的 Reachi 迷你机器人以及 ElevenLabs 语音,使得这个“家庭助手”既能查看日程、读取待办事项、发送邮件,又能控制家中设备、根据草图生成建筑渲染和视频,甚至还能远程看护宠物。
2.2 Agent 作为新一代 UI
通过与 Palantir、ServiceNow、Snowflake 等平台的深度集成,代理系统不只是一种新的开发方式,更被塑造成未来平台的用户界面:在这些系统中,用户不再主要面对 Excel 格式的网格或命令行窗口,而是通过多模态对话与平台交互,“像你与人互动一样简单”,由此构成“企业 AI 的一次彻底革命”。

05
物理 AI 与 AI 物理学:Cosmos、自动驾驶与机器人
Image

1、物理 AI 的目标与三台计算机
1.1 常识物理与环境模拟
物理 AI 的目标,是让 AI 从只通过屏幕和扬声器与人互动,扩展为能够真正理解并与物理世界互动。这要求 AI 掌握关于世界的“常识”,例如物体恒存性(Object permanence)——视线移开再看回去物体仍在;因果性——推一下物体它会倒下;以及摩擦、重力、惯性等基本规律。要评估这种 AI 在现实中的行为是否安全可靠,就必须让它能在某种环境中模拟自己动作的结果,否则每一次尝试都变成不可预测的独立事件,根本无法系统地评估与改进。
1.2 三类计算机与核心堆栈
为此,物理 AI 的基本系统需要三类计算机:一台用于训练 AI 模型的数据中心级计算机,一台用于在汽车、机器人或工厂边缘设备上执行推理的计算机,以及第三台专门用于模拟的计算机。在这三类计算机之上,又叠加了一组核心软件堆栈:Omniverse 作为数字孪生与基于物理的模拟世界,Cosmos 作为世界基础模型来理解视频、传感器数据和 3D 场景并与语言对齐,而在此基础上再构建 Groot 与 Alpamayo 等机器人和自动驾驶基础模型。
2、合成数据与 Cosmos:物理 AI 的“ChatGPT 时刻”
2.1 合成数据的必要性
由于真实世界中的物理数据既昂贵又稀缺,尤其很难覆盖各种长尾的边缘情景,因此需要通过合成数据生成(Synthetic Data Generation) 来弥补。做法是以物理定律为基准事实,将传统交通模拟器输出等计算结果输入 Cosmos,让其生成“基于物理、物理上合理”的环绕视频和场景,从而为自动驾驶与机器人训练提供更丰富多样的训练数据。
2.2 Cosmos 的能力与定位(原文保留)
在这套方法论中,Cosmos 被描述为“世界领先的基础模型。世界基础模型。”它在互联网规模的视频、真实驾驶与机器人数据以及 3D 模拟上进行了预训练,因而能够学习世界的统一表征,并将语言、图像、3D 和动作对齐起来。Cosmos 不仅可以从单张图像进行生成、推理和轨迹预测,还能从 3D 场景描述生成逼真视频、从驾驶遥测与传感器日志生成物理连贯的运动,并支持在交互式闭环模拟中“让世界对动作做出反应”,同时推理接下来可能发生的事情。Cosmos 已被下载数百万次,被广泛用于为“物理 AI 的新时代”做准备,并在 NVIDIA 内部被用来生成自动驾驶训练数据和评估场景,以便在计算机内部虚拟行驶数十亿甚至数万亿公里。
3、Alpamayo:会“思考”的端到端自动驾驶 AI
3.1 训练方式与能力
在 Cosmos 的支持下,NVIDIA 宣布了 Alpamayo——“世界上第一个会思考、会推理的自动驾驶汽车AI”。这一模型从输入端到输出端完全端到端训练,也就是说直接从摄像头输入到执行输出。训练数据既包括大量由车辆自身驾驶或人类示范驾驶产生的真实里程,又包括由 Cosmos 合成生成的大规模虚拟里程,还包括成千上万经过精细标注的样本。Alpamayo 的独特之处在于,它不仅接收传感器输入并驱动方向盘、刹车和油门,而且会推理自己即将采取的行动,给出行动的理由以及完整的轨迹,因此在能力强大的同时也具备更高的可解释性。
3.2 长尾问题与双堆栈安全架构
在自动驾驶最棘手的长尾问题上,各国、各地区乃至不同交通文化带来的各种复杂场景不可能通过穷举数据全部覆盖,但 Alpamayo 通过把这些长尾情景分解为多个“常规子情景”,再结合推理能力进行处理,从而实现在广义长尾空间中的泛化。为确保安全,NVIDIA 为其构建了“双堆栈”架构:上层是端到端训练的 Alpamayo 堆栈,下层是历时五到七年构建的传统 AV 堆栈,两者之间由 Policy and Safety Evaluator 将实际道路场景划分为可放心交给 Alpamayo 的情景以及需要回退到更简单更保守 AV 堆栈处理的情景,这就使得系统在能力与安全性之间形成多样性和冗余,被称为“世界上唯一同时运行这两个 AV 堆栈的汽车”。
3.3 商业化与产业愿景
在商业落地方面,基于 Alpamayo 的梅赛德斯-奔驰 CLA 车型已经获得最高安全评级并投入生产,被强调为“世界上最安全的汽车”之一。车载计算硬件采用双 Orin,下一代将升级为双 Thor,这些处理器专门为机器人系统和最高级别的安全认证而设计。长期愿景是“有一天每一辆车、每一辆卡车都将是自动驾驶的”,自动驾驶因此被视为最大规模的物理 AI 行业之一,并将为其他机器人系统提供经验和技术模板。
4、机器人生态与 Omniverse 训练
4.1 从模拟到现实的机器人“出生”
在自动驾驶之外,NVIDIA 还利用 Omniverse 及其 Isaac Sim、Isaac Lab 平台,为各种形态的机器人提供先在虚拟世界中“出生与成长”的环境。多款人形和非人形机器人搭载 Jetson,在仿真环境中经过大量训练后再部署到现实,包括 Neura Robotics、Agility Robotics、LG、Caterpillar、Serve Robotics、Boston Dynamics、Franka、Universal Robotics 等,覆盖配送、工业操作、手术和通用移动场景。
4.2 EDA / 工业仿真行业的彻底重塑
沿着这一逻辑,曾经支撑 NVIDIA 诞生的上游行业——芯片设计(EDA)和工业仿真——如今也将在物理 AI 的推动下被彻底重塑。Cadence 将 CUDA-X 集成到模拟与求解器中,用 NVIDIA 物理 AI 做工厂与生产线仿真;Synopsys 在逻辑设计与 IP 领域领先,并同样向系统设计与系统模拟领域延伸。未来,芯片与系统都将在这些工具中被设计和模拟,包括机器人的芯片与结构本身。
4.3 与 Siemens 共建物理 AI 工业时代
与此同时,Siemens 也将 NVIDIA CUDA-X、AI 模型和 Omniverse 深度集成到自身的 EDA、CAE 和数字孪生工具与产品组合中,从而在设计、模拟、生产与运营的完整工业生命周期内引入物理 AI。这些用于制造芯片、计算机、药物和 AI 工厂的设施本身被视为“巨大的机器人”,它们将在全球劳动力短缺的背景下,越来越依赖物理 AI 与机器人驱动的自动化。

06
模型与 Token 生态:OpenAI、开源模型与 Vera Rubin 命名
Image

1、Token 生产格局
1.1 OpenAI 与开源模型的关系
在当下的 Token 生态中,OpenAI 是“今天领先的 Token 生成者”,其生成的 Token 量位居第一,但从趋势来看,随着越来越多公司与研究团队参与、越来越多领域与模态被建模,开源模型的总 Token 产出很可能在长期内超过任何单一闭源体系,成为规模最大的 Token 生产群体。
1.2 Vera Rubin 命名的寓意
为了应对这一计算需求爆炸的时代,新一代超级计算机被命名为 Vera Rubin——这位美国天文学家通过星系旋转曲线的异常推断出“暗物质(Dark Matter)”的存在,也就是那种虽然不可见却主导宇宙结构的成分。以她的名字命名,象征着这台机器将成为观察和支撑“AI 计算暗物质”的关键基础设施。

07
Vera Rubin AI 超级计算机与极致协同设计
Image

1、爆炸式算力需求与“每年一代”的压力
1.1 计算爆炸的三重原因
AI 计算需求之所以呈现爆炸式增长,主要有三重原因:首先,根据 Scaling Laws,模型参数规模呈约 10 倍/年的节奏增长;其次,从 o1 开始,引入强化学习后训练和“测试时缩放”意味着预训练、后训练和推理三个阶段的计算量全部成倍增加;再次,AI 竞赛使得上一代模型的 Token 成本几乎每年降低 10 倍,各方为了保持竞争力不得不不断冲击更大更强的前沿模型。因此,唯一可行的路径就是每年推出一代新的最先进计算平台,而不能留出空档。
1.2 1.6 倍晶体管与协同设计极限
然而,受半导体物理与工艺限制,这一代到下一代的芯片晶体管数量大约只能增加到 1.6 倍,即便每个晶体管性能再提升一些,也难以直接支撑 10 倍模型规模与 5 倍 Token 需求的增长,因此必须采用“极致协同设计(Extreme Co-design)”,也就是在 CPU、GPU、DPU、网络交换机、机箱及冷却系统等所有关键组件上同时进行架构与系统级创新。这一代 NVIDIA 甚至打破了内部“不改超过一两个芯片”的传统,选择“重新设计每一个芯片”,正是基于这一压力判断。
2、Vera CPU 与 Rubin GPU
2.1 Vera CPU
Vera 是面向超级计算场景设计的新一代高性能 CPU,在受功耗限制的前提下,“性能是上一代的两倍”,通过 88 个物理核心、176 线程的空间多线程设计,使每个线程都能获得完整性能,并配合极高的 IO 带宽来支撑数据中心级工作负载。
2.2 Rubin GPU 与 NVFP4 Tensor Core(原文保留)
Rubin GPU 的浮点性能是 Blackwell 的 5 倍,而晶体管数量仅为 Blackwell 的 1.6 倍,其关键在于 NVFP4 Tensor Core 结构:
“我们芯片内部的 Transformer 引擎……是一个完整的处理器,一个处理单元,了解如何动态地、自适应地调整其精度和结构以处理 Transformer 的不同层级,以便你可以在可能损失精度的地方实现更高的吞吐量,并在你需要的地方回到尽可能高的精度。”
这使得芯片可以在 FP4、FP8 等低精度与高精度之间自动切换,以最大化吞吐量而不牺牲模型质量,从而在晶体管增幅有限的前提下实现数倍性能提升。
3、MGX 底盘与冷却革新
3.1 从“43 根电缆、2 小时”到“无电缆、5 分钟”
在系统层面,新一代 MGX 机箱将计算节点改造为“零电缆”结构,由背板与 NVLink Spine 完成所有互连,令组装时间从约 2 小时降至 5 分钟,极大简化制造和维护流程。
3.2 高温液冷与能效提升
冷却方面,从 80% 液冷演进到 100% 液冷,并使用 45°C 的“热水”来冷却超级计算机,使数据中心无需冷水机组,这不仅节省了基础设施投资,也提升了全局能效,据称可节约约 6% 的全球数据中心电力。
4、网络、光互连与 BlueField-4 KV 缓存
4.1 Spectrum-X 与 NVLink 6
网络层面,ConnectX-9 网卡与 Spectrum-X 以太网交换机针对 AI 工作负载进行重新设计,以适应 All-Reduce 等高并发、低延迟、瞬时流量剧烈波动的通信模式。第六代 NVLink Switch 使用每秒 400 Gbit 的 SerDes,这一速率远超业界 200 Gbit 水平,使单机架内总带宽达到约 240 TB/s,相当于“全球互联网横截面带宽的两倍多”,从而让“每一个 GPU 在完全相同的时间与每一个其他 GPU 对话”成为可能。
4.2 光电共封装交换机与两英里铜缆
为连接更大规模集群,新的 Spectrum-X AI 交换机采用与台积电共同开发的 COUPE 硅光子工艺,在芯片上集成了 512 个 200 Gbit 通道的光学接口,通过外部激光输入完成光电转换;机架背后的 NVLink Spine 则使用了约两英里、5000 根屏蔽铜缆,将从机架顶部到底部的所有 GPU 串联起来,构成高带宽、低延迟的机内网络。
4.3 BlueField-4 与 KV 缓存 / 上下文内存
在存储与上下文管理方面,传统做法是将 KV Cache(即 AI 的“工作记忆”)全部放在 GPU 的 HBM 中,但随着模型规模、对话轮次和用户数量持续增长,这一方案越来越难以支撑“AI 伴随用户一生”所需的长期上下文。为此,NVIDIA 在 Vera Rubin 的架构中引入 BlueField-4,专门构建紧邻计算节点的 Dynamo KV 缓存上下文内存系统:每个计算节点背后配备多个 BlueField-4 与大容量存储,为每个 GPU 提供额外 16 TB 上下文内存,并通过与计算节点相同速率的东西向网络直接连接,从而无需频繁占用数据中心南北向网络带宽。
5、Vera Rubin Pod 的综合指标与安全性
5.1 性能与能效
一个 Rubin Pod 由 16 个机架构成,总计 1152 个 Rubin GPU,相较上一代机架晶体管数量约增加 1.7 倍,但峰值推理性能提升约 5 倍、峰值训练性能提升约 3.5 倍。在训练 10 万亿参数、100 万亿 Token 的前沿模型时,相比 Blackwell,只需要约四分之一的系统就能在同样时间(约一个月)内完成训练。
5.2 Token 成本与数据中心经济性
在 Token 成本上,Rubin 相比 Hopper 降低了约一个数量级,这直接关系到大规模 AI 服务的单位成本。对于 500 亿美元级、1 吉瓦功耗的数据中心来说,每提升 10% 的实际吞吐量,就相当于释放出额外数十亿美元的可计费算力,而 Spectrum-X 与 Vera Rubin 的组合正是通过提高吞吐量与利用率,让网络和基础设施的边际成本大幅摊薄。
5.3 机密计算与功率平滑
安全与运维层面,这一代系统实现了机密计算安全(Confidential Computing):CPU 与 GPU 之间的 NVLink、GPU 之间互连、PCIe 总线以及数据在存储与传输过程中的各个阶段全部加密,从而使模型与数据即便由第三方运营也不会泄露。同时,系统级 功率平滑(Power Smoothing) 技术吸收了 AI 负载在 All-Reduce 等阶段产生的瞬时功率峰值,使数据中心无需为 25% 的功率峰值过度预留电力容量,既减少了浪费,又提高了整体功率预算的利用率。

08
总结:NVIDIA 的角色与未来愿景
Image

1、从“做芯片”到“做全栈”
1.1 五层蛋糕的垂直整合
综合来看,AI 被描述为一个完整的五层栈,从土地、电力与机房,到芯片、基础设施、模型再到应用,而 NVIDIA 的角色已经远远超出“做 GPU”的范畴——“NVIDIA 现在制造整个系统。AI是一个全栈。我们正在重新发明 AI,从芯片到基础设施,到模型,到应用程序的一切。”
1.2 使命与生态
在这样的定位下,其使命被概括为:“我们的工作是创建整个堆栈,以便你们所有人都可以为世界其他地方创建令人难以置信的应用程序。”通过开源前沿模型、开源工具链、与产业深度合作以及每年一代的计算平台演进,NVIDIA 希望推动从云端数字智能到物理 AI、从屏幕界面到机器人和工厂的全面变革。
2、收尾与展望
2.1 产业重塑与“物理 AI 时代”
从企业 AI 智能体,到自动驾驶汽车与各类机器人,再到完全数字孪生的工厂,这场变革被描述成一场由 AI Agents 与物理 AI 共同驱动的“新工业革命”,而 NVIDIA 则试图通过全栈开源与极致协同设计,为这场革命提供底层算力与工具。
2.2 对未来的邀请
在 CES 演讲的尾声,整场主题回到一个开源姿态:借助开源模型和工具,每一家企业、每一位开发者乃至每一个国家都可以构建属于自己的智能体和机器人系统,并共同进入一个由 AI 重新发明计算与工业的新时代。

09
术语解释
Image

Transformer
Transformer 是一种专为处理序列数据(尤其是自然语言)而设计的神经网络结构。它的核心在于“注意力机制”,即模型在处理某个词时,会根据需要自动关注同一句话中其他所有词,并根据相关性分配权重,从而获得更准确的上下文理解。与过去需要按顺序逐词处理的网络结构不同,Transformer 可以同时处理整段文本,因此训练和推理速度都大幅提升。
Transformer 的内部由多个重复的层组成,每层包括自注意力机制和前馈网络,并通过残差连接和归一化保持稳定性。这样的结构使得模型能够捕捉短距离和长距离的语言关系,也使它很容易扩展规模——增加层数、增加宽度、增加注意力头,模型的能力就能持续稳步增强。
由于这种架构天然支持并行计算、适合大规模训练,并且能处理多种类型的数据(文字、图像、音频、视频等都可序列化),它已经成为大多数当前主流大模型(包括 ChatGPT、Claude、DeepSeek 等)的基础。Transformer 的出现,是现代大型语言模型和多模态模型快速进步的关键技术基础。
Scaling Laws(缩放定律)
经验规律:在一定范围内,增加模型规模、数据量和算力,模型性能会按可预测的曲线持续提升。
推理模型(Reasoning Model)
推理模型(Reasoning Model)是一类在设计和训练时专门强化“多步思考”和“逻辑推断”能力的大模型。它和普通大模型一样可以生成文本、写代码、回答问题,但重点不在“回答得多快、多长”,而在于回答之前能不能先想清楚,在复杂任务上给出更可靠的结论。
这类模型通常会在训练和使用阶段都加入针对推理的设计,比如:让模型在内部先分解问题、规划步骤、进行多轮尝试,再综合这些中间结果输出最终答案;在训练时,用强化学习、评测题集等方式,对“推理过程是否合理、结论是否正确”进行专门优化。这样一来,它在数学题、逻辑题、代码分析、复杂决策、长文档理解等场景下,表现会明显优于只做“快速生成”的普通模型。
因此,可以把推理模型理解为:在同样的大模型基础上,对“思考链条”和“正确性”进行了重点强化的一个方向。它的目标不是简单增加输出内容,而是让模型在需要推理的任务上更严谨、更稳、更少犯低级错误,哪怕为此牺牲一部分速度或计算成本。
测试时缩放(Test Time Scaling)
测试时缩放(Test Time Scaling)指的是:在不改变模型参数、不重新训练的前提下,通过增加推理阶段的计算量来提升答案质量。具体做法是让模型在回答前进行更多内部思考步骤,比如尝试多条推理路径、生成更多中间方案、进行更长的思维链,然后从这些候选结果中选择最合理的一项。
它的本质是把部分“推理能力”放在使用阶段完成:训练结束后,模型虽然结构固定,但只要给予它更多计算,它就能在内部反复推敲、纠错、重构过程,从而得到更可靠的输出。这样一来,即使是同一个模型,也可以在“快速模式”和“高质量模式”之间切换——前者少思考快速回答,后者多思考提升正确率。
因此,测试时缩放是一种用额外算力换质量的机制,使模型在复杂推理任务上表现更好,而无需进行昂贵的再训练或增大模型规模。
强化学习(Reinforcement Learning, RL)
模型在环境中尝试行为,根据“奖励/惩罚”信号来调整策略,从而学会完成目标任务的一种训练方式。
Chain of Thought(思维链)
在输出答案之前或同时,让模型先写出一连串中间推理步骤,以提高正确率,并便于检查过程。
幻觉(Hallucination)
模型给出了不符合事实的内容,但语气非常肯定。本质上是:模型“编造”了看起来合理但实际不真实的信息。
Grounding(以外部信息为依据)
在回答之前,先从外部数据源(网页、数据库、文档等)检索信息,再基于这些信息生成答案,从而减少幻觉。
开源模型 / 开放模型(Open Source/Open Models)
模型的代码、参数或训练方法公开,允许他人下载、修改、再训练或本地部署。
前沿模型(Frontier Models)
在某一时间点上,处于行业性能最强、规模最大、最先进的一批模型。
AI Agent / Agentic Systems(智能体 / 代理系统)
AI Agent(智能体)或 Agentic System(代理系统)指的是一种能自主执行任务的完整 AI 系统。它不仅能理解用户给出的自然语言指令,还具备分解任务、规划步骤、调用适合的工具或模型、访问外部数据源,并根据执行结果继续调整行动的能力。因此,它的工作方式不是“问一句、答一句”,而是围绕目标自动完成一系列连续流程。
一个完整的 AI Agent 通常包括四类能力:
理解意图:识别用户真正想做什么,而不是字面含义。

  1. 制定计划:把任务拆成可执行的步骤,并安排先后顺序。
  2. 执行行动:调用其他模型、查询数据库、使用 API 或软件工具。
  3. 自我反馈:根据执行结果判断是否成功,若未达成目标会自动尝试下一步或调整策略。

这种系统的目标不是生成文本,而是完成实际任务。例如:整理邮件、处理日程、写代码并调试、分析文件、自动下单、监控设备、在机器人中执行物理操作等。简单说,AI Agent 让模型从“对话工具”变成“可以替你做事的数字工作者”。
多模态(Multi-modal)
多模态指的是一个模型或系统能够同时接收、理解与生成多种类型的数据,而不仅仅局限于文字。例如,它可以在同一次处理过程中同时理解文本内容、识别图像中的物体、听懂语音、分析视频帧,甚至处理 3D 场景或传感器数据。多模态的关键点在于:不同模态的信息会在模型内部统一表示并相互关联,使系统能够理解跨模态的语义关系,并根据多种输入形式生成自然一致的输出。因此,多模态模型能支持图文结合的问答、视频内容分析、图像生成、语音指令操作等更丰富的智能场景。
多模型(Multi-model)
多模型指的是一个 AI 系统内部会同时使用多个不同的大模型或专用模型,每个模型负责特定类型的任务,然后由系统根据需求自动协调和组合它们。例如,一个模型专长写代码,一个擅长语音识别,一个擅长图像理解,另一个擅长进行长链条的逻辑推理;系统接收到用户请求后,会判断任务性质,选择合适的模型执行,并将多个模型的结果整合成最终输出。这样做的好处是充分发挥每个模型的专长,而不是让一个通用模型处理所有工作,使系统整体表现更强、更灵活,并能在不同业务场景之间高效切换。
多云(Multi-cloud)
同一个应用或系统使用多个云服务商或多个云环境的计算资源。
混合云(Hybrid Cloud)
部分工作在公有云上执行,部分在本地机房、企业内部或边缘设备上执行,两者协同。
智能路由器(Smart Router,模型路由)
系统中的一个组件,负责根据用户请求的内容和意图,自动选择合适的模型或流程来处理。
Blueprint(蓝图)
NVIDIA 提供的一套标准化框架和参考实现,用来快速搭建 AI Agent 应用(包括调用模型、工具、路由、部署等完整结构)。
物理 AI(Physical AI)
主要作用在物理世界的 AI,比如控制机器人、自动驾驶、工厂设备等,需要理解空间、物体、运动和物理规律。
AI 物理学(AI Physics)
用 AI 来学习和表示物理世界的规律(如运动、碰撞、流体、天气等),并用于模拟、预测或控制实际系统。
数字孪生(Digital Twin)
在计算机中建立一个与现实世界实体(工厂、城市、设备等)高度对应的虚拟模型,用于模拟、监控和优化现实中的运行。
Omniverse
NVIDIA 的一个平台,用来搭建数字孪生和物理模拟环境,可以在里面建“虚拟工厂”“虚拟城市”“虚拟机器人环境”等。
Cosmos(世界基础模型)
NVIDIA 的一个“世界模型”:
它通过视频、传感器数据和 3D 场景,学习如何描述和预测真实世界中的变化,用来做场景生成、轨迹预测、模拟等。
合成数据(Synthetic Data)
不是从现实中采集,而是用程序或模拟器生成的数据,用来补充训练样本,特别是现实中很难收集到的极端场景。
端到端训练(End-to-End Training)
从输入到输出中间不人为拆成多个独立模块,而是让一个整体模型一起训练,让它直接学习“从原始输入到最终输出”的映射关系。
长尾问题(Long Tail)
在自动驾驶等领域,指各种罕见、极端、不常见但又必须处理好的特殊场景(例如奇怪的路况、非常少见的情况)。
Robo Taxi(Robotaxi,自动驾驶出租车)
没有人类司机,车辆完全由自动驾驶系统控制,用来提供载客出行服务的车辆。
DGX / DGX Cloud
NVIDIA 的 AI 服务器(DGX)以及基于这些服务器提供的云端算力服务(DGX Cloud),专门面向训练和运行大模型。
Grace / Vera(CPU 系列)
NVIDIA 自家的高性能 CPU 产品家族名称,Vera 是更新的一代,主要用于与 NVIDIA 的 GPU 组合成 AI 专用服务器。
Hopper / Blackwell / Rubin(GPU 架构系列)
NVIDIA 不同代的高端 GPU 架构名称:
Hopper:上一代
Blackwell:下一代
Rubin:再下一代,更高性能
NVLink
NVIDIA 的高速连接技术,用于在 GPU 和 GPU 之间,或 CPU 与 GPU 之间传输数据,比普通 PCIe 更快。
Spectrum-X
NVIDIA 的一套专为 AI 数据中心设计的以太网交换机与网络方案,用来在大规模服务器之间传输数据。
BlueField(DPU)
NVIDIA 的数据处理单元(DPU),用来处理网络、存储、安全等任务,减轻 CPU/GPU 的负担,也能做专用的数据管理工作,比如 KV 缓存。
KV Cache(KV 缓存)
在大模型推理过程中,为了加快后续 Token 的计算,会把中间计算结果以“键-值”形式存起来,这个存储区就叫 KV 缓存,是模型的短期工作记忆。