黄仁勋CES演讲:黑威尔芯片与AI Agent的未来
在今天上午开幕的 CES 2025 上,英伟达的创始人兼 CEO 黄仁勋带来了一场标志性的主题演讲,揭示了 AI 和计算的未来。演讲涵盖从生成 AI 的核心 Token 概念,到全新 Blackwell 架构的 GPU 发布,以及 AI 驱动的数字化未来,这些内容将以跨领域的视角深刻影响整个行业。
1)新时代的开启:从生成式 AI 到 Agentic AI 🚀
-
Token 的重要性:作为生成 AI 的核心驱动力,token 不仅将文字转化为知识,还赋予图像生命,开启了全新的数字表达方式。
-
AI 的进化之路:技术不断进步,从感知 AI、生成 AI 到能够推理、规划和行动的 Agentic AI,AI 技术不断跨越新高度。
-
Transformer 的变革:自 2018 年推出以来,这一技术重新定义了我们的计算方式,彻底颠覆了传统技术栈。
2)Blackwell GPU:性能极限的突破 💪
-
新一代 GeForce RTX 50 系列:基于 Blackwell 架构,拥有920亿晶体管、4000 TOPS AI 性能和4 PetaFLOPS 算力,性能是前代的三倍。
-
AI 与图形的完美结合:首次实现可编程着色器与神经网络的结合,推出神经纹理压缩与材质着色技术,带来惊艳的渲染效果。
-
高性能普及:RTX 5070 笔记本以 $1299 的价格达到 RTX 4090 的性能,推动高性能计算的普及。
3)AI 应用的多领域扩展 🌍
-
企业级 AI Agent:NVIDIA 提供如 Nemo 和 Llama Nemotron 等工具,帮助企业构建自主推理的数字员工,实现智能化管理与服务。
-
Physic AI 的崛起:通过 Omniverse 和 Cosmos 平台,AI 在工业、自动驾驶和机器人领域的应用,重新定义全球制造和物流。
-
未来计算场景: NVIDIA 正在将 AI 从云端搬到个人设备与企业内部,涵盖了从开发者到普通用户的各种需求。
黄仁勋的演讲亮点:
这里就是智慧的发源地,一座全新的工厂——生成 token 的发电机。它是 AI 的基础构件,开辟了新领域,迈出了进入非凡世界的第一步。token 能将文字转化为知识,为图像注入灵魂;它们把创意化为视频,帮助我们安全穿梭于各种环境;教会机器人像专家一样灵活移动,并激发我们以全新方式庆祝成功。在我们最需要的时候,token 更能带来内心的宁静。它们赋予数字以意义,帮助我们更好地理解世界,预见潜在危险,并寻找内心威胁的解决之道。让我们的梦想成为现实,修复失去的一切。
AI 的旅程始于 1993 年,当时英伟达推出了首款产品——NV1。我们的目标是创造能够完成普通电脑无法实现的任务的机器,这使得在 PC 上运行游戏成为可能。接着在 1999 年,英伟达推出了可编程 GPU,开启了超过 20 年的技术进步,现代计算机图形学由此诞生。六年后,推出了 CUDA,通过丰富的算法展现 GPU 的可编程性。这项技术起初难以理解,但到 2012 年,AlexNet 的成功证明了 CUDA 的潜力,推动了 AI 的飞速发展。
从那以后,AI 发展迅猛。从感知 AI 到生成式 AI,再到具备感知、推理、规划和行动能力的 Agentic AI,AI 的能力一路飙升。2018 年,谷歌发布 Transformer,AI 领域真正起飞。Transformer 不仅彻底改变了 AI 的格局,也重新定义了计算的整体生态。我们意识到,机器学习不仅是新的应用或商业机会,它是计算方式的根本性变革。从手动指令到用机器学习优化神经网络,技术栈的每一层都经历了巨变。
如今,AI 的应用已无处不在。无论是理解文字、图像、声音,还是翻译氨基酸与物理学,AI 都能轻松应对。几乎所有的 AI 应用都可以归结为三个核心问题:它学习了什么模态的信息?翻译成了什么模态的信息?生成了什么模态的信息?这一基本概念推动着每一个 AI 驱动的应用前行。✨ 所有这些成就可都离不开 GeForce 的鼎力支持哦!😎 GeForce 把 AI 推向了大众,而现在,AI 又回馈给了 GeForce。借助于实时光线追踪技术,我们可以渲染出惊艳的图形效果。通过 DLSS,AI 甚至可以预测未来的画面,超越帧的生成。在 3300 万像素中,只有 200 万像素是计算得出的,其余的全靠 AI 预测生成。这种神奇的科技,展现了 AI 的强大实力,让计算变得更高效,未来的无限可能也在向我们招手。
这就是为什么最近发生了这么多令人惊叹的事情。我们利用 GeForce 推动了 AI 的发展,而现在,AI 正在彻底改变 GeForce。今天,咱们隆重推出下一代产品——RTX Blackwell 家族。让我们一同探索一下吧!
全新的 GeForce RTX 50 系列,基于 Blackwell 架构,简直是一台性能怪兽!💪 拥有 920 亿晶体管、4000 TOPS 的 AI 性能和 4 PetaFLOPS 的 AI 算力,性能比上一代 Ada 架构提升了三倍。所有这一切,都是为了生成那些我刚才展示的惊人像素。另外,它还提供 380 光线追踪 Teraflops,确保每个需要计算的像素都能呈现出极致美丽的画质,同时还有 125 着色 Teraflops。这款显卡采用了 Micron 的 G7 显存,速度高达每秒 1.8TB,性能是前一代的两倍。
现在我们可以把 AI 工作负载与计算机图形工作负载结合在一起。这一代产品的非凡之处在于可编程着色器也能处理神经网络。于是,我们发明了神经纹理压缩和神经材质着色。这些技术通过 AI 学习纹理和压缩算法,最终生成了只有 AI 才能创造的惊艳图像效果。🌟
就连机械设计方面,这款显卡也是个奇迹。它采用了双风扇设计,整个显卡就像一个巨大的风扇,内部电压调节模块更是先进无比。这些卓越的设计,完全得益于工程团队的辛勤努力。
接下来是性能对比。大家都熟悉的 RTX 4090,售价 $1599,是家用 PC 娱乐中心的核心。而现在,RTX 50 系列不仅性能更高,起价仅为 $549,从 RTX 5070 到 RTX 5090,性能是 RTX 4090 的两倍!🔥 更让人咋舌的是,这款高性能 GPU 居然能塞进笔记本里!💻 RTX 5070 笔记本定价 $1299,但性能竟然媲美 RTX 4090。这种设计巧妙地将 AI 与计算机图形技术结合,真是实现了高效与高性能的完美共舞。
未来的计算机图形学将迎来神经渲染的时代——AI 和计算机图形的深度融合。Blackwell 系列甚至能在仅有 14.9 毫米厚的笔记本中实现,从 RTX 5070 到 RTX 5090 的全系列产品都能适配超薄设备,真是让人眼前一亮!
GeForce 在推动 AI 普及的同时,如今 AI 又彻底改变了 GeForce。这是技术与智能的良性互动,我们正朝着更高的境界迈进。🚀
AI 的三种 Scaling Law
接下来,聊聊 AI 的发展方向吧。
- 预训练 Scaling Law
AI 行业正加速扩展,这一进程的推动者是一种被称为“Scaling Law”的强大模型。这条经验法则经过研究人员和产业界的反复验证,表明训练数据、模型规模和计算能力的投入越多,模型的能力就越强。
数据增长速度像坐火箭一样,预计在未来几年,人类每年产生的数据量将超过过去历史上所有数据的总和。这些数据越来越多样化,包括视频、图像和声音等形式,为 AI 打下了坚实的知识基础。📊
- 后训练 Scaling Law
除了第一种 Scaling Law,还有两种新兴的 Scaling Law。
第二种是“后训练 Scaling Law”,涉及强化学习与人类反馈。AI 通过人类的提问生成答案,并通过人类的反馈不断改进。这种强化学习系统借助高质量的提示,帮助 AI 精进特定领域的技能,比如更擅长解决数学问题或进行复杂推理,真是太酷了!✨ AI 的未来,不仅是感知和生成哦,而是一个自我完善、突破极限的旅程✨。就像有个超级教练,在你完成任务后给出反馈。通过测试、反馈和自我改进,AI 也能通过强化学习和反馈机制不断进步。这种后训练阶段的强化学习,结合合成数据生成,简直就像是在自我练习。AI 面对复杂的验证性难题,比如证明定理或解决几何问题,可以通过强化学习不断优化答案。虽然这个后训练需要强大的计算能力,最终却能造出超凡的模型。
测试时间 Scalling Law
测试时间 Scalling Law 也悄然显露出它的潜力💡。在 AI 实际应用中,这一法则展现了独特的魅力。AI 不再仅仅局限于参数优化,而是可以在推理时动态分配资源,从而专注于计算分配,提供高质量答案。
这个过程就像是推理思考,而不是简单的直接推断或一次性回答。AI 能把问题拆分成多个步骤,生成一堆解决方案然后评估,最后挑选出最优方案。这种长时间推理在提升模型能力上效果显著。
从 ChatGPT 到 GPT-4,再到现在的 Gemini Pro,我们看到技术的演变。这些系统经历了预训练、后训练和测试时间扩展的逐步发展,而实现这些突破需要巨大的计算能力,正是英伟达 Blackwell 架构的核心魅力所在。
Blackwell 架构最新介绍
Blackwell 系统正在全力生产,其性能让人惊叹😲。如今,每家云服务提供商都在部署这些系统,全球 45 家工厂齐心协力,支持多达 200 种配置,包括液冷、风冷、x86 架构和英伟达 Grace CPU 版本等。
其核心组件 NVLink 系统本身重达 1.5 吨,拥有 60 万个零件,复杂程度堪比 20 辆汽车,背后连接着 2 英里长的铜线和 5000 根电缆。整个制造过程极其复杂,但目标就是满足不断扩大的计算需求🚀。 在新一代架构中,Blackwell 实现了每瓦性能提升 4倍,每美元性能提升 3倍。这意味着,企业在相同投资下,模型训练规模可以扩展 3倍。这些提升的秘密武器是 AI token,它们在 ChatGPT、Gemini 及各类 AI 服务中广泛应用,成为未来计算的基石。
与此同时,英伟达 推出了全新的计算模式:神经渲染,将 AI 与计算机图形学完美结合。基于 Blackwell 架构的 72 块 GPU 形成了全球最大的单芯片系统,提供高达 1.4 ExaFLOPS 的 AI 浮点性能,内存带宽更是高达 1.2 PB/s,相当于全球所有互联网流量的总和。这种超级计算能力使得 AI 能够处理更复杂的推理任务,同时大幅降低成本,为高效计算奠定基础。💪
AI Agent 系统与生态
展望未来,AI 的推理过程将不再是简单的单步响应,而是更像是“内部对话”。未来的 AI 不仅能生成答案,还能进行反思、推理,不断优化。随着 AI token 的生成速度提升和成本降低,AI 的服务质量将显著增强,能满足更广泛的应用需求。🚀
为了帮助企业打造具备自主推理能力的 AI 系统,英伟达 提供了 三个关键工具:英伟达 NeMo、AI 微服务 和 加速库。将复杂的 CUDA 软件和深度学习模型容器化后,企业能够在任意云平台上部署这些 AI 模型,快速开发特定领域的 AI Agent,比如支持企业管理的服务工具或用户交互的数字员工。
这些模型为企业开辟了新的可能性,不仅降低了 AI 应用的开发门槛,也推动整个行业在 Agentic AI(自主 AI)方向上迈出了坚实的一步。未来的 AI 将成为数字员工,能轻松集成到 SAP、ServiceNow 等企业工具中,在不同环境为客户提供智能服务。这是 AI 扩展的下一个里程碑,也是 英伟达 技术生态系统的核心愿景。🌟 训练评估系统🚀
AI Agent 人未来会成为员工的得力助手,像数字化劳动力一样高效。引入这些专业化的 Agent 就像为新员工办理入职手续。我们提供多种工具,帮助 AI Agent 学习公司特有的语言、词汇、业务流程和工作方式。只需给他们工作成果示例,他们就能尝试生成相关内容,而你则可以提供反馈和评估。同时,你还可以设定限制,明确哪些操作是禁忌,哪些信息是不可访问的。这整个数字员工流程被称作 Nemo,IT 部门在这其中将扮演 AI Agent 的 HR 角色。
IT 部门目前管理着大量软件,未来则要负责培养和入职更多数字 Agent,服务于公司。换句话说,IT 部门将逐渐转型为 AI Agent 的 HR 部门。
我们还提供了许多开源蓝图,供生态系统使用,用户可以自由修改。这些蓝图覆盖各种类型的 Agent。今天,我们宣布了一个激动人心的消息:推出基于 Llama 的全新模型家族——英伟达 Llama Nemo Tron 语言基础模型系列。
Llama 3.1 是个现象级模型,Meta 的下载量已达约 3.5 亿次,并衍生出约 6 万种其他模型。这也是推动几乎所有企业和行业研究 AI 的重要原因之一。我们意识到 Llama 模型可以为企业用例提供更好的微调。借助我们的专业知识和能力,我们将其微调为 Llama Nemotron 开放模型套件。
这些模型有不同的规模:小型模型响应迅速;主流的超级模型 Super Llama Nemotron 适合常规用途;而超大型模型 Ultra Model 则可以作为教师模型,用于评估其他模型、生成答案并判断其质量,或者用于知识蒸馏。所有这些模型现已上线,表现出色,在对话、指令和信息检索等领域的排行榜上名列前茅,特别适合全球范围内的 AI Agent 功能。🌍✨ 在生态合作方面,我们与 ServiceNow、SAP、Siemens 等公司紧密合作,特别是在工业 AI 领域。Cadence 和 Perplexity 等公司也在进行一些惊人的项目。Perplexity 正在重新定义搜索体验,而 Codium 则为全球 3,000 万软件工程师提供服务。AI 助手的崛起将大幅提升软件开发者的生产效率,成为 AI 服务下一个巨大的应用领域。全球有 10 亿知识工作者,AI Agent 有望成为下一个机器人行业,潜力可达数万亿美元。
🔍 AI Agent 蓝图
现在,让我们来看看与合作伙伴共同打造的 AI Agent 蓝图。
AI Agent 是一种新型数字劳动力,能够协助或替代人类完成各类任务。英伟达的 Agentic AI 构建模块、NEM 预训练模型和 Nemo 框架,使得组织可以轻松开发和部署 AI Agent。这些 Agent 可被训练成特定领域的任务专家。
以下是四个具体示例:
-
研究助理 Agent:能阅读复杂文档,如讲座、期刊、财务报告等,并生成交互式播客,方便学习;
-
软件安全 AI Agent:帮助开发者实时扫描软件漏洞,并建议相应的修复措施;
-
虚拟实验室 AI Agent:加速化合物设计与筛选,迅速找到潜在药物候选者;
-
视频分析 AI Agent:基于英伟达 Metropolis 蓝图,分析来自数十亿摄像头的数据,生成交互式搜索、摘要和报告。例如,监控交通流量、设施流程,并提供改进建议等;
🌌 物理 AI 时代的到来
我们希望将 AI 从云端扩展到每个角落,包括公司内部和个人电脑。英伟达正在积极将 Windows WSL 2(Windows 子系统)转变为首选的 AI 支持平台。这将使开发者和工程师更便捷地利用英伟达的 AI 技术栈,包括语言模型、图像模型、动画模型等。
此外,英伟达推出了 Cosmos,这是首个物理世界基础模型开发平台,专注于理解物理世界的动态特性,如重力、摩擦、惯性、空间关系和因果关系等。它可以生成符合物理规律的视频和场景,广泛应用于机器人、工业 AI 和多模态语言模型的训练与验证。 cosmos 通过连接英伟达的 omniverse,提供超真实的物理仿真,模拟结果信手拈来。这可真是机器人和工业应用开发的核心技术呀!
英伟达的工业战略围绕三个计算系统展开:
- dgx 系统:用于训练 AI;
- agx 系统:用于部署 AI;
- 数字孪生系统:强化学习和 AI 优化的好帮手;
这三者的协同作用,推动了机器人和工业 AI 的快速发展,助力构建未来的数字世界。说这不是三体问题,而是我们有个「三计算机」解决方案,真是太酷了!
英伟达的机器人愿景,下面给你举三个精彩例子吧。
1)工业可视化的应用
全球有数百万工厂和数十万个仓库,构成了价值 50 万亿美元的制造业骨架。未来,这一切都得实现软件定义、自动化,并与机器人技术相结合。我们与顶尖仓库自动化解决方案提供商 keon 和全球最大专业服务公司 accenture 合作,专注于数字化制造,携手创造独特解决方案。我们的推广方式类似于其他软件和技术平台,通过开发者和生态系统合作伙伴逐渐展开,越来越多的生态伙伴加入了 omniverse 平台。大家都想可视化工业的未来嘛!在这 50 万亿美元的全球 GDP 中,有大量浪费和自动化机会等着挖掘。
看看 keon 和 accenture 与我们的合作示例:
keon(供应链解决方案公司)、accenture(全球专业服务领军者)和英伟达正在将物理 AI 引入万亿美元的仓库和配送中心市场。高效管理仓库物流,得应对复杂的决策网络,这些决策受到每日及季节性需求变化、空间限制、劳动力供应等变量的影响。而且,各种机器人和自动化系统的整合也是考验之一。如今,预测物理仓库的运营关键绩效指标(KPIs)几乎是个不可能的任务。 为了解决当前面临的挑战,Keon 正在利用 Mega(英伟达 Omniverse 的蓝图)来打造工业数字孪生,以便测试和优化其机器人车队。🤖
- 任务管理:Keon 的仓库管理系统负责将任务分配给数字孪生中的工业 AI 大脑,比如把货物从缓冲区移动到穿梭存储。
- 模拟与执行:在 Omniverse 的物理仓库模拟环境中,机器人车队通过感知与推理来执行任务,规划下一步并付诸行动。
- 实时反馈:数字孪生环境中使用的传感器模拟,让机器人大脑能看到任务执行后的状态,从而决定接下来的动作。
- 持续优化:在 Mega 的精确追踪下,整个循环持续进行,同时监测操作 KPI(如吞吐量、效率和利用率),所有这些都在对物理仓库进行改动之前完成。
得益于与英伟达的合作,Keon 和 Accenture 正在重新定义工业自治的未来。✨
未来的工厂将拥有一个与实际工厂完全同步的数字孪生。利用 Omniverse 和 Cosmos,生成大量未来场景,AI 将基于这些场景优化 KPI,并将其作为实际工厂部署的约束条件和编程逻辑。
自动驾驶汽车的新时代 🚗
自动驾驶革命已经开启。经过多年发展,无论是 Waymo 还是 Tesla 的成功,都证明了自动驾驶技术的成熟。我们的解决方案为这一行业提供了三种计算机系统:
- 训练 AI 的系统(如 DGX 系统)
- 用于模拟测试和生成合成数据的系统(如 Omniverse 和 Cosmos)
- 车内计算机系统(如 AGX 系统)
几乎所有主要汽车公司都与我们合作,包括 Waymo、Zoox、Tesla,甚至是电动车巨头 BYD。还有即将推出创新车型的 Mercedes、Lucid、Rivian、小米和沃尔沃等公司。Aurora 则在利用英伟达技术研发自动驾驶卡车。
全球每年制造 1 亿辆汽车,路上行驶着 10 亿辆汽车,每年行驶的总里程高达万亿英里。🚀 这一行业将逐渐实现高度或完全自动化,预计将成为首个价值数万亿美元的机器人行业。 今天,微小发报道推出了下一代车载计算机——Thor!🚀 它是一款超级通用的机器人计算机,能处理来自摄像头、高分辨率雷达和激光雷达等传感器的海量数据。Thor 作为行业标准 Orin 的升级版,计算能力提升了整整 20 倍,而现在已经全面量产。更酷的是,英伟达的 Drive OS 是首个获得功能安全最高标准(ISO 26262 ASIL D)认证的 AI 计算机操作系统哦。
自动驾驶数据工厂
微小发报道,英伟达通过 Omniverse AI 模型和 Cosmos 平台,打造了一个自动驾驶数据工厂,借助合成驾驶场景,极大地扩展了训练数据。这项技术包括:
- OmniMap:将地图和地理空间数据融合,构建可驾驶的 3D 环境;
- 神经重建引擎:利用传感器日志生成高保真的 4D 仿真环境,创造训练数据的场景变体;
- Edify 3DS:从资产库中搜索或生成新资产,创建用于仿真的场景。
借助这些技术,几千个驾驶场景被转化为数十亿英里的数据,为更安全、更先进的自动驾驶系统开发提供支持。🌟
通用机器人
通用机器人的时代已经悄然来临,而训练是推动这一领域突破的关键。对人形机器人来说,模仿数据的获取相对困难,但英伟达的 Isaac Groot 提供了完美的解决方案。它通过模拟生成海量数据集,并结合 Omniverse 和 Cosmos 的多宇宙仿真引擎,进行政策训练、验证与部署。
比如,开发者可以通过 Apple Vision Pro 远程操控机器人,捕捉数据而无需实体机器人,并在无风险环境中进行教学任务。借助 Omniverse 的领域随机化和 3D 到真实场景扩展功能,生成了指数级增长的数据集,为机器人的学习提供了丰富的资源。🤖
无论是工业可视化、自动驾驶,还是通用机器人,英伟达的技术正在引领物理 AI 和机器人领域的未来变革。✨
最后,我还想提到一个重要项目,所有这些成就都得益于我们十年前在公司内部启动的 Project Digits,完整名称是 Deep Learning GPU Intelligence Training System(深度学习 GPU 智能训练系统),简称 Digits。 在正式推出之前,微小发报道了解到,我们对 DGX 进行了优化,使其与公司内部的 RTX、AGX、OVX 及其他系列产品协调一致。DGX1 的出现真的是 AI 发展史上的一大转折点,也是英伟达在 AI 领域的一次重要里程碑。
DGX1 的革命性🌟
DGX1 的设计初衷就是为研究人员和初创企业提供开箱即用的 AI 超级计算机。想象一下,以前的超级计算机,用户得自己搭建专属的设施,设计复杂的基础设施才能使用。而 DGX1 则是为 AI 开发量身定制的超级计算机,用户只需开箱就能使用,省去了繁琐的设置。
我记得 2016 年第一次把 DGX1 交给初创公司 OpenAI 的那一刻,埃隆·马斯克、伊利亚·苏茨科维尔,以及英伟达的工程师们都在场,大家欢庆 DGX1 的到来。这台设备显著推动了 AI 计算的发展。
现在,AI 已经渗透到各个领域。不仅仅局限于研究机构和初创企业的实验室,正如我之前提到的,AI 现已成为一种全新的计算方式和软件开发方式。每位软件工程师、创意艺术家,甚至是普通用户,都需要一个 AI 超级计算机。不过,我一直希望 DGX1 能更小巧一些。
最新 AI 超级计算机🚀
微小发报道带来英伟达最新的 AI 超级计算机,它依然属于 Project Digits,目前我们还在寻找更好的名字,欢迎大家提出建议。这是一台绝对令人惊叹的设备。
这款超级计算机支持英伟达完整的 AI 软件栈,包括 DGX Cloud。它不仅可以作为云端超级计算机使用,还能作为高性能工作站,甚至可以放在桌面上作为分析工作站。最重要的是,它基于我们秘密研发的新芯片,代号 GB110,这可是我们制造的最小型 Grace Blackwell。
我手里有一块芯片,给大家展示一下它的内部设计。这款芯片是与全球领先的 SoC 公司联发科合作开发的,专为英伟达定制,利用 NVLink 芯片互连技术连接到 Blackwell GPU。这款小巧的芯片现在已经开始全面投产,预计这款超级计算机将在 5 月正式上市!
-
双倍算力配置上线啦!通过 ConnectX 连接设备,支持 GPU 直通(GPUDirect)技术,完美满足 AI 开发、分析工作和工业应用的各种需求,简直就是超级计算的完美解决方案!💥
-
重点来了!三款全新 Blackwell 系统芯片正式量产,同时推出全球首个物理 AI 基础模型,三大机器人领域的突破也不容小觑——自主 AI Agent 机器人、人形机器人以及自动驾驶汽车,未来就在眼前!🤖🚗✨