追赶FSD V14，理想在补哪些课？｜最前线

近年来，智能驾驶行业竞争的焦点经历了数次显著转变。最初，竞争围绕硬件展开，包括是否配备激光雷达、安装多少个摄像头以及算力需要达到多少 TOPS。随后进入大模型时代，竞争转向了端到端、VLA（视觉-语言-行为）以及 World Model（世界模型）等技术路线。如今，越来越多的公司认识到，仅拥有更大的模型已不足以形成代际优势，真正决定技术上限的是模型、数据、算力和芯片之间能否构建一个持续优化的闭环。这也是为何愈发多的汽车制造商选择自主研发。特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo和自研芯片的全部环节。在国内，小鹏、蔚来以及理想等品牌也在不断向更底层技术延伸。在今年推出的 L8 和 L9 车型上，理想已采用了自研的马赫 M100 芯片，该芯片采用了数据流架构，被理想视为人工智能领域的重要技术方向。此外，理想还在马赫 M100 上运行了自研的马赫 VLA 模型。然而，对于整个行业而言，更值得关注的问题并非“是否进行自主研发”，而是这些投入究竟能解决哪些实际问题。带着这一疑问，我们采访了理想汽车自动驾驶负责人詹锟和芯片负责人谢炎。他们分享了理想对下一代自动驾驶技术路线的判断，并阐述了自研芯片、数据体系及 AI 基础设施背后的设计理念。以下为访谈的部分内容摘要，经过编辑整理：

问：在第四季度达到特斯拉 FSD V14 的效果，理想汽车还需要在哪些方面努力？

詹锟： 我认为追赶 FSD 主要体现在两个层面。首先是基础体验，具体包括三个维度：安全感、效率和舒适度是否能达到 FSD 的同等水平。FSD 在安全感、效率和舒适度方面表现出色，这是其核心优势。我可能不一定会去挑战高难度的驾驶场景，但要在这些基础体验上达到同等水平。其次是能力层面，这同样难以追赶。例如，特斯拉能够识别并礼让特殊车辆，能在极窄的通行环境中实现精准感知，并能理解交警的指挥，这些能力非常强大。在能力层面，存在架构升级的机会。为什么其他公司没有而特斯拉拥有这些能力？这可能与过去的范式限制有关，也可能与架构或数据有关。我们在这些方面进行了大量的尝试。

问：我理解马赫 VLA 是一个技术体系而非单个模型。例如，Mind-Edge 是服务于智能座舱的端侧模型。那么，目前的智能驾驶模型中是否还包含“L”（Language 语言）的部分？

詹锟： 当前自动驾驶的架构普遍趋向于整合 VLA（视觉-语言-行为模型）与 World Model（世界模型）。从长远来看，所有技术路线都会朝这个方向发展。无论是 VLA 还是 World Model，其内部的 Prompt（提示）都需要用到语言。因此，语言是必然存在的，关键在于如何运用它。我认为，对于机器智能而言，基于视觉（Vision Based）的理解方式更为合理，它更适合处理空间感知、三维空间理解以及对环境的交互。语言当然也有其价值，在理解环境、交通规则、指令以及进行复杂决策时都非常有益。从长远来看，基于视觉和语言的原生基础模型，可能是未来的发展趋势。

谢炎： 如果要实现 L3、L4 级别的自动驾驶，并解决更泛化的场景问题，模型需要具备类似人类的思考能力。届时，语言的重要性将日益凸显，这也是未来需要巨大算力的原因。如果模型仅具备视觉和行为（Vision and Action）能力，即便拥有海量数据，在面对分布之外的未知情况时也会束手无策。就像一个动物，即使学会了所有常见情况，遇到从未见过的情形也会不知所措，无法做出正确的选择。我们认为，越往 L3、L4 级别发展，要解决的问题就越接近那 90%、95%、98% 之后的问题——即那些前所未见、需要模型具备人类般思考能力的问题。而实现类似人类的推理和思考能力，其来源是语言模型。例如，面对交警的手势，需要理解其意图，这并非仅仅通过收集或生成数据就能解决的。

问：随着理想汽车车队规模的扩大，从理想内部来看，数据的边际效应是否出现了衰减？你们是如何定义有价值的数据的？

詹锟： 首先，数据的量需要足够大，核心目标是收集更多长尾场景（Corner Case）。目前，业界有多种方法可以在车端部署优秀的神经网络触发器（neural trigger），以判断场景的难易程度，并将关键数据回传。这也是特斯拉在这一领域表现强大的原因之一。其次，数据的质量至关重要，主要体现在行为质量上。目前业界逐渐趋同于端到端范式，无论是 VLA（视觉-语言-行为模型）、World Model（世界模型）还是 Vision-Action（视觉-动作模型），核心都在于对 Action（行为）的准确把握，因此行为质量至关重要，行为的清晰度和一致性非常关键。至于数据规模扩大后边际效应是否衰减，只要模型在不断提升，能力在向满分逼近，其增长曲线一定是“对数曲线”，即增长速度逐渐放缓，而非线性增长，这是所有 AI 公司都会面临的普遍情况。虽然后期数据收敛的速度会变慢，但我们希望通过规模化来加速这一过程。

问：马赫 M100 芯片能够应用于不同的 AI 场景。五年后或者再往后两代产品，理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片？

谢炎： 尽管业界有“舱驾一体”的说法，但我们认为舱驾一体最核心的部分在于 AI 算力。其他部分的集成与否则不那么关键。这是因为座舱系统和 AI 智能驾驶系统可以完全独立运行，但 AI 算力可以集中处理，从而大大提高分配效率。我们的路线图最终目标是构建一个车内 AI 计算中心，所有 AI 任务都可以在这个中心进行计算。这类似于在笔记本上运行某些程序时，实际计算是在云端的 Token Provider Server（Token 供应服务器）上完成的，车内也会有类似的 Token Server（Token 服务器）。这个 Token Server 的优势在于：第一，效率极高。第二，能够实现不同任务的隔离，互不干扰。例如，智能驾驶任务的确定性——无论是内存还是带宽，都能保证不被其他任务侵占，这是软硬件协同设计才能实现的结果。

问：是否因为 M100 芯片采用了数据流架构，相对于其他厂商的自动驾驶芯片，其对带宽的需求较低，但对片上存储的需求更高？

谢炎： 我们对带宽的要求确实会相对较低，但这并非设计 SRAM 容量（非显存）的直接原因。目前 HBM（高带宽内存）技术非常流行，许多人认为带宽越高越好。但计算、带宽、SRAM 等都需要晶体管资源来实现，最终的设计是基于成本、综合性能等多方面因素考量的结果。不同的架构设计，不能仅凭一两个指标进行简单对比，这既不合理也不专业。这就像拳击比赛，身高和体重都有各自的优势，但胜负并非由单一指标决定，最终取决于比赛本身的结果。

问：为什么当前大算力芯片方案，例如英伟达、小鹏以及理想自研的芯片，都没有实现芯片级的舱驾融合，反而高通在低算力芯片上做了这件事？这是什么原因？

谢炎： 本质上，座舱和驾驶是两个独立的系统。特别是对于向 L3、L4 级别迈进的高端智能驾驶，需要一个更高确定性的系统，要求内存专属、计算资源专属，此时融合的意义就大大降低了。因为资源无法实现实时切换，而实时切换会影响确定性。如果走向越来越专用的方向，融合的价值就不大了——你只是将芯片集成在一起，但资源仍然是两份，这并不能降低成本，甚至可能影响效率。目前市面上的舱驾融合系统，它们仍然是分开的，无法做到一会儿运行座舱任务，一会儿运行驾驶任务。如果无法实现这种切换，将两个芯片集成在一个芯片上，晶体管数量可能不变，只是节省了封装成本。对于中低端芯片而言，这部分成本可以节省，但节省幅度有限。我的观点是，随着智能驾驶的不断高端化，舱驾融合的意义可能不大。如果能将这些芯片设计得更紧密，在一块板上实现小型化集成方案是可以的，不一定非要做成一块芯片，也可以是多块芯片集成在同一块板上。

问：自研芯片需要哪些条件，例如销量、营收和研发投入？当前自动驾驶迭代速度很快，芯片要持续迭代需要具备哪些条件？

谢炎： 芯片的初期投入确实不菲，可能每年需要数亿元。第一个条件是达到一定的营收规模。对于车企而言，年营收达到 1000 亿元以上，研发投入至少占 10%，即每年有几十亿到上百亿的投入，才足以支撑芯片的研发。第二个条件是，你研发的芯片所解决的问题，必须能显著提升你的产品能力。许多人认为芯片需要巨大的出货量才能摊薄成本。实际上，芯片的成本与面积相关。一辆车上的智能驾驶芯片，例如 Livis 使用两颗马赫 M100，总面积约为 800 平方毫米。而一款高端手机芯片的面积大约是 100 平方毫米，因此一辆车的智能驾驶芯片面积相当于 8 部高端手机的芯片面积。这样计算下来，几十万辆车的销量所需的晶圆面积非常庞大，足以摊薄成本。所以，成本不能仅用芯片数量来衡量。

问：动态数据流编译器究竟难在哪里？花费了多长时间才攻克？

谢炎： 在芯片流片之前，甚至在设计阶段，我们就已经开始进行编译器工作了，在流片前，我们已经成功运行了许多模型。数据流是一种完全不同的架构，它要解决的问题与超级计算机或大规模计算机集群所面临的问题非常相似——当规模扩展到几十万台计算机、上百万个核心时，它们之间的通信和协作，无法通过一个中央管理员来统一调度。传统的冯·诺依曼架构的调度方式在这种规模下变得不可行，这是一个超大规模的并行调度问题。

追赶FSD V14，理想在补哪些课？｜最前线 - 极速电竞登录入口

留下你的精彩评论

追赶FSD V14，理想在补哪些课？｜最前线 - 极速电竞登录入口

热门标签:

分享给好友:

留下你的精彩评论