精选文章

  • 首页
  • 博客详情

追赶FSD V14,理想在补哪些课?|最前线 - 东升国际官网

过去几年,智能驾驶领域的竞争焦点经历了显著转变。

起初,竞争集中于硬件配置,例如是否配备激光雷达、摄像头数量以及计算能力(TOPS)。随后,随着大模型技术的兴起,竞争转向了端到端、VLA(视觉-语言-行为)以及World Model(世界模型)等技术路线。

如今,越来越多的企业认识到,单纯拥有更大的模型已不足以形成代际优势。真正决定技术上限的关键,在于模型、数据、算力和芯片之间能否构建一个持续优化的闭环系统。

这正是许多汽车制造商选择自主研发的原因。

特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo和自研芯片的整个产业链。在中国,小鹏、蔚来和理想等车企也在不断向下游技术领域延伸。

在今年推出的L8和L9车型中,理想汽车已采用自主研发的马赫M100芯片。这款采用数据流架构的芯片被理想汽车视为AI领域的重要技术方向。同时,理想汽车也在马赫M100芯片上运行了其自研的马赫VLA模型。

然而,对于整个行业而言,更值得关注的问题并非“是否进行自主研发”,而是这些投入究竟能解决哪些实际问题。

带着这个疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了深入交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系及AI基础设施背后的设计理念。以下为部分访谈内容摘要,经过编辑整理:

问:为在第四季度达到特斯拉FSD V14的水平,理想汽车还需要在哪些方面努力?

**詹锟:**我认为要追赶FSD,可以从两个层面来看。

首先是基础体验,具体包括安全感、效率和舒适度三个方面,能否达到FSD的同等水平。FSD在这几方面表现出色,安全感十足,效率很高,而且非常舒适,这是其核心功底。即使不处理极端复杂的路况,也能在这些基础体验上达到同等水平。

其次是能力层面,这方面追赶的难度也很大。例如,特斯拉能够主动礼让特殊车辆,能在极其狭窄的路况下保持精准感知,并且能识别交警的手势指挥,这些能力非常突出。

在能力层面,存在架构升级的机会。为什么这些能力是特斯拉独有,而其他公司不具备?这可能与过去的范式限制有关,也可能与架构或数据有关。我们在这些方面进行了大量探索。

问:我理解马赫VLA是一个技术体系,而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,目前的智能驾驶模型是否还包含“L”(Language,语言)部分?

**詹锟:**当前自动驾驶的架构普遍趋向于将VLA(视觉-语言-行为模型)与World Model(世界模型)进行整合。

从长远来看,所有技术路线都会朝着这个方向发展。无论是VLA还是World Model,其中都需要用到Language(语言)作为提示(Prompt)。因此,Language必然存在,关键在于如何运用它。

从机器智能的角度来看,我认为Vision Based(基于视觉)是更合理的方式,它更适合理解空间、感知三维空间以及服务于环境。Language(语言)肯定有用,在理解环境、交通规则、指令以及进行复杂思考决策方面具有价值。

长远来看,基于Vision和Language的原生基础模型,可能是未来的发展趋势。

**谢炎:**如果目标是L3、L4级别自动驾驶,需要解决更泛化的问题,那么模型必须具备类似人类的思考能力。这时,语言的重要性将愈发凸显,这也是未来需要巨大算力投入的原因。

如果模型仅具备Vision和Action(视觉和动作)能力,即使拥有海量数据,在遇到分布之外的情况时也会束手无策。就像一个动物,即使学会了所有常见情况,面对从未见过的情况也完全不知所措,无法做出正确选择。

我们认为,随着自动驾驶向L3、L4级别迈进,需要解决的问题越来越接近90%、95%、98%之后的问题——那些前所未见、需要模型具备人类般思考能力才能应对的场景。而实现类人推理和思考能力的关键,正是语言模型。例如,理解交警的手势指令,是让你通行还是停止,这并非仅靠收集或生成数据就能解决的。

问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否出现了衰减?理想汽车是如何定义价值数据的?

**詹锟:**首先,数据的数量必须足够庞大,核心目标是收集到更多的Corner Case(长尾场景)。目前,许多方法可以在车端部署有效的Neural Trigger(神经网络触发器),以识别场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现强大的重要原因之一。

其次,数据质量必须很高,主要体现在行为质量上。目前,行业普遍趋向于端到端范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),都离不开对Action(行为)的准确把握,因此行为质量至关重要,行为的纯净度和一致性尤为关键。

至于数据规模扩大后边际效应是否衰减,首先,只要模型不断提升,只要我们追求满分表现,其增长曲线必然是“对数曲线”,即增长速度逐渐放缓,而非线性增长,这是所有AI公司面临的普遍情况。尽管后期数据收敛的速度确实会变慢,但我们依然希望通过规模化来加速这一进程。

问:马赫M100芯片能够应用于多种AI场景。在未来五年或更长的时间里,理想汽车车内的算力中心是否有可能完全采用自研的马赫芯片?

**谢炎:**尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于AI算力部分,其他部分的整合程度并非那么关键。因为座舱系统和AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而大幅提升效率。

我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务都可以在此进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内也类似,将设立一个Token Server(Token服务器)。

Token Server的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能得到保障,不被其他任务干扰。这是软硬件协同设计才能实现的结果。

问:是否因为M100采用了数据流架构的AI推理芯片,因此相较于其他厂商的自动驾驶芯片,对带宽的需求较低,但对片上存储的需求更高?

**谢炎:**我们对带宽的要求确实较低,但这并非设计SRAM容量(非显存)的直接原因。当前HBM(高带宽内存)非常热门,许多人认为带宽越高越好。计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计是基于成本、综合性能等多方面因素权衡后的选择。

不同的架构设计,仅凭一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终取决于比赛的整体表现。

问:为何目前的大算力芯片方案,如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上实现了这一点?

**谢炎:**本质上,座舱和驾驶是两个独立的系统。特别是对于高端L3向L4级别的自动驾驶,智能驾驶需要一个更高确定性的系统,其内存和计算资源是专属的,此时融合的意义就大大降低了。因为资源无法实时切换,实时切换会影响确定性。如果朝着越来越专用的方向发展,融合的价值就不大了——即使将两个芯片集成在一起,晶体管数量可能不变,但仅能节省封装成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。

我们认为,随着智能驾驶的不断高端化,舱驾融合的意义可能并不大。如果将这些芯片做得更靠近,在一个电路板上实现高度集成的小型化方案,这是可行的,不一定非要集成在一块芯片上,也可以是多块芯片协同工作。

问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?鉴于自动驾驶迭代速度很快,芯片需要持续迭代,这又需要哪些条件?

**谢炎:**芯片的初期投入确实巨大,可能每年需要数亿元。

第一个条件是达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年有几十亿到上百亿的投入,才有可能支撑芯片的研发。第二个条件是,所研发的芯片必须能够显著提升产品的能力。

许多人认为芯片需要巨大的出货量才能摊薄成本。但实际上,芯片的成本与面积直接相关。一辆车上的智能驾驶芯片,例如Livis配备两颗马赫M100,总面积约为800平方毫米。而一部高端手机芯片的面积约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部手机的芯片面积。

如此计算,数十万辆车的需求将需要巨大的晶圆面积,足以摊薄成本。所以,成本不能仅以芯片数量来衡量。

问:动态数据流编译器的难点在哪里?攻克它花费了多长时间?

**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始着手编译器工作,在流片前,已经完成了许多模型的运行测试。

数据流是一种完全不同的架构,它要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作,无法由一个中央管理员来统一调度。传统的冯·诺依曼架构的调度方式在这种规模下是不可行的,这是一个超大规模并行调度的难题。

留下您的宝贵意见

东方升起国际金融信息服务有限公司 [email protected] +86 +86 177 1218 6138
湘ICP备202448195264号
东升国际科技有限公司用心服务每一天电话:+86 177 1218 6138邮箱:[email protected]成都市高新区天府大道642号
📍 在百度地图查看位置