“端到端”是自动驾驶的曙光吗
7月23日,马斯克在Q2财报会议上表示,FSD V12.5(或 12.6)将在年底正式登陆中国,他进一步补充称,等到这些版本早期推送之后,将提交给上述国家的监管部门审核。
随着AI大模型入场,自动驾驶涌现出许多新的技术,智驾行业技术路径从CNN、RNN、GAN、再到Transformer大模型,去年行业主流方案还是轻高精地图城区智驾,今年大家的目标都瞄到了“端到端”。
2024年3月,特斯拉开始在北美地区大范围推送FSD v12。这套端到端智驾系统表现优秀,让从业者和用户前所未有地感受到技术带来的体验提升,也使之成为端到端自动驾驶这一技术路线快速形成大范围共识的最重要的推动力。
“端到端”模型将感知、规划与控制三大模块整合在一起,消除了模块间的界限,简化了系统架构,提高了运行效率。整合后的模型能够更快地处理数据,提高系统的响应速度。同时也减少了对激光雷达和高精地图的依赖,降低了成本。
小鹏汽车董事长何小鹏认为,端到端大模型将让自动辅助驾驶过渡到完全自动驾驶的时间大幅缩短,2025年,小鹏汽车就能在中国实现类L4智驾体验。
轻舟智航CEO于骞认为,端到端的技术使得智能驾驶技术的演进方向有一个比较明确的趋势,逐渐把非机器学习的部分挤得越来越小,整个系统是一个模型,实现完全的基于机器学习的方式,完全通过数据驱动来实现智能驾驶能力。
毫末智行CEO顾维灏表示:“AI大模型是自动驾驶真正实现的唯一路径,端到端会是未来很重要的技术方向。端到端不仅仅是模型端的优化,也需要数据的供给与算力的支持。”
英伟达汽车事业部副总裁吴新宙认为,端到端是自动驾驶的最终一步,接下来几年端到端模型和原有模型会在自动驾驶中相辅相成,端到端模型提供更拟人且灵活的处理,而原来的模型和方法则可以保证安全性。
端到端不一定是靠近智驾终局的最终解,但目前来看是最优解,它能够处理传统路径难以解决的极端案例,并且代表了一种减少人工编码依赖,更高效的思路。基于这个路径,或许自动驾驶能够通往更高阶段。
现在,包括学界、车企、智驾供应商在内,所有参与者都在向这个方向奔去。
什么是端到端
“端到端”是深度学习中的概念,英文为“End-to-End(E2E)”,指的是一个AI模型,只要输入原始数据就可以输出最终结果。应用到自动驾驶领域,意味着只需要一个模型,就能把摄像头、毫米波雷达、激光雷达等传感器收集到的感知信息,转换成车辆方向盘的转动角度、加速踏板的踩踏深度以及制动的力度等具体操作指令,让汽车实现自动行驶。
目前,端到端实现路径尚未统一,对于端到端的定义可以区分为广义与狭义。广义的定义,强调端到端是信息无损传递,不因人为定义接口产生信息损耗,可以实现数据驱动的整体优化。而狭义的定义,则是端到端只强调从传感器输入到规划、控制输出的单一神经网络模型。
因此,我们也能看到各家端到端的汽车企业或智驾供应商,从输入到输出的实现形式都有着一定的差异化,主流方案有以下三种:
一是感知认知模型化,将大模型拆分为感知与认知(预测决策规划)两个阶段,串联二者做训练;二是模块化端到端,将智驾的所有模型串联在一起,用高端的方式统一训练;三是单一神经网络,也就是狭义的端到端,用一整个囊括输入到输出端的大模型,直接进行训练。
辰韬资本联合多家机构发布的2024年度《端到端自动驾驶行业研究报告》认为,端到端的核心定义标准应为:感知信息无损传递,可以实现自动驾驶系统的全局优化。
基于以上定义标准,并结合自动驾驶系统中AI 的应用,该报告将自动驾驶技术架构分为四个阶段,分别是感知端到端、决策规划模型化、模块化端到端以及One Model端到端,其中,后两个阶段符合前述端到端的定义标准。
也就是说,从感知端模型上车,再进行规划模型化,最后串联起来做端到端训练,是一种相对平滑的过渡形式。
优势和挑战
端到端自动驾驶通过将传感器收集到的全面信息作为输入,在单一网络中直接生成车辆的控制指令或运动规划。这种设计使得整个系统针对最终目标进行优化,而非仅仅针对某个独立的子任务,从而实现自动驾驶性能的全局最优化。
相比传统的“感知-决策-控制”智驾系统,由于中间没有规则介入,端到端把原本感知、预测、规划等多个模型组合的架构,变成了“感知决策一体化”的单模型架构,在信息传递、推理计算、模型迭代上更有优势,可以拥有更强大的通用障碍物理解能力、超视距导航能力、道路结构理解能力,以及更拟人的路径规划能力。
由于端到端架构由数据驱动的模块所构建,人为维护的模块比例相应会降低,系统维护因而更简单;且端到端架构通过一个模型实现多种模型的功能,研发人员只需要针对单一模型进行整体训练、调整优化,即可实现性能上的提升,因此可以更好地集中资源,提升迭代速度;端到端系统不仅能够显著提升计算效率,更因其数据驱动的特性而拥有更高的性能上限和更低的维护成本。
尽管有巨大潜力,但端到端自动驾驶在实现量产落地与普及方面仍面临诸多挑战,比如构建所需的强大算力、获取用于模型训练的高质量海量数据,以及尚未解决的“不透明性”和“解释性不足”等制约产品性能提升和安全保障的关键问题,需要行业各方共同努力,随着技术的进步而逐步克服携手解决。
端到端的挑战主要有以下几个方面:
首先,如何控制成本。端到端作为一个新技术路径,大算力、大数据、大算法的高需求,构建了玩家的高门槛,需要厂商不断提升GPU的采购规模,这意味着端到端模型的训练成本非常高昂。考虑到新事物的试错成本,在算法架构上,如何平衡效率与成本也是一大挑战。
其次,解决弱解释性问题。端到端智驾相当于类人驾驶,想落地还存在黑盒子的不可解释性问题,尤其面对国内复杂的城市路况,安全性难以得到完全保障。自动驾驶的“失效成本”很高,强调安全底线,需要设置额外的完全边界做冗余。
一些企业有一些解决方案,比如理想推出了一套双系统方案对端到端兜底;Nullmax则在多模态端到端大模型上,加上一个仿生的安全类脑,以两级仲裁保障安全。
第三,优质大规模数据的获取和处理。大模型需要大数据,本质上来讲,端到端自动驾驶是海量驾驶视频片段的学习(压缩与升华)都需要极大规模的高质量数据,而数据的采集、清洗、筛选都是难点。
第四,实现大模型的标准化验证。端到端方案的落地,要经历成熟的验证方式,而直接实车验证显然成本过于高昂,而基于数据回灌的开环测试与端到端智驾验证需要的可交互性并不匹配。基于模拟器实现模型的闭环测试验证,成为了当下验证的可行路径。
端到端的实践
进入2024年,小鹏、蔚来、理想、零一、极越、华为、Momenta、商汤科技、元戎启行、Nullmax等企业也积极跟进,纷纷推出了面向量产的端到端自动驾驶解决方案和车型。这些方案不仅在技术层面上展现了强大的竞争力,更在卓越的实际道路表现中证明了其有效性。
小鹏汽车
5 月 20 日,小鹏汽车宣布端到端大模型上车,其由神经网络 XNet (侧重于感知和语义) ,规控大模型 XPlanner 和大语言模型 XBrain (侧重于整个大场景的认知) 三部分组成。
XNet可模拟人类感知,使自动驾驶系统感知范围提升2倍,XPlanner可使机器的驾驶策略不断拟人化,做到前后顿挫减少50%、违停卡死减少40%、安全接管减少60%。XBrain则能让自动驾驶系统拥有与人类大脑一样的理解学习能力,能认识待转区、潮汐车道、特殊车道、路牌文字等。
据了解,一个无限接近人类司机的自动驾驶系统约需要10亿行代码,以人力编写规则,几乎是不可能完成的任务。而改用端到端模型后,小鹏的智驾系统将能实现几乎无上限的规则。
小鹏计划让其端到端智能驾驶大模型实现“每2天迭代一次”的快速更新周期。按照这一规划,预计在未来18个月内,小鹏的XNGP系统的能力将实现30倍的提升(接管率指标)。
蔚来汽车
自2023 年下半年开始,蔚来单独设立了一个大模型部,由原感知部门和规控部门下的模型部合并而来,专门负责端到端的模型研发,计划于2024 年上半年上线基于端到端的主动安全功能。
蔚来智能驾驶研发副总裁任少卿表示,自动驾驶的大模型需要拆解成若干个层级,第一步是模型化,行业基本已经完成了感知的模型化,但是规控的模型化方面头部公司也没有完全做好,第二步是端到端,去掉不同模块间人为定义的接口,第三步是大模型。
现在,蔚来智驾的核心业务,分为“云”(大模型部) 和“车”(部署架构与方案部) 两块,取消原来按照功能 (感知、地图、数据、规控等) 模块划分的方式。“云”负责创造出更好的基础模型,去支持未来“车”端的迭代。
理想汽车
7月5日,理想汽车在2024智能驾驶夏季发布会上首次公开了其端到端自动驾驶技术架构。
该架构主要由端到端模型、VLM视觉语言模型、世界模型三部分共同构成。端到端“One Model”结构,输入端是传感器信息,输出端是行驶轨迹
理想研发团队受诺贝尔奖得主丹尼尔·卡尼曼的“快慢系统理论”启发,针对端到端方案,提出了快思考与慢思考。
快系统,即系统1,善于处理简单任务,更像人类基于经验和习惯形成的直觉,足以应对驾驶车辆时95%的常规场景。系统1由端到端模型实现快速响应,端到端模型接收传感器输入,并直接输出行驶轨迹用于控制车辆。
慢系统,即系统2,则是人类通过更深入的理解与学习,形成的逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%。系统2由VLM视觉语言模型实现,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。
双系统构成的自动驾驶能力还将在云端利用世界模型进行训练和验证。
极越汽车
4月25日北京车展上,极越官宣,将于2026年量产上车英伟达1000TFLOPS高性能计算平台THOR。“满足未来全场景端到端的智驾需求,为用户带来安全、先进的智能移动出行体验。”
从结构来看,极越的智驾模型为主干网络+多任务头的结构,但其主干模型相较于专家型,更偏向于高通用性的基础网络(foundation model),多头任务模型也被集中为通用性更高。这将有助于其在未来向端到端的进化。
面向终局的端到端(数据输入端-执行指令输出端)方案中,极越或将采用感知和决策两个大模型,通过数据对骨干网络进行联合优化的模式来演进。
百度自动驾驶技术负责人/百度IDG技术委员会主席王亮表示,可能5年甚至更长时间,(完整端到端)的大模型才能运用到车端。
零一汽车
2024年5月16日,零一汽车首次披露了其端到端自动驾驶系统的进展,也因此而成为商用车领域第一家公开投入端到端技术的公司。
其基于大模型的纯视觉端到端自动驾驶系统,使用摄像头和导航信息作为输入,经过多模态大语言模型的解码产生规控信号和逻辑推理信息,将系统复杂度降低 90%。通过自我学习和自我调整,该系统具备强大的场景泛化能力,且大幅降低了自动驾驶系统的部署成本。
零一汽车认为,由于商用车自动驾驶的应用场景比乘用车更加可控,公司计划在2024年底实现端到端自动驾驶的部署上车;在2025年开始测试One Model的端到端系统,在商用车与乘用车平台上同时实现量产;2026年开始在部分应用场景开始稳定运营,并实现常态无人化。
除主机厂,向主机厂提供智能驾驶方案的供应商,也是关注端到端模型的代表力量。
华为
4月24日,华为在智能汽车解决方案发布会上,发布了以智能驾驶为核心的全新智能汽车解决方案品牌——乾崑,及其新一代智能驾驶解决方案ADS 3.0。ADS 3.0实现了决策规划的模型化,为端到端架构的持续演进奠定了基础。
ADS 3.0实现预决策和规划一张网,感知部分采用GOD(General Object Detection,通用障碍物识别)大感知网络,决策规划部分采用PDP(Prediction-Decision-Planning, 预测决策规控)网络,从而实现了简单“识别障碍物”到深度“理解驾驶场景”的跨越式进步,行驶轨迹更类人,通行效率更高,复杂路口通过率>96%,全面提升了智能驾驶的安全性与驾乘体验。
元戎启行
在北京车展上,元戎启行对外展示了即将量产的高阶智驾平台 DeepRoute IO 以及基于 DeepRoute IO 的端到端解决方案。
元戎启行CEO周光表示:“DeepRoute IO平台不依赖高精度地图,应用端到端模型,具有极佳的综合性能以及更强的长尾场景处理能力。目前,IO平台已在城市线级不同的多个城市进行泛化测试,这些等级不同的城市人口均超千万,道路情况极具代表性。IO平台推向消费者市场后,所到之处都能开,任何场景都好开。同时,IO平台充分考虑用户驾驶习惯,能理解真实世界,犹如人类司机。
商汤绝影
在北京车展上,商汤科技推出了适用于实车部署、面向量产的真正端到端自动驾驶解决方案UniAD。
商汤绝影从一开始采用的就是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中,实现感知决策一体化的“一段式”方案。也就是由传感器输入,直接输出行为的轨迹。
UniAD将感知、决策、规划等关键模块整合到一个全栈的Transformer端到端模型中,通过联合训练保留了各个模块的特性,实现了感知与决策的一体化。该系统仅凭摄像头的视觉感知,无需高精地图,UniAD通过数据学习和驱动就能够应对城区的复杂环境。
虽然UniAD提升了智驾系统的驾驶能力,但纯粹的端到端自动驾驶模型不是自动驾驶的最终答案。依托多模态大模型,商汤绝影已进一步研发出新一代自动驾驶大模型DriveAGI,适用场景更宽、性能更高、门槛更低,体验上做到可感知、可交互、可信赖。
地平线
早在2016年,地平线便率先提出了自动驾驶端到端的演进理念,并在2017年开始训练端到端系统。2022年,地平线又提出了智能驾驶感知端到端算法Sparse4D。2023年,由地平线学者一作的业界首个公开发表的端到端智能驾驶大模型UniAD,提出了业界首个感知决策一体化的智能驾驶通用模型UniAD 框架。
2024年5月,地平线发布了SuperDrive全场景智能驾驶解决方案,使用了动态、静态、Occupancy三网合一的感知端到端架构。同时地平线也设计开发了基于数据驱动的交互博弈,不再是基于规则的决策网络。
SuperDrive通过聚焦拟人化体验突破,凭借动态、静态、OCC(Occupancy占用网络)三网合一的端到端感知架构,数据驱动的交互式博弈算法,在任何道路环境下都能兼顾场景通过率、通行效率和行为拟人,在拥堵汇流、路口交互动态Driveline、礼让骑行人、拥堵换道、城市环岛通行等城区复杂场景下,实现“优雅从容”的拟人化智能驾驶体验。
百度
5月15日,百度发布了全球首个面向自动驾驶的端到端大模型Apollo ADFM(Autonomous Driving Foundation Model)。从2021年开始,百度Apollo将系统中的多个小模型任务逐步整合,扩大模型规模,探索自动驾驶大模型技术,并彻底相应升级了整体研发范式,通过持续地积累形成技术突破。
百度Apollo以感知大模型和规划大模型为基础,进一步实现了端到端的自动驾驶大模型,通过对中间结果做隐式传递,实现了端到端的联合训练。整体的数据训练评测都更为简化,进一步减少了信息损失。该方案已经告别了科研探索阶段,能够满足非常高的安全标准,亦可解决L4无人驾驶的问题。
Momenta
6 月 28 日,广汽丰田宣布与 Momenta 联合推出端到端全场景智驾方案,支持城市及高速场景智驾,支持智能泊车,且不依赖高精地图。在此次推出的方案中,Momenta还搭载了国内首个量产交付的端到端智驾大模型,融合了感知和规划,让智驾产品的连续性更好,性能进步的上限也更高。
Momenta CEO曹旭东表示,端到端分了两个支路。一个支路是端到端的大模型,类比于人类的长期记忆。另外一个支路分成了两阶段,DDOD加上DDLD相当于是感知的部分,DLP是Deep Learning的planning,是认知的部分。这个支路相当于是人类的短期记忆。
Nullmax
7月16日,Nullmax正式推出新一代自动驾驶技术Nullmax Intelligence(简称“NI”)。新技术由一个多模态的端到端大模型,加上一个安全类脑组成,着重于打造全场景的自动驾驶应用,是一套纯视觉、真无图的自动驾驶解决方案。
为了解决纯视觉端到端自动驾驶系统存在黑盒、解释性差等难题,NI在视觉基础上,增加了对声音、文本、手势等信息的输入支持,通过多模态的端到端模型进行任务的推理,并构建了基于类脑神经网络的安全类脑,由系统整体输出可视化结果、场景描述和驾驶行为。
这种架构设计,使得NI可以像人类一样,根据接收的图像、声音、文字等各种信息进行思考,同时也具有“趋利避害”的生物本能。
除此之外,NI并不依赖激光雷达、双目相机、大算力以及各类地图,这让其成本可以控制在小几千元范围内,更加适合普及应用。据悉,基于NI,Nullmax计划2025年实现全场景智驾应用的落地。
毫末智行
毫末自2022年起就开始探索端到端解决方案,走出了一条毫末自己的自动驾驶技术探索之路。
毫末DriveGPT大模型正是按照3.0时代的技术框架要求进行升级。在通用感知能力提升上,DriveGPT通过引入多模态大模型,实现文、图、视频多模态信息的整合,获得识别万物的能力;同时,通过与NeRF技术整合,DriveGPT实现更强的4D空间重建能力,获得对三维空间和时序的全面建模能力;在通用认知能力提升上,DriveGPT借助大语言模型,将世界知识引入到驾驶策略,从而做出更好的驾驶决策优化。
小马智行
2023年8月,小马智行将感知、预测、规控三大传统模块打通,统一成端到端自动驾驶模型。小马智行端到端自动驾驶模型既可作为L4 车辆的冗余系统,也可作为L2 车辆的解决方案。
小马智行端到端自动驾驶模型具有四大特点:一是多维度的数据来源,包括L4 自动驾驶车辆行驶数据,L2 量产车中人类驾驶员数据,V2X 路段摄像头数据以用日常生活中的数据等;二是全面的数据处理工具,小马智行拥有一套完整的数据评估体系,包含前期高质量数据挖掘清洗,测试使用的大规模仿真系统等;三是模型具有可解释性,可结合驾驶意图、应用场景融入规则性指令;四是模型自动驾驶更加安全,其自动驾驶测试里程超3500 万公里,安全性比人类司机高10 倍。
结语
《端到端自动驾驶行业研究报告》认为,国内自动驾驶公司的模块化端到端方案上车量产时间可能会在2025年,而One Model端到端系统中性预期落地时间会晚于模块化端到端1-2年时间,从2026年至2027年开始上车量产。
但总的来说,端到端的自动驾驶路线仍处于发展初期,除了特斯拉之外,还未有其他厂商能够实现端到端自动驾驶的量产。各个厂商所采用的技术路线尚未经过市场的充分验证,行业内也缺乏可供借鉴的成功实践案例。