作者 | 魏启扬
来源 | 洞见新研社毫末智行有着天生的紧迫感。
很多科技公司一年才举办一次的品牌日活动,毫末智行硬是办成了一个季度一次,活动频次的提高,则意味着组织内部新陈代谢的提速,从研发到落地乃至运营,都要跟上步点节奏。
毫末智行用这样一种方式来鞭策自己在自动驾驶道路上的进取之心。
4月11日结束的第八届HAOMO AI DAY,活动规格再上台阶,吸引了中国汽车芯片联盟联席理事长、中国电动汽车百人会副理事长董扬,同济大学教授、汽车安全技术研究所所长朱西产,清华大学车辆与运载学院教授曹东璞、华为云人工智能领域首席科学家、国际欧亚科学院院士、IEEE/CAAI Fellow田奇等业内大咖参会。
在影响力持续扩大的毫末智行再次更新了自己在技术、产品和生态上的进展,其中城市NOH即将量产上车与毫末DriveGPT 雪湖·海若的发布成最大亮点。
前者是中国首个重感知、不依赖高精地图的城市NOH,将最先落地北京、上海、保定等城市,后者则是全球首个自动驾驶生成式大模型。
NOH量产上车,毫末智行过去就曾做过预告,此次确定了更具体的落地时间,算是兑现了之前“夸下的海口”。
至于雪湖·海若 ,在GPT火热的当下,参与其中的自动驾驶公司也不少,为什么是毫末智行率先发布,成为很多人心中的谜团。01 自动驾驶大考年,毫末智行冲在最前线
毫末智行加快推进NOH的落地进程,很大一部分原因在于智驾产品已经进入到全线爆发的前夜。
来自工信部和高工智能汽车研究院的数据显示,2021年乘用车L2级智驾产品的搭载率是23.5%,全年共交付了476万辆。
到了2022年,乘用车上车的智驾产品升级到L2级以上,搭载率提升到29.4%,全年了交付了585.99万辆。
按照这一趋势预测,到2026年时,乘用车L2级以上智驾产品的搭载率将达到70%。
毫无疑问,正在经历的2023年和还没到来的2024年将十分关键,用毫末智行董事长张凯的话来说,“2023年既是自动驾驶的冲刺之年,也是大考之年”。
张凯判断,智驾产品今年的爆发将主要集中在两个方面。
第一个是城市导航辅助驾驶产品将围绕量产上车发力,主要玩家的城市辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。
另一个是行泊一体和无人车商业化将成为自动驾驶公司深耕的重点。在乘用车领域,搭载行泊一体功能的智驾产品将迎来前装量产潮。毫末智行作为“渐进派”的代表,坚定认为辅助驾驶是通往自动驾驶的必由之路,因而在过往,一直致力于推动智驾产品上车。
2021年推出HPilot 1.0版本,当年即完成坦克300城市版、魏牌拿铁、魏牌玛奇朵、哈弗神兽5款车型的量产上车,搭载乘用车数量超过数万台。
2022年,毫末智行对HPilot进行了两次大版本更新,HPilot月度搭载增速超过200%,与此毫末城市NOH辅助驾驶系统也完成了量产交付,搭载HPilot 3.0的新摩卡DHT-PHEV魏牌蓝山将在2023年先后上市。
根据毫末智行官方公布的数据,截至毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里,HPilot 2.0 辅助驾驶日均里程使用率达到了12.6%。
NOH的推进方面,目前已经在北京、保定、上海等城市开启泛化测试,即将量产上车,毫末智行预测,到2024年,城市NOH将有序落地100城,届时,毫末辅助驾驶乘用车总量也将来到百万量级别。有业内人士评述,即便按照当前的节奏不变,毫末智行智驾产品量产落地的速度也已与友商拉开了差距,至少领先行业一年以上。
毫末智行的”快”主要体现在两个方面,一个是产品的推新和迭代速度快,一个是由量产落地而带动的规模覆盖。
不得不说毫末智行选择了一条最为“稳妥”的自动驾驶路线。
在应对行业竞争,推动自动驾驶落地的过程中,我们很清晰的看到,HPilot、城市NOH等智驾产品正在源源不断的为毫末智行提供营收,而随着这些智驾产品的每一次迭代升级,自动驾驶能力一点点的向上提升,毫末智行距离全无人驾驶的星辰大海也更近了。
除了自动驾驶量产上车之外,毫末智行还公布6P开放合作的进展,目前已与3家主机厂签署定点合同,相关项目正在交付中。
在此之前,行业对毫末智行发展潜力存疑的主要观点是过于依赖长城,如今6P合作实现突破,表示毫末智行开始走出长城,迈向更广阔的发展空间,构建属于自己的“长城”。02 数据“第一性原理”,DriveGPT雪湖·海若的主要支撑点
将ChatGPT与DriveGPT雪湖·海若进行对比,虽然都是GPT,但运行条件和应用场景还是有很大的不同。
ChatGPT是对话式的生成式自然语言模型,输入是自然语言的文本串,输出就是自然语言的文本,目前ChatGPT主要完成通用的下游语言生成任务,比如多轮对话、代码生成、翻译、数学运算等。
DriveGPT雪湖·海若是用于自动驾驶场景的生成式大模型,输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。DriveGPT雪湖·海若的实现过程是,首先在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管Clips数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。
毫末智行CEO顾维灏在自动驾驶技术领域的眼光独到,布局非常领先。
早在 2021 年,毫末智行就已经开始了 Transformer 大模型技术的探索,并快速落地应用到 BEV 视觉感知算法当中,然后又以五大模型的方式来实现自动驾驶感知、认知算法的快速升级,现在这些大模型将统一到 DriveGPT 生成式大模型当中,最终目标是实现端到端自动驾驶。很明显,和ChatGPT一样,DriveGPT雪湖·海若的技术原理并不复杂,但为何是毫末智行抢到了落地的头炮呢?
因为要想获得理想的训练结果,必须具备两个条件,海量的数据和超强的算力,而这恰恰是毫末智行区别于其他自动驾驶公司的优势长板。
先看数据。
去年9月的第6届HAOMO AI DAY上,CEO顾维灏向外界确认,毫末智行正式进入数据驱动的自动驾驶 3.0 时代。
如何理解?毫末智行依托HPilot的量产,目前已经积累了超过4000万公里辅助驾驶里程的数据,就场景来看,包括城市道路、城市快速路和高速;就数据分类来看,既有真实的感知数据,也包含真实的人驾数据。毫末智行的数据优势并不是数据量的多少,而是获取数据的能力。
以HPilot为代表的智驾产品一直在持续的大规模量产上车,这也是说,毫末智行拥有稳定且优质的数据源,这些数据被投喂到MANA数据智能体系的训练中,推动MANA的进化成长,从而完成数据在其设计的技术架构内的闭环。
截至到2023年4月,MANA学习时长超56万小时,虚拟驾龄相当于人类司机6.8万年。
再来看看算力。
毫末智行很早就预见了算力对于自动驾驶研发的重要性,与特斯拉建设超算中心Dojo类似,毫末智行今年1月发布了中国自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),算力达67亿亿次/秒。
通过一系列的训练框架、性能、通信等优化,MANA OASIS可单机实现训练100亿参数规模的大模型的能力,同时执行多任务、多模态并行的训练,大幅提升计算效率。
为了支持DriveGPT雪湖·海若的训练,毫末智行还对MANA OASIS在算力层面进行三大能力的升级。1、搭建了“全套大模型训练保障框架”,实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数个月没有任何非正常中断,有效保证了大模型训练稳定性;2、研发出以真实数据回传为核心的增量学习技术,并将其推广到大模型训练,构建了一个大模型持续学习系统,自主研发任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到95%;3、MANA OASIS通过提升数据吞吐量来降本增效,满足Transformer大模型训练效率,通过引入火山引擎提供的Lego算子库实现算子融合,端到端吞吐提升84%。古希腊哲学家亚里士多德曾提出过“第一性原理”的哲学术语,翻译过来就是,“每个系统中存在一个最基本的命题,它不能被违背或删除。”
从毫末智行所表现出来的技术理念来看,无论是走“渐进式”路线,还是建设算力基础设施MANA OASIS,围绕的中心都是数据,在毫末智行的认知中,数据就是自动驾驶的“第一性原理”,基于此,毫末智行构建起行业竞争的护城河。03 从毫末到雪湖再到海诺,自动驾驶的中国式浪漫
在DriveGPT雪湖·海若发布之外,另外一个值得关注的点是,毫末智行还对外开放了该模型。
北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等单位成为首批合作伙伴。毫末智行在使用数据的过程中,还建立了一套极具性价比的,基于4D Clips数据的自动化标注方案。
一张正确标注结果的图片在行业中的市场价是5块钱,如果使用DriveGPT的标注服务,这个价格将只需5毛钱。
毫末智行计划,这项图像帧及4D Clips自动标注服务将逐步向行业开放使用。很明显,毫末智行发布DriveGPT雪湖·海若,并不是炒作跟风,而是真真切切的在做自动驾驶研发,更难能可贵的是,毫末智行很多前沿技术不光是为自己所用,还将其开放出来,以生态共建的形式,为行业的发展添砖加瓦。
其实,从毫末智行公司名字的由来,到自动驾驶智算体系MANA雪湖的命名,再到DriveGPT雪湖·海若的来源,能够窥视出毫末智行在自动驾驶这件事情上一以贯之的企业价值观。
“毫末”二字取自道家学派创始人老子之《老子·第六十四章》:“合抱之木,生于毫末。九层之台,起于累土。千里之行,始于足下。”强调的是一点一滴积累、脚踏实地耕耘的重要性。
“雪湖”这一名称,出自科幻小说《三体》第二部《黑暗森林》,说的是主人公罗辑在星空、雪山、森林、草地和湖畔之间徜徉思考,直到有一天在湖中寻找到了破解“三体危机”、拯救地球的方法。
将其延伸,“雪湖”这个名字代表了毫末对人类社会和科技趋势发展的热情,承载着毫末以AI通向自动驾驶梦想的思考。
“海若”则出自《庄子·秋水》,里面有两个神话人物河伯和北海若。河伯请教北海若,何谓大小之分,北海若教导,不因天地而觉大,不因毫末而觉小。其中蕴含着智慧包容、海纳百川的寓意。
将上述命名来源进行梳理,可以发现毫末智行的企业价值观融汇了中国古代经典的道家思想和科幻巨作天马行空式的哲学思辨,再结合当前正在从事的最前沿的自动驾驶事业,毫末智行呈现出特立独行的气质,更宏观的视角,还能看到一种与众不同的中国式浪漫。
【本文来自易车号作者洞见新研社,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
ChatGPT是是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。
它能够通过学习和理解人类的语言来进行对话,不仅上知天文下知地理,知识渊博,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,但ChatGPT不单是聊天机器人的简单,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。同时也引起无数网友沉迷与ChatGPT聊天,成为大家讨论的火爆话题。
搭建ChatGPT的研究框架需要以下步骤:
1.明确问题:首先要明确你的研究问题或目标。你可能想要改进ChatGPT的生成质量、增加其对特定领域的了解、提高模型的鲁棒性等等。
2.收集数据:ChatGPT的训练需要大量的对话数据。你可以从互联网上收集已有的对话数据,或者创建自己的数据集。确保数据集内容多样化,包含各种对话主题和样式。
3.数据预处理:对收集到的对话数据进行预处理。这可能包括清洗数据、去除噪声、标注对话角色、分割对话轮次等等。预处理步骤的具体内容取决于你的研究问题和数据集要求。
4.模型选择:根据你的研究问题,选择适合的ChatGPT模型。OpenAI提供了不同规模和功能的预训练模型,如ChatGPT、GPT-3、GPT-4等。根据你的需求选择合适的模型。
5.模型训练:使用预处理后的对话数据,对ChatGPT模型进行训练。这涉及到选择合适的训练算法、设置超参数、定义损失函数等。你可以使用开源的深度学习框架,如PyTorch或TensorFlow,来进行模型训练。
6.评估和调优:在模型训练完成后,评估模型在你关注的指标上的性能。这可以包括生成结果的流畅度、准确性、多样性等。根据评估结果,对模型进行调优,如调整模型架构、调整训练算法等。
7.应用和部署:当模型达到满意的性能后,可以将模型部署到实际应用中。这可能涉及将模型集成到在线聊天系统、社交媒体平台等中,以便用户可以与ChatGPT进行对话。
8.持续改进:ChatGPT是一个持续改进的过程。根据用户反馈和实际应用中的表现,不断优化模型,以提高其生成质量和用户体验。
搭建ChatGPT的研究框架需要明确研究问题、收集和预处理数据、选择合适的模型、进行训练和调优、评估性能、部署应用,并持续改进模型。这些步骤需要深度学习和自然语言处理领域的专业知识和技能。
2023伊始,先是开年毫末智行举办HAOMOAIDAY,放出自动驾驶行业最大智算中心,再有小鹏、理想新春全员信剑指城市导航辅助驾驶,随后是对话式AI大模型ChatGPT火遍全网,自动驾驶AI技术再次成为顶流。
无论是自动驾驶的“进城”,还是ChatGPT的“进化”,其背后都是对数据、算力需求指数级增长的态势以及对大模型的训练。当需求上来了,智算中心作为自动驾驶的“新基建”也就被业界越来越多的提及。智算中心即智能计算中心,是基于人工智能理论,采用领先的AI计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,换句话说,智算中心其实是一个算力的供应和生产平台。那为什么有了它“自动辅助驾驶”就可以变为“自动驾驶”了?
“降服”自动驾驶边际成本 自动驾驶智算中心“专云专用”
有人说,智算中心是自动驾驶发展的助推器,因为自动驾驶算法模型训练是机器学习的典型场景之一,其视觉检测、轨迹预测与行车规划等算法模型需要同时完成高并发的并行计算,对算力有着极高的需求,而智算为提高算法模型的成熟度提供了巨大的算力。在自动驾驶领域,说起智算中心,还得先提特斯拉。2017年,Transformer网络出现后,奠定了当前大模型领域主流的算法架构基础,随后,2020年,特斯拉将Transformer大模型引入自动驾驶领域中,是AI大模型应用于自动驾驶的开端。在这之后,特斯拉开始着手打造属于自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。为了进一步提升效率,特斯拉在2021年发布了自研的AI加速芯片D1,并计划将25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。最近一期的特斯拉AI DAY上,马斯克称将于2023年一季度部署完成特斯拉超级计算机群组ExaPOD。国内方面,2022年8月,小鹏汽车和阿里云合建了当时国内最大的自动驾驶智算中心“扶摇”,专门用于自动驾驶模型训练,算力规模达600PFLOPS,相当于每秒可以完成60亿亿次浮点运算。不过这个记录仅仅维持了4个多月。
今年1月,毫末智行联合火山引擎,共同推出自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。吉利也在1月28日上线了吉利星睿智算中心,目前已接入智能驾驶和车联网实验数据近百PB,在线车辆的并发计算支持达百万辆。从现有情形来看,成本和需求两重因素,是智算中心的诱人之处。
成本层面,算力作为自动驾驶的基本要素,需要更高性能的智算中心来完成训练、标注等工作。以毫末的MANA OASIS为例,通过部署Lego高性能算子库、ByteCCL通信优化能力,以及大模型训练框架,软硬一体,毫末把算力优化到极致。在训练效率方面,基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。搭建高效、低成本的数据智能体系是自动驾驶技术健康发展的基础,也是自动驾驶系统能够不断迭代前行的重要环节,更是自动驾驶商业化闭环的关键所在。
小鹏汽车董事长何小鹏曾表态,“如果现在不以这样的方式(智算中心)提前储备算力,那么今后5年内,企业算力成本会从亿级,加到数十亿级。”
如果持续使用公有云服务,边际成本不断上涨只是一方面,更重要的是,智算中心可以让自动驾驶企业实现“专云专用”。自动驾驶的开发包括从数据采集到数据筛选、打标、模型训练、回放性验证、仿真测试等等环节。而云计算的本质是租赁计算设备,云服务商的设备都是统一采购,为了获得更多客户,这些设备都具备很大的通用性,设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定,很难与车企和自动驾驶公司的算法形成最佳匹配。云服务厂商对自动驾驶算法的了解程度不高,不可避免的会在调度算力时出现损耗和效率不高的问题。从需求的角度来看,智算中心似乎可以成为自动驾驶和车企的托底神器。
同样以毫末为例,有了MANA OASIS的加持,毫末MANA五大模型全新亮相升级,车端感知架构实现跨代升级,毫末的技术栈布局继续保持完整领先的态势,尤其在感知、认知等层面领跑行业,引领大模型、大算力、大数据发展方向,冲刺进入自动驾驶3.0时代。拿数据采集、筛选和标注来说,自动驾驶系统在前期开发阶段,需要采集大量的道路环境数据,以此让车辆像人类驾驶员一样快速准确地识别车道、行人、障碍物等驾驶环境中的关键信息。唯一的办法是,通过在海量数据基础上不断的重复训练与验证,车辆对道路环境的认知水平逐渐趋近于真实情景,判断的准确性在这一过程中不断提升。
车企收集到的数据还需要进行模型训练,算法通过在数据上进行运算产生模型,而智算中心将是驱动大模型和海量数据训练的加速器。基于Sparse MoE,毫末根据计算特点,进行稀疏激活,提高计算效率,实现单机8卡就能训练百亿参数大模型的效果,实现跨机共享exper的方法,完成千亿参数规模大模型的训练,训练成本降低到百卡周级别;毫末设计并实现了业界领先的多任务并行训练系统,能同时处理图片、点云、结构化文本等多种模态的信息,既保证了模型的稀疏性、又提升了计算效率;MANA OASIS训练效率提升了100倍。
毫末智行CEO顾维灏也在详细阐释了建设智算中心的底层逻辑:“自动驾驶对智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的AI工程师在这个练武场中能够做出什么大模型,能训练多少大模型。”
智能辅助驾驶“进城” MANA OASIS帮助毫末解决了哪些难题?
现在很多车企和自动驾驶技术企业已经开始把打造智算中心当成下一阶段竞争重点。今年1月的HAOMO AI DAY上,毫末智行董事长张凯给出了2023年自动驾驶行业趋势的十大新预测,超算中心赫然位列“超算中心会成为自动驾驶企业的入门配置。”
当下,随着新能源汽车品牌普遍已经把高速公路场景下的辅助驾驶列为标配,赛场已经悄然从高速路转向城市。与高速导航辅助驾驶相比,城市行车涉及了红绿灯、十字路口、行人电动车、遮挡、固定障碍物、频繁刹停起步等一系列难题,复杂度又提升了好几个数量级。
如果仅用实测车辆去挑战这些城市场景无法穷尽的Corner Case,成本、安全性、时间都将成为企业发展的壁垒。由此,虚拟仿真就成为了解决部分成本及场景多样性的关键,大规模的长尾场景需要数据中心提供充足的算力支持。仿真场景对现实的回归过程,同样需要巨大的算力提供支持。
在MANA OASIS的加持下,毫末的数据智能体系MANA五大模型全新亮相升级。而在五大模型助力下,MANA最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,毫末车端感知架构实现了跨代升级。这也意味着毫末的感知能力更强,产品力更强,向全无人驾驶加速迈进。视觉自监督大模型,让毫末在中国首个实现4D Clip的自动标注。毫末利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力;将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip,其中10%是标注帧,90%是未标注帧,再将这些clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向clip标注的100%的自动转化,同时降低98%的clip标注成本。毫末视频自监督大模型的泛化性效果极佳,即使是在一些非常困难的场景,例如严重遮挡的骑行者,远处的小目标,恶劣的天气和光照,都能准确地完成自动标注。3D重建大模型,助力毫末做数据生成,用更低成本解决数据分布问题,提升感知效果。面对“完全从真实数据中积累corner case困难且昂贵”的行业难题,毫末将NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低。增加NeRF生成的数据后,还可将感知的错误率降低30%以上,且数据生成可实现全程自动化,无需任何人工参与。多模态互监督大模型则可以完成通用障碍物的识别。毫末在成功实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。毫末的多模态互监督大模型,引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。该通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中。在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。毫末在BEV的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测。让毫末的感知能力,能像人类一样在标准地图的导航提示下,就可以实现对道路拓扑结构的实时推断。毫末认为,解决了路口问题实际就解决了大部分城市NOH问题。目前在保定、北京,毫末对于85%的路口的拓扑推断准确率高达95%。即便是非常复杂、非常不规则的路口,毫末也能准确预测,比老司机还老司机。
人驾自监督认知大模型在今年2月已经被正式升级为DriveGPT,这也是全球首个自动驾驶认知大模型。它能让毫末的驾驶策略更加拟人化,安全及顺畅。毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。仿真测试能有效缩短技术和产品开发周期,降低研发成本。业内典型的长尾场景问题不够丰富,现实中可遇而不可求的极端场景,利用仿真平台可以便捷生成。由于仿真测试中的模拟环境需要实现多模态融合,以支持传感器模组的复杂性,因而也需要大算力的支持。
除了毫末,特斯拉超算中心拥有近2万张GPU,对自动驾驶训练效率产生立竿见影的效果,最大限度地提升了自动驾驶系统的开发效率;大陆集团的高算力集群,将开发周期从几周缩短至几个小时,使自动驾驶得以在中短期商业计划中落实;机器学习时间的缩短加快了新科技进入市场的速度;“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天缩短至1小时内,大幅提速近170倍……
当前,一个不争的事实就是,在自动驾驶领域具有长期规划的车企,无论是造车新势力还是传统品牌,或者技术供应商,都在搭建自己的超算中心,以掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。相反,如果没有超算中心,那么自动驾驶训练速度将明显放缓,自动驾驶企业间的差距也将愈发明显。用智算中心打造数据护城河 数字新基建逐步成为发展“标配”
自动驾驶发展至今,业界发现乘用车智能辅助驾驶是最有可能大规模铺开的商业场景。据高工智能汽车研究院数据显示,2022年中国市场(不含进出口)乘用车前装标配搭载L2级辅助驾驶的搭载率,已经连续第二个月超过30%。智研咨询数据显示,预计到2026年,全球新车L2自动驾驶的渗透率可达53.99%。
今年,城市导航辅助驾驶也开启了量产的征程。西部证券预测,2023~2026年,国内市场上搭载城市导航辅助驾驶的车型将分别达到70万、169万和348万辆,占比将分别达到17%、40%和70%。
在城市导航辅助驾驶落地加速的背景下,更容易复制、拓展的重感知的方案,受到了更多关注。在重感知技术路线下,面对“道路拓扑结构实时推断”的挑战,毫末的选择是在特征图基础上,以标精地图作为引导信息,使用自回归编解码网络,通过结构化的拓扑点序列解码,实现车道拓扑预测。由此不难看出,业界逐渐达成共识的重感知路线,相比高精地图方案,更依赖算力加持。
人工智能是创新的加速器,智算中心则可以为各类技术创新提供支撑。一方面,智算中心可以为构建安全可信、可复用的技术研发环境提供算力设施支撑,为各领域科技研发提供智能计算服务,加速科技研发的进程;另一方面,智算中心是新一代信息技术的集成应用载体,智算中心的快速建设推广与规模化应用将推动通信服务网络、大数据、人工智能等技术的快速迭代,从而促进技术创新。自动驾驶数据是片段式的,特点是小文件多,达到百亿个,而且训练需要交换的数据多,智算中心可以提供充足的带宽,并且可以让自动驾驶模型拥有更好的并行计算框架,在训练的时候把硬件资源都利用起来。
2020年4月20日,国家发展改革委首次明确新型基础设施的范围,其中就包括以智能计算中心为代表的算力基础设施。2023年1月10日,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》,指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。
根据相关统计和测算,目前全国超过30个城市在建或筹建智算中心,未来5年我国智能算力规模年复合增长率将达52.3%。智算中心的创新发展,将进一步为人工智能夯实“算力底座”,成为带动人工智能及相关产业快速发展的新引擎。
“我们测算,智算中心带来的成本优化是惊人的,将达到亿元级别。”这是今年1月,张凯提出的预测。从目前及未来的规划量产规模来看,毫末自建智算中心可节约巨额成本;其带来的效率提升也非常明显。
人工智能发展很快,新的算法层出不穷,需尽快引入新的技术和模型,与此数据是智能化发展最大的驱动力,也占据了大量成本构成。用自建智算中心来打造数据护城河,不仅能够完善产业智能生态,更能让企业在智能化方面占据先发优势,智算中心作为数字新基建,未来势必将引领自动驾驶技术持续迭代升级。
【本文来自易车号作者车业视界,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
作者 | 魏启扬
来源 | 洞见新研社毫末智行有着天生的紧迫感。
很多科技公司一年才举办一次的品牌日活动,毫末智行硬是办成了一个季度一次,活动频次的提高,则意味着组织内部新陈代谢的提速,从研发到落地乃至运营,都要跟上步点节奏。
毫末智行用这样一种方式来鞭策自己在自动驾驶道路上的进取之心。
4月11日结束的第八届HAOMO AI DAY,活动规格再上台阶,吸引了中国汽车芯片联盟联席理事长、中国电动汽车百人会副理事长董扬,同济大学教授、汽车安全技术研究所所长朱西产,清华大学车辆与运载学院教授曹东璞、华为云人工智能领域首席科学家、国际欧亚科学院院士、IEEE/CAAI Fellow田奇等业内大咖参会。
在影响力持续扩大的毫末智行再次更新了自己在技术、产品和生态上的进展,其中城市NOH即将量产上车与毫末DriveGPT 雪湖·海若的发布成最大亮点。
前者是中国首个重感知、不依赖高精地图的城市NOH,将最先落地北京、上海、保定等城市,后者则是全球首个自动驾驶生成式大模型。
NOH量产上车,毫末智行过去就曾做过预告,此次确定了更具体的落地时间,算是兑现了之前“夸下的海口”。
至于雪湖·海若 ,在GPT火热的当下,参与其中的自动驾驶公司也不少,为什么是毫末智行率先发布,成为很多人心中的谜团。01 自动驾驶大考年,毫末智行冲在最前线
毫末智行加快推进NOH的落地进程,很大一部分原因在于智驾产品已经进入到全线爆发的前夜。
来自工信部和高工智能汽车研究院的数据显示,2021年乘用车L2级智驾产品的搭载率是23.5%,全年共交付了476万辆。
到了2022年,乘用车上车的智驾产品升级到L2级以上,搭载率提升到29.4%,全年了交付了585.99万辆。
按照这一趋势预测,到2026年时,乘用车L2级以上智驾产品的搭载率将达到70%。
毫无疑问,正在经历的2023年和还没到来的2024年将十分关键,用毫末智行董事长张凯的话来说,“2023年既是自动驾驶的冲刺之年,也是大考之年”。
张凯判断,智驾产品今年的爆发将主要集中在两个方面。
第一个是城市导航辅助驾驶产品将围绕量产上车发力,主要玩家的城市辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。
另一个是行泊一体和无人车商业化将成为自动驾驶公司深耕的重点。在乘用车领域,搭载行泊一体功能的智驾产品将迎来前装量产潮。毫末智行作为“渐进派”的代表,坚定认为辅助驾驶是通往自动驾驶的必由之路,因而在过往,一直致力于推动智驾产品上车。
2021年推出HPilot 1.0版本,当年即完成坦克300城市版、魏牌拿铁、魏牌玛奇朵、哈弗神兽5款车型的量产上车,搭载乘用车数量超过数万台。
2022年,毫末智行对HPilot进行了两次大版本更新,HPilot月度搭载增速超过200%,与此毫末城市NOH辅助驾驶系统也完成了量产交付,搭载HPilot 3.0的新摩卡DHT-PHEV魏牌蓝山将在2023年先后上市。
根据毫末智行官方公布的数据,截至毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里,HPilot 2.0 辅助驾驶日均里程使用率达到了12.6%。
NOH的推进方面,目前已经在北京、保定、上海等城市开启泛化测试,即将量产上车,毫末智行预测,到2024年,城市NOH将有序落地100城,届时,毫末辅助驾驶乘用车总量也将来到百万量级别。有业内人士评述,即便按照当前的节奏不变,毫末智行智驾产品量产落地的速度也已与友商拉开了差距,至少领先行业一年以上。
毫末智行的”快”主要体现在两个方面,一个是产品的推新和迭代速度快,一个是由量产落地而带动的规模覆盖。
不得不说毫末智行选择了一条最为“稳妥”的自动驾驶路线。
在应对行业竞争,推动自动驾驶落地的过程中,我们很清晰的看到,HPilot、城市NOH等智驾产品正在源源不断的为毫末智行提供营收,而随着这些智驾产品的每一次迭代升级,自动驾驶能力一点点的向上提升,毫末智行距离全无人驾驶的星辰大海也更近了。
除了自动驾驶量产上车之外,毫末智行还公布6P开放合作的进展,目前已与3家主机厂签署定点合同,相关项目正在交付中。
在此之前,行业对毫末智行发展潜力存疑的主要观点是过于依赖长城,如今6P合作实现突破,表示毫末智行开始走出长城,迈向更广阔的发展空间,构建属于自己的“长城”。02 数据“第一性原理”,DriveGPT雪湖·海若的主要支撑点
将ChatGPT与DriveGPT雪湖·海若进行对比,虽然都是GPT,但运行条件和应用场景还是有很大的不同。
ChatGPT是对话式的生成式自然语言模型,输入是自然语言的文本串,输出就是自然语言的文本,目前ChatGPT主要完成通用的下游语言生成任务,比如多轮对话、代码生成、翻译、数学运算等。
DriveGPT雪湖·海若是用于自动驾驶场景的生成式大模型,输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。DriveGPT雪湖·海若的实现过程是,首先在预训练阶段通过引入量产驾驶数据,训练初始模型,再通过引入驾驶接管Clips数据完成反馈模型(Reward Model)的训练,然后再通过强化学习的方式,使用反馈模型去不断优化迭代初始模型,形成对自动驾驶认知决策模型的持续优化。
毫末智行CEO顾维灏在自动驾驶技术领域的眼光独到,布局非常领先。
早在 2021 年,毫末智行就已经开始了 Transformer 大模型技术的探索,并快速落地应用到 BEV 视觉感知算法当中,然后又以五大模型的方式来实现自动驾驶感知、认知算法的快速升级,现在这些大模型将统一到 DriveGPT 生成式大模型当中,最终目标是实现端到端自动驾驶。很明显,和ChatGPT一样,DriveGPT雪湖·海若的技术原理并不复杂,但为何是毫末智行抢到了落地的头炮呢?
因为要想获得理想的训练结果,必须具备两个条件,海量的数据和超强的算力,而这恰恰是毫末智行区别于其他自动驾驶公司的优势长板。
先看数据。
去年9月的第6届HAOMO AI DAY上,CEO顾维灏向外界确认,毫末智行正式进入数据驱动的自动驾驶 3.0 时代。
如何理解?毫末智行依托HPilot的量产,目前已经积累了超过4000万公里辅助驾驶里程的数据,就场景来看,包括城市道路、城市快速路和高速;就数据分类来看,既有真实的感知数据,也包含真实的人驾数据。毫末智行的数据优势并不是数据量的多少,而是获取数据的能力。
以HPilot为代表的智驾产品一直在持续的大规模量产上车,这也是说,毫末智行拥有稳定且优质的数据源,这些数据被投喂到MANA数据智能体系的训练中,推动MANA的进化成长,从而完成数据在其设计的技术架构内的闭环。
截至到2023年4月,MANA学习时长超56万小时,虚拟驾龄相当于人类司机6.8万年。
再来看看算力。
毫末智行很早就预见了算力对于自动驾驶研发的重要性,与特斯拉建设超算中心Dojo类似,毫末智行今年1月发布了中国自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),算力达67亿亿次/秒。
通过一系列的训练框架、性能、通信等优化,MANA OASIS可单机实现训练100亿参数规模的大模型的能力,同时执行多任务、多模态并行的训练,大幅提升计算效率。
为了支持DriveGPT雪湖·海若的训练,毫末智行还对MANA OASIS在算力层面进行三大能力的升级。1、搭建了“全套大模型训练保障框架”,实现了异常任务分钟级捕获和恢复能力,可以保证千卡任务连续训练数个月没有任何非正常中断,有效保证了大模型训练稳定性;2、研发出以真实数据回传为核心的增量学习技术,并将其推广到大模型训练,构建了一个大模型持续学习系统,自主研发任务级弹性伸缩调度器,分钟级调度资源,集群计算资源利用率达到95%;3、MANA OASIS通过提升数据吞吐量来降本增效,满足Transformer大模型训练效率,通过引入火山引擎提供的Lego算子库实现算子融合,端到端吞吐提升84%。古希腊哲学家亚里士多德曾提出过“第一性原理”的哲学术语,翻译过来就是,“每个系统中存在一个最基本的命题,它不能被违背或删除。”
从毫末智行所表现出来的技术理念来看,无论是走“渐进式”路线,还是建设算力基础设施MANA OASIS,围绕的中心都是数据,在毫末智行的认知中,数据就是自动驾驶的“第一性原理”,基于此,毫末智行构建起行业竞争的护城河。03 从毫末到雪湖再到海诺,自动驾驶的中国式浪漫
在DriveGPT雪湖·海若发布之外,另外一个值得关注的点是,毫末智行还对外开放了该模型。
北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等单位成为首批合作伙伴。毫末智行在使用数据的过程中,还建立了一套极具性价比的,基于4D Clips数据的自动化标注方案。
一张正确标注结果的图片在行业中的市场价是5块钱,如果使用DriveGPT的标注服务,这个价格将只需5毛钱。
毫末智行计划,这项图像帧及4D Clips自动标注服务将逐步向行业开放使用。很明显,毫末智行发布DriveGPT雪湖·海若,并不是炒作跟风,而是真真切切的在做自动驾驶研发,更难能可贵的是,毫末智行很多前沿技术不光是为自己所用,还将其开放出来,以生态共建的形式,为行业的发展添砖加瓦。
其实,从毫末智行公司名字的由来,到自动驾驶智算体系MANA雪湖的命名,再到DriveGPT雪湖·海若的来源,能够窥视出毫末智行在自动驾驶这件事情上一以贯之的企业价值观。
“毫末”二字取自道家学派创始人老子之《老子·第六十四章》:“合抱之木,生于毫末。九层之台,起于累土。千里之行,始于足下。”强调的是一点一滴积累、脚踏实地耕耘的重要性。
“雪湖”这一名称,出自科幻小说《三体》第二部《黑暗森林》,说的是主人公罗辑在星空、雪山、森林、草地和湖畔之间徜徉思考,直到有一天在湖中寻找到了破解“三体危机”、拯救地球的方法。
将其延伸,“雪湖”这个名字代表了毫末对人类社会和科技趋势发展的热情,承载着毫末以AI通向自动驾驶梦想的思考。
“海若”则出自《庄子·秋水》,里面有两个神话人物河伯和北海若。河伯请教北海若,何谓大小之分,北海若教导,不因天地而觉大,不因毫末而觉小。其中蕴含着智慧包容、海纳百川的寓意。
将上述命名来源进行梳理,可以发现毫末智行的企业价值观融汇了中国古代经典的道家思想和科幻巨作天马行空式的哲学思辨,再结合当前正在从事的最前沿的自动驾驶事业,毫末智行呈现出特立独行的气质,更宏观的视角,还能看到一种与众不同的中国式浪漫。
【本文来自易车号作者洞见新研社,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
chatGPT念“柴特鸡皮题”,GPT全称Generative Pre- -trained Transformer,是一种预训练语言模型,这种模型读的越多,也就懂的越多。Chat是聊天的意思,顾名思义,ChatGPT的核心是GPT模型,只不过加上了一个能跟人聊天的对话框。
2023年2月7日,微软宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing(必应)和Edge浏览器。微软CEO表示,“搜索引擎迎来了新时代”。
2023年2月8日凌晨,在华盛顿雷德蒙德举行的新闻发布会上,微软宣布将OpenAI传闻已久的GPT-4模型集成到Bing及Edge浏览器中。chatGPT的规范使用
2023年2月,媒体报道,欧盟负责内部市场的委员蒂埃里·布雷东日前就“聊天生成预训练转换器”发表评论说,这类人工智能技术可能为商业和民生带来巨大的机遇。
但同时也伴随着风险,因此欧盟正在考虑设立规章制度,以规范其使用,确保向用户提供高质量、有价值的信息和数据。
ChatGPT不会完全取代人工。
ChatGPT的“模式化”无法取代人类的“差异化”。 ChatGPT再“神通广大”,也只是人工智能实验室OpenAI开发的语言模型,其流畅对话的背后是大量文本数据,机器智能一旦被概念框架限定,就只能在既有框架内运行,有时难免陷入“模式化”“套路化”的窠臼。而我们人类,生而不同,正是这些“独一无二”的差异性才让人类文明得以延绵、生生不息。ChatGPT的“理性化”也无法取代人类的“感性化”。人工智能的“智能”更多是一种理性能力,而人类的智能还包括价值判断、意志情感、审美情趣等非理性内容。就像ChatGPT在回答中所说“我不具备自主意识,我的回答不包含意见或情感”。关于与人类之间的关系ChatGPT自己给出答案:
我不会替代人类,作为一个AI程序,我可以帮助人类解决困难和提高工作效率,但我永远无法用自己的感情去了解人类,也不能靠自己的判断去思考问题。只有真正的人才能拥有这样的能力。
在那条看不见前路的黑暗隧道中,也许ChatGPT也可以是给你提供光亮、指引方向的同伴,正视它、直面它、利用它,毕竟,人工智能的前缀依然是“人工”。