2023伊始,先是开年毫末智行举办HAOMOAIDAY,放出自动驾驶行业最大智算中心,再有小鹏、理想新春全员信剑指城市导航辅助驾驶,随后是对话式AI大模型ChatGPT火遍全网,自动驾驶AI技术再次成为顶流。
无论是自动驾驶的“进城”,还是ChatGPT的“进化”,其背后都是对数据、算力需求指数级增长的态势以及对大模型的训练。当需求上来了,智算中心作为自动驾驶的“新基建”也就被业界越来越多的提及。智算中心即智能计算中心,是基于人工智能理论,采用领先的AI计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,换句话说,智算中心其实是一个算力的供应和生产平台。那为什么有了它“自动辅助驾驶”就可以变为“自动驾驶”了?
“降服”自动驾驶边际成本 自动驾驶智算中心“专云专用”
有人说,智算中心是自动驾驶发展的助推器,因为自动驾驶算法模型训练是机器学习的典型场景之一,其视觉检测、轨迹预测与行车规划等算法模型需要同时完成高并发的并行计算,对算力有着极高的需求,而智算为提高算法模型的成熟度提供了巨大的算力。在自动驾驶领域,说起智算中心,还得先提特斯拉。2017年,Transformer网络出现后,奠定了当前大模型领域主流的算法架构基础,随后,2020年,特斯拉将Transformer大模型引入自动驾驶领域中,是AI大模型应用于自动驾驶的开端。在这之后,特斯拉开始着手打造属于自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。为了进一步提升效率,特斯拉在2021年发布了自研的AI加速芯片D1,并计划将25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。最近一期的特斯拉AI DAY上,马斯克称将于2023年一季度部署完成特斯拉超级计算机群组ExaPOD。国内方面,2022年8月,小鹏汽车和阿里云合建了当时国内最大的自动驾驶智算中心“扶摇”,专门用于自动驾驶模型训练,算力规模达600PFLOPS,相当于每秒可以完成60亿亿次浮点运算。不过这个记录仅仅维持了4个多月。
今年1月,毫末智行联合火山引擎,共同推出自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。吉利也在1月28日上线了吉利星睿智算中心,目前已接入智能驾驶和车联网实验数据近百PB,在线车辆的并发计算支持达百万辆。从现有情形来看,成本和需求两重因素,是智算中心的诱人之处。
成本层面,算力作为自动驾驶的基本要素,需要更高性能的智算中心来完成训练、标注等工作。以毫末的MANA OASIS为例,通过部署Lego高性能算子库、ByteCCL通信优化能力,以及大模型训练框架,软硬一体,毫末把算力优化到极致。在训练效率方面,基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。搭建高效、低成本的数据智能体系是自动驾驶技术健康发展的基础,也是自动驾驶系统能够不断迭代前行的重要环节,更是自动驾驶商业化闭环的关键所在。
小鹏汽车董事长何小鹏曾表态,“如果现在不以这样的方式(智算中心)提前储备算力,那么今后5年内,企业算力成本会从亿级,加到数十亿级。”
如果持续使用公有云服务,边际成本不断上涨只是一方面,更重要的是,智算中心可以让自动驾驶企业实现“专云专用”。自动驾驶的开发包括从数据采集到数据筛选、打标、模型训练、回放性验证、仿真测试等等环节。而云计算的本质是租赁计算设备,云服务商的设备都是统一采购,为了获得更多客户,这些设备都具备很大的通用性,设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定,很难与车企和自动驾驶公司的算法形成最佳匹配。云服务厂商对自动驾驶算法的了解程度不高,不可避免的会在调度算力时出现损耗和效率不高的问题。从需求的角度来看,智算中心似乎可以成为自动驾驶和车企的托底神器。
同样以毫末为例,有了MANA OASIS的加持,毫末MANA五大模型全新亮相升级,车端感知架构实现跨代升级,毫末的技术栈布局继续保持完整领先的态势,尤其在感知、认知等层面领跑行业,引领大模型、大算力、大数据发展方向,冲刺进入自动驾驶3.0时代。拿数据采集、筛选和标注来说,自动驾驶系统在前期开发阶段,需要采集大量的道路环境数据,以此让车辆像人类驾驶员一样快速准确地识别车道、行人、障碍物等驾驶环境中的关键信息。唯一的办法是,通过在海量数据基础上不断的重复训练与验证,车辆对道路环境的认知水平逐渐趋近于真实情景,判断的准确性在这一过程中不断提升。
车企收集到的数据还需要进行模型训练,算法通过在数据上进行运算产生模型,而智算中心将是驱动大模型和海量数据训练的加速器。基于Sparse MoE,毫末根据计算特点,进行稀疏激活,提高计算效率,实现单机8卡就能训练百亿参数大模型的效果,实现跨机共享exper的方法,完成千亿参数规模大模型的训练,训练成本降低到百卡周级别;毫末设计并实现了业界领先的多任务并行训练系统,能同时处理图片、点云、结构化文本等多种模态的信息,既保证了模型的稀疏性、又提升了计算效率;MANA OASIS训练效率提升了100倍。
毫末智行CEO顾维灏也在详细阐释了建设智算中心的底层逻辑:“自动驾驶对智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的AI工程师在这个练武场中能够做出什么大模型,能训练多少大模型。”
智能辅助驾驶“进城” MANA OASIS帮助毫末解决了哪些难题?
现在很多车企和自动驾驶技术企业已经开始把打造智算中心当成下一阶段竞争重点。今年1月的HAOMO AI DAY上,毫末智行董事长张凯给出了2023年自动驾驶行业趋势的十大新预测,超算中心赫然位列“超算中心会成为自动驾驶企业的入门配置。”
当下,随着新能源汽车品牌普遍已经把高速公路场景下的辅助驾驶列为标配,赛场已经悄然从高速路转向城市。与高速导航辅助驾驶相比,城市行车涉及了红绿灯、十字路口、行人电动车、遮挡、固定障碍物、频繁刹停起步等一系列难题,复杂度又提升了好几个数量级。
如果仅用实测车辆去挑战这些城市场景无法穷尽的Corner Case,成本、安全性、时间都将成为企业发展的壁垒。由此,虚拟仿真就成为了解决部分成本及场景多样性的关键,大规模的长尾场景需要数据中心提供充足的算力支持。仿真场景对现实的回归过程,同样需要巨大的算力提供支持。
在MANA OASIS的加持下,毫末的数据智能体系MANA五大模型全新亮相升级。而在五大模型助力下,MANA最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,毫末车端感知架构实现了跨代升级。这也意味着毫末的感知能力更强,产品力更强,向全无人驾驶加速迈进。视觉自监督大模型,让毫末在中国首个实现4D Clip的自动标注。毫末利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力;将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip,其中10%是标注帧,90%是未标注帧,再将这些clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向clip标注的100%的自动转化,同时降低98%的clip标注成本。毫末视频自监督大模型的泛化性效果极佳,即使是在一些非常困难的场景,例如严重遮挡的骑行者,远处的小目标,恶劣的天气和光照,都能准确地完成自动标注。3D重建大模型,助力毫末做数据生成,用更低成本解决数据分布问题,提升感知效果。面对“完全从真实数据中积累corner case困难且昂贵”的行业难题,毫末将NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低。增加NeRF生成的数据后,还可将感知的错误率降低30%以上,且数据生成可实现全程自动化,无需任何人工参与。多模态互监督大模型则可以完成通用障碍物的识别。毫末在成功实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。毫末的多模态互监督大模型,引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。该通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中。在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。毫末在BEV的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测。让毫末的感知能力,能像人类一样在标准地图的导航提示下,就可以实现对道路拓扑结构的实时推断。毫末认为,解决了路口问题实际就解决了大部分城市NOH问题。目前在保定、北京,毫末对于85%的路口的拓扑推断准确率高达95%。即便是非常复杂、非常不规则的路口,毫末也能准确预测,比老司机还老司机。
人驾自监督认知大模型在今年2月已经被正式升级为DriveGPT,这也是全球首个自动驾驶认知大模型。它能让毫末的驾驶策略更加拟人化,安全及顺畅。毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。仿真测试能有效缩短技术和产品开发周期,降低研发成本。业内典型的长尾场景问题不够丰富,现实中可遇而不可求的极端场景,利用仿真平台可以便捷生成。由于仿真测试中的模拟环境需要实现多模态融合,以支持传感器模组的复杂性,因而也需要大算力的支持。
除了毫末,特斯拉超算中心拥有近2万张GPU,对自动驾驶训练效率产生立竿见影的效果,最大限度地提升了自动驾驶系统的开发效率;大陆集团的高算力集群,将开发周期从几周缩短至几个小时,使自动驾驶得以在中短期商业计划中落实;机器学习时间的缩短加快了新科技进入市场的速度;“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天缩短至1小时内,大幅提速近170倍……
当前,一个不争的事实就是,在自动驾驶领域具有长期规划的车企,无论是造车新势力还是传统品牌,或者技术供应商,都在搭建自己的超算中心,以掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。相反,如果没有超算中心,那么自动驾驶训练速度将明显放缓,自动驾驶企业间的差距也将愈发明显。用智算中心打造数据护城河 数字新基建逐步成为发展“标配”
自动驾驶发展至今,业界发现乘用车智能辅助驾驶是最有可能大规模铺开的商业场景。据高工智能汽车研究院数据显示,2022年中国市场(不含进出口)乘用车前装标配搭载L2级辅助驾驶的搭载率,已经连续第二个月超过30%。智研咨询数据显示,预计到2026年,全球新车L2自动驾驶的渗透率可达53.99%。
今年,城市导航辅助驾驶也开启了量产的征程。西部证券预测,2023~2026年,国内市场上搭载城市导航辅助驾驶的车型将分别达到70万、169万和348万辆,占比将分别达到17%、40%和70%。
在城市导航辅助驾驶落地加速的背景下,更容易复制、拓展的重感知的方案,受到了更多关注。在重感知技术路线下,面对“道路拓扑结构实时推断”的挑战,毫末的选择是在特征图基础上,以标精地图作为引导信息,使用自回归编解码网络,通过结构化的拓扑点序列解码,实现车道拓扑预测。由此不难看出,业界逐渐达成共识的重感知路线,相比高精地图方案,更依赖算力加持。
人工智能是创新的加速器,智算中心则可以为各类技术创新提供支撑。一方面,智算中心可以为构建安全可信、可复用的技术研发环境提供算力设施支撑,为各领域科技研发提供智能计算服务,加速科技研发的进程;另一方面,智算中心是新一代信息技术的集成应用载体,智算中心的快速建设推广与规模化应用将推动通信服务网络、大数据、人工智能等技术的快速迭代,从而促进技术创新。自动驾驶数据是片段式的,特点是小文件多,达到百亿个,而且训练需要交换的数据多,智算中心可以提供充足的带宽,并且可以让自动驾驶模型拥有更好的并行计算框架,在训练的时候把硬件资源都利用起来。
2020年4月20日,国家发展改革委首次明确新型基础设施的范围,其中就包括以智能计算中心为代表的算力基础设施。2023年1月10日,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》,指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。
根据相关统计和测算,目前全国超过30个城市在建或筹建智算中心,未来5年我国智能算力规模年复合增长率将达52.3%。智算中心的创新发展,将进一步为人工智能夯实“算力底座”,成为带动人工智能及相关产业快速发展的新引擎。
“我们测算,智算中心带来的成本优化是惊人的,将达到亿元级别。”这是今年1月,张凯提出的预测。从目前及未来的规划量产规模来看,毫末自建智算中心可节约巨额成本;其带来的效率提升也非常明显。
人工智能发展很快,新的算法层出不穷,需尽快引入新的技术和模型,与此数据是智能化发展最大的驱动力,也占据了大量成本构成。用自建智算中心来打造数据护城河,不仅能够完善产业智能生态,更能让企业在智能化方面占据先发优势,智算中心作为数字新基建,未来势必将引领自动驾驶技术持续迭代升级。
【本文来自易车号作者车业视界,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
对于即将到来的新科技革命,我们可以从以下几个方面抓住机遇,迎接挑战:
1. 保持学习和探索的态度:不断学习和探索新事物,了解新科技革命的底层逻辑和主要趋势,并与自己的工作进行交集分析,找到能如何帮助自己提高工作效率的途径。及时掌握市场动态和趋势,让自己的知识和技能保持更新。
2. 培养创新思维和创业意识:新科技革命往往伴随着产业和商业模式的革命性变革,具备创新思维和创业意识的人更能抓住机遇。勇于尝试、善于创新,发现商机,现在很多机构已经申请ChatGPT接口,通过创新的方式利用这一新科技。
3. 提升自身素质和能力:通过多方面的学习和锻炼,提升自身的专业技能、人际沟通能力和领导力,以适应新机遇的要求。新科技革命往往需要跨学科和跨领域的知识和技能,具备综合素质的人更能在其中抓住机遇。
4. 深入了解市场需求:通过市场调查、分析和预测,了解消费者的需求和市场的变化,从而抓住机遇。新科技革命提供了更多的商业机会,但同时也带来了更大的竞争和风险,需要对市场有深入的理解和洞察。
5. 加强知识产权保护和法治保障:新科技革命需要强有力的知识产权保护和法治保障,以确保创新者的权益和利益,推动科技创新和产业发展的良性循环。
6. 加强人才培养、科技研究和企业创新:新科技革命需要更多的人才、科技研究和企业创新,需要加强人才培养、科技研究和企业创新,打造科技创新生态体系,提升整个社会的科技水平和创新能力。
7. 加强开放合作和人才流动:新科技革命需要全球范围内的开放合作和人才流动,需要加强国际交流和合作,吸引全球的人才和资源,共同推动科技创新和产业发展。
新科技革命提供了巨大的机遇,同时也带来了巨大的挑战,我们需要从多个方面积极应对和适应,不断提升自己的素质和能力,以更好地抓住机遇,实现自己的价值和梦想。
ChatGPT的底层逻辑主要通过一个基于神经网络的语言模型来实现。它使用了一种称为“转换器”(Transformer)的网络架构,该架构是一种强大的序列到序列模型的变体,可以进行自然语言处理任务,如机器翻译和文本摘要。下面是ChatGPT实现的一般步骤:
1. 数据预处理:ChatGPT使用大量的对话数据进行训练,这些数据中通常包含用户问题和对应的回答。在训练之前,这些对话数据需要进行预处理,例如分词、标记化和构建样本对。
2. 模型架构:ChatGPT的底层模型架构是基于Transformer的。Transformer使用了自注意力机制(self-attention)来更好地捕捉长距离的语义依赖关系。它由多个编码器(Encoder)和解码器(Decoder)层组成。编码器用于处理输入的语境,而解码器用于生成回答。
3. 训练过程:ChatGPT使用了一种称为“无监督学习”的训练方法。在训练过程中,模型将尝试最大限度地预测下一个单词或标记的概率,以此来学习语言的模式和语义。它通过最大似然估计来优化模型的参数,以使实际预测的概率分布与真实的下一个单词或标记的分布尽可能接近。
4. 生成回答:当接收到用户的问题后,ChatGPT会将问题输入到训练好的模型中。模型会根据上下文信息进行推理和预测,并生成一个回答。生成回答的过程通常是自回归的,即模型会逐步生成每个单词,将前一个生成的单词作为当前单词的输入,直到生成一个终止符或达到预定的最大长度。
5. Fine-tuning:为了进一步提高模型性能和适应特定任务,ChatGPT可以通过Fine-tuning进行定制化。Fine-tuning是在预训练模型的基础上,使用特定任务相关的数据进行有监督学习的过程。这个过程可以使模型更好地适应特定任务需求。
ChatGPT的底层逻辑是通过预处理、基于Transformer的模型架构、无监督学习的训练过程和生成回答的推理过程来实现的。这使得ChatGPT能够理解和生成自然语言,并且能够在对话中产生连贯、合理的回答。
ChatGPT 是使用深度学习的生成式模型,采用了多层的自回归变压器(Transformer)架构来实现其底层逻辑。
ChatGPT 需要进行预训练。在预训练阶段,它使用大量的公开的文本数据作为输入,通过自我监督的方式学习语言模型。这意味着模型试图预测给定文本序列中每个标记(单词或字符)的下一个标记。通过这个预测任务,模型学习到了各种语言特征、句法结构和语义表示。
接下来是微调阶段。在预训练后,ChatGPT 使用特定的任务数据集进行微调,以便将其适应特定的对话生成任务。这个任务数据集包括对话历史和模型需要生成的下一个响应,模型通过最大化预测正确响应的概率进行微调。
在实际生成对话的过程中,ChatGPT 接收用户输入的对话历史,并根据这个对话历史预测生成下一个响应。它采用编码器-解码器的结构,其中编码器将输入的对话历史进行编码,解码器将编码后的信息转换为生成的响应。
具体地,模型将对话历史作为输入进行编码。编码器将输入序列中的每个标记通过多个自注意力层进行处理,以捕捉标记之间的依赖关系和语义信息。每个自注意力层都包括多头注意力机制,允许模型在不同的表示空间中关注不同的信息。每个自注意力层还包括前馈神经网络,用于对注意力向量进行非线性变换和建模。
编码器处理完对话历史后,输出的编码表示被传送到解码器中。解码器通过多个自注意力层和编码器-解码器注意力层来生成对话响应。解码器的自注意力层与编码器的自注意力层类似,但还会关注解码器内部的标记之间的依赖关系。而编码器-解码器注意力层用于在解码器的不同层之间建立连接,以共享编码器中的信息。
ChatGPT 使用一个线性层将解码器输出的表示转换为词汇概率分布。模型可以通过采样或贪婪搜索方法从词汇表中选择下一个单词作为生成的响应。
ChatGPT 的底层逻辑是使用预训练的Transformer架构,通过对对话历史进行编码和解码,生成相应的下一个响应。
终于拿到长城体系外订单“我们还在等他们(毫末)的车交付之后,才能做技术上的对标。” 同为量产高阶智驾方案的某车企工程师这样评价毫末。这一对标将在今年初见分销。4月11日,在第八届AI DAY上,毫末发布了一个堪比BEV的新技术:自动驾驶生成式大模型DriveGPT——雪湖·海若。2021年特斯拉用一个BEV架构模型搞定了自动驾驶的感知,而雪湖·海若Transformer则有望用一个模型解决自动驾驶的认知问题。雪湖·海若将依次搭载在魏牌摩卡DHT-PHEV和蓝山上,首批落地在北京、保定、上海等城市,并于2024年开拓100个城市。毫末宣布与三家主机厂签订了定点合作协议,其中包括长城体系外的品牌。新技术范式、百城大战,毫末的“野心”要如何实现?01
一次解决所有问题“(雪湖·海若)使我们在一个统一的生成式框架下,将规划、决策和推理等多个任务全部完成。”毫末智行CEO顾维灏在采访中表示:“(雪湖·海若)在更大数据的支持下,还是会让(自动驾驶系统的决策能力)有一个质的提升。这一新技术范式即使放眼全球也是非常独特和创新的。”认知架构雪湖·海若和感知架构BEV一样,旨在通过一个大模型一次性解决问题。在BEV之前,自动驾驶系统的感知是在各传感器端先进行感知,之后由多个小模型算法进行置信判断和融合之后,输出最终的感知结果。BEV则是一次性“吸收”所有传感器的原始数据,之后直接输出车辆周围360°的完整空间感知结果。决策方面,目前业内主要包括预测、规划、控制几个环节:基于感知结果,通过搜索等方法划定出可行使空间,再在其中根据自车和其它交通参与者可能的行动轨迹进行路线规划,最终决定出一条行驶路线,并将行驶路线分解为车辆动作命令传给执行器。雪湖·海若则是基于感知结果,直接给出规划控制结果和理由:一次性生成多个未来可能发生的全局场景,并且按照可能发生的概率排序;生成自车未来的轨迹信息;直接给出决策逻辑链。例如在一个包含对向来车、左侧电动车、右侧过路行人的无保护左转的场景中:传统方法是先对与自车最有可能交互的对向来车进行轨迹预测,基于预测结果判断自车应该的行驶轨迹。此轨迹如果涉及到电动车/行人等其它的交通参与者,则加入考虑后预测,再判断轨迹,如此往复。但雪湖·海若是一次性看到路面的全局情况,基于预训练积累的“经验”,直接得出:对向来车已出线刹车概率低、电动车虽然未出线但惯于抢行、行人在路口通常谨慎行动变。如以安全为先,应当缓慢起步,让行电动车后,快速通过路口。之所以出现这样不同的“思考”方式,在于传统方法和雪湖·海若在短期数据和长期知识上存在不同。短期数据即当时当刻的路面情况。由于目前决策大都使用参数有限的小模型,因此一次性能考虑的对象便相对有限。雪湖·海若作为大模型,在云端参数高达1200亿个,由此在学习时能够做到全局思考。目前毫末未透露部署到车端时的参数规模。长期知识则是交通规则和常识性的潜规则。目前主流决策层算法仍以逻辑判断为主,对于“谁会如何”更多还是出自工程师经验。雪湖·海若则是先在4000万量产车驾驶数据中进行学习,又用5万个经过筛选的人类接管数据做反馈训练,最终习得开车的知识和常识,能够更加类人的,根据当前交通情况推理出未来各类交通场景以及出现的概率。对于神经网络作为黑盒,思考过程的不可解释化,毫末技术负责人艾锐向《赛博汽车》表示,通过添加限定规则,可以一定程度上解决这一问题。在决策层引入GPT模型只是开始,未来毫末计划将雪湖·海若扩大为端到端的自动驾驶系统模型,即用一个大模型解决感知、认知的所有问题。中国自动驾驶逻辑芯片企业地平线也持类似的观点。前不久,地平线作为第一作者发布了基于Transformer的自动驾驶端到端算法框架论文,首次将检测、跟踪、预测、箭头轨迹预测等多个模块用一个完整神经网络架构完整解决。“让我们有可能像ChatGPT那样,用端到端的大规模的数据去训练整个的自动驾驶系统。”地平线创始人&CEO余凯在演讲中表示。02
万事俱备,只待上车一次解决所有问题,当然很棒,但却鲜少有玩家实践该技术。在2022年的AI DAY和今年的投资者日上,特斯拉展示的预测算法仍是以蒙特卡洛树搜索为主。小鹏汽车自动驾驶副总裁吴新宙则在4月明确表示,未来小鹏将在预测层面引入神经网络,但在规控层面,仍将以逻辑算法为主。“我对团队有一个明确的线,能用数学方法解决的问题,都先用数学的方法。”即使想要应用,GPT也不是普通玩家玩得起的。华为云人工智能领域首席科学家田奇在近日的演讲中表示,大模型开发和训练一次需要1200万美元。而且并不只是“钱”的事。雪湖·海若作为GPT(Generative Pre-trained Transformer)生成式预训练大模型,需要有大规模语料库来进行训练。顾维灏在演讲中表示,雪湖·海若的一个关键设计是将场景Token(令牌,代表执行某些操作的权利对象)化表达:将驾驶空间进行离散化处理,每一个Token都表征场景的一小部分。如果输入一连串过去已经发生的场景Token序列,模型可生成未来所有可能的场景。目前毫末Token的词表空间是50万个左右。大模型还需要超算中心来训练。1月,毫末发布了670PFLOPS算力的超算中心——雪湖·绿洲。若按照一块19.5TFLOPS算力的英伟达A100计算,则绿洲或用了34.3万块英伟达A100。绿洲还针对海若进行了针对性的升级改造。一是建立全套训练保障框架,避免因个别服务器异常可能导致的训练中端;二是升级弹性调度资源的能力,使训练平台能够自适应每天回传数据不同的大小规模;三是吞吐效率的升级,通过算子融合端到端吞吐提升84%。但就像ChatGPT和GPT4仍依赖于对话者不断调整问题问法,扩大数据库调用权限,才能表现得更加真实类人一样。雪湖·海若要做到真正高速类人,在并行效率、算力需求、功耗等方面超过搜索等传统方法,甚至超过人类表现的前提,是源源不断的真实道路场景和人类反馈。03
毫末的身份突围2022年底,小鹏、华为、毫末三家抢跑城市领航功能落地。从结果来看,小鹏、华为都已有了搭载城市领航功能的车队上路,毫末HPilot 3.0所搭载的新摩卡DHT-PHEV预计将于本月推出,而魏牌蓝山要到三季度才会推出激光雷达版。与此后来者也正逐步逼近,蔚来、理想等车企,和轻舟智航等智能驾驶供应商都已宣布了2024年落地高速、城市领航功能的计划。之所以形成这样的局面,与毫末的身份不无关系。毫末虽然出身长城,却无法像蔚小理的智驾团队一样,拥有自上而下的话语权,更多还是相对独立的供应商身份。但背靠长城又使毫末的供应商身份不那么纯粹。对于出自ICT行业的华为,车企都尚且顾忌灵魂。出自同行的毫末作为供应商,自然也少不了被挑剔。如何实现身份突围?今年年初,毫末推出了包括全栈解决方案、云端服务、硬件、软件、模块、原型代码六个层面的6P开放合作模式。合作伙伴不仅可以获取毫末的功能产品,甚至可以获得原型代码这样的底层技术能力。“您的灵魂您保留,我的灵魂您带走。” 毫末智行COO侯军表示:“(智能/自动驾驶)全栈自研是高成本、长周期的事情。毫末的6P开放模式帮助主机厂在不具备技术和时间的情况下参与竞争。如果之后毫末的综合性价比能力赶不上合作伙伴进步的灵魂,我们被淘汰也是正常的。如果能赶上,我们愿意与合作伙伴长期携手同行。”这样“白盒”开放的态度已经起到了效果,毫末已与三家主机厂签署定点合同,其中包括长城体系外的品牌。在毫末的生态伙伴当中,除了高通这样的老朋友外,还多了英伟达、华为、地平线这样新朋友,未来合作方向值得玩味。毫末在2024年的百城计划也绝非说说而已。华为、小鹏的城市领航功能在核心区域仍需依靠高精地图。而毫末的方案则完全不采用高精地图,只用类似导航地图的标清地图,以感知信息的置信权重远高于地图信息,即所谓重感知轻地图方案。要完全依靠感知信息做判断使毫末目前的城市领航功能更显保守,安全性要求远高于舒适和通行效率。但由于完全不依赖高精地图,所以毫末HPilot 3.0的开城将不受地图资源限制,随着其感知能力打磨得愈发完善,开城速度也将愈发加速。顾维灏在演讲中表示,毫末的视觉自监督大模型感知性能已提升20%。例如鱼眼摄像头在15米范围内的测量精度已达到30厘米,2米内精度可以高于10厘米。因此毫末正考虑取消超声波雷达,直接使用鱼眼镜头做泊车功能。技术进步也正成为毫末作为供应商,持续降本的底气所在。毫末智行张凯表示:“未来(降本同效的策略)对我们和行业发展,都会有很好的推动作用。”
【本文来自易车号作者赛博汽车,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
答案当然是,不会。
程序员的核心不在于实现一个功能甚至不在于写出代码,而在于编码思维。
编码思维这个东西包含了结构化思维、推演逻辑、算法、数学、架构、工作经验等等。是一个极其复杂的事物。
ChatGPT的确可以给出特定问题的解法,比如下面这种:
但应用到具体的环境,具体的问题还是需要人去解决的。
有了ChatGPT这种智能搜索系统(相比谷歌,百度,或者各种论坛),相信大部分程序员的工作效率能提升,这或许会导致一定程度的底层程序员挤兑问题。
比如最底层的那种页面仔,curd boy,搞不好就能被ChatGPT取代了。简单点说就是工具/AI越强大,就越能解放人的琐碎重复劳动部分。
一旦涉及到逻辑层面,设计层面,算法层面,复杂问题层面,ChatGPT肯定是搞不定的。
但你要说你就是一个只会干琐碎重复劳动的程序员,那肯定是适应不了工具越来越智能的未来的。
AI/工具本质上还是为人服务的,可以极大程度提升人的工作效率,而不是彻底取代人,取代程序员。最起码现在还看不到这种趋势。
其实之前低代码比较火的时候,也有过类似的问题:
低代码的出现真的会导致程序员失业吗?
对于这个问题,小编也发过文章详细的说过。
这边先说说结论:
低代码的出现,绝不会导致程序员的失业,只会提高程序员的入行门槛。程序员的工作并不仅仅是编写代码,更多的是将需求进行抽象的工作以及对代码逻辑进行升级改造,编写相关文档之类的。
所谓“低代码”,从字面理解应该是代码量的减少,事实也却是如此,低代码是指一种开发平台,称之为“低代码开发平台”,具体是指无需编码或通过少量代码就可以快速生成应用程序的开发平台,是一种通过可视化进行应用程序开发的方法,使具有不同经验水平的开发人员可以通过图形化的用户界面,使用拖拽组件和模型驱动的逻辑来创建网页和移动应用程序。
得益于一些厂商的努力,低代码行业正在构建起健康的生态。我们在讨论低代码的未来时,需要清楚一点的是,低代码并非万能,它有清晰的能力边界,而非一些声音所说的会“抢走程序员的饭碗”。低代码是企业数字化建设当中“最后一公里”,在保障企业数字化进程的价值赋能下,中国市场会有低代码的一方天地。
国内的简搭(jabdp)开发平台是一个低代码开发平台,复杂的业务功能,只需要会基本的sql语句和javascript语法,就能进行快速开发,满足其个性化的业务需求,设计出各种复杂的企业web应用。主要特点如下:
可灵活定制:简搭(jabdp)低代码平台提供了强大的定制能力,包括页面定制、数据表管理、业务流程定制等,便于实现各类企业应用。
权限管理:简搭(jabdp)低代码平台提供组织结构管理和精细的权限管理多人,便于企业根据实际情况灵活地进行权限设置和调整,促进内部协作。
易于部署和维护:简搭(jabdp)低代码平台提供一键部署功能,无需配置复杂的网络服务器;根据企业的需求变化进行系统维护也更容易。
支持二次开发和系统集成:简搭(jabdp)低代码平台是一个开放的快速开发平台,有经验的程序员依然可以基于jabdp定制开发出许多高级的功能,而不受jabdp本身的限制;简搭(jabdp)低代码平台开发出的应用也可以很方便地与企业的现有信息系统集成,或者与微信、钉钉等第三方应用集成。
简搭(jabdp)开发平台适合用于大部分的企业级web应用的开发,尤其适合企业信息管理系统(MIS)、企业资源计划系统(ERP)、客户关系管理系统(CRM),业务支撑系 统(BSS)等。并且就一些经典的项目案例提取整合出各种类型的项目模板,共享给开发者参考,开发者可以在原有的项目基础上进行修改定制,以打造其个性化的企业信息化平台。
当前的投资热点主要涵盖以下几个方向和行业:1. 5G技术:随着全球范围内5G网络的建设逐渐完善,5G相关产业迎来新的机遇。5G通信设备、芯片、通讯基础设施等相关产业都将是未来的热点。2. 新能源:随着全球对于环境保护意识的不断提高,新能源产业也得到了大力发展。太阳能、风能以及生物能等新能源行业将成为未来的热点。3. 人工智能:人工智能技术的广泛应用将推动各行各业的发展。图像识别、自然语言处理、智能交互等领域都具有巨大的发展潜力。4. 消费升级板块:消费升级板块包括教育、文化娱乐、健康医疗等行业,这些行业都受益于人们对于生活品质提升的需求,因此具有非常大的发展前景。5. 新零售:随着新技术的不断应用,新零售将成为未来的一大趋势,包括无人售货、智能购物、线上线下融合等新型零售模式都将受到市场的追捧。以上是当前的主要投资热点,当然还有一些其他的行业和领域也具有巨大的投资潜力,需要根据市场变化和自身情况进行选择。
2023伊始,先是开年毫末智行举办HAOMOAIDAY,放出自动驾驶行业最大智算中心,再有小鹏、理想新春全员信剑指城市导航辅助驾驶,随后是对话式AI大模型ChatGPT火遍全网,自动驾驶AI技术再次成为顶流。
无论是自动驾驶的“进城”,还是ChatGPT的“进化”,其背后都是对数据、算力需求指数级增长的态势以及对大模型的训练。当需求上来了,智算中心作为自动驾驶的“新基建”也就被业界越来越多的提及。智算中心即智能计算中心,是基于人工智能理论,采用领先的AI计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,换句话说,智算中心其实是一个算力的供应和生产平台。那为什么有了它“自动辅助驾驶”就可以变为“自动驾驶”了?
“降服”自动驾驶边际成本 自动驾驶智算中心“专云专用”
有人说,智算中心是自动驾驶发展的助推器,因为自动驾驶算法模型训练是机器学习的典型场景之一,其视觉检测、轨迹预测与行车规划等算法模型需要同时完成高并发的并行计算,对算力有着极高的需求,而智算为提高算法模型的成熟度提供了巨大的算力。在自动驾驶领域,说起智算中心,还得先提特斯拉。2017年,Transformer网络出现后,奠定了当前大模型领域主流的算法架构基础,随后,2020年,特斯拉将Transformer大模型引入自动驾驶领域中,是AI大模型应用于自动驾驶的开端。在这之后,特斯拉开始着手打造属于自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。为了进一步提升效率,特斯拉在2021年发布了自研的AI加速芯片D1,并计划将25个D1封装在一起组成一个训练模块(Training tile),然后再将训练模块组成一个机柜(Dojo ExaPOD)。最近一期的特斯拉AI DAY上,马斯克称将于2023年一季度部署完成特斯拉超级计算机群组ExaPOD。国内方面,2022年8月,小鹏汽车和阿里云合建了当时国内最大的自动驾驶智算中心“扶摇”,专门用于自动驾驶模型训练,算力规模达600PFLOPS,相当于每秒可以完成60亿亿次浮点运算。不过这个记录仅仅维持了4个多月。
今年1月,毫末智行联合火山引擎,共同推出自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲),每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。吉利也在1月28日上线了吉利星睿智算中心,目前已接入智能驾驶和车联网实验数据近百PB,在线车辆的并发计算支持达百万辆。从现有情形来看,成本和需求两重因素,是智算中心的诱人之处。
成本层面,算力作为自动驾驶的基本要素,需要更高性能的智算中心来完成训练、标注等工作。以毫末的MANA OASIS为例,通过部署Lego高性能算子库、ByteCCL通信优化能力,以及大模型训练框架,软硬一体,毫末把算力优化到极致。在训练效率方面,基于Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低100倍。搭建高效、低成本的数据智能体系是自动驾驶技术健康发展的基础,也是自动驾驶系统能够不断迭代前行的重要环节,更是自动驾驶商业化闭环的关键所在。
小鹏汽车董事长何小鹏曾表态,“如果现在不以这样的方式(智算中心)提前储备算力,那么今后5年内,企业算力成本会从亿级,加到数十亿级。”
如果持续使用公有云服务,边际成本不断上涨只是一方面,更重要的是,智算中心可以让自动驾驶企业实现“专云专用”。自动驾驶的开发包括从数据采集到数据筛选、打标、模型训练、回放性验证、仿真测试等等环节。而云计算的本质是租赁计算设备,云服务商的设备都是统一采购,为了获得更多客户,这些设备都具备很大的通用性,设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定,很难与车企和自动驾驶公司的算法形成最佳匹配。云服务厂商对自动驾驶算法的了解程度不高,不可避免的会在调度算力时出现损耗和效率不高的问题。从需求的角度来看,智算中心似乎可以成为自动驾驶和车企的托底神器。
同样以毫末为例,有了MANA OASIS的加持,毫末MANA五大模型全新亮相升级,车端感知架构实现跨代升级,毫末的技术栈布局继续保持完整领先的态势,尤其在感知、认知等层面领跑行业,引领大模型、大算力、大数据发展方向,冲刺进入自动驾驶3.0时代。拿数据采集、筛选和标注来说,自动驾驶系统在前期开发阶段,需要采集大量的道路环境数据,以此让车辆像人类驾驶员一样快速准确地识别车道、行人、障碍物等驾驶环境中的关键信息。唯一的办法是,通过在海量数据基础上不断的重复训练与验证,车辆对道路环境的认知水平逐渐趋近于真实情景,判断的准确性在这一过程中不断提升。
车企收集到的数据还需要进行模型训练,算法通过在数据上进行运算产生模型,而智算中心将是驱动大模型和海量数据训练的加速器。基于Sparse MoE,毫末根据计算特点,进行稀疏激活,提高计算效率,实现单机8卡就能训练百亿参数大模型的效果,实现跨机共享exper的方法,完成千亿参数规模大模型的训练,训练成本降低到百卡周级别;毫末设计并实现了业界领先的多任务并行训练系统,能同时处理图片、点云、结构化文本等多种模态的信息,既保证了模型的稀疏性、又提升了计算效率;MANA OASIS训练效率提升了100倍。
毫末智行CEO顾维灏也在详细阐释了建设智算中心的底层逻辑:“自动驾驶对智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的AI工程师在这个练武场中能够做出什么大模型,能训练多少大模型。”
智能辅助驾驶“进城” MANA OASIS帮助毫末解决了哪些难题?
现在很多车企和自动驾驶技术企业已经开始把打造智算中心当成下一阶段竞争重点。今年1月的HAOMO AI DAY上,毫末智行董事长张凯给出了2023年自动驾驶行业趋势的十大新预测,超算中心赫然位列“超算中心会成为自动驾驶企业的入门配置。”
当下,随着新能源汽车品牌普遍已经把高速公路场景下的辅助驾驶列为标配,赛场已经悄然从高速路转向城市。与高速导航辅助驾驶相比,城市行车涉及了红绿灯、十字路口、行人电动车、遮挡、固定障碍物、频繁刹停起步等一系列难题,复杂度又提升了好几个数量级。
如果仅用实测车辆去挑战这些城市场景无法穷尽的Corner Case,成本、安全性、时间都将成为企业发展的壁垒。由此,虚拟仿真就成为了解决部分成本及场景多样性的关键,大规模的长尾场景需要数据中心提供充足的算力支持。仿真场景对现实的回归过程,同样需要巨大的算力提供支持。
在MANA OASIS的加持下,毫末的数据智能体系MANA五大模型全新亮相升级。而在五大模型助力下,MANA最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,毫末车端感知架构实现了跨代升级。这也意味着毫末的感知能力更强,产品力更强,向全无人驾驶加速迈进。视觉自监督大模型,让毫末在中国首个实现4D Clip的自动标注。毫末利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力;将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip,其中10%是标注帧,90%是未标注帧,再将这些clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向clip标注的100%的自动转化,同时降低98%的clip标注成本。毫末视频自监督大模型的泛化性效果极佳,即使是在一些非常困难的场景,例如严重遮挡的骑行者,远处的小目标,恶劣的天气和光照,都能准确地完成自动标注。3D重建大模型,助力毫末做数据生成,用更低成本解决数据分布问题,提升感知效果。面对“完全从真实数据中积累corner case困难且昂贵”的行业难题,毫末将NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低。增加NeRF生成的数据后,还可将感知的错误率降低30%以上,且数据生成可实现全程自动化,无需任何人工参与。多模态互监督大模型则可以完成通用障碍物的识别。毫末在成功实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。毫末的多模态互监督大模型,引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。该通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中。在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。毫末在BEV的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测。让毫末的感知能力,能像人类一样在标准地图的导航提示下,就可以实现对道路拓扑结构的实时推断。毫末认为,解决了路口问题实际就解决了大部分城市NOH问题。目前在保定、北京,毫末对于85%的路口的拓扑推断准确率高达95%。即便是非常复杂、非常不规则的路口,毫末也能准确预测,比老司机还老司机。
人驾自监督认知大模型在今年2月已经被正式升级为DriveGPT,这也是全球首个自动驾驶认知大模型。它能让毫末的驾驶策略更加拟人化,安全及顺畅。毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。仿真测试能有效缩短技术和产品开发周期,降低研发成本。业内典型的长尾场景问题不够丰富,现实中可遇而不可求的极端场景,利用仿真平台可以便捷生成。由于仿真测试中的模拟环境需要实现多模态融合,以支持传感器模组的复杂性,因而也需要大算力的支持。
除了毫末,特斯拉超算中心拥有近2万张GPU,对自动驾驶训练效率产生立竿见影的效果,最大限度地提升了自动驾驶系统的开发效率;大陆集团的高算力集群,将开发周期从几周缩短至几个小时,使自动驾驶得以在中短期商业计划中落实;机器学习时间的缩短加快了新科技进入市场的速度;“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天缩短至1小时内,大幅提速近170倍……
当前,一个不争的事实就是,在自动驾驶领域具有长期规划的车企,无论是造车新势力还是传统品牌,或者技术供应商,都在搭建自己的超算中心,以掌握稳定的算力资源,缩短开发周期,加快自动驾驶产品的上市。相反,如果没有超算中心,那么自动驾驶训练速度将明显放缓,自动驾驶企业间的差距也将愈发明显。用智算中心打造数据护城河 数字新基建逐步成为发展“标配”
自动驾驶发展至今,业界发现乘用车智能辅助驾驶是最有可能大规模铺开的商业场景。据高工智能汽车研究院数据显示,2022年中国市场(不含进出口)乘用车前装标配搭载L2级辅助驾驶的搭载率,已经连续第二个月超过30%。智研咨询数据显示,预计到2026年,全球新车L2自动驾驶的渗透率可达53.99%。
今年,城市导航辅助驾驶也开启了量产的征程。西部证券预测,2023~2026年,国内市场上搭载城市导航辅助驾驶的车型将分别达到70万、169万和348万辆,占比将分别达到17%、40%和70%。
在城市导航辅助驾驶落地加速的背景下,更容易复制、拓展的重感知的方案,受到了更多关注。在重感知技术路线下,面对“道路拓扑结构实时推断”的挑战,毫末的选择是在特征图基础上,以标精地图作为引导信息,使用自回归编解码网络,通过结构化的拓扑点序列解码,实现车道拓扑预测。由此不难看出,业界逐渐达成共识的重感知路线,相比高精地图方案,更依赖算力加持。
人工智能是创新的加速器,智算中心则可以为各类技术创新提供支撑。一方面,智算中心可以为构建安全可信、可复用的技术研发环境提供算力设施支撑,为各领域科技研发提供智能计算服务,加速科技研发的进程;另一方面,智算中心是新一代信息技术的集成应用载体,智算中心的快速建设推广与规模化应用将推动通信服务网络、大数据、人工智能等技术的快速迭代,从而促进技术创新。自动驾驶数据是片段式的,特点是小文件多,达到百亿个,而且训练需要交换的数据多,智算中心可以提供充足的带宽,并且可以让自动驾驶模型拥有更好的并行计算框架,在训练的时候把硬件资源都利用起来。
2020年4月20日,国家发展改革委首次明确新型基础设施的范围,其中就包括以智能计算中心为代表的算力基础设施。2023年1月10日,国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》,指出经过5年多发展,智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。
根据相关统计和测算,目前全国超过30个城市在建或筹建智算中心,未来5年我国智能算力规模年复合增长率将达52.3%。智算中心的创新发展,将进一步为人工智能夯实“算力底座”,成为带动人工智能及相关产业快速发展的新引擎。
“我们测算,智算中心带来的成本优化是惊人的,将达到亿元级别。”这是今年1月,张凯提出的预测。从目前及未来的规划量产规模来看,毫末自建智算中心可节约巨额成本;其带来的效率提升也非常明显。
人工智能发展很快,新的算法层出不穷,需尽快引入新的技术和模型,与此数据是智能化发展最大的驱动力,也占据了大量成本构成。用自建智算中心来打造数据护城河,不仅能够完善产业智能生态,更能让企业在智能化方面占据先发优势,智算中心作为数字新基建,未来势必将引领自动驾驶技术持续迭代升级。
【本文来自易车号作者车业视界,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】