大模型+车舱,是智慧车舱“新瓶装旧酒”了吗?记者走进车展一探究竟
走近位于国家会展中心5.1馆一隅的绝影未来展示舱,商汤AI数字人热情地表达了问候,通过面部识别判断来客为嘉宾,引导落座。
【资料图】
“若提前录入了身份信息,就会识别为司机了。”展台工作人员解释。
融合视觉、语音和自然语言理解的多模态交互,正在引领智能车舱的创新。在第二十届上海国际汽车工业展览会上,一周前才问世的“日日新”大模型体系也来到了现场。这是商汤首次展示语言大模型“商量”、文生图生成模型“秒画”与车舱的结合。
智能驾驶、智慧车舱的概念,伴随着人工智能的发展早已“驶入”千家万户,那大模型与车舱的结合,带来的是升级换代,还只是“新瓶装旧酒”?带着这样的疑问,记者走进这家人工智能头部企业的展台。
图说:“商量”与乘客互动 新民晚报记者 郜阳 摄(下同)
商量、秒画“上车”了
在展示舱落座后,记者用特定语音“唤醒”了数字人——这和不少家用智能电器的启动方式相似。当提出“帮我介绍一下上海车展中和智能驾驶相关的企业”后,“商量”思索了一下后回答道:“上海车展每年都会吸引众多汽车制造商和科技公司参展,展示最新的汽车技术和智能驾驶技术……”“商量”还列举了蔚来、小鹏、吉利、特斯拉等在智能驾驶领域表现突出的企业。
展示舱还可借助商汤AIGC(人工智能生成内容)能力为嘉宾生成各种风格的照片,并为有需求的用户提供“旅行中的短视频”服务。
“商量”也会“看菜下饭”——小朋友上车后,便“主动”推荐进入儿童模式,发挥大模型擅长“讲故事”的特长;若是职场人士,“商量”便启动“邮件模式”,自动提炼邮件关键信息,帮助用户节省阅读时间。
对了,在大模型的赋能下,健康检测也能在车内完成,只需不到半分钟,记者的心率、心率变异性、呼吸频率、血氧饱和度等指标就显示在了屏幕上。展台工作人员介绍,这款产品已经搭载于上市即热销的长安逸达,带来车载健康管理新体验。
图说:绝影未来展示舱搭载的健康检测产品
“找答案”到“想答案”
回到开头的问题:此前人工智能赋能下的车舱和与大模型结合的车舱,有什么不一样?商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚举了这样一个任务场景——
前方有块牌子:红色圆圈内有数字30,黑色方框内有100米和朝上的箭头,还有前方学校的标识。AI的做法可以理解为“一步一个脚印”:先做物体检测,然后在物体框里做文字识别,最后做决策。整个过程里,每一个模块都是事先定义好的任务。
“但通用人工智能技术下,大模型会通过自然语言的方式给出一系列逻辑推理,最后得出结论。”王晓刚说,“比如,它会告诉你‘前面100米是学校的区域’‘有小孩’‘应该小心驾驶’‘需将车速降到30公里以下’等操作。”
据介绍,自动驾驶/智能汽车领域有“数据飞轮”的说法,即模型能够加持终端,采取高质量的数据更新模型,然后再从终端提升数据的量和质。而通用人工智能时代则会产生“智慧飞轮”,人和模型之间可以产生互动。“通过人的反馈,它就能更好地理解人需要它展示什么样的能力而去解锁更多的技能,同时模型为人输出有智慧的内容,从而激发人们更多的创作智慧,随后又会产生新的‘智慧飞轮’。”王晓刚表示。
打造“第三生活空间”
有人调侃,下班返家的男性,通常不急着上楼,车内一根烟成为他们一天中最放松的时刻。而大模型赋能下,通用人工智能将不断提升使用者的个性化体验,“驾、舱、云三位一体”的小车有望成为真正的“第三生活空间”。
“基于多模态大模型,可做到数据的感知闭环和决策闭环。从前端自动采集高质量的数据,到利用大模型进行自动化的数据标注和产品检测,能够几百倍地提升模型迭代的效率并降低成本。”王晓刚介绍。
就智能车舱而言,通用人工智能可以使基模型具备对空间环境理解、用户状态感知、多模态指令解析及多轮逻辑对话、内容生成等一系列能力,进而赋能包括情绪感知、智能助手、基于情感的对话、创意内容生成、个性交互等一系列功能,不断地提升车舱的个性化体验。
同时,应用场景也可以从上车、行车、停车、离车,进而拓展到娱乐、办公、购物、休息等。例如,大模型赋能后,智能车舱可以化身“旅游管家”,基于自学习知识库,结合用户行为洞察出行意图,以多模互动形式推送沿途关键信息和行程建议,智能创作用户专属的朋友圈和出行游记。
在王晓刚看来,智能汽车是通用人工智能实现闭环的一个理想场景,“未来,车和模型之间能够产生更有效的互动,从而完成从人到车、到模型的互动闭环”。
新民晚报记者 郜阳