当前位置: 首页> 专利交易> 详情页
    待售中

    车辆交互方法、装置、电子设备、存储介质及车辆[ZH]

    专利编号: ZL202503040867

    收藏

    拟转化方式: 转让;普通许可;独占许可;排他许可;作价投资;质押融资

    交易价格:面议

    专利类型:发明专利

    法律状态:实审

    技术领域:智能网联汽车

    发布日期:2025-03-04

    发布有效期: 2025-03-04 至 2043-09-19

    专利顾问 — 伍先生

    微信咨询

    扫码微信咨询

    电话咨询

    咨询电话

    18273488208

    专利基本信息
    >
    申请号 CN202311211437.5 公开号 CN117235320A
    申请日 2023-09-19 公开日 2023-12-15
    申请人 重庆长安汽车股份有限公司 专利授权日期 0001-01-01
    发明人 张举军;贺刚;王永亮;平涛;王超 专利权期限届满日 2043-09-19
    申请人地址 400020 重庆市江北区建新东路260号 最新法律状态 实审
    技术领域 智能网联汽车 分类号 G06F16/9032
    技术效果 用户体验 有效性 审中(公开、实审)
    专利代理机构 北京润泽恒知识产权代理有限公司 11319 代理人 邵颖
    专利技术详情
    >
    01

    专利摘要

    本发明提供一种车辆交互方法、装置、电子设备、存储介质及车辆,涉及车辆技术领域,所述方法包括:接收用户输入的多模态信息;其中,所述多模态信息包括文字、语音、图片或视频中的至少一种;根据所述多模态信息,确定用户意图文本;将所述用户意图文本输入预设的交互分析模型,并获取所述交互分析模型输出的交互分析结果;其中,所述交互分析模型是根据场景数据集对待训练的大语言模型进行模型训练后得到的,所述场景数据集是根据对应的用车场景下的车辆数据和/或用户数据生成的;根据所述交互分析结果,显示动态交互画面并输出场景交互语音;其中,所述场景交互语音与所述动态交互画面相匹配。可以提升用户与车辆的交互效果。
    展开 >
    02

    专利详情

    技术领域 本发明涉及车辆技术领域,具体涉及一种车辆交互方法、装置、电子设备、存储介质及车辆。 背景技术 目前,在车辆技术领域,车辆用户比如驾驶者或乘客,与车辆的交互通常采用语音交互的方式,车辆可以识别用户的语音问话,理解用户的意图,根据用户意图输出语音答复。 但是,现有技术的车辆交互方法,可能存在对用户语音识别不准确、意图理解差的问题,导致输出的语音答复错误,降低用户与车辆的交互效果。 发明内容 本发明的目的之一在于提供一种车辆交互方法,以解决现有技术中的车辆交互方法存在交互效果较差的问题;目的之二在于提供一种车辆交互装置;目的之三在于提供一种电子设备,目的之四在于提供一种存储介质;目的之五在于提供一种车辆。 为了实现上述目的,本发明采用的技术方案如下: 第一方面,本申请实施例提供一种车辆交互方法,所述方法包括: 接收用户输入的多模态信息;其中,所述多模态信息包括文字、语音、图片或视频中的至少一种; 根据所述多模态信息,确定用户意图文本; 将所述用户意图文本输入预设的交互分析模型,并获取所述交互分析模型输出的交互分析结果;其中,所述交互分析模型是根据场景数据集对待训练的大语言模型进行模型训练后得到的,所述场景数据集是根据对应的用车场景下的车辆数据和/或用户数据生成的; 根据所述交互分析结果,显示动态交互画面并输出场景交互语音;其中,所述场景交互语音与所述动态交互画面相匹配。 可选的,所述多模态信息包括第一意图信息和第二意图信息,所述第一意图信息包括所述图片和/或所述视频,所述第二意图信息包括所述文字和/或所述语音,所述根据所述多模态信息,确定用户意图文本,包括: 获取所述第一意图信息对应的历史上下文; 根据所述第二意图信息确定问题文本,并根据预设的提示词模板和所述问题文本生成第一提示词; 将所述第一提示词和所述历史上下文确定为所述用户意图文本。 可选的,所述获取所述第一意图信息对应的历史上下文,包括: 对所述第一意图信息进行图像分类识别,确定图像特征词; 根据所述提示词模板和所述图像特征词生成第二提示词,并将所述第二提示词确定为所述用户意图文本; 将所述用户意图文本输入所述交互分析模型,并获取所述交互分析结果,以及将所述第二提示词和所述交互分析结果确定为所述历史上下文。 可选的,所述交互分析模型通过以下方式获得: 获取多种用车场景下的车辆数据和/或用户数据; 对于任一目标用车场景,根据所述目标用车场景对应的车辆数据和/或用户数据,生成所述目标用车场景对应的场景训练集;其中,所述目标用车场景是所述多种用车场景中的一种; 根据所述目标用车场景对应的场景训练集,对待训练的大语言模型进行微调训练; 在符合预设的训练停止条件的情况下,将当前的大语言模型确定为所述交互分析模型。 可选的,所述交互分析结果包括动态文件标识和向量知识标识,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 根据所述动态文件标识从预设的动态文件库中获取目标动态文件,并根据所述向量知识标识从预设的向量知识库中获取目标向量知识; 根据所述目标动态文件显示所述动态交互画面,并根据所述目标向量知识输出所述场景交互语音。 可选的,所述交互分析结果包括客服对话接口,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 调用所述客服对话接口,显示客服对话界面;其中,所述客服对话界面包括所述动态交互画面; 接收用户提问输入,并从所述客服对话接口获取所述用户提问输入对应的答复文本; 根据所述答复文本输出所述场景交互语音。 可选的,所述多模态信息表征所述用户的行程攻略生成要求,所述根据所述多模态信息,确定用户意图文本,包括: 根据预设的文本组装格式和所述多模态信息,确定所述用户意图文本; 所述交互分析结果包括:行程攻略文本,以及所述行程攻略文本对应的兴趣点文本,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 根据所述行程攻略文本确定目标行程;对于任一所述目标行程,从所述兴趣点文本中获取所述目标行程对应的兴趣点信息,并根据所述兴趣点信息获取兴趣点图像; 根据所述目标行程、所述兴趣点信息和所述兴趣点图像显示所述动态交互画面,并根据所述目标行程和所述兴趣点信息输出所述场景交互语音。 可选的,所述多模态信息表征所述用户的动态壁纸交互要求,所述交互分析结果包括动态壁纸提示词,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 获取背景图片,并根据所述背景图片和所述动态壁纸提示词生成动态壁纸文件; 根据所述动态壁纸文件显示所述动态交互画面,并根据所述动态壁纸提示词输出所述场景交互语音。 可选的,所述多模态信息表征所述用户的推荐服务交互要求,所述交互分析结果包括针对所述用户的个性化推荐结果,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 根据所述个性化推荐结果显示所述动态交互画面,并根据所述个性化推荐结果输出所述场景交互语音。 第二方面,本申请实施例提供一种车辆交互装置,所述车辆交互装置包括: 接收模块,用于接收用户输入的多模态信息;其中,所述多模态信息包括文字、语音、图片或视频中的至少一种; 确定模块,用于根据所述多模态信息,确定用户意图文本; 获取模块,用于将所述用户意图文本输入预设的交互分析模型,并获取所述交互分析模型输出的交互分析结果;其中,所述交互分析模型是根据场景数据集对待训练的大语言模型进行模型训练后得到的,所述场景数据集是根据对应的用车场景下的车辆数据和/或用户数据生成的; 交互模块,用于根据所述交互分析结果,显示动态交互画面并输出场景交互语音;其中,所述场景交互语音与所述动态交互画面相匹配。 第三方面,本申请实施例提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现第一方面所述的车辆交互方法的步骤。 第四方面,本申请实施例提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行第一方面所述的车辆交互方法。 第五方面,本申请实施例提供一种车辆,包括如第二方面所述的车辆交互装置,用于执行第一方面所述的车辆交互方法。 本发明的有益效果: 本申请的车辆交互方法,可以接收用户输入的文字、语音、图片或视频中一种或多种组合形式的多模态信息,从而可以丰富用户输入形式,通过多模态信息获取更多的用户意图信息,使得根据多模态信息得到的用户意图文本更加准确,通过预设的交互分析模型对用户意图文本进行处理,由于场景数据集是根据对应的用车场景下的车辆数据和/或用户数据生成的,因此,场景数据集与用车场景相匹配,由于交互分析模型是场景数据集对待训练的大语言模型进行模型训练后得到的,因此可以使得交互分析模型输出的交互分析结果与用车场景更加匹配,车辆可以根据交互分析结果,显示动态交互画面并输出场景交互语音,从而通过视觉、听觉的多种交互方式提升用户在当前用车场景下的交互体验,将用户的多种感官结合,可以提升车辆与用户的交互效果。 附图说明 图1是本申请实施例提供的一种车辆交互方法的步骤流程图; 图2是本申请实施例提供的一种车辆交互方法的用车指南场景示意图; 图3是本申请实施例提供的一种车辆交互方法的智能向导场景示意图; 图4是本申请实施例提供的一种车辆交互方法的动态壁纸场景示意图; 图5是本申请实施例提供的一种车辆交互方法的智能推荐场景示意图; 图6是本申请实施例提供的一种车辆交互方法的总体框架图; 图7是本申请实施例提供的一种车辆交互装置的结构示意图; 图8是本申请实施例提供的一种电子设备的结构示意图。 具体实施方式 以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。 图1是本申请实施例提供一种车辆交互方法的步骤流程图,如图1所示,所述方法包括: 步骤101,接收用户输入的多模态信息;其中,所述多模态信息包括文字、语音、图片或视频中的至少一种。 本申请实施例中,该车辆交互方法可以应用于车辆,车辆包括人机交互系统,例如智能座舱系统,该人机交互系统可以包括显示模块、语音模块、通信模块等,其中,显示模块例如中控显示屏、抬头显示系统等,语音模块例如音频等,通信模块例如蓝牙传输模块等。其中,智能座舱系统包括座舱内饰、座舱电子产品,可以与智能手机、手表等实现互联,智能座舱可以通过车联网、无线通信、远程感应、定位等技术,与车外的各项基础网联设施、联网设备实现联结。 本申请实施例中,多模态信息可以是文字、语音、图片、视频中的任一种,也可以是文字、语音、图片、视频中两种及以上的信息组合,本申请实施例对此不做限制。以图片和文字为例,图片可以是用户相册中的照片或者用户使用手机等移动终端当前拍摄的照片,文字可以是用户输入车辆输入设备或者用户上传车辆的问题文本,该问题文本与图片有关,并表明了用户的意图,例如,用户拍摄的车辆的雨刷器的照片,问题文本可以是 " 雨刷器怎么打开 " 。此处仅是举例说明,本申请实施例对此不做限制。 步骤102,根据所述多模态信息,确定用户意图文本。 本申请实施例中,对于用户输入的文字这种形式的信息,可以直接将文字信息确定为用户意图文本,也可以结合用车场景对文字信息进行预处理,将处理后的文字信息确定为用户意图文本。例如,在用户查询用车指南的应用场景下,可以将文字信息输入预先创建的向量知识库,获取向量知识库检索得到的Topk信息,k值可以自定义,例如Top5可以获得前5个检索结果。然后,可以将用户输入的文字信息和从向量知识库检索获得的Topk信息确定为用户意图文本。例如,用户咨询车辆智能客服的应用场景下,可以将用户输入的文字信息直接确定为用户意图文本。例如,用户要求生成行程攻略的应用场景下,可以将用户输入的行程攻略要求信息按照预设的文本组装格式进行组装,并将组装结果确定为用户意图文本。例如,用户要求生成动态壁纸的应用场景下,可以根据用户输入的文字或语音确定用户的动态壁纸交互要求,比如 " 生成下雨动效 " , " 让雨点再大点 " ,将文字或语音转换的文本,确定为用户意图文本。例如,用户要求智能推荐的应用场景下,可以根据用户输入的文字或语音确定用户的推荐服务要求,比如 " 播放音乐 " , " 查询天气预报 " ,将文字或语音转换的文本,确定为用户意图文本。此处仅是举例说明,本申请实施例对此不做限制。 本申请实施例中,对于用户输入的语音这种形式的信息,可以通过语音识别将用户语音转换为文本,并将识别出的文本确定为用户意图文本。对于用户输入的图片或者视频这种形式的信息,可以通过对图片或者视频帧进行图像分类识别,提取图片或者视频帧的图像特征,生成图像特征词,将图像特征词确定为用户意图文本。 本申请实施例中,对于文字、语音、图片或视频中的两种及以上形式的信息组合,可以分别对各种信息进行相应处理,然后根据各种信息经过处理后获得的文本,确定用户意图文本。其中,对于不同的用车场景,可以结合场景特点,对信息进行差异化处理,使得用户意图文本与当前的用车场景更加匹配。 可选的,所述多模态信息包括第一意图信息和第二意图信息,所述第一意图信息包括所述图片和/或所述视频,所述第二意图信息包括所述文字和/或所述语音,所述根据所述多模态信息,确定用户意图文本,包括: 获取所述第一意图信息对应的历史上下文; 根据所述第二意图信息确定问题文本,并根据预设的提示词模板和所述问题文本生成第一提示词; 将所述第一提示词和所述历史上下文确定为所述用户意图文本。 本申请实施例中,第一意图信息可以是图像类信息,包括图片和视频中的至少一种。第二意图信息可以是语言类信息,包括文字和语音中的至少一种。对于图片和/或视频,可以对图片和/或视频进行图像分类识别,提取图片或者视频帧的图像特征,生成图像特征词,然后将图像特征词输入预设的提示词模板,比如prompt模板,获取提示词模板输出的提示词,并将输出的提示词输入交互分析模型,获取模型输出的交互分析结果,然后将提示词和交互分析结果作为图像特征词的历史上下文进行记录。其中,可以通过训练图像分类模型来对图片和/或视频进行图像分类识别,例如,选择机器学习模型或深度学习模型,常用的模型包括循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)、3D卷积神经网络(3D CNN)等,通过图片和/或视频训练集进行模型训练,得到图像分类模型。此处仅是举例说明,本申请实施例对此不做限制。 本申请实施例中,在获取第一意图信息对应的历史上下文时,对于从第一意图信息提取的图像特征词,如果存在该图像特征词对应的历史上下文,则直接将该图像特征词对应的历史上下文确定为第一意图信息对应的历史上下文,若不存在该图像特征词对应的历史上下文,则通过提示词模板和交互分析模型获取。 可选的,所述获取所述第一意图信息对应的历史上下文,包括: 对所述第一意图信息进行图像分类识别,确定图像特征词; 根据所述提示词模板和所述图像特征词生成第二提示词,并将所述第二提示词确定为所述用户意图文本; 将所述用户意图文本输入所述交互分析模型,并获取所述交互分析结果,以及将所述第二提示词和所述交互分析结果确定为所述历史上下文。 本申请实施例中,第一意图信息包括图片和/或视频,可以对图片直接进行图像分类识别,可以获取视频的视频帧,对视频帧进行图像分类识别。例如,可以使用快进运动图像专家组(Fast Forward Moving Picture Experts Group,FFMPEG),或者开源计算机视觉库(Open Source Computer Vision Library,OpenCV)提取视频的视频帧。可以根据任务或应用的需求调整视频的读取帧率,例如自动驾驶可以通过较高的读取帧率确保快速响应,一般读取视频帧的帧率可以在24FPS到30FPS,FPS表示每秒传输帧数(Frames Per Second,FPS)。此处仅是举例说明,本申请实施例对此不做限制。 本申请实施例中,可以通过图像分类识别提取图片和/或视频帧的图像特征,生成图像特征词。具体的,对于图片,可以通过传统的计算机视觉特征如颜色直方图、纹理特征等提取图像特征词,也可以使用深度学习模型如卷积神经网络提取图像特征词。对于视频,可以对每个视频帧进行特征提取,获得一系列帧级别的分类结果,然后对帧级别的分类结果进行聚合,获取视频的图像特征词。其中,对于单个视频帧的特征提取可以参照对图片进行图像分类识别的方法,此处不再赘述。对于帧级别的分类可以通过分类器比如向量机、随机森林、深度神经网络等实现。对帧级别的分类结果进行聚合,可以采用例如多数投票、平均概率、时间权重聚合等聚合方法,确定视频的图像特征词。此外,对于视频,可能需要考虑时间序列信息,例如视频中的动作或事件的顺序,可以使用循环神经网络(RNN)或长短时记忆网络(Long Short Term Memory,LSTM)等模型来捕获时序信息,以进一步提高视频的图像特征词的准确性。这样,通过截取视频的视频帧,再提取视频帧的图像特征,然后对视频帧的图像特征进行特征聚合,获得视频的图像分类识别结果,作为视频的图像特征词。例如,用户拍摄车辆的仪表盘,通过图像分类识别,确定 " 仪表盘 " 为图像特征词。或者,用户拍摄了一段仪表盘发生黑屏故障的视频,通过对视频帧进行图像分类识别,确定 " 仪表盘 " " 黑屏故障 " 为图像特征词。此处仅是举例说明,本申请实施例对此不做限制。 本申请实施例中,可以将图像特征词输入预设的提示词模板,比如prompt模板,获取提示词模板输出的提示词,作为第二提示词。例如,大语言模型(Large Language Model,LLM)具有用于开发由大语言模型驱动的应用程序的框架(LangChain),可以采用LangChain框架中可复制的生成提示的方法(Prompt template), " 我想让你成为一个汽车顾问。给我返回关于{vehicle_model}的{auto_parts}使用说明 " ,然后创建一个prompt模板,在LLM中应用prompt模板,获取prompt模板生成的提示词: " 车辆型号 " 的 " 仪表盘 " 使用说明。此处仅是举例说明,本申请实施例对此不做限制。 本申请实施例中,可以将第二提示词作为用户意图文本输入交互分析模型,获取交互分析模型输出的交互分析结果,然后将第二提示词和交互分析结果确定为图像特征词对应的历史上下文进行记录,并将该历史上下文确定为第一意图信息对应的历史上下文。 在本申请实施例中,通过对第一意图信息进行图像分类识别确定图像特征词,可以由图像特征词表示图像或视频所包含的信息,根据提示词模板和图像特征词生成第二提示词,并将第二提示词确定为用户意图文本,可以将图像或视频所包含的信息转换为交互分析模型可接收的文本,将用户意图文本输入交互分析模型,并获取交互分析结果,使得交互分析结果与第一意图信息相匹配,以及将第二提示词和交互分析结果确定为历史上下文。这样,可以通过历史上下文体现交互分析模型对第一意图信息的分析依据和分析结果,从而历史上下文可以作为样本供交互分析模型学习,使得交互分析模型根据第一意图信息和第二意图信息得到的交互分析结果更加准确。 本申请实施例中,第二意图信息包括文字和/或语音,可以将文字直接确定为问题文本,可以通过语音识别将用户输入的语音转换为文本,并将识别出的文本内容确定为问题文本,当用户上传文字和语音时,可以将文字和语音识别出的文本一并确定为问题文本。 本申请实施例中,第二意图信息可以是与第一意图信息关联的信息,例如,第二意图信息可以是对第一意图信息中的图片、视频的提问,例如 " 上面那个故障什么原因 " " 如何处理这个问题 " 等。本申请实施例中,可以将问题文本输入预设的提示词模板,比如prompt模板,获取提示词模板输出的提示词,作为第一提示词,然后将第一提示词和历史上下文确定为用户意图文本。这样,可以方便用户通过第一意图信息提供对象描述,通过第二意图信息说明用户意图,从而扩展用户输入形式,获取更加丰富的用户意图信息,进而使得根据多模态消息确定的用户意图文本,也即根据第一提示词和历史上下文确定的用户意图文本更加准确。 例如,用户单独输入文字、语音、图片或视频中一种形式的信息时,确定用户意图文本为 " 提问仪表盘黑屏故障 " ,交互分析模型输出的交互分析结果为 " 仪表盘损坏会导致汽车启动后仪表盘无法亮起,线路出现问题会导致汽车无法给仪表盘供电,都会导致汽车仪表盘突然黑屏的情况出现 " ,可见返回结果仅解释什么是黑屏。当用户输入仪表盘黑屏故障的照片或视频,并输入文字或者语音提问 " 上面那个故障什么原因 " ,可以将仪表盘黑屏故障的照片或视频作为第一意图信息,将文字或者语音提问作为第二意图信息,然后获取第一意图信息对应的历史上下文,根据第二意图信息确定问题文本,并根据提示词模板和问题文本生成第一提示词,将第一提示词和历史上下文确定为用户意图文本,将用户意图文本输入交互分析模型,获得交互分析结果 " 仪表盘黑屏的原因可能有以下几种:仪表盘损坏,汽车启动后仪表盘无法亮起,线路出现问题会导致汽车无法给仪表盘供电,都会导致汽车仪表盘突然黑屏;解码芯片或核心模块没工作或者损坏,通过汽车解码器,可以跟汽车电脑进行通讯,交流汽车运行中的各种信息,若解码芯片或核心模块没工作或者损坏也有可能导致汽车仪表盘突然黑屏。 " 因此,通过扩展用户输入形式,提高用户意图文本的准确性,可以进一步提高获取的交互分析结果的准确性,从而提高用户与车辆交互的效果,提高用户的交互体验。 在本申请实施例中,由于多模态信息包括第一意图信息和第二意图信息,第一意图信息包括图片和/或视频,第二意图信息包括文字和/或语音,这样,可以方便用户通过第一意图信息提供对象描述,通过第二意图信息说明用户意图,从而扩展用户输入形式,获取更加丰富的用户意图信息,进而使得根据多模态消息确定的用户意图文本更加准确,通过根据第二意图信息确定问题文本并根据预设的提示词模板和问题文本生成第一提示词,可以将第二意图信息转换为符合交互分析模输入要求的形式,通过将第一提示词和历史上下文确定为用户意图文本,可以使得用户意图文本结合第一意图信息和第二意图信息,使得用户意图文本更加准确。因此,通过扩展用户输入形式,提高用户意图文本的准确性,可以提高获取的交互分析结果的准确性,从而提高用户与车辆交互的效果。 步骤103,将所述用户意图文本输入预设的交互分析模型,并获取所述交互分析模型输出的交互分析结果;其中,所述交互分析模型是根据场景数据集对待训练的大语言模型进行模型训练后得到的,所述场景数据集是根据对应的用车场景下的车辆数据和/或用户数据生成的。 本申请实施例中,车辆数据可以包括车辆领域相关的语料数据集,例如汽车电子手册、维修保养常识、常见问题反馈、技术文档、零部件异常分类数据、驾驶行为数据、车辆状态数据、车辆行驶轨迹位置信息等。用户数据可以包括各种用车场景下的相关数据,例如,与客服相关的历史对话数据、各类旅游网站的旅游攻略数据、兴趣点(Point ofInterest,POI)详细介绍信息、天气数据、城市数据、用户操作行为数据、用户第三方应用数据等。其中,可以通过爬虫技术爬取各类旅游网站、第三方应用的数据。 例如,用户要求 " 根据我的要求制定一份旅游计划 " ,关键词是 " 游玩天数:5天,景点:名胜古迹,地点:西南 " ,根据用户输入的要求和关键词生成的旅游攻略文本是 " 想去新疆的话,这5个地方一定不要错过!第一个要去的地方一定是吐鲁番。在这里主要有6个旅游必去景点,他们分别是火焰山、坎儿井、葡萄沟、库木塔格沙漠、吐峪沟、交河古城!每一个景点值得一去的原因都有标注好,还把门票价格标出来了。可以作为参考!第二个要去的就是乌鲁木齐!第三个要去的是喀纳斯!第四个要去的是伊犁!第五个要去的是南疆! " 。此处仅是举例说明,本申请实施例对此不做限制。 可选的,所述交互分析模型通过以下方式获得: 获取多种用车场景下的车辆数据和/或用户数据; 对于任一目标用车场景,根据所述目标用车场景对应的车辆数据和/或用户数据,生成所述目标用车场景对应的场景训练集;其中,所述目标用车场景是所述多种用车场景中的一种; 根据所述目标用车场景对应的场景训练集,对待训练的大语言模型进行微调训练; 在符合预设的训练停止条件的情况下,将当前的大语言模型确定为所述交互分析模型。 本申请实施例中,多种用车场景可以包括查询用车指南、咨询车辆智能客服、车辆智能向导服务、动态壁纸服务、智能推荐服务等。对于任一目标用车场景,可以根据该目标用车场景下的车辆数据和/或用户数据生成该目标用车场景对应的场景数据集。具体的,可以对车辆数据和/或用户数据进行特殊字符过滤、格式化等预处理,然后根据处理后的数据根据预设的数据格式生成场景数据集,例如,数据格式可以是数据交互格式(JavaScriptObject Notation,JSON)。对于汽车电子手册、维修保养常识等非结构化数据也可以提供pdf、txt、docx格式的数据。其中,JSON格式通过键值对存储和传输数据,例如,与客服相关的历史对话数据可以通过问题(question)-答案(answer)建立键值对进行数据存储,如以下示例A-C所示。 示例A:{ " question " : " 蓝牙连接不上怎么办? " , " answer " : " 要连接蓝牙设备,请按照以下步骤操作:1.打开设备的蓝牙功能;2.在您的手机设置中打开蓝牙;3.扫描可用设备并选择要连接的设备;4.如果需要,输入配对码进行配对。 " } 示例B:{ " question " : " 如何调节音量? " , " answer " : " 要调节音量,请使用音量按钮或旋钮来增加或减小音量。您也可以通过语音命令来调节音量,例如说增大音量'或'降低音量。 " } 示例C:{ " question " : " 我的手机无法连接到车载系统,怎么办 " , " answer " : " 如果您的手机无法连接到车载系统,请尝试以下解决方法:1.确保您的手机蓝牙功能已打开;2.重启您的手机和车载系统;3.删除之前的配对记录并重新配对设备;4.更新手机操作系统和车载系统的软件版本。如果问题仍然存在,请咨询我们的售后服务中心。 " } 本申请实施例中,待训练的大语言模型可以是GPT-3.5或chatglm2_6b模型,可以将目标用车场景的场景训练集输入待训练的大语言模型,然后对待训练的大语言模型进行微调训练,在符合预设的训练停止条件的情况下,完成对大语言模型的训练,将当前的大语言模型确定为交互分析模型。其中,预设的训练停止条件可以是模型训练次数达到预设次数阈值。可以通过python提供的参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)工具,使用低秩适配(Low-Rank Adaptation,LoRA)算法,对待训练的大语言模型进行微调训练。具体的,可以下载PEFT工具,通过pip install模块名安装python依赖包,下载待训练的大语言模型,例如chatGLM2-6B模型,创建train.sh脚本文件,然后通过执行指令bashtrain.sh进行模型训练,训练完成后获得Lora微调模型,作为本申请实施例的交互分析模型。其中,train.sh脚本文件包括:待训练的大语言模型、场景训练集,train.sh脚本文件定义微调模型输出路径,并设置训练完成次数。.sh文件是脚本文件,一般都是bash脚本,bash脚本是纯文本文件,是用bash编程语言编写的计算机程序。 在本申请实施例中,通过获取多种用车场景下的车辆数据和/或用户数据,可以扩展训练数据量,对于任一目标用车场景,根据目标用车场景对应的车辆数据和/或用户数据,生成目标用车场景对应的场景训练集,可以使得场景训练集与目标用车场景更加适配,由于目标用车场景是多种用车场景中的一种,因此,对于多个用车场景,可以分别获得各用车场景下的场景训练集,提升场景训练集的样本多样性,通过根据目标用车场景对应的场景训练集,对待训练的大语言模型进行微调训练,在符合预设的训练停止条件的情况下,将当前的大语言模型确定为交互分析模型。可以理解的是,大语言模型是通过大量文本数据训练的大规模模型,具有上下文理解能力,可以理解和生产人类语言,虽然大语言模型参数非常多,但是通过微调训练可以提升大语言模型训练速度,从而降低模型训练的时间成本,由于交互分析模型是根据目标用车场景对应的场景训练集训练得到的,因此,可以使得交互分析模型与目标用车场景更加匹配,从而交互分析模型输出的交互分析结果与目标用车场景更加匹配,可以提高交互分析结果的准确性。 本申请实施例中,将用户意图文本输入预设的交互分析模型,并获取交互分析模型输出的交互分析结果。对于用户咨询用车指南的场景下,交互分析结果可以包括动态文件标识和向量知识标识,动态文件标识对应于预先创建的动态文件库中的动态文件的标识,向量知识标识对应于预先创建的向量知识库中的文本向量的标识。 本申请实施例中,可以针对汽车电子手册里面的所有零部件,预先制作各个零部件的三维(SD)动态文件,3D动态文件制作可以使用玛雅(Maya)工具,动态文件保存为3D数据交换格式,比如.fbx文件格式,然后将动态文件通过对象存储(Object StorageService,OSS)文件系统进行存储,并将动态文件访问地址存储到关系型数据库,比如Mysql数据库,从而创建动态文件库。可以通过动态文件标识从数据库中获取动态文件访问地址,然后根据动态文件访问地址获取动态文件。 本申请实施例中,可以对车辆数据和/或用户数据中的知识文档创建向量知识库,通过向量数据库存储海量数据,向量数据库可以提供高效的检索功能。具体的,获取知识文档,比如汽车电子手册、维修保养常识等,对知识文档进行文本分割,然后将分割后的文本向量化,通过数据库存储得到的文本向量,并建立文本向量对应的标识,作为向量知识标识,从而创建向量知识库。可以通过向量知识标识获取对应的文本向量,作为目标向量知识。 步骤104,根据所述交互分析结果,显示动态交互画面并输出场景交互语音;其中,所述场景交互语音与所述动态交互画面相匹配。 本申请实施例中,可以根据交互分析结果,获取当前用车场景下的动态交互数据,并获取与动态交互数据相匹配的场景语音数据,通过车辆的显示模块,例如车辆的中控显示屏、抬头显示系统等,根据动态交互数据显示动态交互画面,通过车辆的语音模块,例如车辆的音频系统,根据场景语音数据输出场景交互语音。 可选的,所述交互分析结果包括动态文件标识和向量知识标识,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 根据所述动态文件标识从预设的动态文件库中获取目标动态文件,并根据所述向量知识标识从预设的向量知识库中获取目标向量知识; 根据所述目标动态文件显示所述动态交互画面,并根据所述目标向量知识输出所述场景交互语音。 本申请实施例中,当前用车场景可以是用户咨询用车指南,交互分析结果包括动态文件标识和向量知识标识,其中,动态文件标识可以是用户咨询的零部件对应的3D动态文件的文件标识,向量知识标识可以是用户咨询的零部件对应的知识文档内容向量化生成的文本向量的标识。可以根据动态文件标识从动态文件库中获取动态文件访问地址,然后根据动态文件访问地址获取动态文件,作为目标动态文件。根据向量知识标识从向量知识库中获取对应的文本向量,并将文本向量的文本内容确定为目标向量知识。 本申请实施例中,可以通过车辆的显示模块,例如车辆的中控显示屏、抬头显示系统等,对目标动态文件通过3D渲染引擎进行3D动效展示,显示动态交互画面。可以通过车辆的语音模块,例如文本转语音(Text-to-Speech,TTS)模块对目标向量知识进行语音播报,输出场景交互语音。方便用户在动态交互画面和场景交互语音的指引下进行操作,提供生动直观的交互效果。 例如,用户询问 " 雨刷器怎么打开? " ,交互分析模型输出关于 " 雨刷器 " 的动态文件标识,并输出 " 雨刷器 " 的向量知识标识,从动态文件库中获取 " 雨刷器 " 的动态文件,从向量知识库中获取 " 雨刷器 " 的向量知识,然后将 " 雨刷器 " 的动态文件与 " 雨刷器 " 的向量知识整合到车辆控制系统,通过车辆的显示模块和语音模块输出 " 雨刷器 " 的动态交互画面和 " 雨刷器 " 的知识语音播报。 在本申请实施例中,由于交互分析结果包括动态文件标识和向量知识标识,因此,可以方便地根据动态文件标识从预设的动态文件库中获取目标动态文件,并根据向量知识标识从预设的向量知识库中获取目标向量知识,然后根据目标动态文件显示动态交互画面,并根据目标向量知识输出场景交互语音,可以通过动态文件库和向量知识库预存动态文件和向量知识,从而提高动态交互画面和场景交互语音的输出效率。 可选的,所述交互分析结果包括客服对话接口,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 调用所述客服对话接口,显示客服对话界面;其中,所述客服对话界面包括所述动态交互画面; 接收用户提问输入,并从所述客服对话接口获取所述用户提问输入对应的答复文本; 根据所述答复文本输出所述场景交互语音。 本申请实施例中,客服对话接口可以包括智能客服接口和人工客服接口,客服对话界面包括智能客服对话界面和人工客服对话界面。调用客服对话接口可以通过车辆的显示模块或者用户的移动终端显示客服对话界面,例如车辆的中控显示屏、抬头显示系统等,或者,用户通过移动终端登录网页应用、移动应用或其他应用形式。智能客服对话界面中包括智能客服的数字形象,该智能客服的数字形象可以作为动态交互画面。 本申请实施例中,通过调用人工客服接口,可以接入人工座席系统获取人工客服的实时视频画面,并通过车辆的显示模块或者用户的移动终端显示人工客服的实时视频画面,可以将实时视频画面确定为动态交互画面。例如,可以通过LangChain Agent插件方式调用人工客服的应用编程接口(Application Programming Interface,API)即人工客服接口,接入人工座席系统。具体的,可以在LangChain框架下导入人工座席工具(ManualseatTool),定义名称和描述信息name= " 人工坐席 " ,description= " 当你想接入人工客服时可以用到 " 。 本申请实施例中,用户可以与客服对话界面进行对话交互,用户可以输入文字或者语音形式的提问,车辆接收用户提问输入。对于智能客服,可以直接将文字确定为用户意图文本,或者,可以通过语音转换的文本确定用户意图文本,然后将用户意图文本输入交互分析模型,获取模型输出的交互分析结果,通过智能客服接口从交互分析结果中获取用户提问输入对应的答复文本,然后通过车辆的语音模块播报答复文本的内容,从而输出场景交互语音。 本申请实施例中,对于人工客服,可以将用户输入的文字或者语音通过人工客服接口传输至人工座席系统,人工客服对用户提问进行答复,然后从人工客服接口获取人工客服的答复内容数据,根据答复内容数据确定答复文本,然后通过车辆的语音模块播报答复文本的内容,从而输出场景交互语音。其中,答复内容数据可以是答复文字、答复语音或者答复视频片段等。此处仅是举例说明,本申请实施例对此不做限制。 在本申请实施例中,通过调用客服对话接口,显示客服对话界面,由于客服对话界面包括动态交互画面,因此,可以方便用户通过客服对话界面进行交互,通过接收用户提问输入,并从客服对话接口获取用户提问输入对应的答复文本,根据答复文本输出场景交互语音,从而实现用户与客服对话,提高本申请实施例的车辆交互方法的实用性。 可选的,所述多模态信息表征用户的行程攻略生成要求,所述根据所述多模态信息,确定用户意图文本,包括: 根据预设的文本组装格式和所述多模态信息,确定所述用户意图文本; 所述交互分析结果包括:行程攻略文本,以及所述行程攻略文本对应的兴趣点文本,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 根据所述行程攻略文本确定目标行程; 对于任一所述目标行程,从所述兴趣点文本中获取所述目标行程对应的兴趣点信息,并根据所述兴趣点信息获取兴趣点图像; 根据所述目标行程、所述兴趣点信息和所述兴趣点图像显示所述动态交互画面,并根据所述目标行程和所述兴趣点信息输出所述场景交互语音。 本申请实施例中,预设的文本组装格式可以包括:定角色、说问题、给目标和补要求。用户可以输入文字或语音提出行程攻略生成要求,可以直接将文字作为攻略要求文本,或者,可以通过语音转换的文本确定攻略要求文本,然后通过分词器(Tokenizer)对攻略要求文本按照文本组装格式进行处理,从而将攻略要求文本转化为交互分析模型可以接受的输入,即用户意图文本。例如,定角色:假如你是一位导游(选填),说问题:我要到某目的地旅游,预算是X元,一共有N个人,总共要游玩X天(必填),给目标:请给我一份旅游攻略(必填),补要求(选填):1.旅游行程不要太紧凑;2.选择的景点请给出景点价格;3.景点最好附近有吃的地方。此处仅是举例说明,本申请实施例对此不做限制。 本申请实施例中,将根据用户的行程攻略生成要求获取的用户意图文本输入交互分析模型,获取模型输出的交互分析结果,交互分析结果可以包括与用户的行程攻略生成要求相匹配的行程攻略文本。例如, " 好的,以下是为期三天的海湾之旅制定的行程安排,包括一些美丽而又安全的地方和适量的活动,以便您有时间放松:第一天,上午到达目的地并办理入住手续,下午在海滩上放松身心,享受阳光和海浪,晚上在当地餐厅品尝美食;第二天:上午前往附近的景点参观,下午享用午餐然后前往海滩放松,晚上欣赏夜景;第三天,上午前往参观展览,下午进行浮潜或潜水等水上活动,晚上在酒吧享受夜生活。希望这个行程安排能够满足您的需求,让您尽情享受您的假期! " 本申请实施例中,可以根据行程攻略文本和提示词模板获取兴趣点(Point ofInterest,POI)的提示词,作为第三提示词,然后将第三提示词输入交互分析模型,获取交互分析模型分析输出的交互分析结果,该交互分析结果为兴趣点文本,即行程攻略文本对应的兴趣点文本。其中,兴趣点文本可以包括出发地、目的地、周边推荐、POI详细介绍等信息。 本申请实施例中,可以根据行程攻略文本确定整体行程安排,可以将单位时间的行程确定为目标行程,例如1天、1小时等。对于任一目标行程,根据目标行程中的兴趣点,从兴趣点文本中获取兴趣点对应的兴趣点信息,作为目标行程对应的兴趣点信息,然后根据兴趣点信息从预先设置的图像数据库或者从网络上获取相关图像,作为兴趣点图像。 本申请实施例中,可以通过车辆的显示模块或者用户的移动终端显示动态交互画面,该动态交互画面动态呈现目标行程的行程内容,可以结合兴趣点信息和兴趣点图像对目标行程中的兴趣点进行动态显示。并根据目标行程的行程内容,以及目标行程包含的兴趣点的兴趣点信息确定介绍文本,通过车辆的语音模块播报介绍文本,从而输出场景交互语音。 例如,prompt模板可以设置template= " 基于以下已知信息,简洁和专业的来回答用户的问题。如果无法从中得到答案,请说‘根据已知信息无法回答该问题,不允许在答案中添加编造成分,答案请使用中文’。已知内容:{context},问题:针对每个行程,提取出相关可能需要的所有POI信息,并且以行程XXX:格式输出,XXX代表阿拉伯数字 " ,其中context的内容是行程攻略文本。 在一些可行的实施方式中,可以使用Langchian Agent插件整合旅游软件、天气软件等第三方应用的应用程序接口,实现目的地POI信息智能推荐,包括POI景点门票价格,详细介绍等。还可以在用户执行目标行程的过程中,调用车辆环视摄像头实时抓拍风景图片,并记录拍摄地点、拍摄时间、输入描述关键词等,当目标行程结束后,可以按照时间轴排序,调用图文生成工具,根据行程攻略文本、兴趣点文本、风景图片、拍摄地点、拍摄时间、输入描述关键词等生成行程游记。 在本申请实施例中,由于多模态信息表征用户的行程攻略生成要求,因此,可以通过根据预设的文本组装格式和多模态信息确定用户意图文本,将用户的行程攻略要求转换为交互分析模型可以接收的输入,即用户意图文本,获取交互分析结果,即行程攻略文本以及行程攻略文本对应的兴趣点文本,这样,不仅可以获取用户所需的行程攻略文本,还可以获取行程相关的兴趣点资讯,然后可以根据行程攻略文本确定目标行程,对于任一目标行程,从兴趣点文本中获取目标行程对应的兴趣点信息,并根据兴趣点信息获取兴趣点图像,根据目标行程、兴趣点信息和兴趣点图像显示动态交互画面,并根据目标行程和兴趣点信息输出场景交互语音,从而通过动态交互画面和场景交互语音生动直观地为用户呈现行程攻略,可以提高用户和车辆的交互效果。 可选的,所述多模态信息表征所述用户的动态壁纸交互要求,所述交互分析结果包括动态壁纸提示词,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 获取背景图片,并根据所述背景图片和所述动态壁纸提示词生成动态壁纸文件; 根据所述动态壁纸文件显示所述动态交互画面,并根据所述动态壁纸提示词输出所述场景交互语音。 本申请实施例中,用户可以输入文字或语音提出动态壁纸交互要求,可以直接将文字作为用户意图文本,或者,可以通过语音转换的文本确定用户意图文本。本申请实施例中,将根据用户的动态壁纸交互要求获取的用户意图文本输入交互分析模型,获取模型输出的交互分析结果,交互分析结果可以包括动态壁纸提示词,该动态壁纸提示词可以是文生图提示词,用于通过文生视频工具生成动态壁纸。 本申请实施例中,背景图片可以是静态壁纸,可以是从网络获取的图片,或者用户上传的相册图片,或者实时拍摄的照片,或者可以通过预先安装在车顶的环视图像采集设备采集背景图片,本申请实施例对此不做限制。其中,可以是在车辆行驶过程中,驾驶者或乘客发现好看的风景,通过语音控制安装在车顶的360°环视摄像头,拍摄当前驾驶场景的环境图像,如果连续拍摄多张,驾驶者或乘客可以选择其中一张作为背景图片。 本申请实施例中,可以获取实时的天气数据和位置数据,具体的,可以调用天气应用服务接口获取当前的天气数据,比如雨天、雪天、大雾、大风等,调用卫星定位系统服务接口获取车辆当前的位置数据。可以根据实时的天气数据和位置数据输入大语言模型生成文生图提示词,然后根据背景图片和文生图提示词通过文生图工具(Stablediffusion),生成带有天气、位置特征的静态壁纸。其中,文生图工具是一种生成式人工智能(ArtificialIntelligence Generated Content,AIGC)技术,可以通过文生图工具的接口,将背景图片和文生图提示词输入文生图工具,将文生图工具生成的图片确定为静态壁纸。此处仅是举例说明,本申请实施例对此不做限制。 本申请实施例中,可以将背景图片和动态壁纸提示词输入视频生成工具,例如AI自动生成视频的编辑器(Runway Gen2),或文生视频工具等。通过视频生成工具生成视频文件,将该视频文件确定为动态壁纸文件。然后,可以通过车辆的显示模块,例如车辆的中控显示屏、抬头显示系统等,根据动态壁纸文件显示动态交互画面,该动态交互画面包括实时天气动态显示,例如雨天、雪天、大雾、大风等,还可以从预设的音频库中获取与动态壁纸文件相匹配的音频文件,例如,不同天气的音效文件等,通过车辆的语音模块,例如车辆的音频系统,根据音频文件输出场景交互语音。 在一些可行的实施方式中,交互分析结果包括动态壁纸提示词和兴趣点标签,可以根据兴趣点标签获取第三方服务接口,并将第三方服务接口插入动态壁纸文件,使得显示动态交互画面时,一并显示第三方服务推荐页面,用户可以通过点击第三方服务推荐页面访问第三方服务,从而为用户提供个性化服务推荐。 在本申请实施例中,通过获取背景图片,并根据背景图片和动态壁纸提示词生成动态壁纸文件,由于交互分析结果包括动态壁纸提示词,因此,根据动态壁纸提示词生成的动态壁纸文件可以与用户的动态壁纸交互需求相匹配,然后根据动态壁纸文件显示动态交互画面,并根据动态壁纸提示词输出场景交互语音,可以满足用户的动态壁纸交互需求,从而提高用户与车辆的交互效果。 可选的,所述多模态信息表征所述用户的推荐服务交互要求,所述交互分析结果包括针对所述用户的个性化推荐结果,所述根据所述交互分析结果,显示动态交互画面并输出场景交互语音,包括: 根据所述个性化推荐结果显示所述动态交互画面,并根据所述个性化推荐结果输出所述场景交互语音。 本申请实施例中,针对用户的个性化推荐结果可以包括:驾驶行为推荐结果和/或交互行为推荐结果,例如根据用户喜好自动播放音乐,根据用户驾驶习惯调整座椅和设置座舱氛围灯等。可以根据针对用户的个性化推荐结果,通过车辆的控制系统对当前行驶状态、车辆当前状态、人机交互状态进行调整,以符合用户的行为习惯。然后,可以将个性化推荐结果通过车辆的显示模块,例如车辆的中控显示屏、抬头显示系统等进行动态显示,作为动态交互画面,并通过车辆的语音模块,例如车辆的音频系统,输出个性化推荐语音提示,作为场景交互语音。例如,个性化推荐结果可以是附近的餐厅推荐列表,可以将餐厅推荐列表在座位上的显示屏上或用户的移动终端上动态显示,方便用户浏览推荐内容,获取详细的描述、评分和评论等信息,可以通过车辆的音频系统输出推荐内容对应的介绍语音,以帮助用户做出选择。 在一些可行的实施方式中,可以不断收集用户的反馈和行为数据,并不断更新场景训练集,通过强化学习、增量学习等方法对交互分析模型进行优化,使得模型输出的交互分析结果更加准确。其中,强化学习、增量学习可以参照相关技术中的技术手段,本申请实施例对此不做限制。 在本申请实施例中,通过根据个性化推荐结果显示动态交互画面,并根据个性化推荐结果输出场景交互语音,由于交互分析结果包括针对用户的个性化推荐结果,因此,可以使得动态交互画面和场景交互语音与用户的推荐服务交互要求相匹配,为用户提供个性化的推荐服务,从而提高用户与车辆的交互效果。 图2是本申请实施例提供一种车辆交互方法的用车指南场景示意图,如图2所示,用户输入后视镜图片和语音,提问 " 后视镜使用介绍 " ,通过图像识别、语音识别将用户语音输入转换为文本,然后通过提词模板(prompt模板),对用户意图进行识别,确定用户意图文本,调用驱动框架(LangChain),该驱动框架嵌入交互分析模型,通过交互分析模型对用户意图文本进行处理,获取交互分析结果。其中,可以通过驱动框架(LangChain)调用应用程序访问汽车零件图片库,获取后视镜图片,可以通过驱动框架(LangChain)加载汽车知识库文档获取后视镜使用介绍,交互分析结果可以包括后视镜图片和后视镜使用介绍。然后显示动态交互画面,画面包括后视镜图片并输出场景交互语音: " 内后视镜的使用:内后视镜是最常用的后视镜 " 。 图3是本申请实施例提供一种车辆交互方法的智能向导场景示意图,如图3所示,用户对车机输入多模态信息,根据多模态消息确定用户意图文本。其中,车机包含控制器、内存、显示屏、定位芯片、陀螺仪及加速计等。调用驱动框架(LangChain),该驱动框架嵌入交互分析模型,通过交互分析模型对用户意图文本进行处理,输出交互分析结果。其中,可以通过驱动框架(LangChain)采用大数据技术获取网站服务数据,并对网站服务数据进行数据处理,还可以通过驱动框架(LangChain)调用应用程序接口,访问应用程序。 图4是本申请实施例提供一种车辆交互方法对应的动态壁纸场景示意图,如图4所示,用户向车机输入语音,场景服务获取车机数据,获取位置数据、天气数据、季节数据、推荐数据等服务数据,根据服务数据提取关键词,向待训练的大语言模型喂关键词数据,通过模型训练获得交互分析模型。交互分析模型对用户意图文本进行处理,输出交互分析结果,该交互分析结果包括静态壁纸提示词和文生图提示词,即生成提示词和生成文生图提示词的步骤。通过文生图工具可以生成静态壁纸。将文生图提示词和静态壁纸输入视频生成工具,可以生成动态壁纸,返回给车机,通过车机进行动态壁纸显示。 图5是本申请实施例提供一种车辆交互方法的智能推荐场景示意图,如图5所示,收集用户行为数据,对数据进行处理,例如对数据进行清洗、去重和标注等预处理工作,通过数据分析提取用户行为特征,根据用户行为数据和用户行为特征生成场景训练集,对待训练的大语言模型进行模型训练,获取交互分析模型。用户对车机输入多模态信息,该多模态消息表征用户的推荐服务交互要求,根据多模态消息确定用户意图文本,通过交互分析模型对用户意图文本进行处理,输出交互分析结果,该交互分析结果包括个性化推荐结果。其中,可以通过搜索互联网或其他模型获取推荐信息,还可以通过场景服务查询第三方服务,获取第三方服务详细信息,场景服务向车机返回推荐数据,然后通过动态交互画面和场景交互语音向用户呈现个性化推荐结果。 在本申请实施例中,可以接收用户输入的文字、语音、图片或视频中一种或多种组合形式的多模态信息,从而可以丰富用户输入形式,通过多模态信息获取更多的用户意图信息,使得根据多模态信息得到的用户意图文本更加准确,通过预设的交互分析模型对用户意图文本进行处理,由于场景数据集是根据对应的用车场景下的车辆数据和/或用户数据生成的,因此,场景数据集与用车场景相匹配,由于交互分析模型是场景数据集对待训练的大语言模型进行模型训练后得到的,因此可以使得交互分析模型输出的交互分析结果与用车场景更加匹配,车辆可以根据交互分析结果,显示动态交互画面并输出场景交互语音,从而通过视觉、听觉的多种交互方式提升用户在当前用车场景下的交互体验,将用户的多种感官结合,可以提升车辆与用户的交互效果。 图6是本申请实施例提供的车辆交互方法的总体框架图,如图6所示,本申请实施例的车辆交互方法可以应用于车辆,该车辆可以包括车机端和服务端,其中,车机端可以是车辆的车机系统,服务端可以是车辆的控制器。车机端可以设置人工智能(AI)软件开发工具包(Software Development Kit,SDK)引擎,车机端还包括(3D)三维渲染引擎、文本转语音(Text-to-Speech,TTS)的SDK、自动语音识别(Automatic Speech Recognition,ASR)的SDK。基于AI智能管家SDK引擎、3D渲染引擎、TTSSDK、ASR SDK,可以通过车机端在用车指南、智能客服、智能向导、智能助手、智能推荐和一镜到底的应用场景下,显示动态交互画面和输出场景交互语音。其中,智能助手可以是智能语音助手,通过TTSSDK和ASR SDK实现语音和文字之间的相关转换。一镜到底是指在动态壁纸的应用场景下,一镜到底模块可以利用AIGC文生图技术和视频生成技术,快速实现桌面动效壁纸的动态生成。汽车垂域大语言模型是经过多种用车场景的场景训练集对待训练的大语言模型微调训练得到的模型,也即本申请实施例提供的交互分析模型。服务端基于汽车垂域大语言模型可以实现大数据服务、场景引擎、自驾游服务、爬虫服务、桌面服务、天气服务、消息服务、推荐服务、聚合服务和人工客服等交互服务。其中,对于不同的用车场景,可以通过服务端将多种服务能力进行组合来为用户提高更好的交互体验。 图7是本申请实施例提供的一种车辆交互装置,如图7所示,所述车辆交互装置20包括: 接收模块201,用于接收用户输入的多模态信息;其中,所述多模态信息包括文字、语音、图片或视频中的至少一种; 确定模块202,用于根据所述多模态信息,确定用户意图文本; 获取模块203,用于将所述用户意图文本输入预设的交互分析模型,并获取所述交互分析模型输出的交互分析结果;其中,所述交互分析模型是根据场景数据集对待训练的大语言模型进行模型训练后得到的,所述场景数据集是根据对应的用车场景下的车辆数据和/或用户数据生成的; 交互模块204,用于根据所述交互分析结果,显示动态交互画面并输出场景交互语音;其中,所述场景交互语音与所述动态交互画面相匹配。 可选的,所述多模态信息包括第一意图信息和第二意图信息,所述第一意图信息包括所述图片和/或所述视频,所述第二意图信息包括所述文字和/或所述语音,所述确定模块202具体用于: 获取所述第一意图信息对应的历史上下文; 根据所述第二意图信息确定问题文本,并根据预设的提示词模板和所述问题文本生成第一提示词; 将所述第一提示词和所述历史上下文确定为所述用户意图文本。 可选的,所述确定模块202具体还用于: 对所述第一意图信息进行图像分类识别,确定图像特征词; 根据所述提示词模板和所述图像特征词生成第二提示词,并将所述第二提示词确定为所述用户意图文本; 将所述用户意图文本输入所述交互分析模型,并获取所述交互分析结果,以及将所述第二提示词和所述交互分析结果确定为所述历史上下文。 可选的,所述交互分析模型通过以下方式获得: 获取多种用车场景下的车辆数据和/或用户数据; 对于任一目标用车场景,根据所述目标用车场景对应的车辆数据和/或用户数据,生成所述目标用车场景对应的场景训练集;其中,所述目标用车场景是所述多种用车场景中的一种; 根据所述目标用车场景对应的场景训练集,对待训练的大语言模型进行微调训练; 在符合预设的训练停止条件的情况下,将当前的大语言模型确定为所述交互分析模型。 可选的,所述交互分析结果包括动态文件标识和向量知识标识,所述交互模块204具体用于: 根据所述动态文件标识从预设的动态文件库中获取目标动态文件,并根据所述向量知识标识从预设的向量知识库中获取目标向量知识; 根据所述目标动态文件显示所述动态交互画面,并根据所述目标向量知识输出所述场景交互语音。 可选的,所述交互分析结果包括客服对话接口,所述交互模块204具体用于: 调用所述客服对话接口,显示客服对话界面;其中,所述客服对话界面包括所述动态交互画面; 接收用户提问输入,并从所述客服对话接口获取所述用户提问输入对应的答复文本; 根据所述答复文本输出所述场景交互语音。 可选的,所述多模态信息表征所述用户的行程攻略生成要求,所述确定模块202具体用于: 根据预设的文本组装格式和所述多模态信息,确定所述用户意图文本; 所述交互分析结果包括:行程攻略文本,以及所述行程攻略文本对应的兴趣点文本,所述交互模块204具体用于: 根据所述行程攻略文本确定目标行程;对于任一所述目标行程,从所述兴趣点文本中获取所述目标行程对应的兴趣点信息,并根据所述兴趣点信息获取兴趣点图像; 根据所述目标行程、所述兴趣点信息和所述兴趣点图像显示所述动态交互画面,并根据所述目标行程和所述兴趣点信息输出所述场景交互语音。 可选的,所述多模态信息表征所述用户的动态壁纸交互要求,所述交互分析结果包括动态壁纸提示词,所述交互模块204具体用于: 获取背景图片,并根据所述背景图片和所述动态壁纸提示词生成动态壁纸文件; 根据所述动态壁纸文件显示所述动态交互画面,并根据所述动态壁纸提示词输出所述场景交互语音。 可选的,所述多模态信息表征所述用户的推荐服务交互要求,所述交互分析结果包括针对所述用户的个性化推荐结果,所述交互模块204具体用于: 根据所述个性化推荐结果显示所述动态交互画面,并根据所述个性化推荐结果输出所述场景交互语音。 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。 所述车辆交互装置与前述实施例所述的车辆交互方法相对于现有技术所具有的优势相同,此处不再赘述。 本申请实施例提供一种电子设备,参见图8,所述电子设备30包括:处理器301、存储器302以及存储在所述存储器302上并可在所述处理器301上运行的计算机程序3021,所述处理器301执行所述程序时实现前述实施例的车辆交互方法。 本申请实施例提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行前述所述的车辆交互方法。 本申请实施例提供一种车辆,包括如前述实施例所述的车辆交互装置,用于执行如前述实施例所述的车辆交互方法。 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。 类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明的排序设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词 " 包含 " 不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词 " 一 " 或 " 一个 " 不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。 需要说明的是,本发明实施例中获取各种数据相关过程,都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。 以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。 车辆交互方法、装置、电子设备、存储介质及车辆
    展开 >
    说明书附图
    >
    交易服务流程
    >

    挑选中意的板块

    ----

    客服确认选择专利的交易信息和价格并支付相应款项

    办理转让材料

    ----

    协助双方准备相应的材料

    签订协议

    ----

    协助卖家签订协议

    办理备案手续

    ----

    买卖双方达成一致后

    交易完成

    ----

    交易完成可投入使用

    过户资料 & 安全保障 & 承诺信息
    >

    过户资料

    买卖双方需提供的资料
    公司 个人
    买家 企业营业执照
    企业组织机构代码证
    身份证
    卖家 企业营业执照
    专利证书原件
    身份证
    专利证书原件
    网站提供 过户后您将获得
    专利代理委托书
    专利权转让协议
    办理文件副本请求书
    发明人变更声明
    专利证书
    手续合格通知书
    专利登记薄副本

    安全保障

    承诺信息

    我方拟转让所持标的项目,通过中国汽车知识产权交易平台公开披露项目信息和组织交易活动,依照公开、公平、公正和诚信的原则作如下承诺:

    1、本次项目交易是我方真实意思表示,项目标的权属清晰,除已披露的事项外,我方对该项目拥有完全的处置权且不存在法律法规禁止或限制交易的情形;
    2、本项目标的中所涉及的处置行为已履行了相应程序,经过有效的内部决策,并获得相应批准;交易标的涉及共有或交易标的上设置有他项权利,已获得相关权利 人同意的有效文件。
    3、我方所提交的信息发布申请及相关材料真实、完整、准确、合法、有效,不存在虚假记载、误导性陈述或重大遗漏;我方同意平台按上述材料内容发布披露信息, 并对披露内容和上述的真实性、完整性、准确性、合法性、有效性承担法律责任;
    4、我方在交易过程中自愿遵守有关法律法规和平台相关交易规则及规定,恪守信息发布公告约定,按照相关要求履行我方义务;
    5、我方已认真考虑本次项目交易行为可能导致的企业经营、行业、市场、政策以及其他不可预计的各项风险因素,愿意自行承担可能存在的一切交易风险;
    6、我方在平台所组织交易期间将不通过其他渠道对标的项目进行交易;
    7、我方将按照平台收费办法及相关交易文件的约定及时、足额支付相关费用,不因与受让方争议或合同解除、终止等原因拒绝、拖延、减少交纳或主张退还相关费用。