对话腾讯李学朝：解读从“数字人”到“数智人”的进化论

来源：互联网

时间：2021/11/05

近日，2021腾讯数字生态大会云智能专场上，腾讯云小微发布基于新一代多模态人机交互技术的全新数智人产品矩阵。

3D超写实、3D写实、3D半写实、2D真人、2D卡通，五种风格的数智人产品集中亮相，可满足各类场景服务需求，提供定制化角色服务，拥有文旅导览、金融客服、多语种主播、手语主播等不同职业身份和技能。这些数智人也参与到了本届腾讯数字生态大会多个专场的主持工作中。

会后，腾讯智能产品副总裁、腾讯教育副总裁李学朝接受媒体采访，分享了腾讯云小微数智人拥有的差异化竞争力，以及多模态人机交互模式的四个主要技术趋势。

一、从人机交互向交互智能升级，腾讯云小微要打造不一样的“数智人”

从过去的文本客服，升级为语音客服，再到多模态人机交互系统的发展周期，人机交互模式正持续进化。

具备多模态交互能力的数字人，已经开始在众多行业中商业化落地，辅助人工服务，提升企业运行效率。例如，数字人在金融、文旅、传媒、公共服务、医疗、零售等行业场景中，可担任坐席客服、理财顾问、播报主持、导游导览角色；在文化娱乐场景，可以作为虚拟偶像、虚拟歌手等形成IP资产；在智能车载、智能交通、智能家居等场景，可以通过与智能设备结合，为用户提供智能化服务。随着数字人应用边界的不断拓展，产业价值也在不断扩大。

腾讯智能产品副总裁、腾讯教育副总裁李学朝在接受采访时谈道，近期中国信通院云计算与大数据研究所公布的2021年首批可信AI评测结果中，由腾讯申报的“交互式数字人”在2D真人形象类数字人项目中获得了优良级评价，这体现了对腾讯云小微数智人从技术到产品维度的认可。

此次腾讯云小微与AI Lab联合开发的新一代数智人，拥有更鲜活的形象、更拟人的交互能力，让将人机交互从单纯的对话工具转变为真正的沟通交流，为服务体验的提升带来质的转变。在服务质量稳定的同时，数智人可快速复制，满足激增的用户服务需求，实现成本可控，高效成为助力企业发展和数字化转型。

技术、落地、懂行，这是李学朝眼中，腾讯云小微数智人的三大差异化特征。

技术方面，此前的数字人偏静态，而腾讯主打的数智人更加智能化，加入会话AI等能力，实现用户与数智人真正的会话并获得相应服务。

NLP、知识图谱、视觉等全栈AI底层能力，让数智人拥有强大的形象表现力、识别力和感知理解能力，可识别超34种语种、方言、翻译超过11个语种，拥有超过46万垂直行业场景热词库，在多业务场景中都能做到“听得清、听得懂、会表达”。

这些数智人拥有超细微面部情感表情以及数百种肢体动作，在形象选择方面，不但可支持定制化需求，还获得了腾讯海量IP形象授权。“我们希望通过情绪和情感化升级，肢体语言结合更情感化的语言合成，（使你）感觉到这个人在服务过程中确实是跟你的感受共情。”李学朝说。

腾讯数智人的真正产品化和落地上场景嵌入的实现是比较靠前的，再加上打造数智人需要了解行业和具体场景，与技术积累结合，这些融合组成了腾讯云小微数智人的差异性。

此前搜狗在2D数字人方面已有很多积累。搜狗并入腾讯后，李学朝谈道，搜狗在2D数字人方面的技术、产品与场景积累，与云小微数智人的能力产生了叠加和协同，从而能提供更好的产品。

腾讯云小微通过整合AI能力，连接腾讯丰富的内容和服务生态，面向使用场景打磨平台能力，助力行业客户打造有智能、有形象、生动交互的AI。

除了提供标准化的行业包外，腾讯云小微也可以在一些新场景下，为合作伙伴或客户提供定制化服务，包括形象定制、行业场景理解，让数智人更懂这个场景，对话更加听得清、听得懂。而与客户的合作，又会为这些场景积累新的应用，从而进一步积累腾讯云小微数智人的技术、工具和场景落地经验。

二、基于两大交互模式，落地金融、文旅等多类场景

不同于近期很火的元宇宙虚拟人，李学朝特意提到数智人是为数字世界打造的数字员工，旨在更好地服务行业场景、服务到现实世界的用户。

按照交互模式，数智人主要有播报式和交互式两种类型。播报式通过文本驱动，进行内容播报，提升内容生产效率，适用于新闻播报、应急服务等场景；交互式数智人通过对话提供服务，能更好地协助企业客服，提升业务办理效率。

在金融领域，数智人已助力平安普惠落地了行业首个金融AI数字员工，通过自然可视化的人机智能交互，累计服务用户500万，审核成本降低60%，保障了2年间7x24h的在线服务。

在文旅领域，数智人化身导游，在故宫、龙门石窟等景区提供AI导览服务，为游客提供个性化游览路线推荐，景点文物讲解等多种服务。

在传媒行业，助力新华社推出全球首个“AI合成主播”，目前已累计播报新闻超过1万条，保证播报零误差，可对日常和突发事件实时响应。

在教育领域，数智人作为助教，可根据文本和课件进行自学习，以更生动、亲切的形象和学生互动。

同时，腾讯云小微致力于让数智人与智能设备结合，打造以用户为中心的生活服务。

比如在公共服务中，数智人可及时、高效地处理用户在公共交通中的票务等问题，也可辅助人力进行政策问答，提升政策办事问答效率。

在智能家居中，用户通过语音指令即可随时随地与数智人交流，凭借全新的视觉表达，提供自然、丰富的智能交互服务。

李学朝也谈到数智人面临的一些挑战与风险。

首先，如果数智人不够智能，出现答非所问等情况，会导致客户感受大打折扣。其次，在使用方面，目前数智人主要针对封闭的企业场景，去解决客户服务流程中的各种业务问题，还没有将其技术完全开放和应用到C端场景中，因为C端可能存在此前“换脸”等伦理问题的风险。

李学朝坦言，当前技术还存在一些局限性，比如很难从文字、语音中准确理解情感，在合成语音时，也要基于前面语义、语音情感的输入，让合成的声音有情感表达。另外，如何基于文本来驱动表情，也需要持续的探索。这些技术的持续进化，将使得数智人表现得更为立体。

三、多模态人机交互模式的四个技术趋势

最后，李学朝谈到未来多模态人机交互模式所呈现的四个技术趋势。

首先，在多模态交互过程中，一个趋势是围绕“听得清”，怎么去更多地跨界融合。今天腾讯云小微与腾讯AI Lab联合发布了全新技术品牌——腾讯语音智能，即是更好地迎合这个趋势。

腾讯语音智能为设备提供在复杂语音环境下，从输入到输出交互体验全面升级的全链路的AI+声学技术解决方案。比如通过从前端与ASR（自动语音识别）模式结合，实现在复杂、嘈杂场景中更好地识别和分离出目标人物的语音。

第二个是在家居和车载等真实场景下，除了需要克服环境噪声、人声干扰等问题外，还需要应对识别任务复杂度高、用户口音多变、低资源设备上识别性能的提升等种种挑战。

在后端处理环节，腾讯语音智能研发了“语音-语义结合的多领域在线识别系统”、“全双工交互及闲聊拒识”、“端到端高性能离线识别系统”等技术方案，运用深度学习建模、前后端联合优化、语音-语义联合优化等技术手段，很好地满足了不同应用场景下，对于语音交互在识别率、鲁棒性、资源消耗和用户体验等多方面的要求。

第三个在TTS（从文本到语音）方面，以前是单纯一个声音，现在加上肢体或脸部表情，以及语言的情绪表达，对信息理解更加多元和准确。

第四个是文本驱动，输入一些文本、情绪相关的内容，能让数智人的面部表情根据上下文和各种情况做不同的表现。

综合这几个大的融合趋势后，语音将能被更清晰地输入、更形象地理解和更准确地表达出来。

结语：腾讯云智能战略的重要组成部分

此次大会期间，腾讯首次公布了云智能战略架构，而腾讯云小微数智人是腾讯云智能战略的重要组成部分，坚持“服务于人”的价值理念，来为用户提供更有温度的服务、更自然的交互体验。

腾讯云智能战略架构面向管理者、生产者、开发者、用户四类人群，提供决策、协作、创新、服务四大核心能力，同时依托人工智能、大数据、云计算和物联网的云智能架构，贴合客户产业场景需求，输出面向各行业的智能综合解决方案。

李学朝提到：“数智人正在走进我们的生活，在企业中承担岗位职责，为用户创造前所未有交互智能体验同时，提升企业服务效率和品牌形象。”

当前，腾讯云小微新一代数智人已经在金融、传媒、文旅、出行等多各业务场景领域发挥价值。我们期待看到未来数智人技术与文字、听觉、视觉、触觉、肢体动作等多维度感知实现更好的融合，为用户带来更高质量的信息交互以及建立更深的情感链接。

对话腾讯李学朝：解读从“数字人”到“数智人”的进化论

BOE（京东方）打造东北首个沉浸式数字艺术体验空间科技解码文明释放数字文旅想象力

在百模论剑·首届全国“人工智能+”行业应用创新大赛，蒋骏发表“基于AI的文旅产业创新”演讲

工业元宇宙AI超级终端“派中心一体机”问世

乐活宇宙竖版上线10天下载量突破1000万 AI社交魅力何在

君品谈｜郭毅可：人类的技术创造是为实现“不为谋生而生”