2月4日,央视新闻AI手语主播上岗,她将在冬奥会新闻播报、赛事直播和现场采访中,为听障人士送上实时手语翻译服务。
这位由“百度智能云曦灵”数字人平台打造的首个AI手语主播,已在刚刚开启的冰雪赛事中上线,她提供的手语服务,让听障人士可以快捷获取赛事资讯,感受赛事精彩。
从“段子手”朱广权与AI手语主播在线pk的视频可看到,AI手语主播的“手速”没有被朱广权的超快语速难住。她的专业能力是怎样练成的?
手语数字人的本质是解决翻译问题,难点在于手语并非按照语言逐字翻译,而要根据语句整体意思进行语言精炼和语序调整。同时,为帮助听障人士更好理解,还需实时配合表情和唇语。
这就要求AI手语数字人必须解决信息凝练度、低时延和精细化三方面极其复杂的技术难题。也就是说,AI手语主播不仅要有高精度的数字人形象,更要拥有能够语音识别、手语翻译和手语表达的AI大脑。
AI手语主播的AI大脑依托于百度智能云。
为保证AI手语主播具备高可懂度的手语表达能力和精准连贯的呈现效果,通过百度自主研发的机器翻译技术,百度智能云构建出一套精确的手语翻译引擎,可懂度达85%以上,媲美主流的中英、中日等方向的机器翻译结果;结合百度自研的语音识别技术,可将冰雪赛事的文字及音视频内容,快速精准地转化为手语;通过专为手语优化的自然动作引擎,完成AI手语主播的动作驱动,实时演绎为数字人的动作、表情和唇语;百度智能云基于《国家通用手语词典》规范建立的规模庞大的手语动作库,保证了手语表达的动作准确性;而用百度首创的4D扫描数据进行训练,可让AI手语主播的表情自然生动,口型生成准确度高达98.5%。
如此复杂的数字人研发,百度智能云只用了不到2个月。
目前,数字人尚未实现规模化产业落地,主要原因在于制作技术门槛高、周期长、成本高。
百度集团副总裁吴甜曾说:“百度希望通过领先的全栈AI能力,把虚拟人的生产周期缩短到小时级别,降低生产成本,并且用AI驱动生成内容。”
2021年12月,百度发布了集数字人生产、内容创作、业务配置服务为一体的智能数字人平台“百度智能云曦灵”,基于人像驱动、智能对话、语音交互、智能推荐四大技术引擎,让数字人“能听、能说、能理解、可互动”,让相关企业能以低成本快速定制2D卡通、真人形象及3D卡通、超写实数字人像,实现对话服务、内容创作全流程业务配置,极大降低了数字人开发难度。
比如,在“百度智能云曦灵”平台上传一张照片,就能快速生成一个可被AI驱动的2D数字人像。如今,2D数字人的生产流程已从一个星期缩短到半个小时,3D数字人的生成也已从两三个月压缩到一两周的时间。
与此同时,数字人个性化功能开发也更加完善。比如,通过轻量化模型训练,用户说20句话即可生成属于自己音色的数字人。
百度AI人机交互实验室负责人李士岩说:“我们近一两年的奋斗目标是通过百度智能云曦灵平台的开放,让每个人、每一家企业实现数字人自由。”
据了解,百度智能云曦灵已为诸多行业提供了一站式虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。(科技日报记者 刘艳)