京东数科自主研发AI主播“小妮”C位出道

发表时间：2020-07-01 发表评论

　　“大家好，我是小妮，诞生于京东数字科技集团AI实验室。用你们人类的话说，我是AI主播。没错，来自虚拟世界的我喊你上课啦！”字正腔圆、细腻逼真的AI主播近日亮相于京东数科产业AI公开课，这也是京东数科自主研发的AI虚拟数字人产品在公众面前的首次亮相。

　　为了研发出写实逼真的AI虚拟数字人，京东数科AI实验室在文字转语音、3D人脸建模、语音转视频等方面进行了一系列技术创新。仅需使用一段几分钟的人物视频数据，经过几小时训练就可以合成出写实风格的AI虚拟数字人。

　　例如在顺利实现文字到语音的转化方面，我们自研了轻量级对抗语音合成技术。通过结合深度神经网络在多人数据上进行个性化建模，达到音色丰富、特色鲜明的语音合成效果，甚至可以模拟人的呼吸和停顿，听感酷似真人。高效轻量的对抗神经网络大幅提升了合成速度，合成1秒音频只需0.07秒，合成时延仅为业界水平的1/3，充分支持多场景实时语音合成。

　　在语音生成视频的阶段，为了使AI主播形象更加逼真，京东数科AI实验室利用对抗生成网络来还原更真实的表情，通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。一般来说，2D类的模型往往能生成更细腻的画质，而3D方向的模型操控能力更佳。技术人员打通了这种模式上的壁垒，在2D和3D模型之上各取所长，将最新的深度学习技术与传统的优化技术和特征提取技术相结合，使语音、图像、视频这些模态间的语义打通成为可能。从实际效果来看，AI虚拟数字人能够模仿不同人的说话习惯，学到如何用点头、眨眼这些细微动作对发言中的重要内容加以强调。为了在口型匹配方面达到完美效果，京东数科AI实验室利用大量语音数据，并特意设计了鲁棒的语音特征，使其可以被不同音色、语言和语速的合成语音所驱动，且都能保持准确、连贯的口型。

　　最终，我们开发出了高度还原真人形象的AI虚拟数字人，在AI算法的驱动下，只需输入文本内容，“小妮”就能根据语义实时进行主持，且表情、动作和语音表达非常自然逼真。

稿件来源：京东数科

第一纺织网版权与免责声明：

　　1、凡本网注明“本网专稿”的所有作品，版权均属第一纺织网所有，转载请注明“第一纺织网"，违者，本网将追究相关法律责任。

　　2、第一纺织网转载的所有的文章、图片、音频、视频文件等资料的版权归版权所有人所有，本网站采用的非本站原创文章及图片等内容无法一一和版权者联系，如果本网站所选内容的文章作者及编辑认为其作品不宜上网供大家浏览，或不应无偿使用（涉及费用问题，需要删除“不宜上网供大家浏览，或不应无偿使用”）请及时用电子邮件：martin@setways.com通知我们，我们会在第一时间删除，避免给双方造成不必要的经济损失。