腾讯云公布声音复刻技术,录音20句便可实现声音定制

随着AI语音应用进入差异化竞争时代,AI语音定制开始“飞入寻常百姓家”,越来越多地出现在智能电子产品、APP甚至爱心公益活动中。12月20日,在Techo Park开发者大会人工智能分论坛上,腾讯微信智聆实验室高级研究员郑艺斌展示了腾讯云声音复刻产品。

郑艺斌介绍,声音复刻产品基于腾讯云AI平台打造,客户(用户)只需要提供少量的录音即可快速获得个性化、轻量级的定制音色服务,主要应用于在线教育、音视频内容创作、智能硬件等场景或设备。

具体而言,针对在线教育领域,产品可以快速复刻老师音色,降低老师课堂互动成本,提升师生交互的体验;在音视频创作领域,可以帮助创作者低成本、快速地完成配音、录音等工作,提升内容生产效率;智能硬件方面,可以在玩具、音箱等智能设备上复刻家人音色,提升语音交互的温度。

声音复刻功能的背后,是腾讯AI语音技术的赋能。腾讯云声音复刻技术是基于腾讯云的端到端语音合成系统,主要由文本分析、声学模型和声码器三部分组成。其中,文本分析负责从语言层、语法层、语义层解决文本发音问题,在汉语合成中主要涉及多音字、专业名词、数字以及儿化音的问题。声学模型负责建立文本序列到声学序列的映射关系,为语音赋予韵律,如语速、语调、停顿、重音和情感变化等。最后通过声码器模型将声学序列转换为对应的波形信号。在端到端语音合成框架下,声音复刻的主要技术思路是:首先对说话人音色空间进行建模,然后将建模结果分别作为声学模型和声码器模型的输入构建对应的“平均”模型,最后在利用迁移学习对少量的目标人数据进行定制训练。这里“平均”模型是在大量的语料上通过神经网络的建模分析方法训练得到的人类语言与发声特征的规律,因此可以在这个“平均”模型的基础上达到音色快速定制的目的。

值得一提的是,腾讯云声音复刻产品只需要20句录音、训练30min左右便可完成定制训练并建立定制语音模型,而传统的TTS建模至少需要10小时或10000句的声音样本量,这一变化使得语音定制的门槛被降低,让更多的企业甚至普通消费者的声音定制成为可能。

在英剧《黑镜》中,女主人公玛莎通过AI语音合成技术听到了已故男友的声音,伤痛心灵得以抚慰。而在现实世界中,定制语音也一直在探索中前进。如公益项目Revoice帮助渐冻症患者留住自己的声音;用明星语音进行地图导航、起床提醒,甚至可以聊天、玩游戏等。

随着前沿技术逐渐普世化,夯实人工智能技术,开发出千人千面的硬件、千变万化的应用已成为行业生存必选。目前,腾讯云AI智能语音产品包括语音识别、语音合成、机器翻译等,腾讯云AI日处理语言达250万小时。在产品矩阵之外,腾讯云为开发人员、算法工程师、合作伙伴提供了多层次的平台,降低打造AI应用的门槛,加速AI应用创新,提升AI开发体验。

未来,腾讯云AI语音团队将和微信智聆实验室等腾讯内部AI团队持续打磨技术,为业界提供最具性价比的智能语音产品,推动智能语音在产业互联网的广泛落地,用前沿的技术和更极致的体验,助力各行各业的数字化和智能化转型,同时也努力创造更多社会价值,让技术有温度、更暖心。

本文链接:http://www.tengxunyun.net.cn/1401.html

上一篇:

下一篇:

document.write(unescape("%3Cspan id='cnzz_stat_icon_1278702005'%3E%3C/span%3E%3Cscript src='https://s4.cnzz.com/stat.php%3Fid%3D1278702005' type='text/javascript'%3E%3C/script%3E"));