陈根:精确复制任何声音,以假乱真只要3秒
admin
2023-09-25 14:27:23
0

【陈根:精确复制任何声音,以假乱真只要3秒】

陈根:精确复制任何声音,以假乱真只要3秒


文/陈根
近日 , 微软研究人员发布了一种新的语音合成AI模型VALL-E , 给出3秒样音就可以精确地模拟一个人的声音 。 一旦它学会了一个特定的声音 , VALL-E可以复制说话者的情绪和语气 , 即使说话者本人从未说过的单词也可以模仿 。
微软称VALL-E为“神经编解码器语言模型” , 它建立在Meta于2022年10月宣布的一项名为EnCodec的技术之上 。
与其他通常通过操作波形合成语音的文本转语音方法不同 , VALL-E从文本和声学提示生成离散音频编解码器代码 。 它基本上分析一个人的声音 , 通过EnCodec将这些信息分解成离散的组件 , 并使用训练数据来匹配它“知道”的声音 。
为了合成个性化语音 , VALL-E生成相应的声学令牌 , 条件是3秒注册录音和音素提示的声学令牌 , 分别约束扬声器和内容信息 。 最后 , 使用生成的声学标记与相应的神经编解码器解码器合成最终波形 。

简单来说 , 相比传统模型采用梅尔频谱提取特征 , VALL·E直接将语音合成当成了语言模型的任务 , 前者是连续的 , 后者是离散化的 。 传统语音合成流程往往是“音素→梅尔频谱→波形”这样的方式 。 但VALL·E将这一流程变成了“音素→离散音频编码→波形” 。
微软在Meta组装的名为LibriLight的音频库上训练了VALL-E的语音合成能力 。 它包含来自7000多名演讲者的60000小时的英语演讲 , 其中大部分来自LibriVox公共领域的有声读物 。 为了使VALL-E生成良好的结果 , 三秒样本中的语音必须与训练数据中的语音紧密匹配 。
一方面 , 包括微软语音合成AI模型VALL-E在内的AI语音合成技术的进步 , 也带来了更多高质量的文本转语音应用程序、语音编辑的应用 。 合成人声的用途相当广泛 , 我们熟知的便是手机中的语音助手 , 用户可通过简单的人机对话 , 获知天气、路况等实时信息 , 也可命令手机完成拨号、查询等任务 。 而如果将VALL·E和ChatGPT结合起来 , 我们或许很快就能拥有一个更具人性的聊天机器人 。
另一方面 , 由于VALL-E可以合成符合说话人身份的语音 , 因此滥用模型可能会带来潜在风险 , 比如 , 欺骗语音识别或冒充特定说话人 。
可以预见 , 伴随着相关技术的发展 , 智能语音在个人及商业领域中的应用场景将更加丰富 , 不断细分的合成语音服务也会给我们带来更多的体验和惊喜 。 但与此同时 , 技术在进步的同时也需要预防可能出现的风险 , 包括从技术角度给技术使用留有余地和退路 。

相关内容

热门资讯

78岁老汉爱上年轻女子,一开心... 文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章...
九寨沟几月份去最好|九寨沟几月... 九寨沟几月份去最好(九寨沟几月份去最合适?)九寨沟的美是怎样的,眼里装不下的美,相机拍不出的美,忘乎...
废旧物品手工制作|用家里的废旧... 废旧物品手工制作(用家里的废旧物品做手工)1、漂亮花瓶2、DIY地毯【废旧物品手工制作|用家里的废旧...
都说这德国蓝牙音箱干过了Bos... 【都说这德国蓝牙音箱干过了Bose迷你经典,拆它没商量】文章图片文章图片文章图片文章图片文章图片文章...
苹果又上热搜,这玩法太骚了 文章图片文章图片【苹果又上热搜,这玩法太骚了】文章图片文章图片文章图片文章图片文章图片文章图片文章图...
挑战2个月不动手,真听话还能扫... 文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章...
可智能识别脏污,懒人无脑式鲸灵... 文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章图片文章...
我国最大的海南海简介南海必须守... 大家对于我国的南海肯定都耳目共闻,都是有一定的了解的 。南海是我国最大的海,也是最近出问题比较多的一...