本文共 1492 字,大约阅读时间需要 4 分钟。
过去一年以来,我在文章中提到过多家专业从事语音合成技术的企业。其大多数处于早期开发阶段,只有少部分能够拿出可供参考的预制样本。如今,来自蒙特利尔大学学习算法研究所的研究人员们则正式推出一款工具,可供大家自行体验这种新型技术。
这款工具名为Lyrebird,其公开beta测试版只需要利用长度为1分钟的音频即可生成与用户语音特征高度相似的数字语音输出结果。据称,这项技术适用于个人语音助理构建、游戏数字化角色设计、有声读物等语音内容表达。当然,如果你深爱自己性感的嗓音并希望将一切内容都转化为这种形式,该工具同样能够帮上大忙。
我决定亲自加以尝试——而且必须承认,结果实在令我感到又惊又喜。
以下为我录制的用于训练该系统的音频片段:(由于限制,文章只能插播一个音频,因此决定只放AI合成声音,更多详情见下文视频)
以下则为数字化语音片段,其读出了我输入Lyrebird的文本内容——且包含大量我在进行系统训练时并未使用的词语:
没错,请戴上耳机认真聆听这段惊世骇俗的输出结果。
最令人不可思议的是,这样一款公开的工具能够利用一小段音频样本带来如此出色的语音效果。诚然,现在我们还无法利用基于Lyrebird的应用生成足以骗过任何聆听者的语音:我们必须首先录制屏幕上显示的句子,并利用此段音频进行系统训练。更具体地讲,大家还不可能随意上传一段一分钟长度的金正恩讲话音频,并借此生成足以以假乱真的其它语音内容。
Lyrebird系统需要30个句子(音频长度约为1分钟)来创建数字化语音输出结果。
此外,其生成的音频可能还经不起详细推敲——音频取证专家完全能够通过分析发现其中的异常与线索,从而证明其属于合成产物。但必须承认,其足以造成相当可观的误导性效果——举例来说,印度就一直忙于整顿WhatsApp当中充斥的虚假新闻与恶作剧性言论,而Lyrebird完全可被用于快速传播此类错误信息。
同样值得注意的是,这还仅仅是语音合成技术的开端。Lyrebird项目在说明文档中提到,其获得的音频样本越丰富,数字语音输出结果质量就越好。Adobe公司还在研究VoCo项目,其旨在开启音频录制编辑的可能性,这意味着未来音频编辑将如同在文档当中复制/粘贴文本一样轻松。
Lyrebird项目提到,其核心主旨在于为社会作出贡献:
我们向任何潜在用户提供这项技术,亦在逐步推出更为完善的方案以确保社会能够适应这项技术,并立足积极层面取得良好效果——同时尽可能防止潜在的负面应用方式。
其还提供多种方式以对您提交的任何音频加以分析,并借此判断音频内容属实或存在伪造迹象。
与此同时,项目研究人员还表示只要获得他们的许可,Lyrebird即可为任何用户提供高质量数字语音输出结果。目前尚不清楚Lyrebird方面打算如何验证相关授权申请,以及用户是否需要像前文提到的那样对系统进行训练——抑或仅需要录制目标语音并向项目组提交音频文件即可。
我们是否应该为此感到担忧?也许目前还没必要——但考虑到技术进步的速度如此惊人,特别是机器学习领域的飞速发展,未来我们可能将面临完全不同的状况与挑战。
另一个问题在于,我们还缺少用于分析伪造音频的文化、习惯或者易于使用的工具。这意味着成为欺诈分子的门槛很低,而发现虚假信息传播者的难度也将因此而提高。
目前还很难确定这款新工具的面世,是否意味着网络将很快被伪造音频所淹没。但不能否认的是,合成音频将很容易成为恶意人士的另一种攻击载体——对于这样的隐患,我们显然还没有做好充分的应对准备。