Google AI 自动过滤恼人环境音,这功能精密程度可比人

578 470

Google AI 自动过滤恼人环境音,这功能精密程度可比人

在吵杂、人潮多的场所中,当人们谈论到自己的名字或感兴趣的议题时,我们可以自动遮蔽其他噪音,只关注在欲得知的事物上,这是人类拥有的能力之一,被称之为「鸡尾酒会效应」,近日 Google AI 也学会了这项特技。

儘管近年语音辨识技术已有显着进步,但是鸡尾酒会效应(cocktail party effect)仍是一道跨不过去的坎,原因在于机器若无法撷取单独音讯,自然没办法分辨语音内容。好消息是,近日 Google 终于有了新突破,并将该技术称之为 「Looking to Listen」。

Google 研究团队打造出一个深度学习视听模型,仿照鸡尾酒会效应,从混合音讯中分离出单一音讯,例如以增强特定对象的人声、降低环境音等方式等 ,让模型专注于辨识单一特定的人声。

该模型最大的突破在于,让它 同时判读影像和音讯,透过视觉特徵来辨识当下正在说话的人 ,具体来说透过嘴型和声音,协助判断影片中的人物与声音的对应,再经过音讯分离模型之后,输出个别声音资料,这样的效果比起单纯语音辨识更加準确。

为了训练模型,Google 收集了 YouTube 上 10 万笔的演讲影片,从中截取出 2000 个小时只有讲者声音没有任何杂音的「乾净」影音,再将这些片段合成出人工鸡尾酒派对资料库,并与其他资料库结合,作为深度学习的数据。运作的成果,能分离不同的声音,辨识独立的人声。

这项技术的 应用领域相当广泛,例如提供更準确的自动生成字幕,会议或吵杂环境的影音后期处理等 。目前 Google 也公布利用该模型,进行人声增强、分隔语音的示範影片。

——