谷歌的新 AI 技术可以将两个同时在说话的人声分离出来
人类一个极为强大的能力,是能在一片有着许多人在说话的背景杂音中,精准地「过滤」掉其他人的声音,只留下自己对话的对象。过去一直认为电脑要获得这样的能力不容易,但谷歌的专家们取了个巧,利用深度学习结合脸部辨识,达到了相当好的效果。
简单来说,研究学者先用「干净」的人声与对应的视觉影像混合成一个假想的吵闹场景,然后训练机器去辨识如何从场景中还原出单一的人声来,最后产生一个模型。以这个脸部与声线对应的模型为基础,喂给电脑真实世界的视频时,当脸部侦测到目标嘴巴在动,系统就会试图抓取音频,将相关的部份分离出来。如同下面的脱口秀视频所示,这效果惊人地好,不仅可以把背景的杂音滤掉,就算有两个人同时在大声说话,也可以把目标分离出来。而且,即使讲者用麦克风挡住了嘴巴,似乎也不影响辨识呢。
谷歌目前正在「探索使用这个技术到产品中的方法」,最明显的可能就是像 Hangouts 或 Duo 这样的语音通话中,只要你开着摄像头,系统就能把背景的杂音过滤掉。其他像是自动化的字幕,以及自动翻译等,也都有可能因此而受惠呢。
经由: Engadget
标签: ai, artificialintelligence, computervision, deeplearning, facerecognition, gear, google,internet, looktolisten, machinelearning, personal computing, personalcomputing, robots, video,voicerecognition
引用来源:https://cn.engadget.com/2018/04/13/google-ai-looking-to-listen-voice-separation/
本文出自 传播、沟通、分享,转载时请注明出处及相应链接。
本文永久链接: https://www.nickdd.cn/?p=2102