谷歌的新 AI 技术可以将两个同时在说话的人声分离出来

作者: nick 分类: 互联网发布时间: 2018-04-24 14:21 ė 6已关闭评论

人类一个极为强大的能力，是能在一片有着许多人在说话的背景杂音中，精准地「过滤」掉其他人的声音，只留下自己对话的对象。过去一直认为电脑要获得这样的能力不容易，但谷歌的专家们取了个巧，利用深度学习结合脸部辨识，达到了相当好的效果。

简单来说，研究学者先用「干净」的人声与对应的视觉影像混合成一个假想的吵闹场景，然后训练机器去辨识如何从场景中还原出单一的人声来，最后产生一个模型。以这个脸部与声线对应的模型为基础，喂给电脑真实世界的视频时，当脸部侦测到目标嘴巴在动，系统就会试图抓取音频，将相关的部份分离出来。如同下面的脱口秀视频所示，这效果惊人地好，不仅可以把背景的杂音滤掉，就算有两个人同时在大声说话，也可以把目标分离出来。而且，即使讲者用麦克风挡住了嘴巴，似乎也不影响辨识呢。

谷歌目前正在「探索使用这个技术到产品中的方法」，最明显的可能就是像 Hangouts 或 Duo 这样的语音通话中，只要你开着摄像头，系统就能把背景的杂音过滤掉。其他像是自动化的字幕，以及自动翻译等，也都有可能因此而受惠呢。

经由: Engadget

来源: Google Research Blog

标签: ai, artificialintelligence, computervision, deeplearning, facerecognition, gear, google,internet, looktolisten, machinelearning, personal computing, personalcomputing, robots, video,voicerecognition

引用来源：https://cn.engadget.com/2018/04/13/google-ai-looking-to-listen-voice-separation/

本文出自传播、沟通、分享，转载时请注明出处及相应链接。

本文永久链接: https://www.nickdd.cn/?p=2102

« 深度好戏，面对压力和困难的你可以细细品味，会打开对于压力和困难的另一深层次的理解，在某种程度上和某些时间上，我们所面对的压力和困难，对于挑大梁的人来讲，这是一种幸福、责任、担当、考验、机遇。

从灾难中学习防灾 —— 《冰眼看日本》 »

谷歌的新 AI 技术可以将两个同时在说话的人声分离出来

分类目录

互联网下的最新文章

随机文章

标签云

谷歌的新 AI 技术可以将两个同时在说话的人声分离出来

分类目录

互联网 下的最新文章

随机文章

标签云

互联网下的最新文章