前端语音激活:从噪音和回声中获得清晰的语音

time : 2018-08-08 13:15       作者:凡亿pcb


语音优先(Voice-first)用户界面现在成为了智能手机和智能音箱的主流技术,Alexa、百度的DuerOS、Bixby、Cortana、谷歌助理和Siri成为数百万用户不可或缺的帮手。现在人们习惯了语音助理的服务,相同的需求在汽车、电器、可穿戴设备上也越来越多。所有这些设备需要一个功能,在极具挑战性的声学环境下,无论是否有噪音、吵闹的音乐或其他背景声音,都能够理解用户的语音命令。前端语音激活的任务是确保用户的声音到达后端时清晰而易懂,进而它可以被处理和理解。下面来看看它是如何工作的。为后端获取一个清晰的语音信号当你说话时你的聆听设备里面发生了什么?很多声音和你的语音一起输入了设备,需要清晰易懂地抵达目标。在目标里的后端处理引擎解释其含义,并且会做出相应的反应。目标可能是一个采用DSP的语音激活设备,一个使用基于云端处理的虚拟助手,或者打电话的另一个人。他们都需要一个干净的音频信号进行理解和响应。一个好的前端解决方案会采用多种技术来净化输入声音,并且提供清晰易懂的语音给后端。语音激活设备的两个实例是近场和远场拾音。近场设备佩戴(或穿着)时靠近用户的嘴巴,像耳机、耳塞、耳戴式和可穿戴设备。他们通常使用1 到2个麦克风。远场设备可以接收穿过房间的用户声音,通常有3 到 8个麦克风。常见的这类设备有智能音箱、智能家电、语音激活物联网和手机。多个麦克风阵列用来进行波束形成,它通过声音信号抵达不同麦克风的时间差异来估计信号源的方向。这使得该设备可以只接收来自用户方向的声音,而忽略其它音源。波束形成也可以用来跟踪演讲者和从多个声音组合中分离出正确的语音信号,就像在会议室里打电话。为了得到一个可理解的语音样本,这里有两种类型的声音必须被过滤掉,一个是聆听设备自身产生的声音,另一个是外部声音。当设备产生声音时,例如智能音箱播放音乐或者和另一端的人通电话,可以采用回声消除(AEC)技术忽略自己的声音。这个特性可以“插入”,或打断智能音箱,即使在它处在播放音乐或者响应较早前命令的过程中。一旦这些回声被消除后,噪声抑制算法可以用于清理外部噪声。接下来必须对干净的声音样本进行编码,最后交给后台处理用于语义的理解。对低功耗的高要求实现波束形成、回声消除和噪声抑制都需要复杂的算法和大量的信号处理。然而,语音激活技术开始进入最小型化的设备,像紧紧粘在耳朵里的耳戴式设备,解决方案的功耗和成本效益正变得至关重要。电池寿命是耳机、便携式智能音箱、手机和可穿戴设备最关键的因素之一。低功耗特性对于车载娱乐和家庭安全系统来说也是十分重要的。如果有这么多的工作要做,为什么不把语音信号传输到云端进行处理?云处理在这种情况下并没有帮助。前端处理必须在设备上执行,否则延迟和节能将成为一个问题。因此,前端处理必须极其有效并且不影响质量。为了达到这一目标,需要在软件和硬件上进行高性能和低功耗的优化。当然,后端处理在某些情况下可能会传送信号到云端。然而,由于越来越多的考虑到增加隐私性、改善安全性、减少延迟和降低功耗,在设备上进行后端处理也被优先采用。ClearVox系统架构(图片来源于:CEVA)ClearVox? 综合前端软件解决方案在CEVA我们利用多年的经验和音频专业知识来应对这些挑战。ClearVox是一个先进的软件包,为语音启动设备提供增强的语音清晰度,专门针对CEVA-TeakLite-4和CEVA-X2音频/语音DSP进行授权。ClearVox针对整个语音激活和语音交互市场提供语音拾取前端处理方案,从智能音箱,到先进的耳机和物联网设备。ClearVox覆盖近场和远场应用,可以支持最具挑战性的低功耗设备(比如耳戴式设备)以及可以支持用户距离大于10米的高性能的设备。软件包包含多个算法,例如波束形成、波达方向、噪声抑制和回声消除。它通常提供12dB 信噪比提高,改善噪音环境下的语音识别率,支持在播放音乐和快进时插入,可以应用于嵌入式和基于云的语音识别系统中。