近年来,MEMS麦克风市场持续快速成长。其大多数都用在手机、笔电、数字语音助理、智能居家装置及汽车产业等;换言之,现在有更多以语音启动的装置,也慢慢的变多人使用录像与录音的方式分享信息与日常体验。然而,市面上麦克风效能经常造成限制,因而无法彻底发挥上述的功能,MEMS麦克风需求慢慢地增加。
相较于传统驻极体电容式麦克风(ECM),MEMS麦克风提供许多更好的优点。在效能等级相同的情况下,MEMS麦克风体积较小,来自多个麦克风的音频讯号放大与相位也可相互匹配。此外,MEMS技术在抗高温能力方面较为优异,而且适用于回流焊,因此可使用自动化电路板组装。也因此,许多半导体业者纷纷推出MEMS麦克风解决方案,例如英飞凌便于近期发布XENSIV MEMS麦克风--IM69D130(图1),以提供精确的语音识别。
麦克风做为声音传感器,可将声压波转换为电子讯号。然而,并非所有麦克风都具有同等的能力,而且有多项参数决定麦克风是否适用于特定应用。
麦克风输出讯号中的电子噪声,并不只是来自于所须输入讯号的所有讯号有关。噪声有几率存在于环境中或来自麦克风本身,而且噪声位准越高,音频讯号的质量越低。各种参数或规格定义了麦克风的噪声。一种原因是自有噪声,这是在没有声音频号时,麦克风本身产生的噪声,以Vrms、dBV或dBFS测量。等效输入噪声是对应于麦克风输出处电子噪声位准的虚数声学噪声位准,以dB声压水平(dB SPL)表示。讯噪比(SNR)是一个重要的标准。SNR值以dB表示,是相对于预期或期望输入讯号的麦克风自有噪声量度(图2)。
其他重要的麦克风质量特性还有失真,如总谐波失真(THD)及声学过载点(AOP)。实际上,如同所有信号转换器,麦克风也是非线性的,亦即会产生一定的失真。在失真的情况下,额外的讯号为谐波(通常是2至5次谐波)。THD是这些谐波中包含的能量与基频能量的比率,以百分比表示。基本上,AOP定义了THD超过10%的点。但是,在要求比较高的应用中,有时也将AOP指定为THD超过1%的点。
对于执行算法的系统而言,撷取声音频号的方式与人耳感知声音的方法不一样,因此声音质量的目标也是不一样的。只要针对所使用的算法来优化,讯号就不一定要听起来很自然,重要的是讯号不受干扰、失真及噪声影响,各种应用皆然。
自动语音识别是将语音频号自动转换为书面文字的程序,目前的准确度约为95%,已非常接近人类水平;到目前为止,此值只有在环境条件非常有利的实验室中才能实现。在开发语音控制管理系统时,基本概念应始终聚焦于可靠性以及用户的易用性。为实现此目标,系统模块设计人员一定考虑现场的实际应用,例如用户与麦克风之间可能的距离,以及预期的背景噪音量。唯有如此才能设计出可实现最佳效能的系统。
实际上,特别是当喇叭不在附近时,语音控制通常在声学方面有相当大的困难,例如背景噪音、残响、回音消除及麦克风位置等。因此,仅拥有良好的语音识别软件是不够的。系统的每个组件皆应提供最佳效能,以避免发生质量损失。麦克风的任务是为语音识别系统提供最佳的输入讯号,而高质量的输入讯号有助于分析传入声音的语音内容。关键参数包括噪音、失真、频率响应及相位。
在嘈杂的环境中,若使用的麦克风具有高线性度以尽可能减少失真,则可以大幅改善语音识别。高AOP有助于大幅度减少失真并改善噪音与回音的抑制。有时语音频号本身不够响亮,并且还有别的声音造成干扰。例如,当喇叭靠近语音启动终端装置的麦克风,或是当数字语音助理正在播放响亮的音乐或语音信息时。
与语音频号源的距离越大,馈送至算法之讯号的讯噪比就越低。因此,如果预期的侦测距离较大,麦克风的讯噪比就应该更高。
如果可以从讯号中遮蔽掉不需要的声音,即可改善音频与视频信号的侦测以及对话的质量。其目标是提高讯噪比,在此情况下即为所需要的音频与不需要的环境噪音之间的比率。透过使用多个麦克风与适当的算法,可实现降噪与方向特性。
定向麦克风数组(例如使用波束成形算法)可增加麦克风在所需方向的灵敏度,同时放大所需的声音来源。有一种复杂的抑制噪音方法是「盲源分离」算法,无论方向、距离及来源位置为何,皆可抑制噪音。所有上述噪音抑制技术皆可获益于所接收讯号的准确性与质量。因此,麦克风应具有最大讯噪比、低失真、线性频率响应(可改善相位响应)及低波群延迟。
上述提到,MEMS麦克风需求增加,半导体业者也相继推出解决方案,以英飞凌为例,该公司旗下的XENSIV MEMS麦克风「IM69D130」讯噪比为69dB,专为需要低自有噪声、高动态范围、低失真及高AOP的应用而设计。
此款麦克风结合英飞凌的双背板技术,此技术以录音电容式麦克风所使用的小型化、对称式麦克风设计为基础,可在105dB的动态范围内实现输出讯号的高线性度。麦克风的噪音底部为25dB(69dB讯噪比),即使声压位准为128dB SPL(130dB SPL时失线%),失线%。这在某种程度上预示着即使喇叭正在播放音乐,也可以无失真地侦测语音命令。线Hz低频衰减)与严格的制造公差实现麦克风的紧密相位匹配(图3)。此麦克风采用4mm×3mm×1.2mm封装。
此外,该产品凭借它的灵敏度(±1dB)与相位匹配(1kHz时为±2O),可支持极为精确的音频波束成形,以提供创新的高效能音频与语音算法(图4)。由于其具备数字接口,因此无需模拟组件,如此也降低了保护电路板免受高频噪声影响的成本,而且多麦克风应用所需的数据线也会更少。同时,数字麦克风ASIC包含极低噪声前置放大器与高效能Sigma-Delta AD转换器(1kHz时仅6μs延迟)。可选不一样的功率模式以符合特定的电流消耗要求。每个IM69D130麦克风皆经过微调,因此灵敏度的公差非常小(±1dB)。
简而言之,该产品结合的创新算法易于处理高质量音频原始数据讯号,可处理要求严苛的语音识别场景,例如远场侦测及撷取细微的语音;MEMS麦克风的效能提升,不再是音频讯号链的限制因素,因而能支持强大的语音算法。