尽管在技术和自动语音识别的开发方面取得了进展,但在某些情况下,柔性解决方案和用户满意度仍然存在技术障碍。这些障碍与几个因素有关,例如对环境的敏感性(背景噪音),言语障碍和有限的隐私。
研究:Bioinspired dual-channel speech recognition using graphene-based electromyographic and mechanical sensors. 图片来源:peterschreiber.media/Shutterstock.com
在发表在《Cell Reports Physical Science》上的一项研究中,提出了一种基于双通道石墨烯的肌电图和机械传感器,用于同时收集两个生物信号用于语音识别应用。
本研究中开发的肌电图石墨烯电极显示出比商用电极更好的性能。此外,在1000万次疲劳测试中,基于石墨烯的机械传感器(或石墨烯传感器)表现出优异的可重复性。
肌电图石墨烯电极和石墨烯传感器的综合性能使71字数据集的准确率为96.85%,数字数据集的准确率为100%。此外,本研究中开发的石墨烯传感器表现出优异的抗噪声性,准确度>95%。因此,本研究证实了双生物通道在提高语音识别性能方面的效率。
人机交互与语音识别系统
人机交互是信息技术时代的主要问题。因此,设计一个方便和用户友好的界面已成为一个关键的技术问题。依赖于机器的接口限制了大多数人群中计算机的使用。语音为人机交互提供了一种合适的通信形式。
目前,许多人机界面系统已经广泛使用口头语音识别。Siri和Cortana以及其他语音助手使这成为可能,因为自动化语音识别技术的进步。
但是,一些独特的情况使得使用自动语音识别系统变得困难。例如,声音传输受到嘈杂环境中的外部噪音或不舒服环境(例如私人讨论或言语问题)的严重阻碍,并且声音信号可能太微弱而无法听到。
基于声音和其他相关信息的语音识别系统对于扩大其可能的应用至关重要。皮质电图 (ECoG)、肌电图、脑电图 (EEG) 和发音活动等信号已用于语音识别。
获取脑电图数据的高识别率具有挑战性,因为它的信噪比(SNR)很低。虽然ECoG信号可以获得更高的识别,但该技术需要颅内插入电极。基于肌电信号的静音语音识别可以达到更高的准确度。然而,更高的精度需要在人体皮肤上安装八个电极,从而大大降低了其耐磨性。
(A)显示双生物通道机制的示意图。(B) 标有关键部件的地理标志。每个修补程序包含两个 DGEMS。在下巴和喉咙上放置两个贴片以同时收集生物信号,相应的波形显示在底部图中。(C) 地理信息系统的摄影图像。比例尺,1.5厘米(D)频谱示意图。黄线代表肌电图信号,红线代表机械信号。(五)语音识别的工作原理。EMG和机械信号的特征通过神经网络提取并融合。然后,将融合的要素用于分类。© 田, H 等. (2022).
双通道语音识别
以前,语音生成链用于基于单个信号的无声语音识别,并且包含最少的语音相关信息。这种语音识别过程需要多电极配置。
因此,研究人员分析了语音生成机制,并利用基于双生物通道的语音识别系统,以有限数量的传感器实现高精度,并解决了传统单一类型生物信号的缺点。
先前的分析表明,运动皮层中产生的动作电位是基于大脑中产生的表达。该动作电位随后通过神经元传递到肌肉纤维,从而诱导收缩。此外,肌肉的离子通道打开,释放钾(K),钠(Na)和钙(Ca++2+) 离子。
表面电生理学电极可以将这些离子电流转化为电子电流,然后将其用作肌电信号来表示肌肉收缩的强度。因此,皮肤表面可能因肌肉收缩而扭曲。
然而,研究人员预计,真皮,表皮和皮下组织的机械特性以及肌肉和骨骼之间的联系可能会影响可能传播的皮肤变形。因此,机械石墨烯传感器可用于检测皮肤表面变形。
在本研究中,将语音生成链的生理信号与基于双生物通道的石墨烯传感器相结合,该传感器可以同时记录肌电和机械信号,该语音生成链可以很容易地连接并具有较高的SNR。
这两个生物信号传输不同的语音相关数据,并将两个信号组合在一起提高了语音识别的准确性,同时使用更少的电极并使设备更加可穿戴。
此外,下巴和喉咙有几个重叠的肌肉;因此,获得的肌电信号通常包括来自各种肌肉纤维的动作电位。因此,在信号中分析潜在的语音相关元素,而不是试图确定肌肉运动的来源。
结论
总体而言,本研究提出了基于双生物通道的语音识别和基于双通道石墨烯的肌电图和机械传感器,以同时收集两个生物信号。
本研究中的石墨烯电极具有比商业电极更低的电极皮肤阻抗。相比之下,石墨烯传感器即使在经过1000万次循环测试后也表现出优异的可重复性。
虽然肌电图信号在低频下具有更多信息,但机械信号在高频下具有更多信息。此外,71字和数字数据集分别达到96.85%和100%。
本研究介绍了一种在复杂环境中提高语音识别性能的潜在方法。此外,将近感测计算架构与基于双通道石墨烯的肌电图和机械传感器集成可以实现智能感官处理。
参考
Tian, H et al. (2022). Bioinspired dual-channel speech recognition using graphene-based electromyographic and mechanical sensors.
Cell Reports Physical Science.
https://doi.org/10.1016/j.xcrp.2022.101075
本文来自AZONANO,本文观点不代表石墨烯网立场,转载请联系原作者。