研究背景
基于智能电子设备的Human–robot interface(HRI)已经成为实现人工智能机器人的研究热点。包含丰富的信息的语音信号是人们日常交流最常用的媒介,能够促进HRI更加的高效和方便的发展。通过机器学习算法,一些智能设备或机器人已经实现了语音识别和智能对话的商业化,如Amazon Echo、Apple Home Pod等,目前业内仍在加紧提高声学HRI的“智能化”。另外,声学HRI依赖于精确的声音传感/发射一体化装置。尽管柔性麦克风与扬声器已经取得了一些进步,集成了多种功能和更复杂的人工智能的HRI仍需要进一步的研究。
创新点
清华大学集成电路学院Tian-Ling Ren、中国科学院北京纳米能源与系统研究所Xiong Pu和北京科技大学Lu-Qi Tao课题组报道了机器学习辅助人机界面的石墨烯双功能声学换能器(GHRI)。一方面GHRI通过摩擦电声传感机制充当人工耳,另一方面通过热声发射机制充当人工嘴。集成器件的成功也归功于多功能激光诱导石墨烯,同时作为摩擦电材料、电极或热声源。在机器学习的帮助下,通过卷积神经网络训练30个语音类别,训练数据集和测试数据集的准确率分别达到99.66%和96.63%。此外,GHRI还用于基于识别语音特征的人工智能通信。
文章解析
图1:GHRI的工作机理和结构设计。
(A)将GHRI的工作原理应用于智能机器人。(B)LIG的制备过程和GHRI的结构图。(C) LIG的扫描电镜。(D)装有GHRI的机器人“NANO”。(E)模式1:TENG工作原理图。(F)薄膜振动时电荷分布图。(G)模式2:TA工作原理图。
图2:GHRI作为TENG传感器的声传感特性。
(A): (i)频谱,(ii)时域波形,(iii)当改变PI膜厚度时,谐振频率–输出电压-PI厚度关系。谐振频率和输出电压随(B)间隔层厚度、(C)孔尺寸和(D)孔面积的变化规律。(E) 250和250.005 Hz混合双频声音激发的时域和频域图。(F)输出电压与声压级输入的关系。(G)不同声压级激励声源记录的声谱。(H) 电压输出环路测试图。(I)声传感器100万循环的耐久性试验。(J)记录的1分钟到60天的声音频谱。
图3:GHRI作为热声源的声发射特性。输出SP随(A)输入功率和(B) 5 kHz和10 kHz测量距离的变化。(C)理论拟合与实验声压级的比较。输出SPL随LIG制作参数的变化:(D)雕刻激光功率,(E)激光间距。(F)输出声压级随时间的稳定性。(G)声源周围声压级的有限元模拟结果。(H) 1 W和5 kHz时测试角与声压级的关系。(I)声场周围的测试物理图。
图4:身份与情感特征的区分。不同身份和情绪的频域图、时域图和时频图(A)不同的人在不同的情绪下说同一个词“hello NANO”,(B)相同的人在不同的情绪下说同一个词“good morning NANO”。
图5:机器学习辅助语音识别与通信。
(A)语音特征提取和卷积神经网络处理。(二)语音指令在线识别系统。(C)显示语音识别分类号的混淆矩阵。(D)装有GHRI的机器人“NANO”的工作状态。
读后感
作者研究了基于石墨烯的双功能声学换能器在机器学习辅助HRI中的应用。它表现出优异的柔性材料的双重功能: 麦克风和扬声器,并应用于机器人作为耳朵和嘴巴。一方面GHRI作为一种基于TENG的自供电麦克风,具有超高的灵敏度(4500 mV Pa-1),分辨率(0.005 Hz),稳定性(70-115 dB)和高耐用性(100万次,60天)。作为一个热声型扬声器,GHRI在20 Hz-20 kHz的频率响应平稳(约75 dB),60天后工作性能几乎没有变化。基于机器学习,多维语音识别在训练数据集和测试数据集上准确率分别高达99.66%和96.63%。更重要的,GHRI能够提取语音内容、情感和身份特征进行智能沟通和回复,实现无障碍聊天。此外,经济可行的材料和简单的制造工艺使GHRI适合大规模生产,在机器人智能领域有广阔的发展前景。
GHRI提供了许多显著的功能,但仍有局限性有待解决。本文共训练了30类词汇作为数据集,然而机器人的实际通信通常需要更多的数据集支持。幸运的是数据集的扩充是很灵活的,可以根据不同的应用需求进行定制。在语音识别算法中,除了本文中应用的较为成熟的CNN外,NLP还可以进一步理解语言,这也是下一步使GHRI更加智能化的途径之一。
【参考文献】
https://doi.org/10.1002/inf2.12385
本文来自WEST可穿戴电子,本文观点不代表石墨烯网立场,转载请联系原作者。