清华大学、北京纳米能源与系统研究所、北京科技大学InfoMat:石墨烯双功能声学换能器用于机器学习辅助的人机交互界面

基于机器学习,作者设计了多维语音识别和智能通信系统。在语义识别方面,CNN上的训练数据集和测试数据集上的识别准确率分别高达99.66%和96.63%。另外,GHRI提取语音内容、情感和身份特征,进行智能交流和回复,实现无障碍聊天。此外,经济上可行的材料和简单的制造工艺使GHRI适合大规模生产,在机器人智能领域具有广阔的发展前景。

清华大学、北京纳米能源与系统研究所、北京科技大学InfoMat:石墨烯双功能声学换能器用于机器学习辅助的人机交互界面

摘  要

清华大学集成电路学院任天令教授、中科院北京纳米能源与系统研究所蒲雄研究员和北京科技大学陶璐琪课题组合作报道了一种机器学习辅助人机界面的石墨烯双功能声学换能器(GHRI)。

文章简介

基于智能电子设备的人机界面(HRI)已成为实现人工智能机器人的研究热点。HRI可以通过不同的方法实现,从传统的打字屏幕到最近研究的语音识别、手势识别、触觉传感器和电子皮肤。语音是人们日常交流最常见的媒介,不需要信息转换过渡,更不必说语音还包含其他丰富的信息,如情绪、年龄、身份等,因此将语音作为HRI的工具会更加高效和方便。通过机器学习(ML)能够对大量语音信号进行特征提取和网络训练,一些智能设备或机器人已经在商业方面用于语音识别和智能对话,如亚马逊Echo,苹果Home Pod和小米的小爱同学。目前,人们仍在努力提高声学HRI的“智能化”水平,如情感/身份的特征提取和更加个性化的交流。

声学HRI还依赖于精确的声音传感/发射设备。目前的研究方向旨在开发新的声学设备以丰富功能或保证更好的柔性/可穿戴性。至于声音传感,除了应用广泛的动圈或驻极体电容器的商用麦克风,柔性多功能声传感器也正在被探索。例如,基于柔性摩擦电纳米发电机(TENG)的声学传感器最近被报道,原理上是通过接触起电和静电感应的耦合效应来实现声电转换。与基于压电薄膜的麦克风相比,摩擦电传感器显示出更高的电输出和更高的灵敏度。压阻式声学传感器具有灵活性的优势,但通常在灵敏度或信噪比方面被限制。至于声音发射,基于热声(TA)效应的器件已被证明是非常有前途的多功能扬声器。与传统的基于压电和电磁声学器件的扬声器相比,基于热声材料的扬声器在宽的工作频谱和出色的灵活性方面表现出了极大的优势。然而,尽管取得了这些进步,具有集成多功能和更复杂人工智能的HRI仍然需要进一步的研究。

基于此,清华大学集成电路学院任天令教授、中科院北京纳米能源与系统研究所蒲雄研究员和北京科技大学陶璐琪课题组合作报道了一种机器学习辅助人机界面的石墨烯双功能声学换能器(GHRI)。一方面GHRI通过摩擦电声传感机制充当人工耳,另一方面通过热声发射机制充当人工嘴。集成器件的成功也归功于多功能激光诱导石墨烯,同时作为摩擦电材料、电极或热声源。在机器学习的帮助下,通过卷积神经网络训练30个语音类别,训练数据集和测试数据集的准确率分别达到99.66%和96.63%。此外,GHRI还用于基于识别语音特征的人工智能通信。与以往的工作相比,GHRI在各项指标上都有很大的提高,在机器人智能领域具有广阔的发展前景。

该工作在InfoMat上以题为“Graphene-based dual-function acoustic transducers for machine learning-assisted human–robot interfaces”在线发表(https://doi.org/10.1002/inf2.12385)。

我们摘取了文章里的几部分重点给大家做个介绍:

1.GHRI的工作机理和结构设计

清华大学、北京纳米能源与系统研究所、北京科技大学InfoMat:石墨烯双功能声学换能器用于机器学习辅助的人机交互界面

图1:GHRI的工作机理和结构设计。(A)将GHRI的工作原理应用于智能机器人。(B)LIG的制备过程和GHRI的结构图。(C) LIG的扫描电镜。(D)装有GHRI的机器人“NANO”。(E)模式1:TENG工作原理图。(F)薄膜振动时电荷分布图。(G)模式2:热声工作原理图。结构稳定性与稳定机制

作者开发的智能GHRI既可以作为人工耳,也可以作为人工嘴。在工作时,GHRI将接收到的声音信号转换为电信号输出,随后通过无线传输到微控制器单元,并通过卷积神经网络(CNN)进行训练,分析了语音中包含的情感、身份、内容等信息。根据CNN的判定结果,驱动控制系统中的音频模块发出指定的语音信号,进而驱动GHRI作为基于热声的扬声器发出声音,从而完成闭环的智能通信流程。

GHRI主要由三层组成,包括单面雕刻LIG的PI薄膜(OLIG)、聚乙烯(PET)环形间隔层和双面雕刻LIG的多孔PI薄膜(DLIG)。在作为麦克风工作时,采用OLIG中的PI薄膜作为电负性摩擦电材料,OLIG的背面作为电极。DLIG底层的LIG不仅用作电极,还用作摩擦正极材料。声波驱动OLIG的振动,导致DLIG中的下层LIG与OLIG中的PI膜之间的接触起电。由于静电感应效应,带电PI薄膜的振动将诱导两个LIG电极之间产生电输出。在作为扬声器工作时,OLIG和DLIG中的上层LIG均作为热声源,实现双向声音发射。基于热声效应的LIG将输入的交变电能转换为周期性的焦耳热能,并使空气收缩,从而产生人耳可以听到的音频。在整个过程中,电能转化为热能,然后再转化为声能。

2.GHRI作为TENG的声传感特性

清华大学、北京纳米能源与系统研究所、北京科技大学InfoMat:石墨烯双功能声学换能器用于机器学习辅助的人机交互界面

图2:GHRI作为TENG传感器的声传感特性。(A): (i)频谱,(ii)时域波形,(iii)当改变PI膜厚度时,谐振频率-输出电压-PI厚度关系。谐振频率和输出电压随(B)间隔层厚度、(C)孔尺寸和(D)孔面积的变化规律。(E) 250和250.005 Hz混合双频声音激发的时域和频域图。(F)输出电压与声压级输入的关系。(G)不同声压级激励声源记录的声谱。(H) 电压输出环路测试图。(I)声传感器100万循环的耐久性试验。(J)记录的1分钟到60天的声音频谱。

作为一种基于TENG的自供电麦克风,GHRI可以在20 Hz ~ 20 kHz的宽频谱内工作,谐振频率可以通过结构参数(振动膜厚度、支撑层厚度、孔洞大小、孔洞面积)进行调制。且GHRI具有超高的灵敏度(4500mv /Pa),分辨率(0.005 Hz),稳定性(70 dB ~ 115 dB)和高耐久性(100万次,60天)。

3.GHRI作为热声声源的声发射特性

清华大学、北京纳米能源与系统研究所、北京科技大学InfoMat:石墨烯双功能声学换能器用于机器学习辅助的人机交互界面

图3:GHRI作为热声源的声发射特性。输出SP随(A)输入功率和(B) 5 kHz和10 kHz测量距离的变化。(C)理论拟合与实验声压级的比较。输出SPL随LIG制作参数的变化:(D)雕刻激光功率,(E)激光间距。(F)输出声压级随时间的稳定性。(G)声源周围声压级的有限元模拟结果。(H) 1 W和5 kHz时测试角与声压级的关系。(I)声场周围的测试物理图。

作为一种热声扬声器,GHRI在20 Hz ~ 20 kHz频率响应平坦(约75 dB),且声压级变化规律与热声理论公式规律完全契合,在工作60天后工作性能几乎没有变化。另外,理论与实验结果也都证实了双发声层带来的优质360°声场空间感。

4.多模态语音识别和情感识别

清华大学、北京纳米能源与系统研究所、北京科技大学InfoMat:石墨烯双功能声学换能器用于机器学习辅助的人机交互界面

图4:身份与情感特征的区分。不同身份和情绪的频域图、时域图和时频图 (A)不同的人在不同的情绪下说同一个词“hello NANO”,(B)相同的人在不同的情绪下说同一个词“good morning NANO”。

不同人的声纹特征是完全不同的,即使在说话者故意模仿别人说话情况下。当两名实验人员说着同样的语言“hello NANO”,GHRI识别语音后会分析其对应的时域、频域和频谱图。两者的语音内容虽然相同,但声音特征却有很大不同。

同样的,言语中的情感信息也是反映人类情感的一种非常重要的行为信号。同样的言语内容,用不同的情绪来表达,其语义可能完全不同。当实验人员以不同情绪(高兴和悲伤)说着同样的语言内容“good morning NANO”,其对应的时域图、频域图和频谱图完全不同,这都为下一步构建基于机器学习的个性化识别接口奠定了基础。

5.机器学习辅助的声学人机交互系统

清华大学、北京纳米能源与系统研究所、北京科技大学InfoMat:石墨烯双功能声学换能器用于机器学习辅助的人机交互界面

图5:机器学习辅助语音识别与通信。(A)语音特征提取和卷积神经网络处理。(二)语音指令在线识别系统。(C)显示语音识别分类号的混淆矩阵。(D)装有GHRI的机器人“NANO”的工作状态。

基于机器学习,作者设计了多维语音识别和智能通信系统。在语义识别方面,CNN上的训练数据集和测试数据集上的识别准确率分别高达99.66%和96.63%。另外,GHRI提取语音内容、情感和身份特征,进行智能交流和回复,实现无障碍聊天。此外,经济上可行的材料和简单的制造工艺使GHRI适合大规模生产,在机器人智能领域具有广阔的发展前景。

论文信息

Graphene-based dual-function acoustic transducers for machine learning-assisted human–robot interfaces

Hao Sun, Xin Gao, Liang-Yan Guo, Lu-Qi Tao*, Zi Hao Guo, Yangshi Shao, Tianrui Cui, Yi Yang, Xiong Pu*, Tian-Ling Ren*

DOI:10.1002/inf2.12385

Citation: InfoMat. 2023, e12385

本文来自MaterialsViews,本文观点不代表石墨烯网立场,转载请联系原作者。

(0)
石墨烯网石墨烯网
上一篇 2023年3月14日
下一篇 2023年3月14日

相关推荐

发表回复

登录后才能评论
客服

电话:134 0537 7819
邮箱:87760537@qq.com

返回顶部