首页

科技资讯

当前位置：首页>>科技资讯>>正文

科学家发明脑机接口语音合成新技术

发布日期：2019-04-29 作者：来源：点击：

霍金失语之后，人们曾集结全世界最顶尖的技术帮他“说话”，让这颗世界上最高速运行的大脑，每分钟能“说”出15个单词。

如今一项崭新的技术有望帮助更多失语者，让他们只须“动动脑子”，就能发出接近正常语速的声音。

近日，加州大学旧金山分校华裔教授Edward Chang及其团队，设计出一种革命性的脑机接口设备，将大脑信号直接转化为可听到的语音，相关成果发表在《自然》上。

第一次，从脑电波到语音

当人讲话时，嘴唇、舌头、下颌、喉部的上百块肌肉都在配合运动，已知的大脑语言中枢——颞上回神经细胞的电活动支配了这些精细运动。假设一个人说“苹果”时，迅速记录他的脑电活动，就可能建立起特定词汇和脑电活动之间相互对应的“字典”。接下来，科研人员就可以通过人工智能学习的方式，根据这种脑电活动直接合成出“苹果”的发音。

理想的话，当研究者积累的“字典”足够庞大和准确时，即便一个人无法发出自己的声音，只要他产生说话的想法，就能在“字典”里找到对应的电活动，并且靠机器“翻译”出大家都能听懂的语音。

“这样我们就能通过失语病人的面部表情和肌肉动作，解码他们大脑产生的信息，从而帮助那些患有喉癌、声带破损等疾病的人与外界‘对话’。”论文第一作者Gopala Anumanchipalli告诉《中国科学报》。

这和霍金使用的那套著名系统有什么本质区别呢？在霍金的眼镜上，安装着一个红外传感器，能检测到他右脸颊上一块肌肉的活动。当他轻微抽动这块肌肉时，就相当于按下了一个按键。霍金就是通过这种方式先打字，然后通过文字转化语音技术，把他的想法“说”出来。

可以看出，尽管匹配了一系列高科技，霍金使用的语音转化系统，还是传统的“从文字到语音”模式。

而在这项研究中，科学家则是在挑战“从脑电波到语音”的转换方式。“这是第一次，我们可以根据人的大脑活动生成完整的句子。”Chang说。

深入大脑语言中枢

“这是一个很大的进步。”中科院昆明动物研究所研究员徐林第一时间关注了这篇论文。他告诉《中国科学报》，传统的脑机接口技术大概1分钟能输出8个单词，而通过这种方法模拟合成口语句子，一分钟能达到150个单词，已经比较接近正常人的水平了。

“这项技术的巧妙之处在于直接记录了已知语言中枢——颞上回的电活动，所以更容易检测到与语言发声相关的信号。”徐林说，“这个系统的顺利运行，表明人类未来能实现人脑和机器之间更加顺畅的交流。”

但这种方法不是没有代价的。传统脑机接口通常是无创的，新技术则需要在开颅的前提下，把电极直接插进大脑皮质的语言中枢中。在这项研究中，科学家招募了5名准备接受癫痫病开颅手术的志愿者，同时与医院合作，在手术治疗过程中“顺便”做了脑机接口实验。

“这就决定了这批数据的获得非常艰难，基于5个志愿者的数据能得到这么好的结果，的确令人惊叹。”徐林对《中国科学报》说，“但开颅操作也给临床应用制造了障碍。”

打造语言的“公用图书馆”

在此之前，基于脑机接口技术的人工智能学习，通常只是针对某一个体的。因为人在思考和说话时的脑电活动存在显著的个体差异。这就意味着，即便两个人都在想着“苹果”、说着“苹果”，记录下来的脑电活动也可能很不相同。在一个人身上做实验得到的“字典”，在另一个人身上或许就不适用。

而这一次，研究者别出心裁地测量了说话时肌肉运动所对应的大脑活动模式。由于不同人在说同一句话时的肌肉运动存在共性，这就为未来发展人际间通用的脑电解码和语音合成设备提供了可能。

“大脑模式的确是非常个性化的，但语言词汇则是通用的——这可以作为一个出发点，让我们去建立一个公用的‘图书馆’。基于这一原理，我们的技术有希望向英语之外的其他语言推广。”Anumanchipalli向《中国科学报》解释。

但语言毕竟是微妙的东西，每个人说话时都包含着很多个性化的小细节。当句子变得比较复杂时，合成语音导致听者的误判率达到了70%以上，说明合成出的声音与自然发声仍然有较大区别。对此，Anumanchipalli 说：“使用者有必要接受一定的训练并多加实践。”

徐林提出，下一步可以探索给这套系统加上一个反馈装置。“目前参与实验的受试者其实都是能正常说话的人。但真正的语言障碍者，很多同时也有听觉障碍，怎么能让机器合成的声音再反馈到‘说话者’的大脑里，是一个很有意义的方向。”

首页

部门概况

校学术委员会

科研团队

科研平台

科研项目

科研成果

产学研

科协工作

联系我们

政策法规

科技资讯

科学家发明脑机接口语音合成新技术