霍金失语之后,人们曾集结全世界最顶尖的技术帮他“说话”,让这颗世界上最高速运行的大脑,每分钟能“说”出15个单词。
如今一项崭新的技术有望帮助更多失语者,让他们只须“动动脑子”,就能发出接近正常语速的声音。
近日,加州大学旧金山分校华裔教授Edward Chang及其团队,设计出一种革命性的脑机接口设备,将大脑信号直接转化为可听到的语音,相关成果发表在《自然》上。
第一次,从脑电波到语音
当人讲话时,嘴唇、舌头、下颌、喉部的上百块肌肉都在配合运动,已知的大脑语言中枢——颞上回神经细胞的电活动支配了这些精细运动。假设一个人说“苹果”时,迅速记录他的脑电活动,就可能建立起特定词汇和脑电活动之间相互对应的“字典”。接下来,科研人员就可以通过人工智能学习的方式,根据这种脑电活动直接合成出“苹果”的发音。
理想的话,当研究者积累的“字典”足够庞大和准确时,即便一个人无法发出自己的声音,只要他产生说话的想法,就能在“字典”里找到对应的电活动,并且靠机器“翻译”出大家都能听懂的语音。
“这样我们就能通过失语病人的面部表情和肌肉动作,解码他们大脑产生的信息,从而帮助那些患有喉癌、声带破损等疾病的人与外界‘对话’。”论文第一作者Gopala Anumanchipalli告诉《中国科学报》。
这和霍金使用的那套著名系统有什么本质区别呢?在霍金的眼镜上,安装着一个红外传感器,能检测到他右脸颊上一块肌肉的活动。当他轻微抽动这块肌肉时,就相当于按下了一个按键。霍金就是通过这种方式先打字,然后通过文字转化语音技术,把他的想法“说”出来。
可以看出,尽管匹配了一系列高科技,霍金使用的语音转化系统,还是传统的“从文字到语音”模式。
而在这项研究中,科学家则是在挑战“从脑电波到语音”的转换方式。“这是第一次,我们可以根据人的大脑活动生成完整的句子。”Chang说。
深入大脑语言中枢
“这是一个很大的进步。”中科院昆明动物研究所研究员徐林第一时间关注了这篇论文。他告诉《中国科学报》,传统的脑机接口技术大概1分钟能输出8个单词,而通过这种方法模拟合成口语句子,一分钟能达到150个单词,已经比较接近正常人的水平了。
“这项技术的巧妙之处在于直接记录了已知语言中枢——颞上回的电活动,所以更容易检测到与语言发声相关的信号。”徐林说,“这个系统的顺利运行,表明人类未来能实现人脑和机器之间更加顺畅的交流。”
但这种方法不是没有代价的。传统脑机接口通常是无创的,新技术则需要在开颅的前提下,把电极直接插进大脑皮质的语言中枢中。在这项研究中,科学家招募了5名准备接受癫痫病开颅手术的志愿者,同时与医院合作,在手术治疗过程中“顺便”做了脑机接口实验。
“这就决定了这批数据的获得非常艰难,基于5个志愿者的数据能得到这么好的结果,的确令人惊叹。”徐林对《中国科学报》说,“但开颅操作也给临床应用制造了障碍。”
打造语言的“公用图书馆”
在此之前,基于脑机接口技术的人工智能学习,通常只是针对某一个体的。因为人在思考和说话时的脑电活动存在显著的个体差异。这就意味着,即便两个人都在想着“苹果”、说着“苹果”,记录下来的脑电活动也可能很不相同。在一个人身上做实验得到的“字典”,在另一个人身上或许就不适用。
而这一次,研究者别出心裁地测量了说话时肌肉运动所对应的大脑活动模式。由于不同人在说同一句话时的肌肉运动存在共性,这就为未来发展人际间通用的脑电解码和语音合成设备提供了可能。
“大脑模式的确是非常个性化的,但语言词汇则是通用的——这可以作为一个出发点,让我们去建立一个公用的‘图书馆’。基于这一原理,我们的技术有希望向英语之外的其他语言推广。”Anumanchipalli向《中国科学报》解释。
但语言毕竟是微妙的东西,每个人说话时都包含着很多个性化的小细节。当句子变得比较复杂时,合成语音导致听者的误判率达到了70%以上,说明合成出的声音与自然发声仍然有较大区别。对此,Anumanchipalli 说:“使用者有必要接受一定的训练并多加实践。”
徐林提出,下一步可以探索给这套系统加上一个反馈装置。“目前参与实验的受试者其实都是能正常说话的人。但真正的语言障碍者,很多同时也有听觉障碍,怎么能让机器合成的声音再反馈到‘说话者’的大脑里,是一个很有意义的方向。”