首页>科技·快读

通用机器翻译全过程,未来还能破解外星人语音?

来源: 网易科技 发布:2017-01-03 08:32:49 收藏成功收藏本文

 

  据外媒报道,去年上映的电影《降临》引起了电影评论人士的热评。这是丹尼斯・维伦纽瓦(Denis Villeneuve)执导的科幻片,讲述了一个语言学家破译外星人语言的故事。另外,传奇科幻片星际迷航在去年庆祝了其上映50周年。星际迷航中出现的通用语言翻译机让作为语言极客和科幻迷的笔者十分着迷。

  本文并非讲解机器翻译的文章。这种技术已经以各种各样的方式开始被投入实践,虽然效果还无法达到人类专家翻译的水平,但机器翻译已经可以在很多场景里使用。本文将重点探讨通用翻译机对未知语言的破译过程。

  现实中的语言破译

  不管多么复杂,所有的破译在本质上是相同的,即将未知的语言与已知知识进行匹配。罗赛塔石碑的故事已经成为传奇:一个刻有古埃及象形文字的石碑,同样的内容还用希腊语和埃及俗语各刻了一遍。当时人们一直对象形文字摸不着头脑,罗斯塔石碑的发现让语言学家可以通过对照希腊语倒推出象形字母的含义。罗赛塔石碑已经成为语言学习的标志性符号,并被引申为解决某难题的关键要领。

  今天,人们用类似的方式打造了统计机器翻译(Statistical Machine Translation,简写SMT),使用平行文本作为虚拟的罗塞塔石碑。遇到平行参照语言不存在的情况,破译就依赖于相似语言或其他可利用的线索。

  其中最戏剧性的故事要数玛雅文字的破译,这还牵扯到美苏两大阵营的博弈。2010年有条新闻是麻省理工的Regina Barzilay和她的团队开发出一个人工智能程序,成功破译了古代闪米特语言乌加里特语(Ugaritic)中的大部分。

玛雅文字是由音节文字字形组合成的意音文字,在功能方面与现代的日文类似

  当没有罗塞塔石碑这种参照物时,该如何破解完全陌生的语言呢?就像电影《降临》表现的那样,手势、物体对象和彼此的面部表情都可以帮助理解词汇。地理大发现之前,邂逅新文明的探险家和海员便是用此种方法学习陌生种族的语言。今天在雨林中进行田野考察的人类学家仍然沿用此法。

图为 Daniel Everett 在亚马逊雨林中同Pirah?人交流

  电影内外的通用语

  但是如果面对面的沟通是不可能的呢?

  几十年来,SETI的研究人员一直在试图寻找宇宙中外星智慧生命的迹象。他们当中有些人便关注这样的问题:我们收到信号又该如何破解呢?我们又怎么知道信号来自智慧生命,而不是宇宙噪音?

  Laurance Doyle和John Elliott专注于这些问题的研究。Doyle的工作重点是香农信息理论的应用。通过观察信号的复杂程度来判断是否近似于人类通信。Doyle曾与著名的动物行为和传播研究员Brenda McCowan一起分析了各种动物的交流数据,并将其信息理论特征与人类语言特征进行比较。

  John Elliott则专注于对未知通讯系统的研究,他判断信号是否是语言,并对其语言结构进行评估,其最终目标是建议一个所谓的“后检测破译矩阵”。用他自己的话来说,这个矩阵将包含整所有人类语言数据,并会在未来添加其他的通信系统(比如动物的)。Elliott的假设系统基于自然语义理论(Natural Semantic Metalanguage, NSM)。

查看更多

挖掘更多科技资讯请关注科技狗自媒体:

搜索微信号:techdogcn 新浪微博:@科技狗官微 腾讯微博:@关注我们