首页>科技·快读

通用机器翻译全过程,未来还能破解外星人语音?

来源: 网易科技 发布:2017-01-03 08:32:49 收藏成功收藏本文

  有趣的是,电影中虚构的通用翻译和现实中科学家的研究有相通之处。电影中的柯克船长说:“某些普遍的想法和概念”是“所有智慧生物共有的”。通用翻译机便基于此假设,对脑波模式的频率进行对比,精确词义并组成句子输出。

  脑神经产生可识别的活动(脑波),并且交流刺激神经中枢的特定区域。只要我们有足够精确的设备能够探测这些脑波变化,频率分析就有可能实现。频率分析也符合齐夫定律(Zipf's law)。齐夫定律是由哈佛大学的语言学家乔治・金斯利・齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。齐夫定律可以被用来作为语言破译的参考。

  星际迷航系列电影中不断出现一个翻译矩阵,排除艺术幻想和科幻加工,电影中的“矩阵”可以对应真实世界中的国际语模型,这是一种抽象、独立于语言之外的知识表达方式。

  当电影中的通用翻译机无法工作时,还有一个被称为linguacode的工具工具。Linguacode在真实世界中可以对应上宇宙语言(拉丁语:Lincos,源自lingua cosmica的缩写)。这是一种在1960年由荷兰数学家和天文学家弗勒登塞尔博士提出的一种人工语言。他设计这语言并希望可以透过星际间的无线电信号传达,被外星生物理解。

  从工程的角度来看

  Elliott的方法使用所有人类语言的资料打造出一个通用语言模型,将有助于通用翻译机的实现。这是传统的定向交流系统所不能及的。

  有了一个能映射语法结构和语义的系统,就可以构建出一个“场景的语料库”。随后再根据交互场景的普适性解码更多细节。

  例如:

  - 大多数对话的开头都包含一句问候语。

  - 大多数技术文档包含数字。

  - 所有命令都包含一个要求,而且通常是威胁性的。

  - 新闻指的是一件事。

  - 大多数长文档都会分章节,而章节之间会有数字或章节名。

  - 参考性文档都会有所指,描述某一个实体。

  以上这些特点是普适的,并非某一语言所特有。它们源自于群体沟通中的最小努力原则(Principle of Least Effort)。

  基于语义学的系统可以不依赖表面词义构建语料库。相比罗塞塔石碑,这个系统可称作是一个高科技语言魔方。罗赛塔只记录三种语言,而后者可通过多变的组合匹配任何目标语言。

  语言之外

  在找到外星人之前,研究人员先在鲸类动物身上试验了“通用翻译机”假设。虽然目前还没有确切证据证明鲸类动物的通讯拥有人类语言的所有特征,不过它的却表现出一些迹象。

  例如,海豚拥有自己的“签名口哨”,这相当于人类语言中每个人的名字。签名口哨用于海豚的定位,这符合语言学中的移位性(displacement)。在Louis Herman的实验过程中,海豚成功学会了理解“左”、“右”等抽象概念。海豚群体的社会活动很复杂,需要相当有效和复杂的通信系统来保障信息交流。

  海豚之外,还有一些物种具有更复杂的通讯系统。一系列实验已经证明蚂蚁的通讯可能超乎人类的想象,蚂蚁甚至能对语句进行压缩,比如它们会将“左转,再左转,再再左转,再再再再左转”说成“左转四次”。

  Doyle 和 Elliott 利用信息理论提供的各种工具对鲸类动物的交流进行了研究。Elliott计算了人类和动物语言以及非语言来源(比如白噪音和音乐)各自的信息熵。

  交流系统呈现一个对称的A状振幅。人和海豚的声音尤其如此,鸟类声音对称性稍弱。Doyle对驼背鲸的声音进行测量,得出类似的结论。

  这就是为什么几个研究动物交流计划与SETI计划进行协作的原因。如果我们连动物语言都无法理解,更遑论打造破译外星语言的通用翻译机了。

挖掘更多科技资讯请关注科技狗自媒体:

搜索微信号:techdogcn 新浪微博:@科技狗官微 腾讯微博:@关注我们