互联网上的人工翻译与机器翻译

来源:http://www.douban.com/note/62873940/

目前有超过十亿人使用互联网,但语言不通却成为了彼此交流的障碍。英语网页与汉语网页数量相当,日语博客和英语博客也大致一样多。阿拉伯语博客虽起步较晚,却发展迅猛。可是,语言障碍在不同的网民群体间筑起了高墙。

如果没有语言障碍,互联网会是什么样?想象一下,如果各地的互联网使用者都可以看到被流畅准确地自动翻译成本族语言的内容,那么互联网会是什么样子:中国网民可以访问英语报纸网站,里面的所有内容都用无可挑剔的汉语写成,他们还可以阅读马达加斯加语的博客以及加利西亚语的微博消息。

目前这些还只是幻想,但这好梦的一小部分可能即将成真。先从翻译说起,互联网的存在使翻译的过程更灵活、成本更低廉。谷歌等公司提供的免费翻译服务位于“网络翻译金字塔”的底层。这种翻译服务通过收集和分析手工翻译的文件(如被翻译成11种不同语言的欧盟议会记录等)来“学习”如何翻译。由于收集的文件量大、计算机的分析性能强,自动翻译(行话称“机器翻译”)虽有少量误译,但通常能够传达出文本的大意。谷歌及其竞争对手的主攻方向是翻译使用较广的语言,学术界则在研究如何用机器翻译晦涩难懂的语言。

比机器翻译更高一级的是志愿者翻译。志愿者们自行组织,展开义务翻译,将包括本刊在内的数家著名英语出版物定期翻译成汉语,为其他读者提供便利(如ecocn.org/bbs)。有一些翻译项目则更为正式:全球之声(Global Voices)拥有通晓多种语言的博客写手,约200名志愿者在这里选择和翻译彼此发布的文章;“市镇广场”(Meedan)是一家讨论中东新闻的社交网站,其中的文章由机器翻译为英语或阿拉伯语,读者可以对文章进行修改整理。

当然,有偿的人工翻译质量最好。目前,翻译行业正在从以大部头翻译为主转向以小件翻译居多,所以价格有所下降。这种打零工的方式是由亚马逊旗下的服务型网站“土耳其机器人”(Mechanical Turk)发起的。通过该网站,各企业可以将一般性的工作任务分包给大量的网上工作者来完成。2009年底成立的SpeakLike网站拥有3000名翻译,在几小时内就可以提供翻译好的文本,每字收费5-15美分。SpeakLike甚至可以为客户翻译微博消息,几分钟内就可翻译完成,每条收费25美分。

至少从理论上说,这些翻译活动都可以在距离读者千里之外的地方进行。“全球词典”(Worldwide Lexicon,缩写为WWL)这款软件就可以使远程翻译成为可能,它是由一系列相互关联的免费软件组成的,其创始人是旧金山的软件开发员布莱恩•麦康奈尔。“全球词典”可以使博客写手和媒体公司更好地控制其发布信息的译文。比如说,博客写手可以为使用外语的访问者提供文章的机器翻译版本。(IE、火狐等浏览器能够识别访问者使用的语言。)“全球词典”还提供了一个灵巧的界面,一旦启动,读者就可以修改博客的译文,为以后的访问者提供便利。

商家可以使用该软件制作其发布信息的机器翻译版本,然后把它发送到SpeakLike网站来进一步润色。“全球词典”软件还可以只把点击量超过一定数值的受欢迎文章的机器翻译版本交给人工翻译进行修改。这种人机结合的翻译活动完全是在幕后进行的,读者只能看到已经译好的文章,但译文的水平参差不一。麦康奈尔正试图将他的翻译系统与世界上使用最广泛的博客平台之一WordPress相结合。他表示,已有数家出版商开始使用“全球词典”,包括某知名科技杂志的所有者。

我们距离无障碍的互联网这个梦想还有多远?志愿翻译者们只关注受欢迎的大网站,而绝大多数的博客仍然无人翻译,或者只有机器翻译版本。虽然目前人工翻译的价格低廉,但是大多数的信息发布者仍然没有能力支付这一费用,他们只能依靠机器翻译。机器翻译的质量虽然有所改善,但翻译起口语体和习语来还是困难重重。就像“全球之声”的创始人之一、哈佛大学研究员伊森•扎克曼说过的那样:“如果你像欧盟议会议员那样讲话,那么我们能够翻译得相当好。” 计算机需要学习如何翻译好青少年博客写手们张扬自恋的文字以及专栏作家们的蜚短流长的八卦文章,否则机器翻译的文章很难吸引读者。智能科技能够减少互联网中的语言障碍,但还不能完全消除这些障碍。