机器翻译的研究历史可以追溯到 20 世纪三四十年代。1949年,W. Weaver 发表《翻译备忘录》,正式提出机 器翻译的思想。随着互联网的普遍应用以及全球化进程的加速,人们对于机器翻译的需求空前增长,特别是最近10年,机器 翻译技术有了长足的发展。 下面我们总结了人们有关机器翻译的常见问题,并给出了明确的回答。
 

机器翻译是利用计算机将我们日常交流所用的一种语言(如中文)自动转换成另 外一种语言(如英文)的过程,这种翻译方式不需要任何人工干预。

人们长久以来一直认为机器翻译结果很糟糕,这主要是由于先前的翻译技术还不 够完善,但是近年来,机器翻译技术得到了飞速的发展并且得到越来越多的应用,机器翻译结果的质量也得到了很大的提升 。

机器翻译系统的安全性取决于系统的种类。目前,机器翻译系统共分为两种:在 线的通用型机器翻译系统(如Google Translate, 百度翻译)和私有机器翻译系统(如NiuTrans Server)。在线的通用型 机器翻译系统高度开放,任何人都可以使用,因而无法保证用户的数据翻译安全,有可能给用户带来重大的经济损失。而私 有的机器翻译系统搭建在用户自己的服务器上,所有数据全部存储在自己的电脑中,由此解决了通用机器翻译系统存在的数 据不安全问题。

美国著名语言行业调查机构Common Sense Advisory报道称,72.1% 的消费者 在互联网上使用母语进行信息交流,72.4% 的消费者愿意购买具有有本国语言说明的产品。市场调研公司IDC提供的数据显 示,当互联网用户使用母语浏览网站时,购买成交可能性是使用非母语时的4倍。此外,Forrester Research公司的研究表 明,在母语环境下,用户在网站的停留时间是在非母语环境的2倍。以上几个数字足以说明,翻译在我们生活的现代化、全 球化世界中真的变得越来越重要了。

机器翻译能够在很多方面帮助企业和个人进行各种跨语言的信息交流。虽然机器 翻译在一些对于翻译质量有着很高要求的应用中还无法完全取代人类,但是已经有很多案例展示出机器翻译是实用而且有效 的。

机器翻译在很多情况下都是非常有用的,其中包括:

1.对于重复性很高的内容,单纯使用机器翻译中的翻译记忆技术就能够大幅度提 升生产率。(例如:汽车手册) 2. 翻译的内容与翻译记忆库中内容相似,但是不是完全一致(例如:政府的政策文件) 3. 由于成本、规模或数量巨大而无法采用人工翻译的内容(例如:多国语的专利文献) 4. 每小时、每天都在不断更新、对信息即时性要求很高的内容(例如:股票新闻) 5. 一些内容对翻译结果没有较高质量要求,只需达到能被理解标准即可(例如:网站的快速浏览) 6. 对于需要实时沟通的内容,采用人工翻译无法完成(例如:聊天内容和电子邮件) 7.一些内容单纯采用人工翻译,成本高昂(许多项目预算较少,无法承担人工翻译高昂的费用)

个人常常会使用手机上或者笔记本电脑上的通用型机器翻译软件(如Google Translate)翻译些安全性要求较低的信息。

企业会定制个性化的机器翻译系统,用于客户服务,数据挖掘,或者翻译一些人 工翻译短时间无法完成的大规模多语种翻译任务。对于一些拥有内部翻译团队的企业,他们会利用机器翻译技术帮助专业译 员提升工作效率。

语言服务提供商利用机器翻译系统,通过后编辑的方法,在保证翻译 质量的同时提高翻译工作量。

政府部门利用机器翻译系统获取有用情报、监控活动或者提升专业译 员在翻译多语言文件时的工作效率。

当前的一个趋势是,很多组织和个体越来越需要使用自己私有的机器 翻译系统。NiuTrans Server 能够根据用户的需求,为不同的业务功能量身定制机器翻译系统。

机器翻译系统的翻译速度取决于很多因素,其中最重要的是翻译引擎的数量。为了增加翻译 引擎的数量,可以把系统部署在云平台(服务器群)上。对于NiuTrans Server来说,如果部署在一个有5个PC级计算节点 (假设每个计算节点有4个翻译引擎在工作)的云平台上,它就会具有超过2000万字/天的翻译能力。如果人工译员每天翻 译2500词,那么这样的机器翻译系统相当于800人同时在工作。当然,如果这样的翻译速度还不够,你可以通过增加云平台 中计算节点的数量,让机器翻译系统完成更多的工作量。

像Google翻译、Baidu翻译等通用型机器翻译系统适用于翻译非特定领域的内容。其翻译 结果往往没有特定的写作风格,术语和词汇的选择也缺乏一致性,甚至术语翻译常常会出现错误。

我们可以先看一个例子,“I went to the bank”。通用的机器翻译系统(如Google翻译 、Baidu翻译)不能辨别这句话的语境是“I went to the (river) bank” 还是“I went to the (money) bank”。定制的机 器翻译系统(如NiuTrans Server)是使用特定领域(如金融领域)的数据训练而成,因此拥有额外的语境信息,从而能够 提升翻译结果的准确性。此外,还可以通过在系统中添加特定领域术语词典来提高术语翻译的准确性和一致性。

机器翻译系统的安全性取决于系统的种类。目前,机器翻译系统共分为两种:在线的通用型 机器翻译系统(如Google Translate, 百度翻译)和私有机器翻译系统(如NiuTrans Server)。在线的通用型机器翻译系 统高度开放,任何人都可以使用,因而无法保证用户的数据翻译安全,有可能给用户带来重大的经济损失。而私有机器翻译 系统的整套体统搭建在用户本地,所有数据全部存储在自己的电脑中,由此解决了通用机器翻译系统存在的数据不安全问题 。

机器翻译大体可以被分为三类方法:基于规则的机器翻译、基于实例的机器翻译、统计机器 翻译。其中基于规则和基于实例的机器翻译的历史较长,而统计机器翻译的发展仅有二十年左右的历史,但是其已经成为当 今机器翻译研究与应用中的主流方法。

基于规则的机器翻译系统(Rule-based Machine Translation, RBMT)是最早的商用机器 翻译系统。该机器翻译系统基于语言学规则,根据上下文去分析不同位置上的词语所具有的不同含义。基于规则的机器翻译 技术应用了大量的语言学规则。人类语言专家和程序员在完全理解两种语言的基础上,用程序编写两个不同种语言间存在的 一些规则。基于规则的机器翻译把规则库作为知识源,翻译过程可以被看做由一系列人工书写的翻译规则的组合。

基于规则的机器翻译结果精度高,用户可以不断优化规则库来完善系统。但是规则库的建立 和维护非常耗时,人工书写规则覆盖度有限,而且如果规则过多,那么很可能带来规则的相互冲突,反而会降低翻译质量。

基于实例的机器翻译的思想是,通过把待翻译的句子和已有的双语句库中的句子进行匹配, 找到最相似的句子,把这个相似句当作模板,对它的翻译结果进行一些修改,就得到待翻译句的翻译结果。目前,被翻译人 员广泛使用的计算机辅助翻译工具中采用的翻译记忆(Translation Memory, TM),就是这种翻译方法的简化版应用。

基于实例的机器翻译不依赖人工书写规则,而是从翻译实例中自动学习翻译的句型、搭配等 翻译知识,并将这些知识抽象为一种特殊的翻译表示形式——称之为翻译模板。利用翻译模板去翻译新的句子,因此基于实 例的机器翻译能覆盖更多的翻译现象。

但是,翻译模板的覆盖度仍然非常有限,对新的翻译任务,如果在模板中找不到相似句,那 么系统就不能给出翻译结果。

统计机器翻译系统通过分析现有的双语语料,让计算机自动学习如何进行翻译。目前,大多 数统计机器翻译系统主要基于一系列的词而不是单个词,这一系列词被称为短语,这些短语不同于语言学中的短语,他们是 从双语语料中通过统计的方法提取出来的。

统计机器翻译系统能够通过分析大量对照的双语语料(源语和目标语)和单语语料(目标语 )生成统计模型。这些模型能够将源语翻译成目标语,并从大量的结果中统计出可能性最高的翻译结果作为最终的翻译结果 。

统计机器翻译系统的优点是不必依赖任何人工的干预即可快速进行海量数据的翻译。只要用 户拥有足够的(越多越好)平行双语数据,便可以在几个小时之内搭建好机器翻译系统,用于翻译工作。

此外,统计机器翻译中的模型是独立于语言的,也就是说,它们的工作不受具体语言的影响 。无论你手中拥有什么样的双语数据,你都可以使用统计机器翻译技术搭建出机器翻译系统来。

首页 | 公司简介 | NiuTrans团队 | NiuTrans Server | 合作伙伴 | 公司招聘 | 联系我们 |