机器翻译应用渐入佳境

来源:http://tech.hexun.com/2013-10-08/158530828.html

随着全球化和互联网迅速发展,跨语言的网络资源不断呈几何级数增长,迅速改变着信息传播的方式,极大地刺激了全球机器翻译产业的发展。随着产品技术不断进步,人们对机器翻译的可接受度在迅速提高,同时人们越来越清楚机器翻译能够做什么,以及应当怎么去做才能最大发挥机器翻译效能。机器翻译的应用正从广度和深度上不断拓展延伸,我们可以将其应用归纳为四种类型,即信息获取、信息传播、信息沟通和无缝集成。

信息获取

机器翻译在信息获取方面的应用也称为要旨(gisting)翻译,它是指用户出于信息搜集和监视目的,通过机器翻译大致了解外文情报内容的应用。信息获取主要是为那些为不需要了解准确的含义,只需要浏览其大意的用户提供的。随着互联网跨语言资源的剧增,这一类应用得到了迅速的发展,因为不熟悉外语的人,也可以大致看懂外语网页的内容,这对于很多用户有相当大的吸引力。在这种应用情况下,对系统翻译速度的要求比翻译准确度的要求更为重要。要旨翻译最大的客户群是情报部门,这些机构利用机器翻译实现经济、产业、科技以及军事和国家安全情报的搜集和动态监视。在这类应用中,机器翻译只不过是实现大量外文资料的信息抽取和最终分析的第一步,如果从中发现真正有价值的信息,会传递给翻译人员做进一步处理。国际著名的机器翻译应用评论家约翰·哈钦斯指出,“许多的商业和政府资助的机构出于它们职能与活动的需要,必须仔细阅读外文情报文件,这些文件包括有关商业和经济情报的文件以及涉及反恐防爆监视乃至国家战略情报的文件,以前是繁重的人工任务 现在由机器翻译自动执行”。

目前,全球在机器翻译信息获取方面最具代表性的应用是美国国家安全局(NSA)的企业级大型机器翻译系统CYBERTRANS,它用于实时翻译全球情报要旨信息。在911事件之后设立的美国国土安全部(DHS)专门部署了企业级大型机器翻译系统,通过国土安全信息网监视和防止来自全球的恐怖活动。

信息传播

与信息获取应用最大不同的是,信息传播应用要求机器翻译尽量达到“可出版”质量的译文。为提高面向信息传播的机器翻译系统译文质量,目前通常采用三个措施,即采用受控语言的前编辑提高系统的处理能力,采用自动或人工后编辑的译文修订,以及通过定制化开发,训练面向受限领域的应用系统。2012年,哈钦斯在“机器翻译目前和今后潜在应用”一文中指出,“随着经济全球化的发展,今后面向信息传播的机器翻译应用需求会高速增长。”在现代社会,机器翻译面向信息传播应用的最突出的领域是技术翻译,这通常意味着翻译时限苛刻且文本数量庞大。例如,机器翻译广泛被气象学家用于天气预报翻译,被硬件和软件供应商用于技术文档翻译。

  随着全球化迅速发展,很多大型企业和机构有大量的技术和管理文档需要翻译成多国语言。多年来,具有前后编辑的机器翻译一直是跨国公司和其他多语言机构(如欧盟)具有成本效益的作业模式。机器翻译系统产生粗糙的翻译,然后由人工修改(后编辑)。但是,人工后编辑机器译文达到一个完全可以接受的质量,依然是需要投入相当成本的,因此,许多企业采用受控语言改进机器翻译输出,降低甚至消除后编辑成本。众所周知,避免行文中的词汇歧义,简化复杂的句子结构 这本身就意味着提高原文的可理解性,不管对人还是对机器,都是如此。在这种作业方式中,机器翻译与技术写作是紧密联系在一起的,并集成在企业整个技术文档制作的工作流程中,从而使得能够进一步节省时间和成本。

目前跨国公司的多语言文档本地化翻译以及欧盟委员会经济、法律、公告在各成员国间的分发都是机器翻译在信息传播方面的重要应用。在国内,赛迪集团定制化开发的汉英双向机器翻译系统从2007年起,已先后用于中国-欧盟信息社会项目和2008年北京奥运会项目文档自动翻译。这是典型的信息传播应用案例。

信息沟通

机器翻译在信息沟通方面的应用主要指用于电子邮件、手机短信的翻译,以及博客、微博、社交网站、网络论坛等社会媒体文本的自动翻译。在这种情况下,用户提供的内容一般具有较高的噪音水准(错别字、不符合语法等)、与领域无关、产生速度快等特点。除文本翻译外,信息沟通也包括口语的翻译,但是由于语音技术水平的限制,目前一般仅限于小词汇集和非常受限的领域,如旅馆预定、机票查询等。文本翻译系统没有口语识别的问题,可以用于更广泛一些的领域,如旅游翻译、电子邮件翻译、在线聊天翻译等等。这类系统的主要特点是,翻译的内容多是口语化的句型,表达比较随意,翻译的实时性要求更高,人机交互更为复杂等。

无缝集成(嵌入式应用)

受控语言写作系统(CLAS)与机器翻译构成的无缝集成应用,是发挥机器翻译成本效益方面最具代表性的应用。为了进一步降低多语言技术文档机器翻译的后编辑成本,现在越来越多的跨国企业使用受控语言前编辑机器翻译输入文本。为利用前编辑文本改进机器翻译译文质量,实现降低后编辑成本的目的,受控语言写作系统与机器翻译的无缝集成是一种最好的选择。

另外,对于互联网用户来说,进一步的期待就是集成其他人类语言技术(HLT)。一般来说,用户所要寻求的是互联网上有针对性的要点情报信息,该信息是蕴含在文本文字当中, 翻译只是达到这一目的的语言转换手段。因此,越来越多的情报获取用户希望使用基于机器翻译的无缝集成系统,比如机器翻译与跨语言信息检索系统、跨语言信息抽取系统以及跨语言自动摘要系统的无缝集成。今后这些无缝集成系统会逐渐扩大市场占有份额。此外,无缝集成还包括与文语转换(TTS)引擎和自动语音识别(ASR)引擎的集成,以及更具前瞻性的机器翻译与信息工具箱的无缝集成以及与企业生态系统的无缝集成。