机器翻译与后编辑

机器翻译基本原理

  • RBMT

  • SMT

  • NMT

基于规则

靠人工来总结语言之间的转换。

例如:

原文: I went to Nanjing.

先分析其句法结构,为 S V O 结构,再分析其时态为过去时,然后使用词汇表将对应中文词汇填入中文句子结构中。

译文:我去了南京。

因为规则太多导致规则之间的冲突屡见不鲜,随着规则的增多,整体上系统的可维护性越来越差。

基于统计

进入到统计时代后,逐步拜托了对于语言学家的依赖,机器可以自行构建词汇和句法的知识。

词汇的学习:

The apple is favored by my grandfather.

苹果 是 所喜欢 我的 爷爷

然后就通过语言模型来将 {苹果 是 所喜欢 我的 爷爷 },调整为一个可能的句子。这里其实机器也不知道哪个是对的,软件只能把所有的组合全都试验一遍,然后把概率最大的组合输出为结果。

基于神经网络

搭建若干层网络,给神经网络输入原文和译文,由神经网络自动学习。

神经网络基本原理。

机器翻译常见讨论的问题

  1. 如何评价机器翻译质量(BLEU)

  2. 如何做机器翻译后编辑

  3. 如何计算后编辑的工作量

常见机器翻译服务商

  1. Google Cloud Translation API

  2. Microsoft Cognitive Toolkit | Translator

  3. 百度翻译 API

  4. 阿里云

  5. 小牛翻译