机器翻译与后编辑
机器翻译基本原理
RBMT
SMT
NMT
基于规则
靠人工来总结语言之间的转换。
例如:
原文: I went to Nanjing.
先分析其句法结构,为 S V O 结构,再分析其时态为过去时,然后使用词汇表将对应中文词汇填入中文句子结构中。
译文:我去了南京。
因为规则太多导致规则之间的冲突屡见不鲜,随着规则的增多,整体上系统的可维护性越来越差。
基于统计
进入到统计时代后,逐步拜托了对于语言学家的依赖,机器可以自行构建词汇和句法的知识。
词汇的学习:
The apple is favored by my grandfather.
苹果 是 所喜欢 我的 爷爷
然后就通过语言模型来将 {苹果 是 所喜欢 我的 爷爷 },调整为一个可能的句子。这里其实机器也不知道哪个是对的,软件只能把所有的组合全都试验一遍,然后把概率最大的组合输出为结果。
基于神经网络
搭建若干层网络,给神经网络输入原文和译文,由神经网络自动学习。
神经网络基本原理。
机器翻译常见讨论的问题
如何评价机器翻译质量(BLEU)
如何做机器翻译后编辑
如何计算后编辑的工作量
常见机器翻译服务商
Google Cloud Translation API
Microsoft Cognitive Toolkit | Translator
阿里云
小牛翻译