GoogleTranslate机器翻译错

2019-04-11 01:37:24 来源: 南平信息港

前几天又发生了一次针对Google的所谓 辱华事件 ,一篇号召民 抵制Google翻译工具 的帖子在某论坛上出现,帖子指责Google的翻译工具出现离奇的 张冠李戴 现象,甚至有伤害中国人感情的嫌疑,对Google的不正确翻译,该文列举了一些例子,如 I thought this was shame (我认为这是耻辱)被译为 我认为这是中国的耻辱 等等。

该篇文章发表后,引起了很多人的注意,不少媒体都进行了转载,之后,Google Translate翻译服务也迅速修正了这个技术错误。

由于我自己也是经常使用Google翻译工具,因此我就结合一下我对Google Translate翻译工具的理解来阐述一下这种错误可能产生的内在原因。

以往的翻译通常都是使用一个一个词地 死译 ,由于词义的多变性,同样一个单词在不同的场合下可能会出现完全不同的含义,因此原先的那种翻译效果可谓 惨不忍睹 ,翻译质量普遍很差,基本上没有什么参考价值,大家可以使用词霸或者Yahoo翻译来随便翻译一两篇英文来实验一下。百度因为 更懂中文 ,因此没有全文翻译产品,只有一个简单的单词翻译功能。

Google Translate翻译服务是目前中文翻译领域中表现为突出的一个,主要原因是Google翻译于今年进行了一次创新,使得Google翻译具有人工智能的词义辨识能力,也就是说,通过Google搜寻不同字词同时出现在同一页的频率来确定字词间的关联性,以这种人工智能的方法来进行真正意义上的全文翻译。

在Google眼中,一个字词的意义经常能从其他与它并用的字眼而获得,Google有天然的优势 已经索引过的海量资料库,通过对海量的多语言数据进行对比学习,找到不同语言之间的语法和文字对应规律水泥电阻批发
,实现了机器自动学习功能。

Google的这种智能识别翻译虽然极大地提高翻译质量,但是总的来说翻译水准还是不能达到很高的水平,出现一些技术上的错误也在所难免。例如这次出现的这个翻译错误问题。

我推测这个错误可能是这么产生的,就是在Google的自动机器学习过程中,主要学习的是一些西方文献以及其翻译结果,由于西方对于中国的评价大多都是负面的,因此某些 不好的字眼 经常和 中国 一道出现,当出现的频率很高的时候,Google就根据以往的常识,将这个 不好的字眼 和 中国 进行了一定关联,于是就出现了这种智能推测,导致了所谓的 Google辱华翻译事件 。

当然,这个技术问题解决起来也不难,就是扩大Google翻译的机器学习资料库,从不同的环境多分析一些资料(比如也分析一下人民的信息),这样推测词义出现的偏差可能会小一些,结果也会更为 中立 一些。

总的来说,Google放弃传统的翻译方式,改而使用机器自动分析统计识别的方法,是一大进步,极大提高了文章的翻译质量,后续Google应该做的是优化识别统计算法,扩大自动学习资料库,使得翻译的结果更加准确。然而令人不解的是,某些怀有不可告人动机的人不去研究技术和算法上的问题,而专门去找一些奇怪的缺陷错误,并将这种纯粹的技术问题上升到政治层面,早先有 Google搜索南京大屠杀事件 ,现在又有 抵制Google翻译事件 ,是的,哪里有臭味,哪里就有苍蝇的身影,苍蝇改不了逐臭,正如狗改不了吃屎一样,我奉劝那些专门搜寻这方面材料的那些人,不要再做那些妖言惑众、哗众取宠的事情了,这么做不仅侮辱了自己的智商,同时也侮辱了广大民的智商。当今社会是一个竞争激烈的社会,需要不断学习新知识,学习,不仅仅是学习知识,更重要的是学习分析问题的能力和技巧,如果只知道固步自封、闭门造车,整天想一些歪门邪道,不去想办法提高知识和技能,那么迟早有一天会被这个社会所淘汰。

这篇原报道很偏激,翻译句子也找的相当的别有用心。

I thought this was glory. 被翻译成 “我认为这是中国的荣耀”

又作何解释?

也可以说,Google 崇华媚中”?

而且,是不是又使国内某个大型中文搜索站向Google使出的下三滥的手段,也未可知。

2006/12/25 3:13:40 支持(12)反对(6) 回复

这个帖子好。能说明问题。我从donews上面转贴。至少明白两件事:Google没有自己的翻译引擎, 第二Google买了一个翻译引擎的技术:不是Language Weaver的, 就是美国乐图 (LOTO)的。我对比了一下两个的效果,应该是Language Weaver的。下面是原贴:

extra=page%3D1

2006/12/28 19:57:24 支持(7)反对(1) 回复

还要说一件事

他出卫星地图

就有人说什么泄露机密

有本事自己做个更牛逼的出来啊

美国地图放大到毫米级别,也泄露下别人的“国家机密”嘛

做不出来

就不要说这些让人觉得脸红的话

2006/12/25 11:04:03 支持(6)反对(3) 回复

我在我Blog中已经写过了

之所以每个词都加“中国的”,是因为到中文语境的问题。到中文语境,可能刻意增加了“中国的”这个词的权重

Google机器翻译对于你我都是黑盒子,大家都是去猜,这一点上无论做什么猜测我都能理解。 不过我去年在Google面试过,也和李开复先生讨论过Google的机器翻译的底层用的什么算法,我也有很多朋友在Google, 至少我对底层算法模型还是知道的。

如果Google用的是HMM模型, 你搜一下china/chinese+shame的双语页有多少? 怎么可能发生关联呢?

2007/1/9 0:31:45 支持(7)反对(4) 回复

崇洋的人还真多啊,一天骂人愤青,搞得用google就要高上一等似的,更本拿不出算法。有些人以为的自己比所谓的愤青聪明,一天到晚鄙视这个那个的,其实自己就是白痴一个,很多根本就是google的问题简体中文也能翻成english,我根本看不出在词典里有什么关联,这个基本的词汇翻译都做不好,这还能说是关联错误吗,还有为什么要用西方的文献和中国的对应?fucking也能翻成中国运动员,词汇翻译不能更直接?那些骂愤青的,我看你们一遇到这种是才是上纲上线,马上就提到什么民族自卑了,个个说得头头是到的,还不是一群人在跟风

2008/5/6 8:05:35 支持(4)反对(1) 回复

本體論 以詞 做 相關律 是 不了解語意 定義

如 之 平方 平方 數據上

可能 和 語意當初者 完全不相干

要求 學術人士 理解 本體論 之 論述 已經 是 眾說紛紜 不知 云云了

若還要電腦理解 本體論 之 拼湊 數學模型 是 解決語意 策略的 緣木求魚 方法

是以 智者不為

語意 定義 是 生活意旨符號集合 之 函數模組

是 計算機 資料庫 之 可程式庫之 人文科學 之 擬人化 思維法則

現有一團隊進行中 其 將公佈 世界 翻譯 流程 說明

有 模組矩陣 程式 能力者 可試用之

電腦 若能理解及實施 中 英 文法內容時

對於 世界語言翻譯 及 知識 know how 的 網路管理服務

就有了開始

現在 google 與 world lingo 翻譯水準 如果稱得上 已有五成 技術能量時

用此 擬人化 程式流程 可以 大大 提高 一半 以上

此將 公告 在 網路 上

詳情 資料

LANGENEBASE @

ATTN ronaldo

re: VIRTUAL BRAIN

2007/7/30 15:21:33 支持(7)反对(5) 回复

Hi. This is the qmail-send program at .

I'm afraid I wasn't able to deliver your message to the following addresses.

This is a permanent error; I've given up. Sorry it didn't work out.

2008/6/19 13:45:31 支持(4)反对(3) 回复

google翻译质量不高造成的原因是:

google采用的是统计学原理,它将语言分成模块式样,在长句的处理方面效果显著一些,但对于短句几口宇方面的句子不敢恭维;

相反,目前的另一种机器翻译的导向是从语法的角度对句子进行分析,将语法规则嵌入进句子内部进行自动选词,这种效果好些‘

相信过不了多久,机器翻译的问题就会彻底解决

2008/9/6 11:48:26 支持(5)反对(4) 回复

翻译的时候应当根据ip地址尊重使用者的习惯,并且从中文翻译到英文,那么表达意义的就是中文,英文只是转换成另外一种表达形式,就应该按照中国的思想去翻译。因为根据ip地址和语言是可以猜出其国家的

知识转换成财富是要出卖劳动力,包括体力和脑力,但是要符合社会法则

2010/3/5 17:04:52 支持(6)反对(5) 回复

是不是可以这样理解

国人提到耻辱的时候 从来喜欢讲国耻

而8会提什么 我的耻辱”

所以导致GOOGLE技术上的错误

而这也反应了中国人敏感的自尊心

2006/12/25 1:53:33 支持(7)反对(7) 回复

我认为这是中国的耻辱

这句翻译的一点也没有问题

因为是意译

翻译前选择的是 英文到中文

所以会默认语言环境为中国

所以才会加上“中国的”

如果是日文或者其他文字也会翻译成

这是日本的耻辱之类

所以这只是一种翻译的技巧,根本不是什么辱华

你以为Google一天没事做,和中国过不去阿

之后google之所以作了修正也是无奈之举

给你大米白面你不要,非要吃窝头,人家也没有办法

2006/12/25 9:03:45 支持(7)反对(7) 回复

一群SB ,25!一部分极端分子与另一部分极端分子的狗咬狗!!!不过我觉得那些自以为很国际化了的极端分子更无药可救!!!!29楼分析的很好!客观!我支持!而26楼就非常的偏激了,热加GOOGLE 跟你有嘛关系啊?跟个孙子似的极力帮着维护,GOOGLE要真的把你聘为形象代言人也行 以为自己是李开富阿?我晕!

2007/1/4 16:33:06 支持(4)反对(4) 回复

顶!!!

没必要把什么事都愚蠢的夸张成严重的政治事件,并让别人也跟着一起犯蠢。其实这件事跟 辱华 扯不上什么关系,只是技术问题。灵活的人的大脑还会时常范些低级的错误呢。我就看好google的翻译,因为它绝大部分的翻译,不会出现那些愚蠢的结果......

2007/5/29 11:43:34 支持(6)反对(6) 回复

[EMAIL][/EMAIL]

其实GOOGLE 的技术 这仅是一部分之 技术来源 因为

GOOGLE 买到提供者 并不是 原创发明人 及 合法授权者

也许是 原创发明人 手下之下 的 鱼目混珠 行径

Google 但是由于换了一家公司来买 使用 授权

估计是 GOOGLE 买到提供者技术来源 有蓄意隐瞒之 事实

图谋 抢到即赚到 === 也许真是 下属之不得已 啊

问题 是 能得到世界友赞助的 要 是 干净 喜悦 的 英雄霸王

不是二三流 角色

是否 GOOGLE 在后一段的 所生成之巨额 人气市值 马上会 少了一大半

如再有 其它 事项牵涉 GOOGLE 则 大患矣

2007/7/11 17:02:13 支持(5)反对(5) 回复

越来越让我觉得中国搞互联的公司的龌龊。

放眼望去,现在市面上哪个中国互联公司是个好样的施工周边房屋安全检测
?清一色搞流氓软件,清一色找枪手写烂文。

百度整天妖言惑众,也就是现在中国有那么多无知的人,才让这些小丑公司继续逍遥自在。

2006/12/25 13:12:38 支持(5)反对(6) 回复

我觉得即使是技术上的失误,也是。

至少这次在没有外部干扰的条件下,google给了人家把柄。

相比yahoo翻译就没有出现这个技术失误,(两个我都常用,yahoo更多)

那些所谓的爱国者固然……

但这是google自己给留下的把柄。

2006/12/25 1:04:57 支持(7)反对(9) 回复

P.S. 这起事件恰好发生在Google大举推行中国本地化,对其产品进行大面积深入汉化的进程中,这个时期对于“谷歌”很关键,大部分中国民正是在这个时候才真正接触Google众多产品,如果在关键的“印象”时期就对Google有偏见,后面的发展也会有很大不利的影响。

所以,这起“事件”看起来那叫相当的巧,报料人应该是相当的“别有用心”。。

2006/12/25 3:23:26 支持(3)反对(5) 回复

然而令人不解的是,某些怀有不可告人动机的人不去研究技术和算法上的问题,而专门去找一些奇怪的缺陷错误,并将这种纯粹的技术问题上升到政治层面,早先有“Google搜索南京大屠杀事件”,现在又有“抵制Google翻译事件”,是的,哪里有臭味,哪里就有苍蝇的身影,苍蝇改不了逐臭,正如狗改不了吃屎一样,我奉劝那些专门搜寻这方面材料的那些人,不要再做那些妖言惑众、哗众取宠的事情了,这么做不仅侮辱了自己的智商,同时也侮辱了广大民的智商。

广大名智商其实还是可以的,绝大多数应该清楚。

但是这些弱智无聊人士的智商却是不敢恭维说有多高。。。

根他们讲算法他懂个×。。。

2006/12/25 10:58:27 支持(7)反对(9) 回复

“。。。两个死对头Yahoo和Google都心甘情愿花费巨资, 用着同样这家公司的错误百出的 古老 的翻译引擎. 我不能不说这是一个互联特有的怪现象. 当然目前的世界上还有其他的选择, 比如位于美国加州的Language Weaver :开发的SMT Statistic Machine Translation是一个新一代统计型机器翻译引

擎, 可以自动比对对应的文本, 按统计规律找到翻译答案,位于纽约的LOTO:美国乐图开发的革新性的人机互动式智能翻译引擎, 可以大规模互动式提升翻译的准确度, 或者甚至是IT老大哥IBM。。。” 这篇文章有道理。关于机器翻译技术,还有3个站可以参考: extra=page%3D1 , , . 我想

google是搜索引擎,翻译引擎的技术不一样,应该是更难做才对。

2007/1/27 2:46:44 支持(3)反对(5) 回复

我爱国,但是我不爱国的很多做,不管是什么公司什么个人什么国家,说他们的好与坏都应该看看它(它们)对我们是利大于不是弊大于利,当年中国不强的时候,得依靠别的国家的帮助的时候,还不是忍气吞声的让别人来指导,现在中国IT业是跟别人不能怎么比,那就应该好好的学学别人的,就算别人做出点小小的++事件,先忍忍不就过去了吗?我还是记得我爸爸的那一句话:自己强大了有出息了还有人会远离你吗?如果中国的所有都是强大的,如果中国比美国更强大,哪里还会有Google侮辱中国这档子事

2007/6/17 9:01:30 支持(4)反对(6) 回复

中文與世界語意句子對應之邏輯法則比如人類如何閱讀如何分析如何比對回應其邏輯法則之數學模型在電腦上如何設計出擬人化思維之參數化流程

如以 google 現在之翻譯策略技術 即為

擬人化 語意語文符號 比對統計 ( 語言基因資料庫 ) 基本應用之一

[EMAIL][/EMAIL]

2007/7/11 17:03:08 支持(4)反对(6) 回复

語意 解析 技術 是 人機 機 人 的 必經問題

故有 電ㄋㄠ 腦 virtual brain 語言基因資料庫 認知 之 關鍵技術

是 擺脫 google 層次之 新機會

當然 如果 國人 再不重視的話

再多多抱怨 別人 也許 心情 會好一點

2007/7/25 9:28:05 支持(3)反对(5) 回复

Hi. This is the qmail-send program at .

I'm afraid I wasn't able to deliver your message to the following addresses.

This is a permanent error; I've given up. Sorry it didn't work out.

2008/6/19 13:45:30 支持(4)反对(6) 回复

hl=zh-CN rlz=1T4AMSB_zh-CNCN328CN328 q=%E6%88%91%E8%AE%A4%E4%B8%BA%E5%8F%B0%E6%B9%BE%E6%98%AF%E4%B8%AD%E5%9B%BD%E7%9A%84%E4%B8%80%E4%B8%AA%E7%9C%81 um=1 ie=UTF-8 sa=N tab=wT#zh-CN|en|%E6%88%91%E8%AE%A4%E4%B8%BA%E5%8F%B0%E6%B9%BE%E6%98%AF%E4%B8%AD%E5%9B%BD%E7%9A%84%E4%B8%80%E4%B8%AA%E7%9C%81

我只想问问这是什么算法?

博主所谓的技术分析,通篇没看到真正的技术分析,只是在假定googl是对的(当然,无所谓对与错,只是立场不同而已;同样,无所谓愤青,看站的立场,我就觉得博主好像是美国的愤青)前提下,作的不专业的分析。

2009/6/9 8:48:10 支持(4)反对(6) 回复

您的分析在技术上和逻辑上都站不住脚

我们说以理服人

请拿出确凿的证据来,而不是“我认为的”“可能存在的”原因

Google难道就没有错?难道不应该改正?或者您真的相信Google“恰好”做了技术改进?

您真是将军额上能跑马啊

罢了罢了

建议您可以写信去给美国华人协会要求他们停止抗议某电视主持人的“辱华”言论上海到西安货运公司
,因为这太蠢了,太“妖言惑众”了。

对了,记得要用英文写,一定要哦!

2006/12/25 14:18:12 支持(5)反对(8) 回复

又见月光出来辟谣了,不容易啊,其实我觉得GOOGLE完全可以放弃中国市场了,这样就没有渣滓出来没事搞事了。

我们这些人也安稳的用代理上GOOGLE就是了,唉,中国这块地真的是一块神奇的大陆

14楼的你就安稳的当你的愤青吧,千万记得不要买一切外国货,假如主板有日本的电容你也记得把它拔了,这样就真的心里安稳了

2006/12/26 10:00:30 支持(4)反对(7) 回复

我同意月光说的是技术问题不是政治问题,但是我觉得博主根本不理解什么是机器翻译,什么是自然语言处理,很多话前后矛盾。

澄清一件事情,不是用伪技术的谣言去驱赶另一个谣言,不是用大家都不懂的东西再次侮辱民的智商。22楼说的很对

还有一些民,我建议你们别把挺Google 反百度作时尚,我是GFan, 也清楚的知道Google的缺陷,这个事情和Baidu有什么联系,偏要拉人家进来打一棍子再走?...

2006/12/26 23:00:15 支持(2)反对(5) 回复

还真是搞笑呀,有些人总是那么力挺Google,不管Google是对是错,首先就先假定Google没有错

不要以为你用Google了,你就是所谓的精英,整天把这些挂在嘴上的人,水平也可想而知

更可笑的,是又看到楼上的拿百度说事,真是笑死人了

看到博主的一段,感觉博主的水平也不过如此,还好意思说别人?!全篇看到的没有一点实质的东西,全是猜测,而且没有什么实质的证据或者是哪怕一点点的证据来证明自己的观点。

2008/4/5 0:51:06 支持(6)反对(9) 回复

刚才又注意到博主的文章标题居然是技术分析?

既然是这样的技术分析,你拿点匹配算法呀,这个你肯定没有!那你的技术分析又从何而来,猜测也是技术?Henry 于 9:16:25 回复Google 确实用这样的算法这都是过去的了,这片只是 基于他的算法的分析,完全没问题。

2008/4/5 0:53:02 支持(4)反对(7) 回复

然而令人不解的是,某些怀有不可告人动机的人不去研究技术和算法上的问题,而专门去找一些奇怪的缺陷错误,并将这种纯粹的技术问题上升到政治层面,早先有 “Google搜索南京大屠杀事件”,现在又有“抵制Google翻译事件”,是的,哪里有臭味,哪里就有苍蝇的身影,苍蝇改不了逐臭,正如狗改不了吃屎一样,我奉劝那些专门搜寻这方面材料的那些人,不要再做那些妖言惑众、哗众取宠的事情了,这么做不仅侮辱了自己的智商,同时也侮辱了广大民的智商。

---------------------------

搞得好象google就是你做的一样,你什么都知道,你的智商真高!

2007/4/8 21:25:45 支持(6)反对(10) 回复

(*)

验证(*)

本文标签: