《星球Google我们的生活将怎样被一家公司彻底改变》独步天下的谷歌算法(7)
时间:2009-11-09 14:44:53来源:[标签:出处]作者:吴慧
有了可以处理任何规模的计算问题的计算基础设施,谷歌的研究者便拥有了一个可以傲视群雄的巨大优势。他们的程序运行之快,在2005年国家标准和技术研究所举行的机器翻译竞赛中已经得到了体现;在2006年的竞赛中,他们又占据了领先地位。在参加阿-英翻译的22个竞赛者中,谷歌的整体成绩排名第一;在参加汉-英翻译的24个竞赛者中,谷歌名列第二(被南加州大学著名的信息科学研究所险胜)。
Systran的主席兼CEO季米特里斯•沙巴塔卡基斯(Dimitris Sabatakakis)不能理解为何统计机器翻译的结果总是超过他的规则基础技术。2005年竞赛结束后,他替以规则为基础的方法作了些辩护,并建议没有雇用以汉语为母语的人员的谷歌不要再玩弄类似花招。就Systran而言,“如果我们没有中国人,我们的系统就可能出现严重的错误”。他不理解,如果没有母语为汉语的人对译文反复检验,谷歌为何能在2005年把Systran彻底打败。但他没有立即报名再次参加比赛:Systran从2006年的竞赛中消失了。2007年没有举行比赛。所以尚不清楚Systran是否已经决定永远不再与统计机器翻译直接较量。
谷歌没有声称拥有最复杂的翻译算法,但它的确拥有一些其他的机器翻译团队所不具备的东西:体量最大的训练数据。2007年,负责机器翻译研究的工程师弗朗茨•奥奇(Franz Och)说:“在自然程序领域有一种著名的说法,‘更多的数据就是更好的数据’。”为什么谷歌一直使用那些从Web网页中搜集的2×1012词汇量的文本?原因就在于:写作质量无从担保,但绝对海量的额外数据对翻译算法质量的改进却是实实在在的。
谷歌在机器翻译方面的成就还不能被说成是获得了足以养活自己的收益。谷歌在服务领域的拓展中所遇到的最复杂的问题就是,许多拓展项目对公司毫无贡献,至少没有直接贡献。尽管如此,机器翻译仍是一个恰当的项目。谷歌并没有急于将它的机器翻译能力投入商业性应用。它的机器翻译团队还只是谷歌实验室的一部分,而且其主要精力都放在研究上。在实验的基础上,团队在2007年为使用谷歌搜索引擎的用户提供了三种语言——阿拉伯语、汉语、俄语——的英语翻译服务。
随着谷歌的翻译工作不断取得进展,它的翻译结果也远不止于经过了润色和符合语言习惯。当《华尔街日报》的双语(英语、阿拉伯语)记者萨马德•阿里(Sarmad Ali)于2007年12月在试用谷歌、Systran和另外两个竞争者的阿-英在线翻译服务时,他为这几家公司的翻译结果中的语法错误和语义错误列了一张表,按照错误的程度排列顺序,从“值得斟酌”到“荒唐可笑”都有。
那一年的早些时候,谷歌的奥奇在一个公开的场合谈及机器翻译的结果时,谈到了谷歌最好的一面:这个组织致力于不断开拓信息传播的广度,看不出它对自己的商业利益的关心。他说,如果听众中有人打算亲手建设一个机器翻译的算法,谷歌很愿意提供帮助。谷歌同非营利性的宾夕法尼亚大学的语言数据联盟(Linguistic Data Consortium)合作,一开始就以运费的名义提供了一套包含必要的基础训练数据的DVD,这套数据列举了各种词语组合——其长度(技术术语表示为precounted n-grams)从1个词到5个词不等——的使用频率,它们的基础就是谷歌的爬行器从Web中搜集来的上万亿个词汇量的英语文献。