翻譯語(yǔ)種
翻譯技巧Google I/O 大會(huì)公布最新翻譯技術(shù),還有各種機(jī)器翻
簡(jiǎn)略說(shuō),統(tǒng)計(jì)機(jī)器翻譯首先建設(shè)統(tǒng)計(jì)模型,然后利用實(shí)例庫(kù)中的實(shí)例對(duì)統(tǒng)計(jì)模型停止訓(xùn)練,失去需求的言語(yǔ)模型和翻譯模型用于翻譯。
Nirenburg等(2004)指出,在基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)中,實(shí)例語(yǔ)料存在一個(gè)文字片段長(zhǎng)度和相似度之間的一個(gè)矛盾。文字片段越長(zhǎng),越不易失去一個(gè)相似度高的婚配;文字片段越短,越能夠失去一個(gè)大致婚配,然而失去低品質(zhì)翻譯結(jié)果的危險(xiǎn)也越大。
這些理論基于Tim Berners-Lee提出的觀念“知識(shí)一旦經(jīng)定義和方式化后,便可能經(jīng)過(guò)恣意模式訪問(wèn)”。萬(wàn)維網(wǎng)最初的設(shè)計(jì)是宿愿它簡(jiǎn)略,去核心化并且盡能夠的易于互動(dòng)。
于是人們末尾探求基于統(tǒng)計(jì)方法和其它翻譯方法的聯(lián)結(jié)運(yùn)用。如統(tǒng)計(jì)的和基于實(shí)例的機(jī)器翻譯系統(tǒng),統(tǒng)計(jì)的和基于規(guī)定的機(jī)器翻譯系統(tǒng),等等。
2.2.基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation,EBMT):
機(jī)器翻譯基本分類(lèi)與任務(wù)原理
統(tǒng)計(jì)型機(jī)器翻譯,除了基于噪聲信道理論的系統(tǒng)以外,還有基于最大熵方法的系統(tǒng)。博格(A.L.Berger)在2006年提出人造言語(yǔ)解決中“最大熵方法”(Maximum Entropy Approach)。
基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)可能充分應(yīng)用已有的翻譯結(jié)果,然而實(shí)例庫(kù)的維護(hù)需求大量的人工和費(fèi)用;
Sato和Nagao研收回一個(gè)系統(tǒng),用“平面依賴(lài)關(guān)系樹(shù)”來(lái)示意源言語(yǔ)文字和指標(biāo)言語(yǔ)文字。這種關(guān)系樹(shù)型數(shù)據(jù)結(jié)構(gòu)是計(jì)算機(jī)高效辨認(rèn)的一種方式。
語(yǔ)音翻譯在翻譯之前添加了一個(gè)言語(yǔ)辨認(rèn)(Speech Recognition)進(jìn)程,構(gòu)成正確的文字內(nèi)容輸入,并且在翻譯進(jìn)程實(shí)現(xiàn)后添加了一個(gè)語(yǔ)音分解(Speech Synthesis)進(jìn)程,構(gòu)成一個(gè)正確的語(yǔ)音內(nèi)容輸出。其中語(yǔ)音辨認(rèn)技術(shù)和語(yǔ)音分解技術(shù)都有著專(zhuān)門(mén)鉆研,這里不再贅述。
基于這個(gè)假定的機(jī)器翻譯方法又可能分為三類(lèi):間接翻譯法(Direct Translation),中間言語(yǔ)法(Interlingual Approach),和轉(zhuǎn)換法(Transfer Approach)。
2.2.2.語(yǔ)料拆分的碎片化成績(jī):
機(jī)器翻譯的各種原理
2.2多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT):
隨著大量歷史翻譯結(jié)果的積攢,出現(xiàn)了基于實(shí)例的機(jī)器翻譯系統(tǒng),人們將這些已經(jīng)實(shí)現(xiàn)的翻譯結(jié)果作為資源庫(kù),應(yīng)用到機(jī)器翻譯中來(lái)。
谷歌CEO皮查伊
IBM公司的Brown在2000年首先將統(tǒng)計(jì)模型用于法-英機(jī)器翻譯。其基本思維是:把機(jī)器翻譯成績(jī)看成是一個(gè)噪聲信道成績(jī),然后用信道模型來(lái)停止解碼。翻譯進(jìn)程被看作是一個(gè)解碼的進(jìn)程,進(jìn)而變成尋求最優(yōu)翻譯結(jié)果的進(jìn)程。
但是利用全人工來(lái)制造這些規(guī)定十分昂貴、費(fèi)時(shí),而且易于出錯(cuò)。一個(gè)處理方法便是將以往的歷史翻譯結(jié)果作為資源庫(kù),其中的源言語(yǔ)文字和它對(duì)應(yīng)的指標(biāo)言語(yǔ)譯文作為例子,從中嘗試提取出失當(dāng)?shù)囊?guī)定。方法之一是對(duì)源文字和指標(biāo)言語(yǔ)譯文作人工標(biāo)記以示關(guān)聯(lián)。
筆譯視頻
在許多基于規(guī)定的機(jī)器翻譯系統(tǒng)中,由言語(yǔ)學(xué)家輔助編寫(xiě)一系列關(guān)于源言語(yǔ)和指標(biāo)言語(yǔ)的語(yǔ)法規(guī)定,以及將源言語(yǔ)數(shù)據(jù)轉(zhuǎn)換為指標(biāo)言語(yǔ)數(shù)據(jù)的轉(zhuǎn)換規(guī)定。
近幾年,機(jī)器翻譯Machine Translation越來(lái)越受人們關(guān)注
不利用中間言語(yǔ),這些言語(yǔ)間的互譯則需求n(n-2)個(gè)模塊。當(dāng)n大于4時(shí),2n小于n(n-2)。咱們知道,世界上的人造言語(yǔ)種類(lèi)遠(yuǎn)大于4,因此2n個(gè)模塊的數(shù)量遠(yuǎn)小于n(n-2)個(gè)模塊的數(shù)量。
這種中間言語(yǔ)是一種非人造言語(yǔ),即不是任何國(guó)度地區(qū)人們利用的言語(yǔ);而且它是一種沒(méi)有歧義的表達(dá)模式。此外,中間言語(yǔ)不是惟一的,不同的系統(tǒng)采用不同的中間言語(yǔ)。
這里是本次大會(huì)的
2.2.4轉(zhuǎn)換法(Transfer Approach):
2.2.基于規(guī)定的機(jī)器翻譯系統(tǒng)
實(shí)例語(yǔ)料的的范圍和品質(zhì)影響著基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)的翻譯品質(zhì)程度。在某特定畛域獲取高品質(zhì)語(yǔ)料可能大大提高機(jī)器翻譯在此畛域的翻譯品質(zhì),稱(chēng)為語(yǔ)料(實(shí)例)庫(kù)的定制。
其基本任務(wù)原理基于一個(gè)假定,即言語(yǔ)無(wú)限的句子可能由有限的規(guī)定推導(dǎo)進(jìn)去。
2.基本類(lèi)型的機(jī)器翻譯系統(tǒng):
統(tǒng)計(jì)型的機(jī)器翻譯(Statistical MT)可能緩解知識(shí)獲取的瓶頸成績(jī),然而純數(shù)學(xué)的方法難于齊全處理言語(yǔ)中的簡(jiǎn)單成績(jī)。
德國(guó)人奧赫(Franz Joseph Och)等發(fā)現(xiàn),把IBM公司的統(tǒng)計(jì)機(jī)器翻譯基本方程式中的翻譯模型轉(zhuǎn)變?yōu)榉聪蚍g模型,總體的翻譯正確率并沒(méi)有升高,由此,他們提出基于最大熵方法的機(jī)器翻譯模型。
2.綜合類(lèi)型的機(jī)器翻譯系統(tǒng):
在機(jī)器翻譯鉆研中,人們?cè)絹?lái)越發(fā)如今翻譯進(jìn)程中正確的理解、領(lǐng)會(huì)源言語(yǔ)的重要性。言語(yǔ)有著其簡(jiǎn)單性。其中言語(yǔ)的含糊性是各種機(jī)器翻譯系統(tǒng)所面對(duì)的最固執(zhí)的難題。
Innovation in the Open
這種機(jī)器翻譯系統(tǒng)的基本思維是幾架機(jī)器翻譯引擎同時(shí)停止并行翻譯,并行翻譯的這幾架翻譯引擎分別基于不同的任務(wù)原理,給出多個(gè)翻譯結(jié)果,然后經(jīng)過(guò)某種機(jī)制或算法挑選并生成最優(yōu)翻譯結(jié)果停止輸出。
2.4.基于知識(shí)的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT):