- 翻譯公司資訊
-
語料庫是語言知識的可靠來源
發布時間:2017-09-29 14:22 點擊:
首先祝賀第三屆漢語中介語口語語料庫國際會議在北京召開。漢語中介語口語語料庫是獲取語言知識,發現語言偏誤,提高語言習得水平的重要手段。 我是一個自然語言處理的研究者,早在1957年,我就對于語言研究的發生了濃厚的興趣,夢想著打破人類的語言障礙,后來我知道了美國在1954年就研制成功俄英機器翻譯,受到極大的鼓舞,決心投身機器翻譯研究,實現自己的科學夢想。1979年-1981年我在法國格勒諾布爾理科醫科大學留學時,曾經研制過一個把漢語自動地翻譯為法語、英語、日語、俄語和德語5種外語的機器翻譯系統,叫做FAJRA系統,提出了多叉多標記樹形圖模型(multiple-branched and multiple-labeled tree model, MMT),這是一個基于短語的機器翻譯模型(phrase-based machine translation, PBMT)。Unitrans世聯翻譯公司在您身邊,離您近的翻譯公司,心貼心的專業服務,專業的全球語言翻譯與信息解決方案供應商,專業翻譯機構品牌。無論在本地,國內還是海外,我們的專業、星級體貼服務,為您的事業加速!世聯翻譯公司在北京、上海、深圳等國際交往城市設有翻譯基地,業務覆蓋全國城市。每天有近百萬字節的信息和貿易通過世聯走向全球!積累了大量政商用戶數據,翻譯人才庫數據,多語種語料庫大數據。世聯品牌和服務品質已得到政務防務和國際組織、跨國公司和大中型企業等近萬用戶的認可。 專業翻譯公司,北京翻譯公司,上海翻譯公司,英文翻譯,日文翻譯,韓語翻譯,翻譯公司排行榜,翻譯公司收費價格表,翻譯公司收費標準,翻譯公司北京,翻譯公司上海。
當時我采用的方法,是基于語言規則的理性主義方法。我用了3年時間,編寫了漢語分析規則5000條左右,法語、英語、日語、俄語和德語的轉換規則和生成規則各3000條左右,一共20000多條規則,此外,我還編制了若干部機器可讀的、代碼化的機器翻譯詞典,由于工作量大,我每天工作時間都超過10小時,扎扎實實苦干了3年,于1981年11月在IBM 4341大型計算機上輸出了法語、英語、日語、俄語和德語等5種語言的機器翻譯譯文。這是世界上第一個把漢語自動地翻譯成多種外語的機器翻譯系統。 這個系統研制成功之后,在有限規模的語言范圍內,翻譯的正確率還比較高,而當擴大語言范圍時,對于任意的漢語句子,翻譯的正確率只能達到70%左右,這樣的機器翻譯系統顯然是難以實用的。我在1982年回國之后,又相繼研制了法漢、英漢、日漢和德漢機器翻譯系統,翻譯正確率都沒有超過70%。 我耗費了如此巨大的精力,卻得到了很不理想的結果,在嚴峻的考驗面前,我在少年時代的機器翻譯夢想遭到了挫敗。我沒有得到多少成功的經驗,卻留下了大量失敗的教訓。我為此感到困惑,有一種難言的失落感。 正當我愁眉不展之際,1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學者哈欽斯(J. Hutchins)在他的特約報告中指出,自1989年以來,機器翻譯的發展進入了一個新紀元。這個新紀元的重要標志是,在基于規則的技術中引入了語料庫方法。這種建立在大規模(large-scale)真實文本(authentic text)處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,它會把自然語言的計算機處理推向一個嶄新的階段。 把語料庫方法引入到機器翻譯中,改變了機器翻譯翻譯研究者獲取知識的手段,由于語料庫是大規模的真實文本,人們就可以得到更加完善的統計性的語言知識,因此,也就大大地提高了機器翻譯的質量,加快了機器翻譯系統的研制周期。 語言知識究竟在哪里?語言知識固然存在于語法書里,存在于各種類型的詞典里,存在于汗牛充棟的語言學論文里,但是,更加全面的、更加客觀的語言知識應當存在于大規模的真實文本語料庫里,語料庫是語言知識最可靠的來源。 語料庫改變了機器翻譯的命運,基于短語的機器翻譯發展成為統計機器翻譯( statistical machine translation,SMT),機器翻譯走向了商品化和實用化的新階段。 隨著互聯網的迅速發展,我們進入了大數據時代。數據挖掘成為計算機科學的一個重要研究領域,數據挖掘中采用的機器自動學習的方法,對于統計機器翻譯具有重要的價值。 機器自動學習的方法主要有三種類型:有指導的學習、無指導的學習、半指導的學習。 有指導的學習實際上是對于數據進行分類,首先使用事先定義好的類別或范疇標記對于數據的實例進行標注,作為訓練數據,機器根據這些標注好的訓練數據進行自動學習,再根據學習得到的知識對于新的數據進行分類。由于用來學習的訓練數據是用事先定義好的標記進行過標注的,機器學習的過程是在這些訓練數據的指導下進行的,所以叫做有指導的學習。 在無指導的學習中,用來學習的數據沒有使用事先定義好的類別或范疇標記進行過標注,要使用機器學習的算法來自動地發現隱藏在數據中的特征、結構或規律。這種無指導學習的一個關鍵技術是聚類,聚類技術根據數據實例的相同點或相異點,自動地把它們聚類為不同的組合。 有指導的學習要求事先人工標注大量的數據實例,需要付出巨大的人工的勞動量,費力而又費時,為了減少人工標注的勞動量,可以同時從標注過的數據實例和沒有標注過的數據實例中進行學習,標注過的數據實例的集合可以比較小,而沒有標注過的數據實例的集合可以很大,這樣的模型叫做半指導的學習。 機器自動學習的這些方法已經成熟,而且廣泛地應用于統計機器翻譯的研究中,這就從根本上改變了傳統的獲取語言知識的手段,從大規模的雙語對齊語料庫中,通過機器自動學習的方法,去獲取語言的翻譯信息,對于機器翻譯的發展具有革命性的意義。 目前,基于多層神經網絡的、以大數據作為輸入的深度學習(deep learning)方法引入到機器翻譯中。這是一種新型的機器自動學習。深度學習的訓練方式是無監督的特征學習,使用多層神經網絡的方法。這種多層神經網絡是非線性的,可以重復利用中間層的計算單元,減少參數,計算機從海量的大數據中可以自動地產生模型的特征和算法。 詞向量是多層神經網絡的一種重要方法,詞向量把單詞映射為一個固定維度的向量,不同的詞向量構成詞向量語義空間,在這個詞向量語義空間中,語義相似的單詞距離較近。 深度學習研究者米克羅夫(Tomas Mikolov)發現,如果用“意大利”這個單詞的屬性向量來減去“羅馬”這個單詞的屬性向量,再加上“巴黎”這個單詞的屬性向量,我們就能得到“法國”這個單詞或者相近的屬性向量。類似地,如果用“國王”的屬性向量減去“男人”的屬性向量,再加上“女人”的屬性向量,就能得到“王后”的屬性向量。這非常令人振奮的結果,因為米克羅夫事先并沒有刻意地做這樣的安排。 2007年以來,采用深度學習的方法,以大規模的雙語對齊的口語語料庫作為語言知識的來源,從雙語對齊的口語語料庫中獲取翻譯知識,統計機器翻譯又進一步發展成了神經機器翻譯(neural machine translation, NMT),口語神經機器翻譯正確率已經超過了 90%,針對日常口語的神經機器翻譯基本上已經可以付諸實用了。
但是,在這種神經機器翻譯中,語言之間的翻譯細節還是一個黑箱(black box),盡管翻譯的結果不錯,我們對于其中的語言處理機制仍然是不清楚的,在語言學理論上,我們還難以做出科學的解釋。 最近,深度學習向神經網絡中融入了記憶機制,把基于理性主義的知識驅動與基于經驗主義的數據驅動結合起來,架起了符號主義與聯接主義之間的橋梁。這應當是今后神經機器翻譯發展的新方向。 可以看出,由于在機器翻譯中引入了語料庫技術,已經獲得了巨大的進步,這是令人可喜的。不論是書面語文本語料庫還是口語語料庫,都是機器翻譯得以發展進步的關鍵性因素。語料庫對于機器翻譯的發展具有舉足輕重的作用。 目前,漢語中介語語料庫建設已經取得了很大的成績。北京語言大學、南京師范大學、魯東大學、暨南大學、中山大學、上海交通大學、廈門大學、臺灣師范大學先后建立了不同規模的漢語中介語語料庫。香港中文大學、新疆醫科大學還建立了漢語口語習得語料庫。 在這些中介語語料庫的基礎上,研究者們進行了卓有成效的研究,成果斐然。第三屆漢語中介語口語語料庫國際會議為交流這些成果提供了一個很好的交流機會,我衷心祝賀這次國際會議成功。- 上一篇:翻譯出版如何與時俱進?
- 下一篇:大數據時代,語言服務行業將何去何從?