你以為Google翻譯是翻譯機?

Eric Jhong
3 min readAug 21, 2017
Photo credit : Google

你知道嗎?根據Google官方資料,全世界有大約 50% 的網路內容是以英文呈現,全球卻只有 20% 的使用者是以英語為其主要語言,此外,每個月使用 Google 翻譯的活躍使用者超過 10 億人,代表每 3 個網路使用者當中就有 1 個人是 Google 翻譯的使用者,驚人的是,Google 光是一天就要進行超過 10 億次的翻譯行為!

由此可見,在人與人跨國的互動交流頻繁的社會中,加上普遍的行動智慧裝置,透過網路即時翻譯,有著多麽強烈的需求。但你知道嗎?Google翻譯,與其稱之為翻譯機,不如稱之為統計計算機。

在過去,翻譯這件事情,是需要透過字典,在厚重的字典中翻查你要搜尋的單字,而辭典總是又重又厚,加上語言是個與時俱進的符號,新詞的增補又非常不方便,隨著科技進步,出現了「電子辭典」。在國中小學時期,學習外語總是會帶一台快譯通辭典,輸入英文字母,就能夠顯現出結果,重量輕很多,增補新詞也很快,但卻不時會發生一件事情,就是整個句子單字都查過了,卻不太清楚整個文句的含義。Google翻譯,卻能夠解決這件事情,到底是如何做到的?

在Google翻譯問世之前,許多電腦版線上的字典,運作原理跟快譯通等電子辭典如出一徹,將各大辭典經典資料匯入,加入一些文法的結構,像是把各大紙本辭典電子化、系統化,讓搜尋能夠超快速,並結合文法原理顯示出你可能想要找的意思,但是這樣會出現幾個問題,例如大量專有名詞、地方俚語、時下新用法、特殊姓名等等,仍在系統中遍尋不著。

Google翻譯採用的技術,屏棄過去把大量字詞資料輸入的做法,而是利用「統計機率計算」的演算法。系統壓根不懂每一個字詞的意思,在資料庫裡沒有任何單字的字詞資料,而是透過大量在網路上出現的文件、文章等等,由系統去運算您搜尋的詞與網路上哪一個詞會一起出現的機率,機率高者,系統判定兩字為互相翻譯。舉例來說,Apple一詞,若要翻成中文,輸入Google翻譯後,系統並非從資料庫去撈這一個字詞是否出現在字典裡,而是透過廣大的網路資料,在網站上出現Apple與中文哪一個字出現機率最高,當系統發現,出現Apple的字詞,同時出現「蘋果」的機率最高,則認定兩詞互為翻譯。不只如此,這樣翻譯技術可以應用到一個完整句子,不再只是一個單字了。

這樣的翻譯技術,仰賴的是大量的翻譯文件,公開的網路資料,讓系統可以越練越強,在網路的茫茫大海中利用類似大數據的技術,找出詞句的關聯性機率,產生翻譯的效果。2017年,Google I/O中更發表,將AI人工智慧的應用加到Google翻譯技術裡,採用類似自然學習的技術,系統將更會利用自然語言,產生出更符合人類文法及使用情狀的翻譯結果。

未來,Google翻譯會有怎樣的發展,值得我們期待。但還是得說,翻譯軟體功能再強大,還是一個工具,無法在你的頭腦中內建軟體(至少目前拉),再加上,語言的使用也有各種場合限制,就像是,我們還是沒辦法透過翻譯軟體去真正了解跟欣賞另外一語言中的經典文學作品一樣。

--

--