日前,百度在機器翻譯技術上取得重大突破,發(fā)布了融合統(tǒng)計和深度學習方法的在線翻譯系統(tǒng)。該系統(tǒng)借助海量計算機模擬的神經元,模仿人腦“理解語言,生成譯文”,同時結合百度已有的統(tǒng)計機器翻譯技術,使得機器翻譯質量實現(xiàn)了質的飛躍。百度,再一次站到互聯(lián)網前沿技術的領先位置。
機器翻譯一直被公認為是人工智能領域最難的課題之一。讓機器理解語言,進而實現(xiàn)不同語言之間的翻譯,不僅僅是幾代科學家們孜孜追求的技術夢想,也寄托著普羅大眾對自由溝通交流的美好愿望。
機器翻譯技術的發(fā)展一直與計算機技術的發(fā)展緊密相隨。從早期的詞典匹配,到詞典結合語言學專家知識的規(guī)則翻譯,再到基于語料庫的統(tǒng)計機器翻譯,隨著計算機計算能力的提升和多語言信息的爆發(fā)式增長,機器翻譯技術逐漸走出象牙塔,開始為普通用戶提供實時便捷的翻譯服務。
此次百度發(fā)布的基于深度學習的在線翻譯系統(tǒng),實現(xiàn)了類似人腦的“理解語言,生成譯文”的翻譯方式。這種翻譯方法最大的優(yōu)勢在于譯文流暢,更加符合語法規(guī)范,容易理解。相比之前的翻譯技術,質量有“躍進式”的提升。
借助海量計算機模擬的神經元模仿人腦“理解語言,生成譯文”,同時結合百度已有的統(tǒng)計機器翻譯技術,使得機器翻譯質量實現(xiàn)了質的飛躍
基于深度學習的翻譯系統(tǒng)的核心是一個擁有無數(shù)結點(神經元)的深度神經網絡。一種語言的句子被向量化之后,在網絡中層層傳遞,轉化為計算機可以“理解”的表示形式,再經過多層復雜的傳導運算,生成另一種語言的譯文。有趣的是,這個龐大的系統(tǒng)在剛剛構建完成之后像剛出生的嬰兒一樣,不懂任何事情。它通過學習大量雙語互譯對照的句子,逐漸提升翻譯水平。百度利用自身得天獨厚的龐大網頁庫資源,挖掘了海量的雙語句對,作為系統(tǒng)的“學習教材”。由于深度神經網絡結構極其復雜,整個學習過程非常耗時,需要持續(xù)很長時間。百度機器翻譯團隊經過技術攻堅,使得翻譯系統(tǒng)的學習效率提高了十幾倍,大大縮短了學習時間。“教材”的數(shù)量如果按照字數(shù)換算成《大英百科全書》,翻譯系統(tǒng)在一周內學習的內容相當于千萬部《大英百科全書》。
一直以來,百度在機器翻譯領域堅持技術創(chuàng)新,不斷提升翻譯質量和系統(tǒng)性能,致力于大規(guī)模互聯(lián)網應用,為廣大用戶提供高質量、方便快捷的翻譯服務。依托海量的互聯(lián)網資源和自然語言處理技術的優(yōu)勢,百度研發(fā)出高質量翻譯知識獲取技術,突破了傳統(tǒng)方法在翻譯知識獲取方面規(guī)模小、成本高的瓶頸;基于互聯(lián)網大數(shù)據的多策略翻譯模型,能夠實時響應用戶復雜多樣的包括網絡新詞、科技文獻、電子商務、古文、粵語等多領域、多文體的翻譯需求;基于樞軸語言的翻譯方法,使得資源有限的小語種翻譯成為可能。百度在機器翻譯核心技術上的創(chuàng)新和突破,不僅使普通用戶受益,享受到方便快捷、高質量的互聯(lián)網翻譯服務,也得到學術界和政府的認可。由百度牽頭,聯(lián)合國內頂尖學術機構中科院自動化所、浙江大學、哈爾濱工業(yè)大學、中科院計算所、清華大學共同研發(fā)的“基于大數(shù)據的互聯(lián)網機器翻譯核心技術及產業(yè)化”項目獲得了中國電子學會科技進步一等獎。
技術的創(chuàng)新要以喜聞樂見的形式普惠到每一個有需求的用戶,這是互聯(lián)網的精髓。百度機器翻譯團隊一直秉承讓所有人平等便捷地獲取信息、找到所求的使命,致力于消除用戶跨語言溝通交流的障礙。結合百度領先的圖像識別、語音識別等技術,“百度翻譯”APP為用戶打造了一個全方位的隨身翻譯官。這位“翻譯官”不僅可以幫助用戶實時地與外國人進行面對面交流,根據用戶所處場景,智能推送實用口語例句,還可以通過攝像頭拍照對菜單、車站站牌等進行翻譯,解決用戶在海外學習和旅行時的語言難題。
百度發(fā)布基于深度學習的在線翻譯系統(tǒng),讓我們看到解決機器翻譯這一人工智能經典難題的真正希望。也許不久的將來,世界各地的人們都能夠自由交流,在全球范圍內獲取資訊和服務。即使使用不同的語言,人們也可以交流想法和觀念,傳承思想和文化。畢竟,語言是保存和傳遞人類文明的成果最重要的工具之一。
來源:CCTIME飛象網