榮昌橋梁伸縮縫祝賀百度即時(shí)翻譯“神器” 突破自然語(yǔ)言處理重大難關(guān)!
橋梁伸縮縫祝賀百度即時(shí)翻譯“神器” 突破自然語(yǔ)言處理重大難關(guān)
人工智能領(lǐng)域,兩種語(yǔ)言的“即時(shí)互譯”是一項(xiàng)難以攻克的技術(shù)問(wèn)題,其主要原因在于源語(yǔ)言和目標(biāo)語(yǔ)言之間存在較大的詞序和語(yǔ)序差異。近日,百度研發(fā)了具備預(yù)測(cè)能力和可控延遲的即時(shí)機(jī)器翻譯系統(tǒng),可實(shí)現(xiàn)兩種語(yǔ)言之間的高質(zhì)量、低延遲翻譯。這是自然語(yǔ)言處理方面的重大技術(shù)突破,將對(duì)機(jī)器即時(shí)筆譯和口譯的發(fā)展起到極大地推動(dòng)作用。
機(jī)器同傳利用語(yǔ)音識(shí)別技術(shù)自動(dòng)識(shí)別演講者的講話內(nèi)容,將語(yǔ)音轉(zhuǎn)化為文字,然后調(diào)用機(jī)器翻譯引擎,將文字翻譯為目標(biāo)語(yǔ)言,顯示在大屏幕或者通過(guò)語(yǔ)音合成播放出來(lái)。相比人類(lèi)譯員,機(jī)器最大的優(yōu)勢(shì)是不會(huì)因?yàn)槠>攵鴮?dǎo)致譯出率下降,能將所有“聽(tīng)到”的句子全部翻譯出來(lái),這使得機(jī)器的“譯出率”可以達(dá)到100%,遠(yuǎn)高于人類(lèi)譯員的60%-70%。同時(shí),在價(jià)格上也占有優(yōu)勢(shì)。

在機(jī)器同傳領(lǐng)域,百度聯(lián)合語(yǔ)音技術(shù)、機(jī)器翻譯技術(shù),從語(yǔ)音識(shí)別、翻譯質(zhì)量、時(shí)延、融合領(lǐng)域知識(shí)等方面推出了“一攬子”解決方案。橋梁伸縮縫祝賀百度即時(shí)翻譯“神器” 突破自然語(yǔ)言處理重大難關(guān)
在語(yǔ)音識(shí)別方面,區(qū)別于傳統(tǒng)的上下文相關(guān)建模技術(shù),百度提出了上下文無(wú)關(guān)音素組合的中英文混合建模單元,包含1749個(gè)上下文無(wú)關(guān)中文音節(jié)和1868個(gè)上下文無(wú)關(guān)英文音節(jié)。該方法具有泛化性能好、對(duì)噪聲魯棒、中英文混合識(shí)別等特點(diǎn)。
在翻譯質(zhì)量方面,提出了“語(yǔ)音容錯(cuò)”的對(duì)抗訓(xùn)練翻譯模型,根據(jù)語(yǔ)音識(shí)別模型常犯的錯(cuò)誤,在訓(xùn)練數(shù)據(jù)中有針對(duì)性的加入噪聲數(shù)據(jù),使得模型在接受到錯(cuò)誤的語(yǔ)音識(shí)別結(jié)果時(shí),也能夠在譯文中糾正過(guò)來(lái)。比如,語(yǔ)音識(shí)別系統(tǒng)將“大堂”錯(cuò)誤的識(shí)別為“大唐”,這一對(duì)噪聲詞將被自動(dòng)收錄到訓(xùn)練數(shù)據(jù)中,并將源語(yǔ)言句子“我們?cè)诰频甏筇靡?jiàn)面吧”替換為“我們?cè)诰频甏筇埔?jiàn)面吧”,而保持目標(biāo)語(yǔ)言翻譯不變“Let's meet at the lobby of the hotel”,同時(shí)將這兩個(gè)中文句子用于訓(xùn)練,進(jìn)而獲得具有更強(qiáng)的容錯(cuò)能力模型。
為了降低時(shí)延提升翻譯質(zhì)量,人類(lèi)譯員通常對(duì)演講內(nèi)容進(jìn)行合理預(yù)測(cè),百度開(kāi)發(fā)人員從人類(lèi)譯員身上獲得啟示,研發(fā)了“wait-k words”模型,可以根據(jù)歷史信息,直接預(yù)測(cè)翻譯中目標(biāo)語(yǔ)言詞匯。該模型在翻譯質(zhì)量和翻譯延遲之間做出了很好的平衡,用戶(hù)可通過(guò)根據(jù)實(shí)際需求設(shè)定延遲時(shí)間(例如延遲1(k=1)詞或延遲5(k=5)詞)。比如,法語(yǔ)和西班牙語(yǔ)這種較為接近的語(yǔ)言,延遲可設(shè)置在比較低的水平;但是,對(duì)于英語(yǔ)和漢語(yǔ)這種差異較大的語(yǔ)言,以及英語(yǔ)和德語(yǔ)這種詞序不同的語(yǔ)言,延遲應(yīng)當(dāng)設(shè)置為較高水平,以便于更好的應(yīng)對(duì)差異。
在同聲傳譯時(shí),經(jīng)常會(huì)遇到不同領(lǐng)域的專(zhuān)業(yè)知識(shí),這就要求同傳人員在短時(shí)間內(nèi)吸收大量相關(guān)領(lǐng)域的內(nèi)容,這對(duì)他們也是極大地挑戰(zhàn)。基于此,百度模仿人類(lèi)同傳的準(zhǔn)備過(guò)程,提出了快速融合領(lǐng)域知識(shí)策略。該策略依托百度海量的互聯(lián)網(wǎng)大數(shù)據(jù),訓(xùn)練得到的具有通用翻譯能力的模型;當(dāng)它接到某一個(gè)領(lǐng)域的同傳翻譯任務(wù)時(shí),系統(tǒng)會(huì)收集該領(lǐng)域數(shù)據(jù)并在通用模型的基礎(chǔ)上進(jìn)行增強(qiáng)訓(xùn)練,得到相應(yīng)領(lǐng)域增的強(qiáng)模型;最后對(duì)該領(lǐng)域術(shù)語(yǔ)庫(kù)進(jìn)行強(qiáng)制解碼,使專(zhuān)業(yè)術(shù)語(yǔ)翻譯得準(zhǔn)確可靠,且提升翻譯效率。
作為對(duì)外開(kāi)放和商業(yè)國(guó)際化的需求之一,同聲傳譯被廣泛應(yīng)用于政府間的峰會(huì)、多邊談判和其他商業(yè)場(chǎng)合,但是同傳人員稀缺也成為了當(dāng)前的棘手問(wèn)題。為了解決全球范圍內(nèi)同傳譯員人數(shù)少、費(fèi)用高等難題,越來(lái)越多開(kāi)發(fā)者專(zhuān)注于機(jī)器同傳的研發(fā),百度也希望通過(guò)研發(fā)高質(zhì)量機(jī)器同傳技術(shù)和系統(tǒng)解決即時(shí)翻譯難題。
雖然機(jī)器同傳有了新的突破,但它與經(jīng)驗(yàn)豐富的同傳人員相比,依然存在一定差距。百度翻譯技術(shù)負(fù)責(zé)人表示,同傳的目的并不在于取代人類(lèi)譯員,而是為了降低同傳成本,讓同傳的應(yīng)用范圍更加廣泛,也希望世界各地的人在AI的助力下早日實(shí)現(xiàn)“無(wú)障礙”交流。
橋梁伸縮縫專(zhuān)業(yè)生產(chǎn)廠家--衡水盈通橡膠制品有限公司網(wǎng)站:www.hadg.cn
| 分享此文章: |
同類(lèi)文章排行
- 榮昌有關(guān)橋梁伸縮縫您不知道的秘密還有哪些?
- 榮昌橋梁伸縮縫來(lái)給您來(lái)灌點(diǎn)心靈雞湯!
- 榮昌橋梁伸縮縫的安裝受季節(jié)變化的影響嗎?
- 榮昌采購(gòu)橋梁伸縮縫時(shí)需要注意哪些問(wèn)題
- 榮昌如何做好橋梁伸縮縫的養(yǎng)護(hù)工作?




