日日摸夜夜欧美一区二区,亚洲欧美在线视频,免费一级毛片视频,国产做a爰片久久毛片a

中國電商物流網-電子商務與物流行業融合媒體!電子商務物流行業門戶網站!
快遞網點 郵編查詢 行政區劃 高鐵時刻 高鐵票價 高鐵車次
貿易資訊
免費注冊 登錄
中國電商物流網
企 業
產 品
商 務

自然語言處理“橋頭堡”百度與一線技術專家齊聚AI ProCon ERNIE超“吸睛”

來源:中國電商物流網  發布時間:2019-9-11 8:30

  北京雖已入秋,但依舊迎來AI的一股熱浪。風靡自然語言處理領域的“網紅”預訓練模型百度ERNIE再次現身“極客盛宴”,引發行業廣泛關注。

  9月5日,CSDN主辦的為期三天的 2019 AI開發者大會(AI ProCon)在北京拉開序幕。大會聚集國內外如百度、華為、Google微軟等40多知名科技公司,60位一線技術專家,深入聚焦技術與應用,闡述產業變革。7日下午自然語言處理論壇中,百度NLP主任研發架構師孫宇從自然語言處理的關鍵難點語義表示技術切入,為到場開發者解析了中英文任務超越谷歌BERT的百度語義理解框架ERNIE。

  語言表示是解決自然語言理解的首要問題,語言表示的好壞一定程度決定了計算機處理自然語言的效果。基于此,百度在今年3月首次提出知識增強的語義表示模型ERNIE(Enhanced Representation from kNowledge IntEgration),它在中文NLP任務上表現非凡,百度在多個公開的中文數據集上進行了效果驗證,在語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上,超越了谷歌的語義表示模型BERT的效果。

  ERNIE模型通過建模海量數據中的實體概念等先驗語義知識,學習真實世界的語義關系。具體來說,百度ERNIE模型通過對詞、實體等語義單元的掩碼,使得模型學習完整概念的語義表示。相較于 BERT 學習原始語言信號,ERNIE 直接對先驗語義知識單元進行建模,增強了模型語義表示能力。

  例如:

  Learned by BERT:哈 [mask] 濱是 [mask] 龍江的省會,[mask] 際冰 [mask] 文化名城。

  Learned by ERNIE:[mask] [mask] [mask] 是黑龍江的省會,國際 [mask] [mask] 文化名城。

  在 BERT 模型中,通過『哈』與『濱』的局部共現,即可判斷出『爾』字,模型沒有學習『哈爾濱』本身的任何知識。而ERNIE通過學習詞與實體的表達,使模型能夠建模出『哈爾濱』與『黑龍江』的關系,學到『哈爾濱』是 『黑龍江』的省會以及『哈爾濱』是個冰雪城市。

  會上,孫宇還用幾道趣味填空題驗證了ERNIE的知識學習能力。實驗將段落中的實體知識去掉,讓模型推理其答案。不難看出,ERNIE在基于上下文知識推理能力上表現的更加出色。

  ERNIE在自然語言處理領域前進的腳步從未停歇。沉淀短短幾個月,升級后的ERNIE于8月正式推出。百度發布的持續學習的語義理解框架ERNIE 2.0在1.0版本中文任務全面超越BERT的基礎上,英文任務取得了全新突破,在共計16個中英文任務上超越了BERT和XLNet, 取得了SOTA效果。

  孫宇指出,以BERT、XLNet為代表的無監督預訓練技術在語言推斷、語義相似度、命名實體識別、情感分析等多個自然語言處理任務上在近兩年取得了技術突破。基于大規模數據的無監督預訓練技術在自然語言處理領域變得至關重要。百度發現,之前的工作主要通過詞或句子的共現信號,構建語言模型任務進行模型預訓練。例如,BERT通過掩碼語言模型和下一句預測任務進行預訓練。XLNet構建了全排列的語言模型,并通過自回歸的方式進行預訓練。

  然而,除了語言共現信息之外,語料中還包含詞法、語法、語義等更多有價值的信息。例如,人名、地名、機構名等詞語概念知識,句子間順序和距離關系等結構知識,文本語義相似度和語言邏輯關系等語義知識。如果能持續地學習各類任務,模型的效果將會將入一個全新的階段。

  基于此,百度提出可持續學習語義理解框架ERNIE 2.0。該框架支持增量引入詞匯(lexical)、語法 (syntactic) 、語義 (semantic) 等3個層次的自定義預訓練任務,能夠全面捕捉訓練語料中的詞法、語法、語義等潛在信息。這些任務通過多任務學習對模型進行訓練更新,每當引入新任務時,該框架可在學習該任務的同時,不遺忘之前學到過的信息。這也意味著,該框架可以通過持續構建訓練包含詞法、句法、語義等預訓練任務,持續提升模型效果。

  依托該框架,百度充分借助飛槳(PaddlePaddle)多機分布式訓練優勢,利用 79億tokens訓練數據(約1/4的XLNet數據)和64張V100 (約1/8的XLNet硬件算力)訓練的ERNIE 2.0預訓練模型不僅實現了SOTA效果,而且為開發人員定制自己的NLP模型提供了方案。目前,百度開源了ERNIE 2.0的fine-tuning代碼和英文預訓練模型。

  百度研究團隊分別比較了中英文環境上的模型效果。英文上,ERNIE 2.0在自然語言理解數據集GLUE的7個任務上擊敗了BERT和XLNet。中文上,在包括閱讀理解、情感分析、問答等不同類型的9個數據集上超越了BERT并刷新了SOTA。

  如今,百度已在自然語言處理領域積累十余年,ERNIE的誕生除了在學術領域的價值,也具備相當重要的產業價值,尤其是在目前國際貿易與科技背景下,擁有與谷歌比肩的語義理解框架意義非凡。ERNIE可以說是百度在自然語言處理方面的重要里程碑,未來百度還將持續深耕該領域,搭起人類與機器“暢所欲言”的溝通橋梁。

Copyright © 2012-2025 sd56.net.cn All Rights Reserved 中國電商物流網 版權所有