您的位置:首頁 >新聞 > 公司 >

          斯坦福李紀為博士畢業論文:讓機器像人一樣交流

          自圖靈測試被提出以來,一代代研究者提出了各種方法試圖通過測試,但我們目前距離完成任務還有很長一段路要走。在本論文中,我們受限簡要回顧一下過去幾十年里人們提出的各種系統。具體來說,這其中包括三種對話系統:開放領域聊天系統、目標導向的框架系統以及問答交互(QA)對話系統。我們會討論它們的成功應用、優缺點以及為什么它們仍然無法通過圖靈測試。本論文將著重討論如何改進聊天系統和交互式問答(QA)系統。

          圖1.1使用IBM模型消息與回復之間的字對齊。圖片來自MichelGalley。

          第二章背景

          2.1序列到序列生成

          SEQ2SEQ模型可以被視為一個用輸入內容生成目標句的基礎框架,適用于多種自然語言生成任務,例如利用給定的英文句子生成法語句子的機器翻譯;通過生成響應功能在接收到源信息時生成響應;在問答任務中針對問題做出回答;或是對一段文檔生成總結性短句等等。

          本段將介紹語言模型基礎,循環神經網絡和長短期記憶網絡(LSTM),它們被視為SEQ2SEQ模型的基礎。隨后,我們將詳細解讀SEQ2SEQ模型的基礎。最后,我們將討論不同SEQ2SEQ模型的算法,如注意力(attention)機制。

          2.2記憶網絡

          記憶網絡(Westonetal.,2015;Sukhbaataretal.,2015)是一類神經網絡模型,可以通過操作內存中的內容(存儲、取回、過濾和重用)來進行自然語言推理。記憶網絡中的存儲器部分可以嵌入長期記憶(例如,關于真實世界的常識)和短期上下文(例如,最近的幾段對話)。記憶網絡已被成功地應用于很多自然語言任務中了,例如問答系統(Bordesetal.,2014;Westonetal.,2016),語言建模(Sukhbaataretal.,2015;Hilletal.,2016)以及對話(Dogeetal.,2016;Bordes&Weston,2017)。

          2.3策略梯度方法

          策略梯度法(Aleksandrovetal.,1968;Williams,1992)是一類強化學習模型,通過使用梯度下降預測獎勵的參數化策略來學習參數。與其他強化學習模型(如Q學習模型)比較而言,策略梯度方法不會受到如缺乏價值函數等方面的問題(因為它不需要明確估算價值函數),或由于高維空間連續狀態或動作導致難以控制。

          第三章用交互信息避免泛化回復

          當我們將SEQ2SEQ模型應用與生成回復的時候,一個嚴重的問題脫穎而出:神經對話模型總是會傾向于生成無意義的回復,例如「Idon'tknow」、「Idon'tknowwhatyouaretalkingabout」(Serbanetal.,2015;Vinyals&Le,2015)。從表3.1中我們可以看出,很多排名靠前的回復是泛化的。那些看起來更加有意義、更有針對性的回復可以在非最佳列表中找到,但是排名非常靠后。這種現象是因為通用性回復如Idon'tknow在對話數據集中相對較高的頻率。MLE(最大似然估計)目標函數對源到目標的單向依賴性進行了建模,由于無意義回復沒有意義,有意義回復多種多樣,系統總會傾向于生成這些無意義的回復。直觀上,似乎不僅要考慮回復與信息的相關性,也需要考慮傳遞的信息是否具有意義:如果回答是「Idon'tknow」,我們就難以猜測對話者開始詢問的是什么。

          我們建議通過最大互信息(MaximumMutualInformation,MMI),作為測量輸入和輸出之間的相互依賴性的優化目標來捕獲這種直覺,作為傳統MLE目標函數中源到目標單向依賴性的反向。我們提出了使用MMI作為目標函數神經生成模型的實際訓練和解碼策略。我們證明了使用MMI可以顯著減少泛化回復產生的幾率,在BLEU和人類評測的結果中得出了顯著提升性能的結果。

          表3.1從OpenSubtitles數據集2000萬對話配對中訓練的4層SEQ2SEQ神經模型生成的回復。解碼實現的Beamsize被設為200。最大概率的回復選項為N-best列表中平均可能性對數似然的最高概率。更低的概率回復是手動選擇的。

          表3.4:在Open-Subtitles數據集上SEQ2SEQ基線和MMI-antiLM模型的對比。

          第四章解決說話者一致性問題

          目前聊天系統的一個嚴重的問題是缺少說話者一致性。這是由于訓練集中包含了不同的人的談話,而且一個解碼模型總是選擇最大似然的應答,從而使輸出變得非常的混亂且不一致。

          在這一章中,我們討論了應對不一致問題的方法以及如何為數據驅動的系統賦予合乎邏輯的「人格角色」(persona)以模仿類人的行為,無論是個人助理,個性化的「阿凡達」智能體,亦或是游戲角色。為了這個目的,我們將把persona定義為一個人工智能體在對話交流中所扮演或表現出來的一種特征。persona可以看成身份要素(背景事實或用戶外形)、語言行為和交互方式的混合物。persona是有適應性的,由于智能體在面對不同的人類談話者的時候需要按交互的需求表現不同的側面。

          表5.1:左列:使用SEQ2SEQ模型和OpenSubtitles數據集訓練的兩個智能體之間的對話模擬。第一輪(指標1)是由作者輸入的,然后兩個智能體輪流應答,一個智能體的輸入將作為另一個的在前生成輪。右列:使用我們提出的強化學習模型的對話模擬。新的模型擁有更具前瞻性的言辭(諸如「你為什么要問這個問題」、「我和你一起去」),在掉入對話黑洞之前能進行更持久的對話。

          為了應對這些挑戰,我們需要一個擁有以下能力的對話框架:

          (1)更好的獎勵函數;

          (2)對生成的某一句話的長期影響進行建模。

          為了達到這些目的,我們利用了強化學習,其在MDP和POMDP對話系統中早已被廣泛應用。我們提出了神經網絡強化學習生成方法,可以優化長期的獎勵。我們的模型使用了編碼器-解碼器架構作為主干,讓兩個機器人模擬對話。這樣的話,通過優化獎勵函數,探索可能行為的空間。我們認為針對對話好的獎勵函數應該有如下特點:好的談話是具備前瞻性或交互性(一輪帶動下一輪對話)、提供有用以及合乎邏輯的信息。我們可以通過這些方面定義獎勵函數,從而通過獎勵函數來優化編碼器-解碼器模型。

          在訓練過程中,我們使用隨機梯度下降的更新策略,借用了YoshuaBengio在09年提出的課程學習(Curriculumlearning)的策略,逐漸增加對話模擬的輪數。這樣訓練的復雜度逐漸增加。

          實驗結果(表5.1中右側的樣本結果)表明我們的方法產生了更持久的對話,并且相比使用MLE目標訓練的標準SEQ2SEQ模型,能生成更具交互性的應答。

          兩個對話機器人之間的對話模擬

          模擬兩個機器人輪流對話的過程是這樣的,在一開始,從訓練集中隨意找到一句話作為輸入給第一個機器人,這個代理通過編碼器網絡把這個輸入編碼成一個隱層向量,然后解碼器來生成回答。之后,第二個機器人把之前那個機器人輸出的響應和對話歷史結合起來,重新通過編碼器網絡編碼得到一個隱層向量(相當于更新了對話的狀態),然后通過解碼器網絡生成一個新的回復,并傳給第一個機器人。這個過程不斷被重復下去:

          最新動態
          相關文章
          海龍大廈以黨建工作為引領完成了轉型升...
          博奧鎂鋁擴產完善完善區域深加工布局 ...
          弘亞數控產能進一步釋放 專用設備的產...
          捷信消金去年總資產同比下降近38% 凈利...
          中遠海科(002401.SZ)股價低開低走創新低...
          片仔癀(600436.SH)前十大流通股東3家退...
          主站蜘蛛池模板: 日本特黄特色免费大片| 男人黄女人色视频在线观看| 国产精品模特hd在线| 两个人看的WWW在线观看| 欧美一区二区福利视频| 免费在线观看污视频网站| 麻豆一二三四区乱码| 国产色综合一区二区三区| 三年片韩国在线观看| 日韩亚洲翔田千里在线| 亚洲日本一区二区三区在线不卡 | 欧美丰满熟妇BBB久久久| 免费人成在线观看视频播放| 青青青国产精品手机在线观看| 国产精品电影一区二区三区| 一二三四社区在线中文视频| 日本边吃奶边摸边做在线视频| 亚洲欧美国产精品专区久久| 精品一区二区三区3d动漫| 日本黄色影院在线观看| 亚洲综合色色图| 美女网站在线观看视频18| 国产成人亚洲欧美激情| 7777精品久久久大香线蕉| 女王厕便器vk| 中文字幕无线码中文字幕免费| 暖暖免费高清日本中文| 亚洲日本一区二区三区在线| 男女下面一进一出免费无遮挡 | 国产免费av一区二区三区| 青青青国产依人精品视频| 夜夜躁日日躁狠狠久久av| 中文字幕一区二区三区四区| 日韩avdvd| 亚洲中文字幕久久精品无码喷水| 爱情论坛免费在线看| 十八岁的天空完整版在线观看 | 97国产免费全部免费观看| 婷婷丁香六月天| 亚洲va在线va天堂va手机| 狠狠亚洲婷婷综合色香五月排名|