Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2019: Conversational Response Re-ranking Based on Event Causality and Role Factored Tensor Event Embedding #283

Open
jojonki opened this issue Aug 20, 2019 · 0 comments

Comments

@jojonki
Copy link
Owner

jojonki commented Aug 20, 2019

Conversational Response Re-ranking Based on Event Causality and Role Factored Tensor Event Embedding
Shohei Tanaka, Koichiro Yoshino, Katsuhito Sudoh, Satoshi Nakamura
Accepted by 1st Workshop NLP for Conversational AI, ACL 2019 Workshop (ConvAI)
https://arxiv.org/abs/1906.09795

概要

対話コンテキストを与えて,一貫した,多用的な応答を生成する手法を提案.提案手法では,対話履歴におけるイベントの因果関係を利用し,対話モデルから出力された応答候補をリランキングする(例えば,be stressed out" -> "relieve stress").システムのイベント因果関係知識の制限のために,イベント因果関係ロバストなマッチングのためにRole Factored Tensor Modelをベースとした分散イベント表現を利用する.

イントロ

ニューラル対話モデル(2015)は広く研究されているが,対話コンテキストを考慮する能力に乏しいため,シンプルでdull な応答を返しがちという問題がある.我々はこの問題に対して,応答候補と対話履歴の因果関係を取り込むアーキテクチャを提案することで取り組む.(Shibata and Kurohashi 2011; Shibata 2014)では原因となるイベントの後には,結果となるイベントが起きやすいということを示している.またwhy-question answeringシステムでも利用されている(Oh 2013, 2016, 2017).また因果関係の利用により多用で一貫した応答が生成できることも知られている(Fujita 2011).しかし,対話継続生徒応答の一貫性の関係に関しては依然として問題である.

そこで本論では,対話履歴における因果関係を含む応答候補のリランキングをするためのスコアを定義.因果関係ペアに関しては,(Shibata and Kurohashiら)の大規模コーパスを利用.また分散イベント表現として,Role Factored Tensor Model (RFTM, Weber, 2018)を利用し,利用したコーパスの因果関係ペアに含まれていないとしても,ロバストな因果関係をマッチングできるようにした.人と自動評価で一貫して多用な応答を選択できていることを確認

Response Re-ranking Using Event Causality Relations

Fig 1に提案手法の全体図.4つのパートから構成.

  1. 対話履歴を与えてN-bestの応答候補を生成(2.1)
  2. 対話履歴と応答候補からイベントパーサーを通して,イベント(述語項構造)が抽出.イベントパーサーとして,KNP, KNPは日本語文の構文・格・照応解析を行うシステムを利用
  3. 抽出されたイベントは,イベント埋め込みモデルを通して分散表現に変換される(2.3).同様にイベント因果ペア(事前に作っていたEvent Cusality Pair Poolのことだと思う)も同様に類似度計算のために分散表現に変換しておく.RFTMは埋め込みのために利用される
  4. 最後に応答候補をリランキングする(2.2, 2.4)

Screen Shot 2019-08-20 at 3 50 12 PM

Neural Conversation Model (NCM)

beam search or sampling (Macherey et al., 2016)を利用(RNNベースのもの)

イベント因果関係ペア

原因ー結果の関係をもつペアは,Shibataらの大規模コーパスを利用して抽出される.共起統計と格フレームをベースのもの.420Kエントリが16億文から抽出される.Table 1参照.Predicate 1とargument 1が,原因,predicate 2とargument 2が結果に対応.各イベントはpredicate(必須)とargument(任意)から構成される.argumentsにはガヲニデ格のいずれか.liftは2イベント間の相互情報量.

Screen Shot 2019-08-20 at 3 50 21 PM

そしてリランキングためのスコアとして下記を定義.

  • pはNCMが出力した応答候補の確率値
  • ラムダはハイパパラメタ
  • lift(eh, er)は,対話履歴中のイベントehと応答候補中のerのliftスコア.event causality pair poolに含まれていない場合は2にする(分母が1になるため,リランキングしないことを意味する).
  • liftスコアは10~10,000と大きいのでlogスケールを取っている.
  • eh, erは1つとは限らないので,その場合はliftスコアが最も高いものを採用.
  • このモデルをリランキングと呼ぶ

Screen Shot 2019-08-20 at 4 30 53 PM

Distributed Event Representation Based on Role Factored Tensor Model (RFTM)

実際のコーパスで観測されるイベントペアだけの利用だけで因果関係を決定するのは難しいので,分散表現を利用する.全てのイベントは固定長のベクトルに変換され,類似度を計算するのに利用する.
まずイベントは,単体のpredicateかpredicateとargumentsのペアとして定義.argument aはvaにskip-gramを用いて埋め込みされる.predicate pはvpに各ユニットのskip-gramを用いて埋め込みされる.Fig 2にpredicate埋め込みの図を示す.predicate: relieveに対して,格を予測するようなニューラルネットで構成される.このモデルではpredicateベクトルを学習でき,argumentsを予測するようになっている.vpとvaから構成されるイベントの埋め込みに関してはRFTM (Weber 2018)を採用.下記のように定式化される.Tは3Dテンソル,Waはマトリックス.もしargumentsがない場合は,vpがそんままeになる.RFTMはイベントシーケンスを予測するように学習されるため,特定のコンテキストにおけるイベントの意味表現を獲得できる
Screen Shot 2019-08-20 at 5 25 29 PM

Event Causality Relation Matching Based on Distributed Event Representation

Fig 3にイベントのマッチングの過程を示す.

Screen Shot 2019-08-20 at 5 28 22 PM

  • 対話履歴と応答候補からなるイベントペアを与えて,イベントプールから最もコサイン類似度が高いイベント(閾値√3/2)を取得
  • イベントの因果関係の強さを示すliftスコアを下記に拡張.(eh: 対話履歴のイベント,er: 応答候補のイベント,ec, er: 原因と結果のイベント).

Screen Shot 2019-08-20 at 5 30 32 PM

  • 原因と結果が逆になっているケースのスコアも計算
  • よって式1のリランキングスコアは下記のようにlift部が置き換わる(Re-ranking(emb)と呼ぶ)

Screen Shot 2019-08-20 at 5 34 56 PM

実験

応答の評価に対して,自動および人評価を行う(リランキングあり・なし両方).応答生成モデルとして,アテンション付きEnc-DecモデルおよびHierachical Recurrent Enc-Dec (HRED)を採用.HREDは一貫した応答を生成しようとするが,少量のコンテキスト制約においては多様性が少ない.
学習データにはWikipediaのダンプデータを用い,skip-gramとRFTMのpredicate単語埋め込みの学習に利用.また毎日新聞のデータもRFTM学習に利用.対話データにはTwitterを利用し,2632Kの対話,平均22ターン,平均22単語長の発話,を利用.

モデル設定

細かい設定に関しては3.1参照.損失に以前Podcastで紹介したInverse Token Frequency #159 を利用.SentencePiece採用など.
リランキングスコア(式1,4)のラムダは1に設定(ちなみに0にするとリランキングなしと同じ状態)

ビームサーチの多様性

ビーム幅20でベースの応答生成モデルの多様性を測定.dist-1, 2(Li 2016)の結果をTable 3に.HREDよりもEncDecの方が高い.// だからと言ってHREDが優れていないとは言えないことに注意
Screen Shot 2019-08-20 at 5 45 08 PM

自動評価の比較

自動評価の比較手法は下記.(詳細は3.3参照)

  • re-ranked: Re-rankingなしの方法とは異なる応答の比率を参照して結果を比較
  • BLEU
  • NIST: BLEUベースのもの
  • extrema: vector extrema.参照応答と生成応答のコサイン類似度をベースにしたもの
  • dist: 多様性を測るもの
  • PMI: Pointwise Mutual Information.一貫性を測るもの
  • length: 平均応答長

結果から以下が読み取れる

  • Re-rankingは参照応答に対して類似度スコア(BLUE, NIST, extrema)で低い.NCMでは参照応答を予測するように鍛えられているので,Re-rankingなしではこれらのスコアは高くなる.
  • Dist-2とPMIはre-ranking (埋め込みじゃない方)で改善.これはそれぞれ多様性と一貫性が改善されたことを指す.しかし リランクされた応答率は10%前後でリランキングの効果は限定的
  • イベント埋め込みを利用することで,これは劇的に改善(re-ranking vs re-ranking (emb)).dist-1/2,PMIで最も高い.
  • 全てのリランキング手法で,HREDはBLEU, NIST, PMIでEncDecよりも高い値を持っていたため,人評価にはHREDを利用した(次)

Screen Shot 2019-08-20 at 5 46 50 PM

人評価

HRED,re-ranking, re-ranking (emb)の3モデルを比較.この3モデルから2つを比較する形でTable 4, 5, 6に結果を示す.評価はクラウドワーカーを利用し,2つのクライテリア(単語一貫性:対話履歴により関連している応答の単語群はどっち?,対話連続性:どちらのシステム応答が対話履歴に対する応答にふさわしいか).// Alexa Prize (Ram 2018)にインスパイさされたクライテリア

  • 単語一貫性に関しては,re-rankingでは改善されたが,re-ranking(emb)では悪化.これは,イベントプールのイベントの利用は良いが,イベント埋め込みによる一般化は良いとしないということ
  • 対話連続性に関しては,re-ranking(emb)では改善.dull応答を減らせたのではないかと推測.
  • 一貫性と連続性のバランスを取るための閾値設定に関してはfuture work

Screen Shot 2019-08-20 at 6 14 05 PM

Screen Shot 2019-08-20 at 6 14 09 PM

Discussion

因果関係を使ったリランキングの妥当性に関して定性的に評価.

  • "()"は日本語のオリジナル文
  • "[]" はリランキングに利用した因果関係
  • "<>"はリランキング前の応答

下記はうまくいった例.理にかなっており,一貫して多様な応答を生成できている.ただしこれが主要なものではなかった
Screen Shot 2019-08-20 at 6 21 05 PM

下記にうまく行っていない例を示す.

  • Conv 3では,一貫した応答が選ばれたものの,不適切な因果関係を利用(風邪を引く→咳が止まる)
  • Conv 4/5では,不自然で一貫していない,オリジナル応答と比べて選んでしまっている

Screen Shot 2019-08-20 at 6 22 22 PM

Screen Shot 2019-08-20 at 6 22 30 PM

人評価の結果から適切な因果関係を選ぶ際における2つの問題を仮説.

  1. イベント埋め込みは過剰に一般化したイベントを利用する(Conv 4).アルコール飲む→アルコールが飲める,は,レストランに入る→ビールを頼む,一般化することにより得られている.埋め込みアーキの過剰な一般化を避ける必要あり.
  2. 単語一貫性のみに注目しており,応答の自然さに着目していない(Conv 5/6).単語一貫性は改善しつつ自然さも向上せねばならない

Conclusions

NCMが生成した応答候補を因果関係に着目してリランキングする手法を提案.イベント埋め込みなどを利用してロバストな手法を提案.実験では,一貫して応答な応答を選択することができた.手法は今回日本語だが,述語項構造を利用するため,特に言語は問わない.しかし,不自然な応答は選択した因果関係によって選ばれている事例もあり,イベントの過剰一般化や自然さ改善などをfuture workとしてやりたい

コメント

  • 因果関係の利用は汎用的で説得力があり面白い
  • 埋め込み手法なども興味深い
  • 因果関係だけで応答の選択は,元の文の意味を無視しがちなので,改善手法にも期待
@jojonki jojonki changed the title 🚧 2019: Conversational Response Re-ranking Based on Event Causality and Role Factored Tensor Event Embedding 2019: Conversational Response Re-ranking Based on Event Causality and Role Factored Tensor Event Embedding Aug 20, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant