2018: Automatic Evaluation of Neural Personality-based Chatbots #138

jojonki · 2018-10-02T07:22:07Z

Automatic Evaluation of Neural Personality-based Chatbots
Yujie Xing, Raquel Fernández. INLG 2018
https://arxiv.org/abs/1810.00472

概要

Open domainにおけるseq2seq型の応答生成モデルにおいて、そのモデルが生成する応答が個性の特徴を反映できているか、自動評価（人手不要）できる手法を提案

イントロ

Seq2seq型のモデルでは大量のアノテートされていないデータを利用してモデルを学習するが、異なる個性の特徴を持つ応答を生成できるか評価した。そこで本論では2つの既存の応答生成モデルを評価した

Speaker-based model (Li Telegraph al. 2016b)
生成される応答は話者で条件付けされる
Personality-based model )Herzig Texas al. 2017)
生成される応答は個性タイプで条件される

今回の評価では，個性のBig Five心理モデル（Norman, 1963），を採用した．最下部の参考項目も参考に．
性格を表す５つの尺度．頭文字を取ってOCEAN．各特性はスカラで１から７の値を取る．
Openness（開放性），Conscientiousness（勤勉性），Extraversion（外向性），Agreeableness（協調性），Neuroticism（情緒不安定性）

対話生成モデル

一般的なアテンション付seq2seq型のモデルを採用 (Sutskever et al., 2014; Bahdanau et al.2015).
モデルとしては，コンテキスト（対話履歴＋現在のユーザー発話）をX=x1,x2,...Xmとして表し，デコーダーでY=y1,y2,...,ynを生成するモデルになる．アテンションでは，デコーダーの各タイプステップtでコンテキストに対してアテンションを計算する．
今回のSpekakerモデルとPersonalityモデルでは，1024次元の隠れ層を持つ4レイヤのLSTMになっている．

Speaker，Personalityモデルについて説明していく．

Speakerモデル

各話者sは，それぞれembeddingベクトルvsを関連付けられる．このvsは，デコーダーのLSTMの最初の隠れ層に，毎時刻挿入される．vsは学習中に更新される．// vsの初期化など謎だが，スピーカー毎にランダマイズされた何らかのベクトルという認識

このモデルを提案したLiらは，各実際の（factualな）コンテンツに対して，一貫しているか，という点でモデルを評価した．我々は，このモデルがそれぞれが独立した個性を反映したスタイルになっているのか評価した

Personalityモデル

Speakerモデルが利用した話者embedding vsの代わりに，personality embedding voを利用する．OCEANスコアは５次元ベクトルoであり，各次元は1から7の値を取る（実際はこれを[-1, 1]でノーマライズする）．そして線形変換を行い，vo=Wo * (o-4)/3 という式でvoを得る．Woは学習パラメタで，5xd次元．// この式をどう出したのかは謎
式は先程の（３）式のvsをvoに置き換える．

ちなみにこの手法は，Herzigら（2017）のモデルがある．彼らはカスタマーサービスドメインに注力しており，人評価によるたった２つの個性特徴量を使っている．これに対して我々はopen-domainの雑談対話を扱っており，OCEANという一般的に広く使われている特徴量を，自動評価手法によって利用している．

実験セットアップ

データセット

アメリカのコメディ番組である，フレンズとビッグバンセオリーを利用した．最低2000ターン以上持つキャラを利用したため，結果的に１３キャラになった（６人がフレンズ，７人がビッグバン）．各話者にはユニークIDを振る．そして，下記の手順で各キャラの個性を見積もった：
１．各キャラ５００発話の内，５０サンプルをランダムで得る
２．Mairesseら（２００７）の個性認識器を利用する．この認識器は，"Linguistic Inquiry and Word Count (pennebaker and King, 1999)とMRC心理言語データベース（Coltheart, 1981）の，言語的特徴からスカラ値を出力する．
３．５０サンプルで計算した個性スコアの平均値を，各キャラのOCEANスコアとして割り当てた 📔

また連続するターンをcontext-responseペアとして利用し，各応答には話者IDか話者のOCEANスコアをアノテートした．結果的に86K以下のcontext-responseペア，そのうち，2Kペアはランダムに選ばれバリデーションセットとして利用．

データセット

学習

TVシリーズのデータセットは比較的小さいため，Li (2016b)らの方法に則り，OpenSubtitlesデータセット（Tiedemann, 2009）を事前学習データとして利用．これは巨大なデータセットであり，映画字幕から50M行ものデータから成る．このデータは特に話者情報はないため，連続するラインをctx-respペアとして選ぶ．またマシンパワーの制約上，1.8Mペアを学習データに利用し，75Kをバリデーションセットとして利用．

まず，OpenSubtitlesの学習セットで15イテレーション（==epoch）回した（バリデーションセットのパープレキシティが安定するまで）．その後，このモデルを利用して，SpeakerとPersonalityモデルを初期化し，TVシリーズでそれぞれ３０以上のイテレーション（こちらもバリデーションで安定するまで）．設定はLiらと同じ．Vocabサイズは25Kで，最大入力文字列は50．// 他パラメタは論文3.2参考

テスト

テストでは再びOpenSubtitlesを利用．学習時には利用しなかった2.5Mの発話をcontextとして入力し，学習されたSpeakerとPersonalityモデルが１３キャラの応答を，Stochastic Greedy Sampling (Li et al., 2017)で生成する．またニューラル対話生成モデルはdullレスポンスしがちなので，１００の頻出応答は評価から取り除いた．これにより各キャラ（個性）で~700Kの応答を得た．これを評価セットとする．

評価手法

異なる個性を持つ対話生成ができるか評価できる手法を提案．各キャラ５００応答の内，２５０サンプルをランダムに選び，OCEANスコア（５次元）をそれぞれ計算．この２５０サンプルには対応するキャラがアノテートされている．これにより，それぞれ２５０のデータポイントを持つ，１３のゴールドクラスを得る．// この応答は生成されたものでなく，実際にデータセットにある応答発話であるため，この応答を利用して得られるOCEANスコアが，得うる最大のスコアとなるはずなのでゴールドクラスと呼んでいるっぽい（オラクル値と同義な気もする）
そして，SVMを利用して，生成された応答から見積もられたOCEANスコアが，どの程度ゴールドクラスを回復できるか調べた．5-foldクロスバリデーションを利用し，これを１０回行いその平均を報告する（５×１０で５０の平均）．
またベースラインとして，生成された応答のゴールドラベルを，ランダマイズして得る，これは偶然得られた際のパフォーマンスを知るために行った．

また今回利用したMairesseの個性認識器はTV原稿の対話に最適化されているわけではない．そのため，ゴールド発話（オリジナル発話）をBoWアプローチによって，パフォーマンス比較した．これにより認識器が，平易な単語利用によるものしか検知できないかどうか，ということをテストできる．そのため，それら（BoW）は個性を表すものになっている可能性があるため，オリジナル発話から，ストップワードを除く，２００の頻出単語を特徴量として選んだ．そして，BoW表現を利用して，同様の分類手順を踏んだ．

結果

各モデルの結果は下記．

上限と下限

baselineよりもgoldの方が十分に高い．これは今回の評価手法が，データの異なる個性を十分に区別できているということを指し示す．またフレンズよりもビッグバンの方がスコアが高い（個性を明白に区別できている）
個性認識機の代わりに，BoWを使った時は，フレンズで23%のF1，ビッグバンで19%のF1となった // この結果が論文には載っていない．．．
これにより個性認識器はBoW表現よりも，個性の特徴を遥かに強く捉えられることがわかった．

SpeakerモデルとPersonalityモデル

両モデルともbaselineよりも高い性能を出しているが，goldよりもだいぶ低い．またSpeakerモデルの方がPersonalityモデルよりも良い結果になった．これは，Personalityモデルは個性タイプに応じた応答を生成しており，より変化に富んだと思われる（そのため識別しにくい）

ただPersonalityモデルのメリットとしては，学習には現れなかった事前定義済みの個性の応答を生成できるという点である．この潜在的特性のテストのため，極端なOCEANスコアを持つモデルで実験した．OCEANスコアの内，１つを6.5と高くして残りを3.5にした（エキストリーム設定．OCEAN５つ分すべてのパターンで実験）．そして，それぞれの設定で評価セットすべてを利用して応答を生成し，それを評価した結果が下記．
平均して53%のF1スコアを得ることが出来，学習データの範囲を超えてモデルが個性を一般化して捉えている事がわかる 👍

生成した実キャラとエキストリーム設定キャラの応答．// 正確を反映してるっぽいのが面白い

コメント 📔

コメディー番組を利用することで，強力な個性データを扱えるので，データセットの選択として面白い
Mairesseらの個性認識器の精度は正しいという前提，よく使われているものなんだろうか．また５０サンプルだけしか取らない理由もよくわからない．平均値を個性値としてよいのかも謎
Personalityモデルは，コーパスではうまく働いていないが，エキストリーム設定で有用性を確認．OCEANという一般的なスコアによって，応答をコントロールできるのは面白い．
今回はMairesseの個性認識器を利用したが，他のものを原理的には利用して良い

参考

ForlostP(ふぉろすとP)のブロマガ．ビッグファイブ（Big-Five Personality

jojonki · 2019-05-11T02:08:38Z

Podcastでも解説しました．https://anchor.fm/lnlp-ninja/episodes/ep10-Automatic-Evaluation-of-Neural-Personality-based-Chatbots-e2bq2k

jojonki added Evaluation ChatBot labels Oct 2, 2018

jojonki changed the title ~~🚧 2018: Automatic Evaluation of Neural Personality-based Chatbots~~ 2018: Automatic Evaluation of Neural Personality-based Chatbots Oct 6, 2018

jojonki added the NLG label Oct 6, 2018

jojonki added the Podcast label May 11, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2018: Automatic Evaluation of Neural Personality-based Chatbots #138

2018: Automatic Evaluation of Neural Personality-based Chatbots #138

jojonki commented Oct 2, 2018 •

edited

jojonki commented May 11, 2019

2018: Automatic Evaluation of Neural Personality-based Chatbots #138

2018: Automatic Evaluation of Neural Personality-based Chatbots #138

Comments

jojonki commented Oct 2, 2018 • edited

概要

イントロ

対話生成モデル

Speakerモデル

Personalityモデル

実験セットアップ

データセット

学習

テスト

評価手法

結果

上限と下限

SpeakerモデルとPersonalityモデル

関連研究と結論

コメント 📔

参考

jojonki commented May 11, 2019

jojonki commented Oct 2, 2018 •

edited