Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL'16 #70

AkihikoWatanabe · 2017-12-28T10:41:20Z

http://www.aclweb.org/anthology/N16-1162

AkihikoWatanabe · 2017-12-28T10:41:26Z

Sentenceのrepresentationを学習する話

代表的なsentenceのrepresentation作成手法(CBOW, SkipGram, SkipThought, Paragraph Vec, NMTなど)をsupervisedな評価（タスク志向+supervised）とunsupervisedな評価(文間の距離をコサイン距離ではかり、人間が決めた順序と相関を測る)で比較している。

また筆者らはSequential Denoising Auto Encoder(SDAE)とFastSentと呼ばれる手法を提案しており、前者はorderedなsentenceデータがなくても訓練でき、FastSentはorderedなsentenceデータが必要だが高速に訓練できるモデルである。

実験の結果、supervisedな評価では、基本的にはSkipThoughtがもっとも良い性能を示し、paraphrasingタスクにおいて、SkipThoughtに3ポイント程度差をつけて良い性能を示した。unsupervisedな評価では、DictRepとFastSentがもっとも良い性能を示した。

実験の結果、以下のような知見が得られた：

異なるobjective functionは異なるembeddingを作り出す

objective functionは、主に隣接する文を予測するものと、自分自身を再現するものに分けられる。これらの違いによって、生成されるembeddingが異なっている。Table5をみると、後者については、生成されたrepresentationのnearest neighborを見ていると、自身と似たような単語を含む文が引っ張ってこれるが、前者については、文のコンセプトや機能は似ているが、単語の重複は少なかったりする。

supervisedな場合とunsupervisedな評価でのパフォーマンスの違い

supervisedな設定では、SkipThoughtやSDAEなどのモデルが良い性能を示しているが、unsupervisedな設定ではまりうまくいかず。unsupevisedな設定ではlog-linearモデルが基本的には良い性能を示した。

pre-trainedなベクトルを使用したモデルはそうでない場合と比較してパフォーマンスが良い

必要なリソースの違い

モデルによっては、順序づけられた文のデータが必要だったり、文の順序が学習に必要なかったりする。あるいは、デコーディングに時間がかかったり、めちゃくちゃメモリ食ったりする。このようなリソースの性質の違いは、使用できるapplicationに制約を与える。

結論

とりあえず、supervisedなモデルにrepresentationを使ってモデルになんらかのknowledgeをぶちこみたいときはSkipThought、単純に類似した文を検索したいとか、そういう場合はFastSentを使うと良いってことですかね.

AkihikoWatanabe added Neural NLP Representation Sentence labels Dec 28, 2017

AkihikoWatanabe added Embed and removed Representation labels Dec 28, 2017

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL'16 #70

Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL'16 #70

AkihikoWatanabe commented Dec 28, 2017 •

edited

AkihikoWatanabe commented Dec 28, 2017

Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL'16 #70

Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL'16 #70

Comments

AkihikoWatanabe commented Dec 28, 2017 • edited

AkihikoWatanabe commented Dec 28, 2017

異なるobjective functionは異なるembeddingを作り出す

supervisedな場合とunsupervisedな評価でのパフォーマンスの違い

pre-trainedなベクトルを使用したモデルはそうでない場合と比較してパフォーマンスが良い

必要なリソースの違い

結論

AkihikoWatanabe commented Dec 28, 2017 •

edited