Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 #132

Open
AkihikoWatanabe opened this issue Dec 31, 2017 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

https://www.ijcai.org/Proceedings/16/Papers/391.pdf

@AkihikoWatanabe
Copy link
Owner Author

Neuralなモデルで「文書」の要約を行う研究。

提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。

distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照(一度着目した情報には今後あまり着目しないようなバイアスをかける)したうえで、要約を生成しようというもの。
これにより、生成される要約の冗長性を排除するのが狙い。

以下の3つのアプローチを用いて、distractionを実現

  1. [Distraction over input content vectors]
     tステップ目において、decoderのinputとして用いるcontext vectorを
    計算する際に、通常の計算に加えて、t-1ステップ目までに使用した
    context vectorの情報を活用することで、これまでdecoderのinputとして
    利用された情報をあまり重視視しないように、context vectorを生成する。

  2. [Distraction over attention weight vectors]
     attentionの重みを計算する際に、過去に高いattentionの重みがついた
    encoderのhidden stateについては、あまり重要視しないように
    attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの
    historyを保持しておき活用する。

  3. [Distration in decoding]
     decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction
    scoreはtステップ目までに用いられたcontext vector、attention
    weight、decoderのstateから計算され、これまでと同じような情報に基づいて
    単語が生成された場合は、スコアが低くなるようになっている。

CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得

特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、
ROUGEスコアの改善幅が大きくなったことが示されている

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant