We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
https://link.springer.com/content/pdf/10.1007%2F978-3-319-42911-3.pdf
The text was updated successfully, but these errors were encountered:
New York Times Annotated Corpus(NYTAC)に含まれる大量の正解要約データを利用する方法を提案。 NYTACには650,000程度の人手で生成された参照要約が付与されているが、このデータを要約の訓練データとして活用した事例はまだ存在しないので、やりましたという話。
具体的には、NYTACに存在する人手要約を全てそのまま使うのではなく、Extracitiveなモデルの学習に効果的な事例をフィルタリングして選別する手法を提案 また、domain-adaptationの技術を応用し、NYTACデータを要約を適用したいtargetのテキストに適応する5つの手法を提案
モデルとしては、基本的にknapsack問題に基づいた要約モデル(Extractive)を用い、学習手法としてはPassive Aggressiveアルゴリズムの構造学習版を利用する。 NYTACのデータを活用する手法として、以下の5つの手法を提案している。
1. NytOnly: NYTACのデータのみで学習を行い、target側の情報は用いない 2. Mixture: targetとNYTACの事例をマージして一緒に学習する 3. LinInter: TrgtOnly(targetデータのみで学習した場合)のweightとNytOnlyで学習したweightをlinear-interpolationする。interpolation parameterはdev setから決定 4. Featurize: NytOnlyのoutputをtargetでモデルを学習する際の追加の素性として用いる 5. FineTune: NytOnlyで学習したweightを初期値として、target側のデータでweightをfinetuneする
また、NYTACに含まれる参照要約には、生成的なものや、メタ視点から記述された要約など、様々なタイプの要約が存在する。今回学習したいモデルはExtractiveな要約モデルなので、このような要約は学習事例としては適切ではないのでフィルタリングしたい。 そこで、原文書からExtractiveな要約を生成した際のOracle ROUGE-2スコアを各参照要約-原文書対ごとに求め、特定の閾値以下の事例は使用しないように、インスタンスの選択を行うようにする。
DUC2002 (単一文書要約タスク)、RSTDTBlong, RSTDTBshort (Rhetrical Structure Theory Discourse Tree Bankに含まれる400件程度の(確か社説のデータに関する)要約)の3種類のデータで評価。
どちらの評価においても、FineTuneを行い、インスタンスの選択を行うようにした場合が提案手法の中ではもっとも性能がよかった。 DUC2002では、LEADやTextRankなどの手法を有意にoutperformしたが、DUC2002のbest systemには勝てなかった。 しかしながら、RSTDTBlongにおける評価では、RSTの情報などを用いるstate-of-the-artなシステムに、RSTの情報などを用いない提案手法がROUGEスコアでoutperformした。 RSTDTBshortにおける評価では、RSTを用いる手法(平尾さんの手法)には及ばなかったが、それ以外ではbestな性能。これは、RSTDTBshortの場合は要約が指示的な要約であるため、今回学習に用いた要約のデータやモデルは報知的な要約のためのものであるため、あまりうまくいかなかったと考察している。
Sorry, something went wrong.
No branches or pull requests
https://link.springer.com/content/pdf/10.1007%2F978-3-319-42911-3.pdf
The text was updated successfully, but these errors were encountered: