WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム #412

AkihikoWatanabe · 2021-10-20T03:40:04Z

https://arxiv.org/abs/2011.07832

AkihikoWatanabe · 2021-10-20T03:42:29Z

◆Aspect-based summarizationのモチベーション
・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい

◆Aspect: あるobjectに対する、attributeのようなものを指定？
　object: Attention Is All You Need
　aspect: Multi-Head Attention

◆Aspect Based Summarizationの歴史
・はじめは”feature”という文言で研究され（04年頃？）
・続いてkeywordsという単語で研究され
・その後Aspectという文言で研究されるようになった
・2008年頃にMcDonaldsらがAspect-Based Summarizationを提案した
・2014年以後？とかにNeural Basedな手法が盛んに研究

◆WikiAspデータセットについて
・Wikipediaを使ったAspect-based dataset
・Wikipediaを書かれるのに利用されたsource document（wikipediaにソースとして引用されているもの）に対し、aspectを各節の見出しとみなし、節のテキストを要約文とみなすことで、データセット生成
・他のAspect-basedデータセットと異なり、ソースデータが長く、要約長も5~6倍程度
・ドメイン数が他データセットは5,6程度に対し、20と膨大

◆ベースラインとして2-stageモデルを採用
first-stage: ソーステキストからROBERTaベースドなclassifierを用いて、sentencesから内包するAspectを閾値を用いて決定
　　　　　それらをgrouped sentencesとする
two-stage: 各aspectごとにまとまったテキスト集合に対して、要約モデルを適用し、要約を実施する
・要約モデルはUnsupervisedな手法であるTextRankと、Supervisedな手法であるBERTベースな手法を採用
・ドメインごとに評価した結果を見ると、BERTが強いドメインがある一方で、TextRankが強いドメインもあった
　-> Extractiveな形で要約されているドメインではTextRankが強く、Abstractiveに要約されているドメインではBERTが強い
　-> またBERTは比較的短い要約であればTextRankよりもはるかに良いが、長い要約文になるとTextRankとcomprable（あるいはTextRankの方が良い）程度の性能になる
・ROUGE-2の値がsentence-basedなORACLEを見た時に、他データセットと比較して低いので、Abstractiveな手法が必要なデータセット？

（後からのメモなので少しうろ覚えな部分あり）

AkihikoWatanabe · 2021-10-20T03:50:56Z

Q. ROUGE-2が30とかって直観的にどのくらいのレベルのものなの？ROUGE-2が30とか40とかは高い
・最先端の要約モデルをニュース記事に適用すると、35~40くらいになる。
・このレベルの数値になると、人間が呼んでも違和感がないレベルの要約となっている

AkihikoWatanabe · 2021-10-20T03:55:45Z

Q. 実際に要約文をチェックしてみて、どういう課題を感じるか？
A. Factual Consistencyがすぐに目につく問題で、特にBERTベースな要約文はそう。TextRankはソース文書がノイジーなので、ソース文章を適当に拾ってきただけではFactual Consistencyが良くない（元の文書がかっちりしていない）。流暢性の問題はAbstractiveモデルだと特に問題なくBERT-baseでできる。Aspect-based要約のエラー例としてAspectに則っていないということがある。たとえばオバマの大統領時代の話をきいているのに、幼少時代の話をしているとか。Aspect情報をうまくモデルを扱えていないという点が課題としてある。

AkihikoWatanabe added Dataset NLP Tutorial DocumentSummarization labels Oct 20, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム #412

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム #412

AkihikoWatanabe commented Oct 20, 2021

AkihikoWatanabe commented Oct 20, 2021 •

edited

AkihikoWatanabe commented Oct 20, 2021

AkihikoWatanabe commented Oct 20, 2021

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム #412

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム #412

Comments

AkihikoWatanabe commented Oct 20, 2021

AkihikoWatanabe commented Oct 20, 2021 • edited

AkihikoWatanabe commented Oct 20, 2021

AkihikoWatanabe commented Oct 20, 2021

AkihikoWatanabe commented Oct 20, 2021 •

edited