Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP'15 #145

AkihikoWatanabe · 2018-01-01T03:08:21Z

http://aclweb.org/anthology/D/D15/D15-1013.pdf

AkihikoWatanabe · 2018-01-01T03:20:02Z

文書要約で使用されているMetric、特にBLEUやROUGEの結果（可能な１９２のパターン）と、人手の結果との相関を再分析している。
その結果、�BLEUがもっとも人手評価との相関が高く、ROUGE-2のPrecisionの平均(ステミング、stop words除去)がROUGEの中でbest-performingなvariantだった。

要約のMetrcの最適な検定方法として、Williams検定を利用。
再評価の結果、以前推奨されていたvariantとは異なるMetricsが良い結果に。
best-performing ROUGE resultを用いて、既存のstate-of-the-artなシステムを再度ランキングづけすると、originalのものとは結構異なる結果になった。

（一部のスコアが良かったシステムのスコアが相対的にかなり悪化している）

また、BLEUが人手評価ともっとも高い相関を示したが、best-performingなROUGE variantとは統計的な有意差はなかった。

AkihikoWatanabe added DocumentSummarization Metrics NLP labels Jan 1, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP'15 #145

Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP'15 #145

AkihikoWatanabe commented Jan 1, 2018

AkihikoWatanabe commented Jan 1, 2018 •

edited

Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP'15 #145

Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP'15 #145

Comments

AkihikoWatanabe commented Jan 1, 2018

AkihikoWatanabe commented Jan 1, 2018 • edited

AkihikoWatanabe commented Jan 1, 2018 •

edited