Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization, Gao+, ACL'20 #945

Open
AkihikoWatanabe opened this issue Aug 13, 2023 · 3 comments

Comments

@AkihikoWatanabe
Copy link
Owner

https://aclanthology.org/2020.acl-main.124/

@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Aug 13, 2023

We study unsupervised multi-document summarization evaluation metrics, which require neither human-written reference summaries nor human annotations (e.g. preferences, ratings, etc.). We propose SUPERT, which rates the quality of a summary by measuring its semantic similarity with a pseudo reference summary, i.e. selected salient sentences from the source documents, using contextualized embeddings and soft token alignment techniques. Compared to the state-of-the-art unsupervised evaluation metrics, SUPERT correlates better with human ratings by 18- 39%. Furthermore, we use SUPERT as rewards to guide a neural-based reinforcement learning summarizer, yielding favorable performance compared to the state-of-the-art unsupervised summarizers. All source code is available at https://github.com/yg211/acl20-ref-free-eval.

Translation (by gpt-3.5-turbo)

  • この研究では、人間による参照要約や人間の注釈(好み、評価など)を必要としない、教師なしの複数文書要約評価メトリックスについて調査しています。
    私たちは、SUPERTという手法を提案しています。この手法は、ソースドキュメントから選択された重要な文を擬似的な参照要約として使用し、文脈化埋め込みとソフトトークンアラインメント技術を用いて、要約の品質を測定するための意味的な類似性を評価します。
    従来の教師なし評価メトリックスと比較して、SUPERTは人間の評価とより良い相関を示し、18〜39%向上させることができます。
    さらに、SUPERTを報酬として使用してニューラルベースの強化学習要約器をガイドすることで、従来の教師なし要約器と比較して有利なパフォーマンスを実現しています。
    すべてのソースコードはhttps://github.com/yg211/acl20-ref-free-evalで入手可能です。

Summary (by gpt-3.5-turbo)

  • この研究では、教師なしの複数文書要約評価メトリックスについて調査しています。提案手法SUPERTは、擬似的な参照要約として選択された重要な文を使用し、文脈化埋め込みとソフトトークンアラインメント技術を用いて要約の品質を評価します。SUPERTは従来の教師なし評価メトリックスよりも人間の評価との相関が高く、18〜39%の向上が見られます。また、SUPERTを報酬として使用してニューラルベースの強化学習要約器をガイドすることで、有利なパフォーマンスを実現しています。ソースコードはGitHubで入手可能です。

@AkihikoWatanabe
Copy link
Owner Author

pseudo-reference summaryを作成し、referenceに対してSBERTを適用しsystem-reference間の類似度を測ることで、unsupervisedに複数文書要約を評価する手法。

まずTACのデータに対して、既存研究(single document summarizationの評価用に提案された手法)を適用し、Human Ratingsとの相関が低いことを確認している。この時、Referenceを用いる手法(ROUGE、MoverScore)の相関をUpper Boundとし、Upper Boundに及ばないことを確認している。また、既存研究よりもシンプルなJS Divergence等を用いるlexical basedな手法の相関が高かったことも確認している。
続いて、unsupervisedな手法として、contextualなembeddingを利用し(BERT, SBERT等)source, system summary間の類似度を測る手法で相関を測ったところ、こちらでもUpper Boundに及ばないこと、シンプルな手法に及ばないことを確認。これら手法にWMDを応用するすることで相関が向上することを確認した。
これらのことより、Referenceがある場合、無い場合の両者においてWMDを用いる手法が有効であることが確認できたが、Referenceの有無によって相関に大きな差が生まれていることが確認できた。このことから、何らかの形でReferenceが必要であり、pseudo referenceを生成し利用することを着想した、というストーリーになっている。

@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Jan 17, 2024

pseudo referenceを生成する方法として、top Nのリード文を抽出する手法や、LexRankのようなGraphBasedな手法を利用してTACデータにおいてどのような手法が良いかを検証している。この結果、TAC8,9の場合はTop 10,15のsentenceをpseudo referenceとした場合が最も良かった。

細かいところまで読みきれていないが、自身が要約したい文書群においてどの方法でpseudo referenceを生成するかは、Referenceがないと判断できないと考えられるため、その点は課題だと考えられる。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant