Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL'21 #953

Open
AkihikoWatanabe opened this issue Aug 13, 2023 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00397/106792/Towards-Question-Answering-as-an-Automatic-Metric

@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Aug 13, 2023

A desirable property of a reference-based evaluation metric that measures the content quality of a summary is that it should estimate how much information that summary has in common with a reference. Traditional text overlap based metrics such as ROUGE fail to achieve this because they are limited to matching tokens, either lexically or via embeddings. In this work, we propose a metric to evaluate the content quality of a summary using question-answering (QA). QA-based methods directly measure a summary’s information overlap with a reference, making them fundamentally different than text overlap metrics. We demonstrate the experimental benefits of QA-based metrics through an analysis of our proposed metric, QAEval. QAEval outperforms current state-of-the-art metrics on most evaluations using benchmark datasets, while being competitive on others due to limitations of state-of-the-art models. Through a careful analysis of each component of QAEval, we identify its performance bottlenecks and estimate that its potential upper-bound performance surpasses all other automatic metrics, approaching that of the gold-standard Pyramid Method.

Translation (by gpt-3.5-turbo)

  • 要約の内容の品質を測定する参照ベースの評価指標の望ましい特性の1つは、その要約が参照とどれだけ情報を共有しているかを推定することです。従来のテキストの重複に基づく指標(ROUGEなど)は、トークンの一致に限定されているため、この目標を達成できません。本研究では、質問応答(QA)を使用して要約の内容の品質を評価する指標を提案します。QAベースの方法は、要約と参照の情報の重複を直接測定するため、テキストの重複に基づく指標とは根本的に異なります。提案された指標であるQAEvalの実験的な利点を示し、ベンチマークデータセットを使用した評価において、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを発揮します。最先端のモデルの制約により、他の評価では競争力を持っています。QAEvalの各構成要素を注意深く分析することで、パフォーマンスのボトルネックを特定し、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定されます。

Summary (by gpt-3.5-turbo)

  • 要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答(QA)を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant