You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Practical applications of abstractive summarization models are limited by frequent factual inconsistencies with respect to their input. Existing automatic evaluation metrics for summarization are largely insensitive to such errors. We propose QAGS (pronounced “kags”), an automatic evaluation protocol that is designed to identify factual inconsistencies in a generated summary. QAGS is based on the intuition that if we ask questions about a summary and its source, we will receive similar answers if the summary is factually consistent with the source. To evaluate QAGS, we collect human judgments of factual consistency on model-generated summaries for the CNN/DailyMail (Hermann et al., 2015) and XSUM (Narayan et al., 2018) summarization datasets. QAGS has substantially higher correlations with these judgments than other automatic evaluation metrics. Also, QAGS offers a natural form of interpretability: The answers and questions generated while computing QAGS indicate which tokens of a summary are inconsistent and why. We believe QAGS is a promising tool in automatically generating usable and factually consistent text. Code for QAGS will be available at https://github.com/W4ngatang/qags.
Translation (by gpt-3.5-turbo)
抽象的な要約モデルの実用的な応用は、入力に対する頻繁な事実の不整合によって制限されています。要約のための既存の自動評価指標は、このようなエラーに対してほとんど感度がありません。私たちは、生成された要約の事実の不整合を特定するために設計された自動評価プロトコルであるQAGS(発音は「kags」)を提案します。QAGSは、要約とそのソースについて質問をすると、要約がソースと事実的に整合している場合は類似の回答が得られるという直感に基づいています。QAGSを評価するために、CNN/DailyMail(Hermann et al.、2015)およびXSUM(Narayan et al.、2018)の要約データセットにおいて、モデル生成の要約の事実的整合性に関する人間の判断を収集しました。QAGSは、他の自動評価指標と比較して、これらの判断とはるかに高い相関を持っています。また、QAGSは自然な解釈可能性を提供します。QAGSを計算する際に生成される回答と質問は、要約のどのトークンが整合性がなくなっているのか、そしてなぜなのかを示しています。私たちは、QAGSが使いやすく事実的に整合したテキストを自動的に生成するための有望なツールであると考えています。QAGSのコードはhttps://github.com/W4ngatang/qagsで利用可能です。
https://aclanthology.org/2020.acl-main.450/
The text was updated successfully, but these errors were encountered: