Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation, Steen+, EACL'21 #981

Open
AkihikoWatanabe opened this issue Aug 13, 2023 · 2 comments

Comments

@AkihikoWatanabe
Copy link
Owner

https://aclanthology.org/2021.eacl-main.160/

@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Aug 13, 2023

Manual evaluation is essential to judge progress on automatic text summarization. However, we conduct a survey on recent summarization system papers that reveals little agreement on how to perform such evaluation studies. We conduct two evaluation experiments on two aspects of summaries’ linguistic quality (coherence and repetitiveness) to compare Likert-type and ranking annotations and show that best choice of evaluation method can vary from one aspect to another. In our survey, we also find that study parameters such as the overall number of annotators and distribution of annotators to annotation items are often not fully reported and that subsequent statistical analysis ignores grouping factors arising from one annotator judging multiple summaries. Using our evaluation experiments, we show that the total number of annotators can have a strong impact on study power and that current statistical analysis methods can inflate type I error rates up to eight-fold. In addition, we highlight that for the purpose of system comparison the current practice of eliciting multiple judgements per summary leads to less powerful and reliable annotations given a fixed study budget.

Translation (by gpt-3.5-turbo)

  • 自動テキスト要約の進歩を判断するためには、手動評価が重要です。しかし、私たちは最近の要約システムの論文に関する調査を行い、その評価研究の方法についてはほとんど合意がないことがわかりました。私たちは、要約の言語的品質(一貫性と繰り返し)の2つの側面について評価実験を2つ実施し、Likert型とランキングの注釈を比較して、最適な評価方法は側面によって異なることを示しました。調査では、アノテーターの総数やアノテーターの注釈項目への分布などの研究パラメータが十分に報告されていないこと、および後続の統計分析が1人のアノテーターが複数の要約を判断することから生じるグループ化要因を無視していることもわかりました。評価実験を使用して、総アノテーター数が研究のパワーに強い影響を与えること、および現在の統計分析方法がタイプIエラー率を最大8倍に膨らませる可能性があることを示しました。さらに、システムの比較の目的において、要約ごとに複数の判断を求める現行の方法は、固定された研究予算の下ではパワフルで信頼性のある注釈を提供しないことを強調しています。

Summary (by gpt-3.5-turbo)

  • 要約システムの評価方法についての調査結果を報告しました。要約の言語的品質についての評価実験を行い、最適な評価方法は側面によって異なることを示しました。また、研究パラメータや統計分析方法についても問題点を指摘しました。さらに、現行の方法では固定された研究予算の下では信頼性のある注釈を提供できないことを強調しました。

@AkihikoWatanabe
Copy link
Owner Author

要約の人手評価に対する研究

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant