Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Automatically Assessing Machine Summary Content Without a Gold Standard, Louis+(w/ Nenkova), ACL'13 #1016

Open
AkihikoWatanabe opened this issue Aug 23, 2023 · 2 comments

Comments

@AkihikoWatanabe
Copy link
Owner

https://aclanthology.org/J13-2002.pdf

@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Aug 23, 2023

The most widely adopted approaches for evaluation of summary content follow some protocol for comparing a summary with gold-standard human summaries, which are traditionally called model summaries. This evaluation paradigm falls short when human summaries are not available and becomes less accurate when only a single model is available. We propose three novel evaluation techniques. Two of them are model-free and do not rely on a gold standard for the assessment. The third technique improves standard automatic evaluations by expanding the set of available model summaries with chosen system summaries. We show that quantifying the similarity between the source text and its summary with appropriately chosen measures produces summary scores which replicate human assessments accurately. We also explore ways of increasing evaluation quality when only one human model summary is available as a gold standard. We introduce pseudomodels, which are system summaries deemed to contain good content according to automatic evaluation. Combining the pseudomodels with the single human model to form the gold-standard leads to higher correlations with human judgments compared to using only the one available model. Finally, we explore the feasibility of another measure—similarity between a system summary and the pool of all other system summaries for the same input. This method of comparison with the consensus of systems produces impressively accurate rankings of system summaries, achieving correlation with human rankings above 0.9.

Translation (by gpt-3.5-turbo)

  • 要約内容の評価において、最も広く採用されているアプローチは、要約とゴールドスタンダードの人間の要約(通常はモデル要約と呼ばれる)を比較するためのプロトコルに従うものです。しかし、この評価パラダイムは、人間の要約が利用できない場合や、単一のモデルしか利用できない場合には不十分であり、正確性も低下します。本研究では、3つの新しい評価技術を提案します。そのうち2つはモデルに依存せず、評価のためのゴールドスタンダードを必要としません。第3の技術は、選択されたシステム要約を利用して利用可能なモデル要約のセットを拡張することで、標準的な自動評価を改善します。適切に選択された尺度を用いて、元のテキストとその要約との類似性を定量化することで、要約スコアを人間の評価と正確に再現することを示します。また、単一のヒューマンモデル要約がゴールドスタンダードとして利用可能な場合に、評価の品質を向上させる方法についても探求します。自動評価によれば、良い内容を含むと判断されるシステム要約である擬似モデルを導入します。擬似モデルを単一のヒューマンモデルと組み合わせてゴールドスタンダードを形成することで、利用可能なモデルのみを使用する場合と比べて、人間の判断との相関が高くなります。最後に、同じ入力に対する他のすべてのシステム要約との類似性を比較する別の尺度の実現可能性についても探求します。システムの合意に基づく比較方法は、システム要約の驚くほど正確なランキングを実現し、人間のランキングとの相関係数が0.9以上になります。

Summary (by gpt-3.5-turbo)

  • 本研究では、要約の評価において新しい技術を提案しています。これにより、人間の要約が利用できない場合や、単一のモデルしか利用できない場合でも正確な評価が可能となります。具体的には、モデルに依存しない評価技術や、システム要約の類似性を定量化する尺度などを提案しています。これにより、要約の評価を人間の評価と正確に再現することができます。また、擬似モデルを導入することで、利用可能なモデルのみを使用する場合よりも人間の判断との相関が高くなることも示しています。さらに、システム要約のランキング方法についても探求しており、驚くほど正確なランキングが可能となります。

@AkihikoWatanabe
Copy link
Owner Author

メタ評価の具体的な手順について知りたければこの研究を読むべし

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant