Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N/A, arXiv'23 #1304

Open
AkihikoWatanabe opened this issue May 15, 2024 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented May 15, 2024

URL

Affiliations

  • Tianyi Zhang, N/A
  • Faisal Ladhak, N/A
  • Esin Durmus, N/A
  • Percy Liang, N/A
  • Kathleen McKeown, N/A
  • Tatsunori B. Hashimoto, N/A

Abstract

  • Large language models (LLMs) have shown promise for automatic summarizationbut the reasons behind their successes are poorly understood. By conducting ahuman evaluation on ten LLMs across different pretraining methods, prompts, andmodel scales, we make two important observations. First, we find instructiontuning, and not model size, is the key to the LLM's zero-shot summarizationcapability. Second, existing studies have been limited by low-qualityreferences, leading to underestimates of human performance and lower few-shotand finetuning performance. To better evaluate LLMs, we perform humanevaluation over high-quality summaries we collect from freelance writers.Despite major stylistic differences such as the amount of paraphrasing, we findthat LMM summaries are judged to be on par with human written summaries.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)は自動要約において有望性を示していますが、その成功の理由はあまり理解されていません。
    異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行うことで、2つの重要な観察結果を得ました。
    まず、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかりました。
    第二に、既存の研究は低品質な参照によって制限されており、人間のパフォーマンスの過小評価や、少数ショットおよびファインチューニングのパフォーマンスの低下をもたらしています。
    LLMsをより良く評価するために、フリーランスのライターから収集した高品質な要約に対する人間の評価を行います。
    大幅なスタイルの違い(たとえば、言い換えの量など)にもかかわらず、LLMの要約は人間の執筆した要約と同等と判断されました。

Summary (by gpt-3.5-turbo)

  • LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。
@AkihikoWatanabe AkihikoWatanabe changed the title a Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N/A, arXiv'23 May 15, 2024
@AkihikoWatanabe
Copy link
Owner Author

  • ニュース記事の高品質な要約を人間に作成してもらい、gpt-3.5を用いてLLM-basedな要約も生成
  • annotatorにそれぞれの要約の品質をスコアリングさせたデータセットを作成

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant