You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Large language models (LLMs) have shown promise for automatic summarizationbut the reasons behind their successes are poorly understood. By conducting ahuman evaluation on ten LLMs across different pretraining methods, prompts, andmodel scales, we make two important observations. First, we find instructiontuning, and not model size, is the key to the LLM's zero-shot summarizationcapability. Second, existing studies have been limited by low-qualityreferences, leading to underestimates of human performance and lower few-shotand finetuning performance. To better evaluate LLMs, we perform humanevaluation over high-quality summaries we collect from freelance writers.Despite major stylistic differences such as the amount of paraphrasing, we findthat LMM summaries are judged to be on par with human written summaries.
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行うことで、2つの重要な観察結果を得ました。
まず、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかりました。
第二に、既存の研究は低品質な参照によって制限されており、人間のパフォーマンスの過小評価や、少数ショットおよびファインチューニングのパフォーマンスの低下をもたらしています。
LLMsをより良く評価するために、フリーランスのライターから収集した高品質な要約に対する人間の評価を行います。
大幅なスタイルの違い(たとえば、言い換えの量など)にもかかわらず、LLMの要約は人間の執筆した要約と同等と判断されました。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: