You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Automatically evaluating the quality of language generation is critical.Although recent learned metrics show high correlation with human judgement,these metrics can not explain their verdict or associate the scores withdefects in generated text. To address this limitation, we presentInstructScore, an explainable evaluation metric for text generation. Byharnessing both explicit human instruction and the implicit knowledge of GPT-4,we fine-tune a text evaluation metric based on LLaMA, producing both a scorefor generated text and a human readable diagnostic report. We evaluateInstructScore on a variety of generation tasks, including translation,captioning, data-to-text and commonsense generation. Experiments show that our7B model surpasses all other unsupervised metrics, including those based on175B GPT-3 and GPT-4. Surprisingly, our InstructScore, even without directsupervision from human-rated data, achieves performance levels on par withstate-of-the-art metrics like COMET22, which were fine-tuned on human ratings.
AkihikoWatanabe
changed the title
あ
INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback, Wenda Xu+, N/A, arXiv'23
Jan 25, 2024
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
最近の学習済みメトリクスは人間の判断と高い相関を示していますが、
これらのメトリクスはその判定を説明したり、生成されたテキストの欠陥とスコアを関連付けることができません。
この制限に対処するために、私たちはInstructScoreという説明可能なテキスト生成の評価メトリクスを提案します。
明示的な人間の指示とGPT-4の暗黙の知識の両方を活用することで、LLaMAに基づいたテキスト評価メトリクスを微調整し、生成されたテキストのスコアと人間が読める診断レポートを生成します。
翻訳、キャプション、データからテキストへの変換、常識的な生成など、さまざまな生成タスクでInstructScoreを評価します。
実験の結果、私たちの7Bモデルは、175BのGPT-3やGPT-4を含む他の非教師ありメトリクスを上回ります。
驚くべきことに、InstructScoreは直接の人間による評価データの監督なしでも、COMET22などの最先端のメトリクスと同等のパフォーマンスレベルを達成します。これらのメトリクスは人間の評価に基づいて微調整されています。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: