Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, EMNLP'23 #1223

Open
AkihikoWatanabe opened this issue Jan 25, 2024 · 5 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jan 25, 2024

URL

Affiliations

  • Yang Liu, N/A
  • Dan Iter, N/A
  • Yichong Xu, N/A
  • Shuohang Wang, N/A
  • Ruochen Xu, N/A
  • Chenguang Zhu, N/A

Abstract

  • The quality of texts generated by natural language generation (NLG) systemsis hard to measure automatically. Conventional reference-based metrics, such asBLEU and ROUGE, have been shown to have relatively low correlation with humanjudgments, especially for tasks that require creativity and diversity. Recentstudies suggest using large language models (LLMs) as reference-free metricsfor NLG evaluation, which have the benefit of being applicable to new tasksthat lack human references. However, these LLM-based evaluators still havelower human correspondence than medium-size neural evaluators. In this work, wepresent G-Eval, a framework of using large language models withchain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality ofNLG outputs. We experiment with two generation tasks, text summarization anddialogue generation. We show that G-Eval with GPT-4 as the backbone modelachieves a Spearman correlation of 0.514 with human on summarization task,outperforming all previous methods by a large margin. We also proposepreliminary analysis on the behavior of LLM-based evaluators, and highlight thepotential issue of LLM-based evaluators having a bias towards the LLM-generatedtexts. The code is at https://github.com/nlpyang/geval

Translation (by gpt-3.5-turbo)

  • 自然言語生成(NLG)システムによって生成されたテキストの品質を自動的に測定することは困難です。
    従来の参照ベースの評価指標(BLEUやROUGEなど)は、特に創造性と多様性が必要なタスクにおいて、人間の判断との相関が比較的低いことが示されています。
    最近の研究では、人間の参照がない新しいタスクにも適用可能な大規模言語モデル(LLMs)をNLG評価のための参照ベースの指標として使用することが提案されています。
    しかし、これらのLLMベースの評価器は、中規模のニューラル評価器よりも人間との一致度が低いままです。
    本研究では、チェーンオブソート(CoT)とフォームフィリングのパラダイムを使用した大規模言語モデルを用いたNLG出力の品質評価フレームワークであるG-Evalを提案します。
    テキスト要約と対話生成の2つの生成タスクで実験を行いました。
    G-Evalは、バックボーンモデルとしてGPT-4を使用し、要約タスクで人間とのスピアマン相関係数0.514を達成し、これまでのすべての手法を大幅に上回りました。
    また、LLMベースの評価器の振る舞いに関する予備的な分析を提案し、LLM生成テキストに対してバイアスを持つ可能性のあるLLMベースの評価器の潜在的な問題を強調しています。
    コードはhttps://github.com/nlpyang/gevalにあります。

Summary (by gpt-3.5-turbo)

  • 従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル(LLMs)を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。
@AkihikoWatanabe AkihikoWatanabe changed the title G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, arXiv'23 Jan 25, 2024
@AkihikoWatanabe
Copy link
Owner Author

伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究

@AkihikoWatanabe AkihikoWatanabe changed the title G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, arXiv'23 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, EMNLP'23 Apr 28, 2024
@AkihikoWatanabe
Copy link
Owner Author

手法概要

  • CoTを利用して、生成されたテキストの品質を評価する手法を提案している。
  • タスクのIntroductionと、評価のCriteriaをプロンプトに仕込むだけで、自動的にLLMに評価ステップに関するCoTを生成させ、最終的にフォームを埋める形式でスコアをテキストとして生成させ評価を実施する。最終的に、各スコアの生成確率によるweighted-sumによって、最終スコアを決定する。
    image

@AkihikoWatanabe
Copy link
Owner Author

Scoringの問題点

たとえば、1-5のdiscreteなスコアを直接LLMにoutputさせると、下記のような問題が生じる:

  1. ある一つのスコアが支配的になってしまい、スコアの分散が無く、人間の評価との相関が低くなる
  2. LLMは小数を出力するよう指示しても、大抵の場合整数を出力するため、多くのテキストの評価値が同一となり、生成されたテキストの細かな差異を評価に取り入れることができない。

上記を解決するため、下記のように、スコアトークンの生成確率の重みづけ和をとることで、最終的なスコアを算出している。
image

@AkihikoWatanabe
Copy link
Owner Author

評価

  • SummEval SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 #984 データと、Topical-Chat, QAGSデータの3つのベンチマークで評価を実施した。タスクとしては、要約と対話のresponse generationのデータとなる。
  • モデルはGPT-3.5 (text-davinci-003), GPT-4を利用した
  • gpt3.5利用時は、temperatureは0に設定し、GPT-4はトークンの生成確率を返さないので、n=20, temperature=1, top_p=1とし、20回の生成結果からトークンの出現確率を算出した。

評価結果

G-EVALがbaselineをoutperformし、特にGPT4を利用した場合に性能が高い。GPTScoreを利用した場合に、モデルを何を使用したのかが書かれていない。Appendixに記述されているのだろうか。
image
image
image

@AkihikoWatanabe
Copy link
Owner Author

Analysis

G-EvalがLLMが生成したテキストを好んで高いスコアを付与してしまうか?

  • 人間に品質の高いニュース記事要約を書かせ、アノテータにGPTが生成した要約を比較させたデータ (Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N/A, arXiv'23 #1304) を用いて検証
  • その結果、基本的にGPTが生成した要約に対して、G-EVAL4が高いスコアを付与する傾向にあることがわかった。
    • 原因1: #1304で指摘されている通り、人間が記述した要約とLLMが記述した要約を区別するタスクは、inter-annotator agreementは0.07であり、極端に低く、人間でも困難なタスクであるため。
    • 原因2: LLMは生成時と評価時に、共通したコンセプトをモデル内部で共有している可能性が高く、これがLLMが生成した要約を高く評価するバイアスをかけた

image

CoTの影響

  • SummEvalデータにおいて、CoTの有無による性能の差を検証した結果、CoTを導入した場合により高いcorrelationを獲得した。特に、Fluencyへの影響が大きい。

Probability Normalizationによる影響

  • probabilityによるnormalizationを導入したことで、kendall tauが減少した。この理由は、probabilityが導入されていない場合は多くの引き分けを生み出す。一方、kendall tauは、concordant / discordantペアの数によって決定されるが、引き分けの場合はどちらにもカウントされず、kendall tauの値を押し上げる効果がある。このため、これはモデルの真の性能を反映していない。
  • 一方、probabilityを導入すると、より細かいな連続的なスコアを獲得することができ、これはspearman-correlationの向上に反映されている。

モデルサイズによる影響

  • 基本的に大きいサイズの方が高いcorrelationを示す。特に、consistencyやrelevanceといった、複雑な評価タスクではその差が顕著である。
  • 一方モデルサイズが小さい方が性能が良い観点(engagingness, groundedness)なども存在した。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant