-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, EMNLP'23 #1223
Comments
AkihikoWatanabe
changed the title
あ
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, arXiv'23
Jan 25, 2024
伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究 |
AkihikoWatanabe
changed the title
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, arXiv'23
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, EMNLP'23
Apr 28, 2024
評価
評価結果G-EVALがbaselineをoutperformし、特にGPT4を利用した場合に性能が高い。GPTScoreを利用した場合に、モデルを何を使用したのかが書かれていない。Appendixに記述されているのだろうか。 |
AnalysisG-EvalがLLMが生成したテキストを好んで高いスコアを付与してしまうか?
CoTの影響
Probability Normalizationによる影響
モデルサイズによる影響
|
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
従来の参照ベースの評価指標(BLEUやROUGEなど)は、特に創造性と多様性が必要なタスクにおいて、人間の判断との相関が比較的低いことが示されています。
最近の研究では、人間の参照がない新しいタスクにも適用可能な大規模言語モデル(LLMs)をNLG評価のための参照ベースの指標として使用することが提案されています。
しかし、これらのLLMベースの評価器は、中規模のニューラル評価器よりも人間との一致度が低いままです。
本研究では、チェーンオブソート(CoT)とフォームフィリングのパラダイムを使用した大規模言語モデルを用いたNLG出力の品質評価フレームワークであるG-Evalを提案します。
テキスト要約と対話生成の2つの生成タスクで実験を行いました。
G-Evalは、バックボーンモデルとしてGPT-4を使用し、要約タスクで人間とのスピアマン相関係数0.514を達成し、これまでのすべての手法を大幅に上回りました。
また、LLMベースの評価器の振る舞いに関する予備的な分析を提案し、LLM生成テキストに対してバイアスを持つ可能性のあるLLMベースの評価器の潜在的な問題を強調しています。
コードはhttps://github.com/nlpyang/gevalにあります。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: