You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Evaluating large language model (LLM) based chat assistants is challengingdue to their broad capabilities and the inadequacy of existing benchmarks inmeasuring human preferences. To address this, we explore using strong LLMs asjudges to evaluate these models on more open-ended questions. We examine theusage and limitations of LLM-as-a-judge, including position, verbosity, andself-enhancement biases, as well as limited reasoning ability, and proposesolutions to mitigate some of them. We then verify the agreement between LLMjudges and human preferences by introducing two benchmarks: MT-bench, amulti-turn question set; and Chatbot Arena, a crowdsourced battle platform. Ourresults reveal that strong LLM judges like GPT-4 can match both controlled andcrowdsourced human preferences well, achieving over 80% agreement, the samelevel of agreement between humans. Hence, LLM-as-a-judge is a scalable andexplainable way to approximate human preferences, which are otherwise veryexpensive to obtain. Additionally, we show our benchmark and traditionalbenchmarks complement each other by evaluating several variants of LLaMA andVicuna. We will publicly release MT-bench questions, 3K expert votes, and 30Kconversations with human preferences from Chatbot Arena.
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
これに対処するために、よりオープンエンドの質問に対してこれらのモデルを評価するために、強力なLLMを判定者として使用することを検討します。
LLM-as-a-judgeの使用法と制限、位置、冗長性、自己強化バイアス、限られた推論能力などの問題を検討し、それらのいくつかを軽減するための解決策を提案します。
その後、2つのベンチマークを導入して、LLMの判定者と人間の好みの一致を検証します:MT-bench(マルチターンの質問セット)とChatbot Arena(クラウドソーシングされたバトルプラットフォーム)。
結果は、GPT-4などの強力なLLM判定者が制御された状況とクラウドソーシングされた人間の好みの両方とよく一致し、80%以上の一致度を達成することを明らかにしました。これは、人間の好みを近似するためのスケーラブルで説明可能な方法であり、それを得るのは非常に高価です。
さらに、私たちはベンチマークと従来のベンチマークが相補的であることを示し、LLaMAとVicunaのいくつかのバリアントを評価します。
MT-benchの質問、3,000の専門家の投票、およびChatbot Arenaからの30,000の人間の好みを持つ会話を公開します。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: