You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
We posit that to achieve superhuman agents, future models require superhumanfeedback in order to provide an adequate training signal. Current approachescommonly train reward models from human preferences, which may then bebottlenecked by human performance level, and secondly these separate frozenreward models cannot then learn to improve during LLM training. In this work,we study Self-Rewarding Language Models, where the language model itself isused via LLM-as-a-Judge prompting to provide its own rewards during training.We show that during Iterative DPO training that not only does instructionfollowing ability improve, but also the ability to provide high-quality rewardsto itself. Fine-tuning Llama 2 70B on three iterations of our approach yields amodel that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,this work opens the door to the possibility of models that can continuallyimprove in both axes.
将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。
The text was updated successfully, but these errors were encountered:
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
現在のアプローチでは、一般的に人間の好みから報酬モデルをトレーニングし、その後、人間のパフォーマンスレベルによってボトルネックが発生する可能性があります。さらに、これらの別々の凍結された報酬モデルは、LLMのトレーニング中に改善することができません。
本研究では、トレーニング中に言語モデル自体が自己報酬を提供するために使用されるSelf-Rewarding Language Modelsを研究しています。LLM-as-a-Judgeプロンプトを介して言語モデル自体が自己報酬を提供します。
イテレーティブDPOトレーニング中に、指示の従う能力だけでなく、高品質な報酬を自己に提供する能力も向上することを示します。
Llama 2 70Bを3回のイテレーションで私たちのアプローチによって微調整すると、AlpacaEval 2.0のリーダーボードでClaude 2、Gemini Pro、GPT-4 0613を含む多くの既存のシステムを上回るモデルが得られます。
これはまだ予備的な研究ですが、この研究は、両方の軸で継続的に改善できるモデルの可能性を示しています。
Summary (by gpt-3.5-turbo)
The text was updated successfully, but these errors were encountered: