Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Self-Rewarding Language Models, Weizhe Yuan+, N/A, arXiv'24 #1212

Open
AkihikoWatanabe opened this issue Jan 22, 2024 · 1 comment
Open

Self-Rewarding Language Models, Weizhe Yuan+, N/A, arXiv'24 #1212

AkihikoWatanabe opened this issue Jan 22, 2024 · 1 comment
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jan 22, 2024

URL

Affiliations

  • Weizhe Yuan, N/A
  • Richard Yuanzhe Pang, N/A
  • Kyunghyun Cho, N/A
  • Sainbayar Sukhbaatar, N/A
  • Jing Xu, N/A
  • Jason Weston, N/A

Abstract

  • We posit that to achieve superhuman agents, future models require superhumanfeedback in order to provide an adequate training signal. Current approachescommonly train reward models from human preferences, which may then bebottlenecked by human performance level, and secondly these separate frozenreward models cannot then learn to improve during LLM training. In this work,we study Self-Rewarding Language Models, where the language model itself isused via LLM-as-a-Judge prompting to provide its own rewards during training.We show that during Iterative DPO training that not only does instructionfollowing ability improve, but also the ability to provide high-quality rewardsto itself. Fine-tuning Llama 2 70B on three iterations of our approach yields amodel that outperforms many existing systems on the AlpacaEval 2.0 leaderboard,including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study,this work opens the door to the possibility of models that can continuallyimprove in both axes.

Translation (by gpt-3.5-turbo)

  • 将来のモデルが超人的なエージェントを実現するためには、適切なトレーニング信号を提供するために超人的なフィードバックが必要であると考えています。
    現在のアプローチでは、一般的に人間の好みから報酬モデルをトレーニングし、その後、人間のパフォーマンスレベルによってボトルネックが発生する可能性があります。さらに、これらの別々の凍結された報酬モデルは、LLMのトレーニング中に改善することができません。
    本研究では、トレーニング中に言語モデル自体が自己報酬を提供するために使用されるSelf-Rewarding Language Modelsを研究しています。LLM-as-a-Judgeプロンプトを介して言語モデル自体が自己報酬を提供します。
    イテレーティブDPOトレーニング中に、指示の従う能力だけでなく、高品質な報酬を自己に提供する能力も向上することを示します。
    Llama 2 70Bを3回のイテレーションで私たちのアプローチによって微調整すると、AlpacaEval 2.0のリーダーボードでClaude 2、Gemini Pro、GPT-4 0613を含む多くの既存のシステムを上回るモデルが得られます。
    これはまだ予備的な研究ですが、この研究は、両方の軸で継続的に改善できるモデルの可能性を示しています。

Summary (by gpt-3.5-turbo)

  • 将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。
@AkihikoWatanabe AkihikoWatanabe changed the title Self-Rewarding Language Models, Weizhe Yuan+, N/A, arXiv'24 Jan 22, 2024
@AkihikoWatanabe
Copy link
Owner Author

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant