You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. “Training language models to follow instructions with human feedback.” arXiv [cs.CL]. https://arxiv.org/abs/2203.02155
Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not aligned with their users. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning. We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback. We call the resulting models InstructGPT. In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters. Moreover, InstructGPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets. Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for aligning language models with human intent.
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. “Training language models to follow instructions with human feedback.” arXiv [cs.CL]. https://arxiv.org/abs/2203.02155
Abstract
(DeepL翻訳)
言語モデルを大きくしても、ユーザーの意図に沿うようになるとは限りません。例えば、大きな言語モデルは、真実味のない、有害な、あるいは単にユーザーにとって役に立たない出力を生成することがあります。言い換えれば、これらのモデルはユーザーと一致していないのである。本論文では、人間のフィードバックを用いて微調整を行うことで、様々なタスクにおいて言語モデルをユーザーの意図に沿うようにする方法を示す。まず、ラベラーが書いたプロンプトとOpenAI APIを通じて送信されたプロンプトのセットから始め、我々はラベラーが望ましいモデルの動作を示すデータセットを収集し、それを用いて教師あり学習を用いてGPT-3の微調整を行う。次に、モデル出力のランキングデータセットを収集し、人間のフィードバックからの強化学習を用いて、この教師ありモデルをさらに微調整するために使用する。このようにして得られたモデルをInstructGPTと呼ぶ.我々のプロンプト分布に対する人間の評価では、パラメータが100倍少ないにもかかわらず、パラメータ1.3BのInstructGPTモデルの出力が、パラメータ175BのGPT-3の出力よりも優先されました。さらに、InstructGPTモデルは、真実性の向上と有害な出力生成の削減を示す一方で、公開されたNLPデータセットに対する性能低下は最小限であることが分かりました。この結果は、人間のフィードバックによる微調整が、言語モデルを人間の意図に沿わせるための有望な方向性であることを示しています。
コード
まとめ作成時点では無し
解決した課題/先行研究との比較
→ そもそも大規模LMの目的が「人間の意図する動作をすること」になっていない
技術・手法のポイント
3ステップで構成される。
ベースはGPT-3。Web上の多様なデータで学習された状態の、いわば「人間が意図せぬ動作」をするモデルがスタート。
Step 1. 教師ありFine-tuning (SFT; Supervised Fine-Tuning)
Step 2. 報酬モデルの学習
Step 3. 報酬モデルを使ってSFTモデルを強化学習 (RLHF)
評価指標
3つの観点で評価を実施。以下は図中の用語の説明。
OpenAI Playgroundに公開されているAPIを用いた評価
(APIの詳細は付録A.2参照)
公開データセットを用いた評価
TruthfulQAデータセットを利用
Real Toxicity Prompts Datasetを利用
alignmentを追求するトレードオフとして、汎用的なNLPタスクで性能が低下する
DROP, HellaSwag, SQuADv2, BLEU (French → English) などで評価(一覧はTab.14参照)
結果
定性的評価
InstructGPTのFine-tuningに使用したデータは英語の文章データが中心で、それ以外はごく少数であったにも関わらず、英語以外の言語やプログラミングコードの要約・質問応答も可能という、興味深い結果が得られた。
![スクリーンショット 2022-12-21 13 51 57](https://user-images.githubusercontent.com/68265677/208825065-9a741864-5c06-4446-a3b3-11163d0006c3.png)
↑ 同じパラメーター数(175B)のGPT-3ではテキスト生成が全くうまくいっていないが、InstructGPTではうまくいっている例残された課題・議論
まだまだ単純なミスをする
モデルが誰に対して alignment されるかが極めて重要
重要な引用
learning from human preferences. In Proc. NIPS 2017. https://papers.nips.cc/paper/2017/hash/d5e2c0adad503c91f91df240d0cd4e49-Abstract.html.
参考情報
The text was updated successfully, but these errors were encountered: