Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning, Bill Yuchen Lin+, N/A, arXiv'23 #1179

Open
AkihikoWatanabe opened this issue Dec 5, 2023 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Dec 5, 2023

URL

Affiliations

  • Bill Yuchen Lin, N/A
  • Abhilasha Ravichander, N/A
  • Ximing Lu, N/A
  • Nouha Dziri, N/A
  • Melanie Sclar, N/A
  • Khyathi Chandu, N/A
  • Chandra Bhagavatula, N/A
  • Yejin Choi, N/A

Abstract

  • The alignment tuning process of large language models (LLMs) typicallyinvolves instruction learning through supervised fine-tuning (SFT) andpreference tuning via reinforcement learning from human feedback (RLHF). Arecent study, LIMA (Zhou et al. 2023), shows that using merely 1K examples forSFT can achieve significant alignment performance as well, suggesting that theeffect of alignment tuning might be "superficial." This raises questions abouthow exactly the alignment tuning transforms a base LLM. We analyze the effect of alignment tuning by examining the token distributionshift between base LLMs and their aligned counterpart. Our findings reveal thatbase LLMs and their alignment-tuned versions perform nearly identically indecoding on the majority of token positions. Most distribution shifts occurwith stylistic tokens. These direct evidence strongly supports the SuperficialAlignment Hypothesis suggested by LIMA. Based on these findings, we rethink the alignment of LLMs by posing theresearch question: how effectively can we align base LLMs without SFT or RLHF?To address this, we introduce a simple, tuning-free alignment method, URIAL.URIAL achieves effective alignment purely through in-context learning (ICL)with base LLMs, requiring as few as three constant stylistic examples and asystem prompt. We conduct a fine-grained and interpretable evaluation on adiverse set of examples, named JUST-EVAL-INSTRUCT. Results demonstrate thatbase LLMs with URIAL can match or even surpass the performance of LLMs alignedwith SFT or SFT+RLHF. We show that the gap between tuning-free and tuning-basedalignment methods can be significantly reduced through strategic prompting andICL. Our findings on the superficial nature of alignment tuning and resultswith URIAL suggest that deeper analysis and theoretical understanding ofalignment is crucial to future LLM research.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)のアラインメント調整プロセスは、通常、教師あり微調整(SFT)を介した指示学習と、人間のフィードバックからの強化学習による好みの調整を含みます。最近の研究であるLIMA(Zhou et al. 2023)は、SFTにわずか1,000の例を使用するだけでも、アラインメントのパフォーマンスを大幅に向上させることができることを示しており、アラインメント調整の効果は「表面的」である可能性があると示唆しています。これは、アラインメント調整が基本的なLLMをどのように変換するのかについての疑問を提起します。
    私たちは、アラインメント調整の効果を、基本的なLLMとアラインメント調整されたバージョンとのトークン分布のシフトを調べることで分析しました。私たちの調査結果は、基本的なLLMとアラインメント調整されたバージョンが、トークンのほとんどの位置でデコーディングにおいてほぼ同じパフォーマンスを発揮することを明らかにしました。分布のシフトは主にスタイルトークンで発生します。これらの直接的な証拠は、LIMAが示唆する「表面的なアラインメント仮説」を強く支持しています。
    これらの結果に基づいて、私たちは基本的なLLMをSFTやRLHFなしでどれだけ効果的にアラインメントできるかという研究問題を再考しました。これに対応するために、私たちはシンプルでチューニングフリーなアラインメント手法であるURIALを導入しました。URIALは、基本的なLLMとのコンテキスト内学習(ICL)だけで効果的なアラインメントを実現し、3つの一定のスタイルの例とシステムのプロンプトだけを必要とします。私たちは、多様な例で詳細で解釈可能な評価を行い、JUST-EVAL-INSTRUCTという名前のデータセットで結果を示しました。その結果、URIALを使用した基本的なLLMは、SFTまたはSFT+RLHFでアラインメントされたLLMのパフォーマンスに匹敵するか、さらに優れたパフォーマンスを発揮することを示しました。私たちは、戦略的なプロンプトとICLを通じて、チューニングフリーなアラインメント手法とチューニングベースのアラインメント手法のギャップを大幅に縮小できることを示しました。アラインメント調整の表面的な性質とURIALの結果から、アラインメントのより深い分析と理論的な理解が将来のLLM研究において重要であることが示唆されます。

Summary (by gpt-3.5-turbo)

  • アラインメント調整は、大規模言語モデル(LLMs)のパフォーマンスを向上させるために使用されます。しかし、アラインメント調整の効果は「表面的」である可能性があります。この研究では、基本的なLLMとアラインメント調整されたバージョンのトークン分布のシフトを分析しました。結果は、アラインメント調整が主にスタイルトークンに影響を与えることを示しました。さらに、シンプルでチューニングフリーなアラインメント手法であるURIALを導入し、基本的なLLMのパフォーマンスを向上させることができることを示しました。これらの結果から、アラインメントのより深い分析と理論的な理解が重要であることが示唆されます。
@AkihikoWatanabe AkihikoWatanabe changed the title The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning, Bill Yuchen Lin+, N/A, arXiv'23 Dec 5, 2023
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Dec 5, 2023

モデルの知識はPre-training時に十分獲得されており、モデルのAlignmentをとることで生じるものは表面的な変化のみであるという仮説がある #700 。この仮説に関して分析をし、結果的にスタイリスティックな情報を生成する部分でAlignmentの有無で違いが生じることを明らかにし、そうであればわざわざパラメータチューニング(SFT, RLHF)しなくても、適切なサンプルを選択したIn-Context LearningでもAlignmentとれますよ、という趣旨の研究っぽい?
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant