Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 #698

Open
AkihikoWatanabe opened this issue May 21, 2023 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented May 21, 2023

URL

Affiliations

  • Sang Michael Xie, N/A
  • Hieu Pham, N/A
  • Xuanyi Dong, N/A
  • Nan Du, N/A
  • Hanxiao Liu, N/A
  • Yifeng Lu, N/A
  • Percy Liang, N/A
  • Quoc V. Le, N/A
  • Tengyu Ma, N/A
  • Adams Wei Yu, N/A

Abstract

  • The mixture proportions of pretraining data domains (e.g., Wikipedia, books,web text) greatly affect language model (LM) performance. In this paper, wepropose Domain Reweighting with Minimax Optimization (DoReMi), which firsttrains a small proxy model using group distributionally robust optimization(Group DRO) over domains to produce domain weights (mixture proportions)without knowledge of downstream tasks. We then resample a dataset with thesedomain weights and train a larger, full-sized model. In our experiments, we useDoReMi on a 280M-parameter proxy model to find domain weights for training an8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improvesperplexity across all domains, even when it downweights a domain. DoReMiimproves average few-shot downstream accuracy by 6.5% over a baseline modeltrained using The Pile's default domain weights and reaches the baselineaccuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which hasno knowledge of downstream tasks, even matches the performance of using domainweights tuned on downstream tasks.

Translation (by gpt-3.5-turbo)

  • 事前学習データのドメインの混合比(例:Wikipedia、書籍、Webテキストなど)は、言語モデル(LM)の性能に大きな影響を与えます。本論文では、ドメイン再重み付けと最小最大最適化(DoReMi)を提案し、まずグループ分布ロバスト最適化(Group DRO)を使用してドメインの重み(混合比)を下流タスクの知識なしに生成するための小さなプロキシモデルをトレーニングします。次に、これらのドメインの重みでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。実験では、DoReMiを280Mパラメータのプロキシモデルに使用して、8Bパラメータのモデル(30倍大きい)のトレーニングに効率的にドメインの重みを見つけます。The Pileでは、DoReMiはドメインを下げた場合でも、すべてのドメインでperplexityを改善します。DoReMiは、The Pileのデフォルトのドメインの重みを使用してトレーニングされたベースラインモデルに比べて、平均的なfew-shot下流精度を6.5%改善し、トレーニングステップを2.6倍少なくしてベースライン精度に到達します。GLaMデータセットでは、DoReMiは下流タスクの知識がなくても、ドメインの重みを調整した場合と同等のパフォーマンスを発揮します。

Summary (by gpt-3.5-turbo)

  • 本論文では、言語モデルの性能に影響を与える事前学習データのドメインの混合比について、DoReMiという手法を提案する。DoReMiは、小さなプロキシモデルを使用してドメインの重みを生成し、再サンプリングして大きなモデルをトレーニングすることで、効率的にドメインの重みを見つけることができる。実験では、DoReMiはThe PileやGLaMデータセットで高い精度を発揮し、few-shot下流精度を6.5%改善することができる。
@AkihikoWatanabe AkihikoWatanabe changed the title DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 May 21, 2023
@AkihikoWatanabe
Copy link
Owner Author

事前学習する際の各ドメインのデータをどのような比率でmixtureするかの話。各ドメインごとに小さなproxy modelを訓練し、downstream taskの知識無しでドメインごとの重みを生成。データセットを生成されたドメインごとの重みに従いリサンプリングすることで、(1/30のプロキシモデルを用いた場合)オリジナルのデータより2.6倍高速で、6.5%oneshotのaccuracyを向上させることに成功
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant