DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 #698

AkihikoWatanabe · 2023-05-21T23:31:02Z

URL

http://arxiv.org/abs/2305.10429

Affiliations

Sang Michael Xie, N/A
Hieu Pham, N/A
Xuanyi Dong, N/A
Nan Du, N/A
Hanxiao Liu, N/A
Yifeng Lu, N/A
Percy Liang, N/A
Quoc V. Le, N/A
Tengyu Ma, N/A
Adams Wei Yu, N/A

Abstract

The mixture proportions of pretraining data domains (e.g., Wikipedia, books,web text) greatly affect language model (LM) performance. In this paper, wepropose Domain Reweighting with Minimax Optimization (DoReMi), which firsttrains a small proxy model using group distributionally robust optimization(Group DRO) over domains to produce domain weights (mixture proportions)without knowledge of downstream tasks. We then resample a dataset with thesedomain weights and train a larger, full-sized model. In our experiments, we useDoReMi on a 280M-parameter proxy model to find domain weights for training an8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improvesperplexity across all domains, even when it downweights a domain. DoReMiimproves average few-shot downstream accuracy by 6.5% over a baseline modeltrained using The Pile's default domain weights and reaches the baselineaccuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which hasno knowledge of downstream tasks, even matches the performance of using domainweights tuned on downstream tasks.

Translation (by gpt-3.5-turbo)

事前学習データのドメインの混合比（例：Wikipedia、書籍、Webテキストなど）は、言語モデル（LM）の性能に大きな影響を与えます。本論文では、ドメイン再重み付けと最小最大最適化（DoReMi）を提案し、まずグループ分布ロバスト最適化（Group DRO）を使用してドメインの重み（混合比）を下流タスクの知識なしに生成するための小さなプロキシモデルをトレーニングします。次に、これらのドメインの重みでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。実験では、DoReMiを280Mパラメータのプロキシモデルに使用して、8Bパラメータのモデル（30倍大きい）のトレーニングに効率的にドメインの重みを見つけます。The Pileでは、DoReMiはドメインを下げた場合でも、すべてのドメインでperplexityを改善します。DoReMiは、The Pileのデフォルトのドメインの重みを使用してトレーニングされたベースラインモデルに比べて、平均的なfew-shot下流精度を6.5％改善し、トレーニングステップを2.6倍少なくしてベースライン精度に到達します。GLaMデータセットでは、DoReMiは下流タスクの知識がなくても、ドメインの重みを調整した場合と同等のパフォーマンスを発揮します。

Summary (by gpt-3.5-turbo)

本論文では、言語モデルの性能に影響を与える事前学習データのドメインの混合比について、DoReMiという手法を提案する。DoReMiは、小さなプロキシモデルを使用してドメインの重みを生成し、再サンプリングして大きなモデルをトレーニングすることで、効率的にドメインの重みを見つけることができる。実験では、DoReMiはThe PileやGLaMデータセットで高い精度を発揮し、few-shot下流精度を6.5％改善することができる。

AkihikoWatanabe · 2023-05-21T23:38:00Z

事前学習する際の各ドメインのデータをどのような比率でmixtureするかの話。各ドメインごとに小さなproxy modelを訓練し、downstream taskの知識無しでドメインごとの重みを生成。データセットを生成されたドメインごとの重みに従いリサンプリングすることで、（1/30のプロキシモデルを用いた場合）オリジナルのデータより2.6倍高速で、6.5%oneshotのaccuracyを向上させることに成功

AkihikoWatanabe added the Pocket label May 21, 2023

AkihikoWatanabe changed the title あ DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 May 21, 2023

AkihikoWatanabe added NLP LanguageModel DataDistillation Pretraining and removed Pocket labels May 22, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 #698

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 #698

AkihikoWatanabe commented May 21, 2023 •

edited

AkihikoWatanabe commented May 21, 2023

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 #698

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N/A, arXiv'23 #698

Comments

AkihikoWatanabe commented May 21, 2023 • edited

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

AkihikoWatanabe commented May 21, 2023

AkihikoWatanabe commented May 21, 2023 •

edited