continual-pretrain

このリポジトリは、LLM（大規模言語モデル）を継続事前学習するために作成しました。
環境構築はdev-llmリポジトリを参考にしてください。

シングルノードでの学習

cd continual-pretrain
deepspeed src/train_deepspeed.py --train_config ./configs/train_configs/train_base.yaml

マルチノードでの学習

国立研究開発法人産業技術総合研究所によって構築・運用されているABCI（AI Bridging Cloud Infrastructure）を利用してマルチノード学習を行います。DeepSpeedはデフォルトでPDSH（Parallel Distributed Shell）を使って分散学習を行いますが、ABCI環境ではSSH経由で接続したノード上でPythonが読み込めないことによりエラーが発生する場合があります。そのため、シングルノード学習のように**deepspeed**コマンドを用いるには、ソースコードの修正が必要です。しかし、この作業は環境構築の過程で大きな手間となります。

そこで、Open MPIの**mpirun**コマンドを使用して分散学習を行う方法を採用します。これにより、複雑な設定を避けつつ、効率的なマルチノード学習が可能になります。実行コマンドは以下になります。

cd continual-pretrain
sh script/continual_pretrain_abci.sh

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
abci		abci
configs		configs
docker		docker
script		script
src		src
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

abci

abci

configs

configs

docker

docker

script

script

src

src

.gitignore

.gitignore

README.md

README.md

Repository files navigation

continual-pretrain

シングルノードでの学習

マルチノードでの学習

About

Releases

Packages

Languages

oriki101/continual-pretrain

Folders and files

Latest commit

History

Repository files navigation

continual-pretrain

シングルノードでの学習

マルチノードでの学習

About

Resources

Stars

Watchers

Forks

Languages