[Huggingface Transformers] Wiki-40Bデータセットを使ってゼロから日本語BERTの事前学習モデルを構築する

0. requirements.txt

pip install -r requirements.txt

1. データのダウンロード

python dl_data.py

まずは，wiki40b/jaのtestに格納されているデータセットをダウンロードし，そのデータ対して後にデータの分割をする．

学習がうまくできるようであれば，データセットを拡大する方針

2. 前処理

./dataに移動して，wiki_40b_train.txtがダウンロードできているか確認し，以下のコマンドを実行

chmod u+x preprocess.sh

./preprocess.sh wiki_40b_train.txt

行末の空白は除去、空白のみの行は削除
"。” の後が"」"、")“、"）”,“]"だった場合、"。"の後で改行
"。"で始まる行は削除

=> 前処理後の名前は同じものを使用しているため，更新されている

3. データの分割

まずは，wiki_40b_train.txtのそれぞれ1万行を学習データと検証データにする．

python create_10000.py

train_data.txt と valid_data.txt が生成される

4. 事前学習の実行

python my_pretrain.py

./log直下にlossとepochのグラフが格納される

実行環境

Ubuntu 20.04
Specification
CPU: Intel Core i9-13900K (24 cores, 32 threads, 3.0 / 2.8GHz, Passmark 59763)
GPU: GeForce RTX-3090 Ti

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data		data
log		log
.gitignore		.gitignore
README.md		README.md
dl_data.py		dl_data.py
my_pretrain.py		my_pretrain.py
my_tokenizer.py		my_tokenizer.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data

data

log

log

.gitignore

.gitignore

README.md

README.md

dl_data.py

dl_data.py

my_pretrain.py

my_pretrain.py

my_tokenizer.py

my_tokenizer.py

requirements.txt

requirements.txt

Repository files navigation

[Huggingface Transformers] Wiki-40Bデータセットを使ってゼロから日本語BERTの事前学習モデルを構築する

0. requirements.txt

1. データのダウンロード

2. 前処理

3. データの分割

4. 事前学習の実行

実行環境

About

Releases

Packages

Languages

tomo-cps/pretrain_bert

Folders and files

Latest commit

History

Repository files navigation

[Huggingface Transformers] Wiki-40Bデータセットを使ってゼロから日本語BERTの事前学習モデルを構築する

0. requirements.txt

1. データのダウンロード

2. 前処理

3. データの分割

4. 事前学習の実行

実行環境

About

Resources

Stars

Watchers

Forks

Languages