pip install -r requirements.txt
python dl_data.py
まずは,wiki40b/jaのtestに格納されているデータセットをダウンロードし,そのデータ対して後にデータの分割をする.
- 学習がうまくできるようであれば,データセットを拡大する方針
- ./dataに移動して,wiki_40b_train.txtがダウンロードできているか確認し,以下のコマンドを実行
chmod u+x preprocess.sh
./preprocess.sh wiki_40b_train.txt
- 行末の空白は除去、空白のみの行は削除
- "。” の後が"」"、")“、")”,“]"だった場合、"。"の後で改行
- "。"で始まる行は削除
=> 前処理後の名前は同じものを使用しているため,更新されている
まずは,wiki_40b_train.txtのそれぞれ1万行を学習データと検証データにする.
python create_10000.py
- train_data.txt と valid_data.txt が生成される
python my_pretrain.py
- ./log直下にlossとepochのグラフが格納される
Ubuntu 20.04
Specification
CPU: Intel Core i9-13900K (24 cores, 32 threads, 3.0 / 2.8GHz, Passmark 59763)
GPU: GeForce RTX-3090 Ti