dqn-tetris

開発環境

現在一番うまくいった方法は総合演習から報酬を（消したラインの数+1）（2乗をしない）とし、学習率のスケジューラにMultiSteplrを用いたものです。
エポック数は5000です。最初10000する設定でしたが、steplr.logにもある通り4000付近で最高ステップ数が4000回程度に更新された後6000ステップまで更新がなかったこと、１ステップの長さが飛躍的に伸びたため１ステップの時間がかなり長くなるようになったためです。
よりステップ数を伸ばす方法としては以下のようなものが考えられる。
- 画像サイズとモデルサイズを拡大する。改善する可能性が大きいがJava側での入力も合わせて整形する必要がある。なお、現在Java側ではsleep()などを使ってAI側の操作を早すぎないように調整しているため、モデルサイズを大きくしても推論時間としては全く問題ないと考えられる。
- 次のピースの情報を入力に入れるようにする。こちらもJava側の入力を合わせて整形する必要がある。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
configs		configs
notebooks		notebooks
src		src
.gitignore		.gitignore
README.md		README.md
conda_requirements.txt		conda_requirements.txt
test.py		test.py
train.py		train.py