このリポジトリは,強化学習に関するアルゴリズムをJupyterLab, python, pytorch, OpenAIを用いて実装することで,アルゴリズムの理解やpythonのライブラリに慣れることを目的としております.
- 動的計画法を用いた状態価値関数値の導出
- 動的計画法を用いた行動価値関数値の導出
- 反復方策評価
- 再帰処理と反復処理の比較
- モンテカルロ法
- モンテカルロ法を用いたCartPole問題の解決
- TD法を用いた価値関数値の導出
- Sarsaを用いたMountainCarの実装
- Jupyter上でファイルを開くことを想定しているため,Github上で~.ipynbを開くとフォーマットが少し崩れることがあります.
- OpenAI Gymは(Macの場合),Xhostコマンドを実行し,Xtermを起動させてから実行させてください.
Implementation about Reinforcement Learning Algorithms.
For example, Dynamic programing, Monte Carlo method, Temporal Difference Learning, Deep Q Learning, and so on.
Exercise using JupyterLab, python, pytorch, OpenAI.