O objetivo deste projeto é comparar três algoritmos de reinforcement learning considerando alguns ambientes disponíveis na biblioteca Gymnasium. Os algoritmos que serão comparados são DQN, A2C e PPO.
Os ambientes que serão utilizados na comparação são:
- Bipedal Walker;
- Car Racing, versão discreta e contínua;
- CartPole, e;
- Lunar Lander
Todas as implementações dos algoritmos citados acima serão feitas utilizando a biblioteca Stable Baselines 3.
Documento com a matriz de comparação a ser executada neste projeto
Este repositório está estruturado da seguinte forma:
- no diretório raiz estão todos os scripts que executam o treinamento, salvam os dados do treinamento e o modelo.
- o diretório results deve armazenar todos os arquivos CSV com os dados dos treinamentos.
- o diretório models deve armazenar todos os modelos gerados a partir do treinamento.
jupyter nbconvert --to html --no-input analise_curva_aprendizado.ipynb
mv analise_curva_aprendizado.html report/analise_curva_aprendizado.html