Este repositório contém o projeto sendo desenvolvido para a disciplina SIN5021 - Planejamento Probabilístico e Aprendizado por Reforço , ministrada no primeiro semestre de 2021 por Valdinei Freire da Silva. Esse trabalho visa aplicar algoritmos de aprendizado por reforço no jogo da galinha Freeway do Atari 2600, assim como a discretização do ambiente para a aplicação de algoritmos ótimos.
-
Notebooks: Construção do ambiente discreto, algoritmo value iteration, policy iteration, Deep Q-Learning Network. O resultado para o algoritmo Proximal Policy Optimization é proveniente de uma mistura entre as implementações de ikostrikov e AlessandroPomponio;
-
PDF: Proposta, entrega parcial do projeto e o artigo final.
Veja o artigo final aqui
Agente no início do treinamento e pouco motivado:
Agente após algumas dezenas de milhares de passos e muito motivado: