Planejamento Probabilístico e Aprendizado por Reforço

Este repositório contém o projeto sendo desenvolvido para a disciplina SIN5021 - Planejamento Probabilístico e Aprendizado por Reforço , ministrada no primeiro semestre de 2021 por Valdinei Freire da Silva. Esse trabalho visa aplicar algoritmos de aprendizado por reforço no jogo ~~da galinha~~ Freeway do Atari 2600, assim como a discretização do ambiente para a aplicação de algoritmos ótimos.

Notebooks: Construção do ambiente discreto, algoritmo value iteration, policy iteration, Deep Q-Learning Network. O resultado para o algoritmo Proximal Policy Optimization é proveniente de uma mistura entre as implementações de ikostrikov e AlessandroPomponio;
PDF: Proposta, entrega parcial do projeto e o artigo final.

Veja o artigo final aqui

Agente no início do treinamento e pouco motivado:

Agente após algumas dezenas de milhares de passos e muito motivado:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Planejamento Probabilístico e Aprendizado por Reforço

Files

README.md

Latest commit

History

README.md

File metadata and controls

Planejamento Probabilístico e Aprendizado por Reforço