Skip to content

Latest commit

 

History

History
16 lines (9 loc) · 1.27 KB

File metadata and controls

16 lines (9 loc) · 1.27 KB

Planejamento Probabilístico e Aprendizado por Reforço

Este repositório contém o projeto sendo desenvolvido para a disciplina SIN5021 - Planejamento Probabilístico e Aprendizado por Reforço , ministrada no primeiro semestre de 2021 por Valdinei Freire da Silva. Esse trabalho visa aplicar algoritmos de aprendizado por reforço no jogo da galinha Freeway do Atari 2600, assim como a discretização do ambiente para a aplicação de algoritmos ótimos.

  • Notebooks: Construção do ambiente discreto, algoritmo value iteration, policy iteration, Deep Q-Learning Network. O resultado para o algoritmo Proximal Policy Optimization é proveniente de uma mistura entre as implementações de ikostrikov e AlessandroPomponio;

  • PDF: Proposta, entrega parcial do projeto e o artigo final.

Veja o artigo final aqui

Agente no início do treinamento e pouco motivado:

Agente após algumas dezenas de milhares de passos e muito motivado: