# Atividade Prática II - Treinamento e Validação de Modelos de RL

**Aluno:** LEANDRO STARKE

**Disciplina:** Reinforcement Learning - Turma I

**Data:** 03/07/2021



Neste trabalho vamos aplicar `Gym`, `Stable-Baselines3` e `RL Baselines Zoo` para lidar com o treinamento e validação de problemas de aprendizado por reforço. Sua tarefa é:

1. Selecionar um cenário da biblioteca `Gym` de sua preferência, desde que este cenário também seja contemplado pelos modelos disponibilizados na `rl baselines zoo`;
2. Selecionar três algoritmos das biblioteca `Stable-baselines3` para resolver esse problema. Pesquise na documentação da biblioteca quais são os algoritmos mais adequados para o ambiente escolhido e justifique a sua escolha. 
3. Realize o treinamento de cada um dos três modelos ---você pode ajustar os parâmetros do modelos, se achar necessário--- e salve os modelos em disco.
4. De posse dos modelos treinados e salvos, carregue-os e avalie-os por 10 episódios. Apresente os resultados médios e gere a curva de recompensa acumulada disponibilizada pelo `TensorBoard`.
5. Compare os resultados dos modelos treinados com os resultados obtidos por modelo(s) existentes no `RL Baselines Zoo` para o cenário escolhido.
6. Gere um vídeo do melhor modelo que você treinou e do modelo escolhido na `RL Baselines Zoo`. Verifique a documentação de cada biblioteca sobre a criação do vídeo e visualização em Notebooks.



* **Data de entrega:** 16/07/2021
* **Local de envio:** AVA.
* **Tipo de documento:** Notebook (`.ipynb`).



In [None]:
!pip install gym
!git clone https://github.com/openai/gym
%cd gym
!pip install -e .

In [None]:
import gym

from stable_baselines3 import DQN
from stable_baselines3 import A2C
from stable_baselines3 import PPO
from stable_baselines3.common.evaluation import evaluate_policy

1. Selecionar um cenário da biblioteca `Gym` de sua preferência, desde que este cenário também seja contemplado pelos modelos disponibilizados na `rl baselines zoo`;

In [None]:
# Criando ambiente
env = gym.make('LunarLander-v2')

2. Selecionar três algoritmos das biblioteca `Stable-baselines3` para resolver esse problema. Pesquise na documentação da biblioteca quais são os algoritmos mais adequados para o ambiente escolhido e justifique a sua escolha.

**Escolhi os algoritmos DQN, A2C e PPO tomando como base a tabela deste [link](https://stable-baselines3.readthedocs.io/en/master/guide/algos.html).  
Pelo motivo que o LunarLander ter quatro ações discretas selecionei os algorimos com a coluna "discrete" marcada.
Também fiz uma pesquisa no google procurando melhores algoritmos para resolver o Lunar Lander, em todos os resultados que encontrei foram usados o algoritmos DQN**
3. Realize o treinamento de cada um dos três modelos ---você pode ajustar os parâmetros do modelos, se achar necessário--- e salve os modelos em disco.

In [None]:
# Iniciando modelo utilizando o algoritmo DQN
model = DQN('MlpPolicy', env, verbose=1, tensorboard_log="./tensorboard/")

# Treinando o modelo
model.learn(total_timesteps=int(2e5))

# Salvando o modelo
model.save("dqn_lunar")

###################

# Iniciando modelo utilizando o algoritmo A2C
model = A2C('MlpPolicy', env, verbose=1, tensorboard_log="./tensorboard/")

# Treinando o modelo
model.learn(total_timesteps=int(2e5))

# Salvando o modelo
model.save("a2c_lunar")

###################

# Iniciando modelo utilizando o algoritmo PPO
model = PPO('MlpPolicy', env, verbose=1, tensorboard_log="./tensorboard/")

# Treinando o modelo
model.learn(total_timesteps=int(2e5))

# Salvando o modelo
model.save("ppo_lunar")

#del model # deletando modelo para garantir que ele não exista no momento o load

4. De posse dos modelos treinados e salvos, carregue-os e avalie-os por 10 episódios. Apresente os resultados médios e gere a curva de recompensa acumulada disponibilizada pelo `TensorBoard`.

In [None]:
# Carregando modelo salvo
model = DQN.load("dqn_lunar", env=env, tensorboard_log="./tensorboard/")

# Avaliando o modelo por 10 episodios
mean_reward, std_reward = evaluate_policy(model, model.get_env(), n_eval_episodes=10)

print(f"mean_reward:{mean_reward:.2f} +/- {std_reward:.2f}")

# Testando modelo treinado
#obs = env.reset()
#for i in range(5000):
#    action, _states = model.predict(obs, deterministic=True)
#    obs, rewards, dones, info = env.step(action)
#    env.render()

In [None]:
# Carregando modelo salvo
model = A2C.load("a2c_lunar", env=env, tensorboard_log="./tensorboard/")

# Avaliando o modelo por 10 episodios
mean_reward, std_reward = evaluate_policy(model, model.get_env(), n_eval_episodes=10)

print(f"mean_reward:{mean_reward:.2f} +/- {std_reward:.2f}")

# Testando modelo treinado
#obs = env.reset()
#for i in range(5000):
#    action, _states = model.predict(obs, deterministic=True)
#    obs, rewards, dones, info = env.step(action)
#    env.render()

In [None]:
# Carregando modelo salvo
model = PPO.load("ppo_lunar", env=env, tensorboard_log="./tensorboard/")

# Avaliando o modelo por 10 episodios
mean_reward, std_reward = evaluate_policy(model, model.get_env(), n_eval_episodes=10)

print(f"mean_reward:{mean_reward:.2f} +/- {std_reward:.2f}")

# Testando modelo treinado
#obs = env.reset()
#for i in range(5000):
#    action, _states = model.predict(obs, deterministic=True)
#    obs, rewards, dones, info = env.step(action)
#    env.render()

### Gerando vídeos

5. Compare os resultados dos modelos treinados com os resultados obtidos por modelo(s) existentes no `RL Baselines Zoo` para o cenário escolhido.
6. Gere um vídeo do melhor modelo que você treinou e do modelo escolhido na `RL Baselines Zoo`. Verifique a documentação de cada biblioteca sobre a criação do vídeo e visualização em Notebooks.

In [None]:
import os
os.system("Xvfb :1 -screen 0 1024x768x24 &")
os.environ['DISPLAY'] = ':1'

In [None]:
from stable_baselines3.common.vec_env import VecVideoRecorder, DummyVecEnv

def record_video(env_id, model, video_length=500, prefix='', video_folder='videos/'):
  """
  :param env_id: (str)
  :param model: (RL model)
  :param video_length: (int)
  :param prefix: (str)
  :param video_folder: (str)
  """
  eval_env = DummyVecEnv([lambda: gym.make('LunarLander-v2')])
  # Start the video at step=0 and record 500 steps
  eval_env = VecVideoRecorder(eval_env, video_folder=video_folder,
                              record_video_trigger=lambda step: step == 0, video_length=video_length,
                              name_prefix=prefix)

  obs = eval_env.reset()
  for _ in range(video_length):
    action, _ = model.predict(obs)
    obs, _, _, _ = eval_env.step(action)

  # Close the video recorder
  eval_env.close()

In [None]:
%cd ..

model = DQN.load("dqn_lunar", env=env, tensorboard_log="./tensorboard/")
record_video('LunarLander-v2', model, video_length=1000, prefix='dqn_lunar')

model = A2C.load("a2c_lunar", env=env, tensorboard_log="./tensorboard/")
record_video('LunarLander-v2', model, video_length=1000, prefix='a2c_lunar')

model = PPO.load("ppo_lunar", env=env, tensorboard_log="./tensorboard/")
record_video('LunarLander-v2', model, video_length=1000, prefix='ppo_lunar')

In [None]:
!pip install tensorboard

In [None]:
!tensorboard --logdir ./tensorboard/

### Comparativos:

***Modelos treinados no trabalho***  
Algoritmo DQN: mean_reward = -125.69 std_reward = 17.48  
Algoritmo A2C: mean_reward =  58.86 std_reward = 107.79  
Algoritmo PPO: mean_reward = 98.96 std_reward 99.67  

***Modelo treinados prontos RL Baselines3 Zoo***  
Algoritmo DQN: mean_reward = 139.37 std_reward = 63.49    
Algoritmo A2C: mean_reward = 129.80 std_reward = 74.26  
Algoritmo PPO: mean_reward = 250.47 std_reward = 16.77  

