# Atividade Prática II - Treinamento e Validação de Modelos de RL

**Aluno:** Leonardo Fiedler

**Disciplina:** Reinforcement Learning - Turma I

**Data:** 18/07/2021



Neste trabalho vamos aplicar `Gym`, `Stable-Baselines3` e `RL Baselines Zoo` para lidar com o treinamento e validação de problemas de aprendizado por reforço. Sua tarefa é:

1. Selecionar um cenário da biblioteca `Gym` de sua preferência, desde que este cenário também seja contemplado pelos modelos disponibilizados na `rl baselines zoo`;
2. Selecionar três algoritmos das biblioteca `Stable-baselines3` para resolver esse problema. Pesquise na documentação da biblioteca quais são os algoritmos mais adequados para o ambiente escolhido e justifique a sua escolha. 
3. Realize o treinamento de cada um dos três modelos ---você pode ajustar os parâmetros do modelos, se achar necessário--- e salve os modelos em disco.
4. De posse dos modelos treinados e salvos, carregue-os e avalie-os por 10 episódios. Apresente os resultados médios e gere a curva de recompensa acumulada disponibilizada pelo `TensorBoard`.
5. Compare os resultados dos modelos treinados com os resultados obtidos por modelo(s) existentes no `RL Baselines Zoo` para o cenário escolhido.
6. Gere um vídeo do melhor modelo que você treinou e do modelo escolhido na `RL Baselines Zoo`. Verifique a documentação de cada biblioteca sobre a criação do vídeo e visualização em Notebooks.



* **Data de entrega:** 16/07/2021
* **Local de envio:** AVA.
* **Tipo de documento:** Notebook (`.ipynb`).

## 1. Escolha Do cenário e Algoritmos

O cenário escolhido para este trabalho é: BipedalWalker-v3

Algoritmos escolhidos:

1. SAC - A maior diferença do SAC com outros algoritmos de RL é que ele tenta treinar para maximizar o trade-off entre o resultado experado e a entropia, uma medida aleatória na política. A ideia neste caso é verificar se, com este modelo, é possível reduzir o custo de treinamento com base neste trade-off. Fonte: https://stable-baselines3.readthedocs.io/en/master/modules/sac.html
2. PPO - A ideia é que depois de uma atualização, a nova política não fique tão distante da anterior, o que pode ser bastante benéfico em um cenário de caminhada, pois os movimentos tendem a se repetir. Fonte: https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html
3. A2C - O A2C tem uma proposta semelhante ao A3C, no entanto funcionando de forma síncrona. Usa uma estratégia de deep reinforcement learning com o gradient descent. A ideia deste modelo é testar o funcionamento de uma estratégia com DL somados ao gradient descent. Fonte: https://stable-baselines3.readthedocs.io/en/master/modules/a2c.html e https://arxiv.org/abs/1602.01783

A key feature of SAC, and a major difference with common RL algorithms, is that it is trained to maximize a trade-off between expected return and entropy, a measure of randomness in the policy.

Todos os algoritmos escolhidos foram tomados como base o funcionamento em ambientes contínuos, como o BipedalWalker.

## Instalação das bibliotecas necessárias

In [1]:
!apt-get install ffmpeg freeglut3-dev xvfb  # For visualization
!pip install stable-baselines3[extra]
!pip install Box2D
!pip install box2d-py
!pip install gym[all]
!pip install gym[Box_2D]

Reading package lists... Done
Building dependency tree       
Reading state information... Done
freeglut3-dev is already the newest version (2.8.1-3).
ffmpeg is already the newest version (7:3.4.8-0ubuntu0.2).
xvfb is already the newest version (2:1.19.6-1ubuntu4.9).
0 upgraded, 0 newly installed, 0 to remove and 39 not upgraded.
Collecting mujoco-py<2.0,>=1.50; extra == "all"
  Using cached https://files.pythonhosted.org/packages/cf/8c/64e0630b3d450244feef0688d90eab2448631e40ba6bdbd90a70b84898e7/mujoco-py-1.50.1.68.tar.gz
Building wheels for collected packages: mujoco-py
  Building wheel for mujoco-py (setup.py) ... [?25lerror
[31m  ERROR: Failed building wheel for mujoco-py[0m
[?25h  Running setup.py clean for mujoco-py
Failed to build mujoco-py
Installing collected packages: mujoco-py
    Running setup.py install for mujoco-py ... [?25l[?25herror
[31mERROR: Command errored out with exit status 1: /usr/bin/python3 -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tm

## Importação de Bibliotecas

In [2]:
import gym
from stable_baselines3 import A2C, SAC, PPO
from stable_baselines3.common.evaluation import evaluate_policy
from stable_baselines3.common.vec_env import VecVideoRecorder, DummyVecEnv

env = gym.make('BipedalWalker-v3')



## Treinamento, Salvar em Disco e Recompensa média após 10 episódios do 1º Algoritmo - SAC 

In [20]:
model = SAC('MlpPolicy', env, verbose=1, learning_rate=0.005, learning_starts=300)
model.learn(total_timesteps=100000, log_interval=10)

model.save("sac_bipedal")
del model



Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
---------------------------------
| rollout/           |          |
|    ep_len_mean     | 106      |
|    ep_rew_mean     | -114     |
| time/              |          |
|    episodes        | 10       |
|    fps             | 55       |
|    time_elapsed    | 19       |
|    total timesteps | 1061     |
| train/             |          |
|    actor_loss      | -4.29    |
|    critic_loss     | 27.3     |
|    ent_coef        | 0.0431   |
|    ent_coef_loss   | -5.83    |
|    learning_rate   | 0.005    |
|    n_updates       | 760      |
---------------------------------
---------------------------------
| rollout/           |          |
|    ep_len_mean     | 159      |
|    ep_rew_mean     | -109     |
| time/              |          |
|    episodes        | 20       |
|    fps             | 41       |
|    time_elapsed    | 77       |
|    total timesteps | 3179     |
| train/             |

In [21]:
model = SAC.load("sac_bipedal", env=env)

mean_reward, std_reward = evaluate_policy(model, model.get_env(), n_eval_episodes=10)

print('Mean Reward: ', mean_reward, 'STD Reward: ', std_reward)

Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
Mean Reward:  -63.341224999999994 STD Reward:  10.741767113288848


## Treinamento, Salvar em Disco e Recompensa média após 10 episódios do 2º Algoritmo - PPO 

In [11]:
model = PPO('MlpPolicy', env, verbose=1, tensorboard_log="./ppo_bipedal_tensorboard/", learning_rate=0.0015)
model.learn(total_timesteps=int(1e5))

model.save("ppo_bipedal")
del model

Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
Logging to ./ppo_bipedal_tensorboard/PPO_1
---------------------------------
| rollout/           |          |
|    ep_len_mean     | 782      |
|    ep_rew_mean     | -166     |
| time/              |          |
|    fps             | 295      |
|    iterations      | 1        |
|    time_elapsed    | 6        |
|    total_timesteps | 2048     |
---------------------------------
------------------------------------------
| rollout/                |              |
|    ep_len_mean          | 563          |
|    ep_rew_mean          | -130         |
| time/                   |              |
|    fps                  | 335          |
|    iterations           | 2            |
|    time_elapsed         | 12           |
|    total_timesteps      | 4096         |
| train/                  |              |
|    approx_kl            | 0.0134173585 |
|    clip_fraction        | 0.162        |
|    cl

In [12]:
model = PPO.load("ppo_bipedal", env=env)

mean_reward, std_reward = evaluate_policy(model, model.get_env(), n_eval_episodes=10)

print('Mean Reward: ', mean_reward, 'STD Reward: ', std_reward)

Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
Mean Reward:  159.11393940000002 STD Reward:  73.32887332359532


## Treinamento, Salvar em Disco e Recompensa média após 10 episódios do 3º Algoritmo - A2C 

In [22]:
model = A2C('MlpPolicy', env, verbose=1)
model.learn(total_timesteps=int(1e5))

model.save("a2c_bipedal")
del model



Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
------------------------------------
| rollout/              |          |
|    ep_len_mean        | 79.7     |
|    ep_rew_mean        | -109     |
| time/                 |          |
|    fps                | 475      |
|    iterations         | 100      |
|    time_elapsed       | 1        |
|    total_timesteps    | 500      |
| train/                |          |
|    entropy_loss       | -5.67    |
|    explained_variance | -0.408   |
|    learning_rate      | 0.0007   |
|    n_updates          | 99       |
|    policy_loss        | 2.42     |
|    std                | 0.998    |
|    value_loss         | 0.32     |
------------------------------------
------------------------------------
| rollout/              |          |
|    ep_len_mean        | 108      |
|    ep_rew_mean        | -113     |
| time/                 |          |
|    fps                | 493      |
|    iterations   

In [23]:
model = A2C.load("a2c_bipedal", env=env)

mean_reward, std_reward = evaluate_policy(model, model.get_env(), n_eval_episodes=10)

print('Mean Reward: ', mean_reward, 'STD Reward: ', std_reward)

Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
Mean Reward:  -107.2119962 STD Reward:  21.17598921218926


## Visualização de resultados no Tensorboard

In [1]:
!git clone https://github.com/DLR-RM/rl-baselines3-zoo

Cloning into 'rl-baselines3-zoo'...
remote: Enumerating objects: 2873, done.[K
remote: Counting objects: 100% (93/93), done.[K
remote: Compressing objects: 100% (63/63), done.[K
remote: Total 2873 (delta 43), reused 55 (delta 22), pack-reused 2780[K
Receiving objects: 100% (2873/2873), 2.05 MiB | 2.44 MiB/s, done.
Resolving deltas: 100% (1865/1865), done.


In [4]:
!cd rl-baselines3-zoo
!tensorboard --logdir ./ppo-bipedal-tensorboard/

TensorFlow installation not found - running with reduced feature set.

NOTE: Using experimental fast data loading logic. To disable, pass
    "--load_fast=false" and report issues on GitHub. More details:
    https://github.com/tensorflow/tensorboard/issues/4784

Serving TensorBoard on localhost; to expose to the network, use a proxy or pass --bind_all
TensorBoard 2.5.0 at http://localhost:6006/ (Press CTRL+C to quit)
^C


![Print 1](./tensorboard-output/print_1.png)

![Print 2](./tensorboard-output/print_2.png)

## Resultados do Experimento

### Resultados dos Testes Executados

| Algorithm | TimeSteps | Learning Rate | Learning Starts | Mean Reward         | STD Reward         |
|-----------|-----------|---------------|-----------------|---------------------|--------------------|
| SAC       | 1e5       | Default       | Default         | -66.6544547         | 16.86877642905869  |
| SAC       | 1e5       | 0.0000015     | 300             | -112.6953875        | 0.1380908414104637 |
| PPO       | 1e5       | Default       | Default         | 159.30639530000002  | 3.9468407560191747 |
| SAC       | 1e5       | 0.005         | 300             | -63.341224999999994 | 10.741767113288848 |
| A2C       | 1e5       | Default       | Default         | -107.2119962        | 21.17598921218926  |
| PPO       | 1e5       | 0.0015        | Default         | 159.11393940000002  | 73.32887332359532  |


Dentre os resultados obtidos, o melhor modelo algoritmo desempenhado foi o PPO.

## Geração do Vídeo do Melhor Modelo


Referência da geração de vídeo com base [neste colab.][colab-video]

[colab-video]: https://colab.research.google.com/github/araffin/rl-tutorial-jnrr19/blob/sb3/1_getting_started.ipynb#scrollTo=63M8mSKR-6Zt

In [3]:
# Set up fake display; otherwise rendering will fail
import os
os.system("Xvfb :1 -screen 0 1024x768x24 &")
os.environ['DISPLAY'] = ':1'

In [6]:
import base64
from pathlib import Path

from IPython import display as ipythondisplay

def show_videos(video_path='', prefix=''):
  """
  Taken from https://github.com/eleurent/highway-env

  :param video_path: (str) Path to the folder containing videos
  :param prefix: (str) Filter the video, showing only the only starting with this prefix
  """
  html = []
  for mp4 in Path(video_path).glob("{}*.mp4".format(prefix)):
      video_b64 = base64.b64encode(mp4.read_bytes())
      html.append('''<video alt="{}" autoplay 
                    loop controls style="height: 400px;">
                    <source src="data:video/mp4;base64,{}" type="video/mp4" />
                </video>'''.format(mp4, video_b64.decode('ascii')))
  ipythondisplay.display(ipythondisplay.HTML(data="<br>".join(html)))

In [5]:
def record_video(env_id, model, video_length=500, prefix='', video_folder='videos/'):
  """
  :param env_id: (str)
  :param model: (RL model)
  :param video_length: (int)
  :param prefix: (str)
  :param video_folder: (str)
  """
  eval_env = DummyVecEnv([lambda: gym.make(env_id)])
  
  # Start the video at step=0 and record 500 steps
  eval_env = VecVideoRecorder(eval_env, video_folder=video_folder,
                              record_video_trigger=lambda step: step == 0, video_length=video_length,
                              name_prefix=prefix)

  obs = eval_env.reset()
  for _ in range(video_length):
    action, _ = model.predict(obs)
    obs, _, _, _ = eval_env.step(action)

  # Close the video recorder
  eval_env.close()

In [6]:
model = PPO.load("ppo_bipedal", env=env)
record_video('BipedalWalker-v3', model, video_length=500, prefix='ppo-bipedal')

Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.




Saving video to /content/videos/ppo-bipedal-step-0-to-step-500.mp4


In [9]:
show_videos('videos', prefix='ppo')