Você pode rodar este notebook localmente ou no Colab. Para abrir diretamente no Colab, basta clicar no botão abaixo.

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/pablo-sampaio/rl_facil/blob/main/cap01/cap01-main.ipynb) 

# Capítulo 1 - Explorando os ambientes

Nosso objetivo nesta aula é apenas motivar para o estudo de **Aprendizagem por Reforço** (*Reinforcement Learning* ou *RL*).

Para isso, vamos explorar os ambientes (simuladores de tarefas) oferecidos no pacote **`gym`**, originalmente criado pela OpenAI para praticar e pesquisar RL. 

A `gym` inclui diversos ambientes interessantes. E na internet, você encontra outros ambientes compatíveis com o `gym`.

***Atenção***: *este pacote foi descontinuado em favor do pacote `gymnasium`, mas vou continuar com o `gym` pela simplicidade e para aguardar o `gymnasium` ficar mais estável.*

## Configurações Iniciais

Para instalar e importar pacotes e configurar algumas coisas...

In [1]:
from IPython.display import clear_output

# for saving videos
!apt-get install ffmpeg freeglut3-dev xvfb

# install gym
!pip install swig
!pip install gym[box2d]==0.23.1 

# clone repository, to use "util" module 
!git clone https://github.com/pablo-sampaio/rl_facil

clear_output()

In [2]:
# Set up fake display; otherwise rendering will fail
import os
os.system("Xvfb :1 -screen 0 1024x768x24 &")
os.environ['DISPLAY'] = ':1'

In [3]:
import gym
import time

import sys
sys.path.append("/content/rl_facil")

from util.notebook import display_videos_from_path

## 1 - Testando Alguns Ambientes

Veja a lista de ambientes do gym e a descrição de cada ambiente neste link: https://www.gymlibrary.dev/.

### 1.1 Exemplo Detalhado

A biblioteca gym oferece vários ambientes, que costuma ser criados pela string de identificação. Abaixo, mostramos como rodar o ambiente "CartPole-v1". 

Mostramos como passar **ações** para o ambiente e como ler as **observações** e **recompensas** vindas dele.

Para entender todos esses valores, veja a documentação deste ambiente em: https://www.gymlibrary.dev/environments/classic_control/cart_pole/



In [4]:
# instancia o ambiente, usando o identificador do ambiente
env = gym.make("CartPole-v1")

# para guardar a soma das recompensas
sum_rewards = 0.0

# inicia um episodio no ambiente e recebe a observação inicial
obs = env.reset()

# indica se o episódio encerrou
done = False

while not done:
    # exibe visualmente o estado do ambiente (se você estiver rodando no PC)
    #env.render()

    # escolhe uma ação aleatória, usando uma função do próprio ambiente
    # neste ponto, você pode usar um algoritmo qualquer para escolher a ação
    action = env.action_space.sample()

    # aplica a ação no ambiente e recebe uma 4-tupla
    #      obs  - a próxima observação
    #      r    - a recompensa deste passo
    #      done - indica se o episódio acabou
    #      info - dicionário com informações extras (pode ser ignorado)
    (obs, r, done, _) = env.step(action)

    # imprime as informações
    print("action     :", action)    
    print("observation:", obs)
    print("reward     :", r)
    print("-")

    # calcula a soma das recompensas
    sum_rewards += r

    # espera um pouco, para mostrar os resultados mais lentamente
    time.sleep(0.2)

# encerra o ambiente, principalmente se usar renderização
env.close()
print("RETORNO DO EPISÓDIO (soma das recompensas):", sum_rewards)

  and should_run_async(code)


action     : 1
observation: [-0.0350988   0.17564824 -0.01218741 -0.27463013]
reward     : 1.0
-
action     : 0
observation: [-0.03158584 -0.01929771 -0.01768001  0.01418408]
reward     : 1.0
-
action     : 1
observation: [-0.03197179  0.17607327 -0.01739633 -0.28402424]
reward     : 1.0
-
action     : 1
observation: [-0.02845033  0.37143898 -0.02307682 -0.5821427 ]
reward     : 1.0
-
action     : 1
observation: [-0.02102155  0.56687653 -0.03471967 -0.882005  ]
reward     : 1.0
-
action     : 1
observation: [-0.00968402  0.7624524  -0.05235977 -1.1853975 ]
reward     : 1.0
-
action     : 1
observation: [ 0.00556503  0.9582129  -0.07606772 -1.4940226 ]
reward     : 1.0
-
action     : 1
observation: [ 0.02472929  1.1541733  -0.10594817 -1.8094555 ]
reward     : 1.0
-
action     : 0
observation: [ 0.04781276  0.96038026 -0.14213729 -1.5514864 ]
reward     : 1.0
-
action     : 1
observation: [ 0.06702036  1.1568921  -0.173167   -1.8849294 ]
reward     : 1.0
-
action     : 1
observation: [ 

### 1.2 Gravando e Exibindo Vídeos

Rodando no PC, você pode renderizar enquanto simula o ambiente. Se estiver rodando no Colab, a alternativa é salvar um vídeo e exibi-lo no final.

A seguir, mostramos como **gravar vídeos** da execução do ambiente usando o wrapper `RecordVideo`. 
- Esta classe encapsula o ambiente original e pode ser usada como se fosse o próprio ambiente.
- Internamente, ela executa o ambiente original e, adicionalmente, salva vídeos com a renderização dos passos. 
- Os vídeos são salvos em arquivos MP4 no diretório informado. Este exemplo salva apenas um vídeo, pois executa apenas um episódio.

In [5]:
# diretório onde serão salvos os vídeos
video_path = '/content/videos'

In [6]:
# descomente apenas a linha do ambiente desejado
env = gym.make("MountainCar-v0")
#env = gym.make("CartPole-v1")
#env = gym.make("Taxi-v3")
#env = gym.make("Pendulum-v1")
#env = gym.make("LunarLander-v2")

rec_env = gym.wrappers.RecordVideo(env, video_path)

obs = rec_env.reset()
done = False

while not done:
    action = rec_env.action_space.sample()
    (obs, r, done, _) = rec_env.step(action)

rec_env.close()


  if distutils.version.LooseVersion(


Para exibir os vídeos em um notebook Jupyter/Python, usamos a função `display_videos_from_path()` passando o caminho do diretório dos vídeos.

In [7]:
display_videos_from_path(video_path)

  and should_run_async(code)


## 2 - Solução Manual

Vamos tentar resolver o ambiente **Mountain Car** criando um algoritmo "manual" para escolher a ação.

Vejas as informações sobre este ambiente aqui: https://www.gymlibrary.dev/environments/classic_control/mountain_car/ . 

Segue um resumo:

- O episódio **termina**:
  - quando o carro chega na *bandeira* no lado direito
  - ou quando atingir o máximo de 200 passos sem chegar lá
- Cada **observação** deste ambiente é uma lista com estas duas informações:
  - *índice 0* - posição no carro no eixo *x*
  - *índice 1* - velocidade do carro 
- As **ações** possíveis são:
  - *0* - acelerar para a esquerda
  - *1* - deixar livre
  - *2* - acelerar para a direita
- A cada passo, a **recompensa** é -1, para incentivar o agente a encerrar a tarefa rapidamente



***Agora, tente criar sua solução!*** 

Você saberá que resolveu o ambiente se o retorno do episódio for acima de -200 (por exemplo: -157).

In [8]:
env = gym.make("MountainCar-v0")
env = gym.wrappers.RecordVideo(env, video_path)

obs = env.reset()
done = False
sum_rewards = 0.0

while not done:
    #env.render()
    
    # CRIE AQUI uma forma de escolher a ação, entre as três possíveis ações
    action = 0

    obs, reward, done, _ = env.step(action)
    sum_rewards += reward
    
    time.sleep(0.01)

print("Retorno:", sum_rewards)

  logger.warn(
  if distutils.version.LooseVersion(


Retorno: -200.0


In [9]:
display_videos_from_path(video_path)

  and should_run_async(code)


Você consegue fazer uma boa solução sem precisar deixar o carrinho livre (`action=1`).

Para chegar a uma boa solução, pense no seguinte:
- em quais situações faz sentido acelerar para a esquerda (`action=0`)?
- em quais situações faz sentido acelerar para a direita (`action=2`)?

## 3 - Informações Sobre o Ambiente

Os ambientes podem ter observações contínuas (geralmente como listas de valores float) ou discretas (geralmente um único inteiro).

Também as ações podem ser contínuas ou discretas. Cada ambiente do `gym` informa:
- qual o seu **espaço de observações** (atributo `env.observation_space`)
- e o seu **espaço de ações** (atributo `env.action_space`)

Criamos a função abaixo para ler um espaço (de ações ou observações) e detalhar suas informações

In [10]:
def print_space_info(space):
    if isinstance(space, gym.spaces.Discrete):
        print("   - quantidade de valores:", space.n)
    elif isinstance(space, gym.spaces.Box):
        print("   - formato/shape:", space.shape)
        print("   - valores mínimos (por item):", space.low)
        print("   - valores máximos (por item):", space.high)


In [11]:
#env = gym.make("MountainCar-v0")
#env = gym.make("Taxi-v3")
#env = gym.make("CartPole-v1")
env = gym.make("Pendulum-v1")
#env = gym.make("LunarLander-v2")

print("INFORMAÇÕES SOBRE O AMBIENTE", env)
print()
print("=> OBSERVATION SPACE:", env.observation_space)
print_space_info(env.observation_space)

print()
print("=> ACTION SPACE:", env.action_space)
print_space_info(env.action_space)
print()


INFORMAÇÕES SOBRE O AMBIENTE <TimeLimit<OrderEnforcing<PendulumEnv<Pendulum-v1>>>>

=> OBSERVATION SPACE: Box([-1. -1. -8.], [1. 1. 8.], (3,), float32)
   - formato/shape: (3,)
   - valores mínimos (por item): [-1. -1. -8.]
   - valores máximos (por item): [1. 1. 8.]

=> ACTION SPACE: Box(-2.0, 2.0, (1,), float32)
   - formato/shape: (1,)
   - valores mínimos (por item): [-2.]
   - valores máximos (por item): [2.]



## 4 - Definindo Wrappers

In [12]:
class PunishEarlyStop(gym.Wrapper):
    def __init__(self, env):
        super().__init__(env)
    
    def step(self, action):
        obs, reward, done, info = self.env.step(action)
        # if ended because the pole fell down
        if done and ('TimeLimit.truncated' not in info):
            reward = -100
        return obs, reward, done, info


env = gym.make("CartPole-v1")
env = PunishEarlyStop(env)

obs = env.reset()
done = False
sum_rewards = 0.0

while not done:
    action = env.action_space.sample()

    obs, reward, done, info = env.step(action)
    sum_rewards += reward

env.close()
print("Recompensa total:", sum_rewards)

Recompensa total: -80.0
