## MBA em Ciência de Dados
# Redes Neurais e Arquiteturas Profundas

### <span style="color:darkred">Módulo 8 - Introdução ao Aprendizado por Reforço</span>

#### <span style="color:darkred">**Parte 1: Biblioteca Gym e Problemas Benchmark de Aprendizado por Reforço**</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos

---

A biblioteca `gym` criada pela OpenAI e a `gymnasium` (fork da biblioteca `gym`) permitem avaliar algoritmos de aprendizado por reforço.

Ela contem vários ambientes modelados nesse paradigma que podem servir para entender melhor como funciona esse tipo de aprendizado

In [1]:
# visualização no Colab
%%capture
!pip install renderlab

In [4]:
import gymnasium as gym2
import gym as gym
import numpy as np
import matplotlib.pyplot as plt
import renderlab as rl

In [5]:
env = gym2.make("MountainCar-v0")

print(env.action_space)
print(env.observation_space)

Discrete(3)
Box([-1.2  -0.07], [0.6  0.07], (2,), float32)


### Problema "Montain Car"

Versão discreta

**Observação**:<br>
0 : Posição: [-1.2, 0.6]<br>
1 : Velocidade: [-0.07, 0.07]

**Ações**:<br>
0 : Acelerar para Esquerda<br>
1 : Não acelerar<br>
2 : Acelerar para Direita

**Recompensas**:<br>
* 0 : se o agente atingir a bandeira (posição 0.5)<br>
* -1 : se a posição do agente é menor que 0.5

**Término**:
* Tamanho do episódio maior do que 1000
* Posição do carro maior ou igual a 0.5

In [6]:
# inicializacao e estado inicial
observ0 = env.reset()
print("Posicao, velocidade: ", observ0)

Posicao, velocidade:  (array([-0.5415739,  0.       ], dtype=float32), {})


In [15]:
# codigo visualizacao Colab
env = gym2.make("MountainCar-v0", render_mode = "rgb_array")
env = rl.RenderFrame(env, "./output")

# codigo local
# env = gym.make("MountainCar-v0")

obs, info = env.reset()

n_iteracoes = 1000

for t in range(n_iteracoes):
    # codigo para rodar localmente
    # env.render()

    # obtem acao aleatoriamente
    acao = env.action_space.sample()

    # executa acao e obtem observacao/recompensa
    obs, rec, fim, trunc, info = env.step(acao)

    if (t % 100 == 1):
        print("%d, Acao: %d, Rec: %d, Obs: %.2f, %.2f" % (t, acao, rec, obs[0], obs[1]))

    if fim or t == n_iteracoes-1:
        print("Ultima Acao: ", acao)
        print("Posicao, velocidade finais: ", obs)
        print("Episódio finalizou após %d passos" % (t+1))
        break

# codigo colab
env.play()

env.close()

1, Acao: 0, Rec: -1, Obs: -0.59, -0.00
101, Acao: 1, Rec: -1, Obs: -0.46, 0.01
201, Acao: 2, Rec: -1, Obs: -0.45, -0.01
301, Acao: 1, Rec: -1, Obs: -0.64, 0.01
401, Acao: 0, Rec: -1, Obs: -0.31, 0.00
501, Acao: 2, Rec: -1, Obs: -0.68, -0.01
601, Acao: 1, Rec: -1, Obs: -0.56, 0.01
701, Acao: 0, Rec: -1, Obs: -0.37, 0.01
801, Acao: 2, Rec: -1, Obs: -0.69, -0.01
901, Acao: 0, Rec: -1, Obs: -0.50, 0.02
Ultima Acao:  1
Posicao, velocidade finais:  [-0.28767648 -0.01108121]
Episódio finalizou após 1000 passos
Moviepy - Building video temp-{start}.mp4.
Moviepy - Writing video temp-{start}.mp4





Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


Há uma versão contínua cujo espaço de ações é [-1, 1]

-1 : Aceleração total para a esquerda<br>
0 : Não acelerar<br>
1 : Aceleração total para a direita


In [16]:
env2 = gym2.make("MountainCarContinuous-v0")
env2 = rl.RenderFrame(env, "./output2")

print(env2.action_space)
print(env2.observation_space)

Discrete(3)
Box([-1.2  -0.07], [0.6  0.07], (2,), float32)


In [17]:
# inicializacao e estado inicial
observ0 = env2.reset()

n_iteracoes = 1000

# acoes
for t in range(n_iteracoes):

    # obtem acao aleatoriamente
    acao = env2.action_space.sample()

    # executa acao e obtem observacao/recompensa
    obs, rec, fim, trunc, info = env2.step(acao)

    if (fim or t == n_iteracoes-1):
        print("Ultima Acao: ", acao)
        print("Posicao, velocidade finais: ", obs)
        print("Episódio finalizou após %d passos" % (t+1))
        break

env2.play()

env2.close()

Ultima Acao:  0
Posicao, velocidade finais:  [-0.7458525   0.01244828]
Episódio finalizou após 1000 passos
Moviepy - Building video temp-{start}.mp4.
Moviepy - Writing video temp-{start}.mp4





Moviepy - Done !
Moviepy - video ready temp-{start}.mp4


---
Outros ambientes

In [54]:
from gym import envs
print(envs.registry.all())

  logger.warn(



dict_values([EnvSpec(id='CartPole-v0', entry_point='gym.envs.classic_control.cartpole:CartPoleEnv', reward_threshold=195.0, nondeterministic=False, max_episode_steps=200, order_enforce=True, autoreset=False, disable_env_checker=False, new_step_api=False, kwargs={}, namespace=None, name='CartPole', version=0), EnvSpec(id='CartPole-v1', entry_point='gym.envs.classic_control.cartpole:CartPoleEnv', reward_threshold=475.0, nondeterministic=False, max_episode_steps=500, order_enforce=True, autoreset=False, disable_env_checker=False, new_step_api=False, kwargs={}, namespace=None, name='CartPole', version=1), EnvSpec(id='MountainCar-v0', entry_point='gym.envs.classic_control.mountain_car:MountainCarEnv', reward_threshold=-110.0, nondeterministic=False, max_episode_steps=200, order_enforce=True, autoreset=False, disable_env_checker=False, new_step_api=False, kwargs={}, namespace=None, name='MountainCar', version=0), EnvSpec(id='MountainCarContinuous-v0', entry_point='gym.envs.classic_control.co

In [9]:
# Problema do Taxi

env3 = gym.make("Taxi-v3")

print(env3.action_space)
print(env3.observation_space)
env3.reset()

Discrete(6)
Discrete(500)


443

In [47]:
print(env3.render(mode='ansi'))

+---------+
|R: | : :[34;1mG[0m|
| :[43m [0m| : : |
| : : : : |
| | : | : |
|Y| : |[35mB[0m: |
+---------+




---
### Problema do táxi

* Temos 4 localizações relevantes indicadas por 0:R, 1:G, 2:Y e 3:B.
* Azul é o passageiro e magenta o destino.
* O taxi é amarelo quando livre e verde quando ocupado
* Grid contém 25 posições para o táxi, 5 para o passageiro, e 4 destinos



**Ações**:<br>
0 : mover para norte<br>
1 : mover para sul<br>
2 : mover para leste<br>
3 : mover para oeste<br>
4 : pegar passageiro (pickup)<br>
5 : deixar passageiro (dropoff)

**Observação/estado**:<br>
Posições do taxi, passageiro e destino codificada numericamente

**Recompensas**:<br>
* -1 : por passo<br>
* 20 : deixar passageiro<br>
* -10: executar "pegar" ou "deixar" ilegalmente

**Término**:
* Passageiro é deixado no destino

In [18]:
# inicializacao e estado inicial
observ0 = env3.reset()
print("Estado inicial: ", observ0, "\n")
for t in range(8):
    acao = env3.action_space.sample()
    s, r, fim, info = env3.step(acao) # take a random action

    print(env3.render(mode='ansi'))
    print("Estado atual:", s)
    print("Recompensa: ", r)
    print()

    if fim:
        print("Episódio finalizou após %d passos" % (t))
        break

env3.close()

Estado inicial:  43 

+---------+
|[34;1mR[0m: |[43m [0m: :G|
| : | : : |
| : : : : |
| | : | : |
|Y| : |[35mB[0m: |
+---------+
  (Dropoff)

Estado atual: 43
Recompensa:  -10

+---------+
|[34;1mR[0m: | :[43m [0m:G|
| : | : : |
| : : : : |
| | : | : |
|Y| : |[35mB[0m: |
+---------+
  (East)

Estado atual: 63
Recompensa:  -1

+---------+
|[34;1mR[0m: | : :G|
| : | :[43m [0m: |
| : : : : |
| | : | : |
|Y| : |[35mB[0m: |
+---------+
  (South)

Estado atual: 163
Recompensa:  -1

+---------+
|[34;1mR[0m: | : :G|
| : | : : |
| : : :[43m [0m: |
| | : | : |
|Y| : |[35mB[0m: |
+---------+
  (South)

Estado atual: 263
Recompensa:  -1

+---------+
|[34;1mR[0m: | : :G|
| : | : : |
| : : : : |
| | : |[43m [0m: |
|Y| : |[35mB[0m: |
+---------+
  (South)

Estado atual: 363
Recompensa:  -1

+---------+
|[34;1mR[0m: | : :G|
| : | : : |
| : : : : |
| | : | : |
|Y| : |[35m[43mB[0m[0m: |
+---------+
  (South)

Estado atual: 463
Recompensa:  -1

+---------+
|[34;1mR[0

In [19]:
from IPython.display import clear_output
from time import sleep

def animacao_episodio(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print("t: ", (i + 1))
        print("State: ", frame['state'])
        print("Action: ", frame['action'])
        print("Reward: ", frame['reward'])
        sleep(.2)

In [21]:
env4 = gym.make("Taxi-v3")

# inicializacao e estado inicial
observ0 = env4.reset()

frames = [] # animacao

rec_total = 0

# passos
for t in range(100):

    # amostra ação do espaço
    a = env4.action_space.sample()
    # executa acao
    s, r, fim, info = env4.step(a)

    rec_total += r

    frames.append({
        'frame': env4.render(mode='ansi'),
        'state': s,
        'action': a,
        'reward': r
        }
    )

    if fim:
        print("Episódio finalizou após %d passos" % (t))
        break

env4.close()

animacao_episodio(frames)
print("Recompensa total episódio: ", rec_total)

+---------+
|R: | : :G|
| : | : : |
| : : : :[43m [0m|
| | : | : |
|[35mY[0m| : |[34;1mB[0m: |
+---------+
  (Dropoff)

t:  100
State:  294
Action:  5
Reward:  -10
Recompensa total episódio:  -397
