## MBA em Ciência de Dados
# Redes Neurais e Arquiteturas Profundas

### <span style="color:darkred">Módulo 7 - Introdução ao Aprendizado por Reforço</span>

#### <span style="color:darkred">**Parte 1: Biblioteca Gym e Problemas Benchmark de Aprendizado por Reforço**</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos

---

A biblioteca `gym` foi criada pela OpenAI com o objetivo de avaliar algoritmos de aprendizado por reforço.

Ela contem vários ambientes modelados nesse paradigma que podem servir para entender melhor como funciona esse tipo de aprendizado

In [1]:
import gym

In [3]:
env = gym.make("MountainCar-v0")

print(env.action_space)
print(env.observation_space)

Discrete(3)
Box([-1.2  -0.07], [0.6  0.07], (2,), float32)


### Problema "Montain Car"

Versão discreta

**Observação**:<br>
0 : Posição: [-1.2, 0.6]<br>
1 : Velocidade: [-0.07, 0.07]

**Ações**:<br>
0 : Acelerar para Esquerda<br>
1 : Não acelerar<br>
2 : Acelerar para Direita

**Recompensas**:<br>
* 0 : se o agente atingir a bandeira (posição 0.5)<br>
* -1 : se a posição do agente é menor que 0.5

**Término**:
* Tamanho do episódio maior do que 200 - no máximo 200 ações
* Posição do carro maior ou igual a 0.5

In [5]:
# inicializacao e estado inicial
observ0 = env.reset()
print("Posicao, velocidade: ", observ0)


Posicao, velocidade:  [-0.56446785  0.        ]


In [11]:
for t in range(301):
    # exibe estado atual
    env.render()
    
    # obtem acao aleatoriamente
    acao = env.action_space.sample()
    
    # executa acao e obtem observacao/recompensa
        #fim=True chegou no estado terminal
        #rec=recompensa
        #obs=observação
    obs, rec, fim, info = env.step(acao)
    
    if (t % 50 == 1):
        print("%d, Acao: %d, Rec: %d, Obs: %.2f, %.2f" % (t, acao, rec, obs[0], obs[1]))
    
    if fim:
        print("Ultima Acao: ", acao)
        print("Posicao, velocidade finais: ", obs)
        print("Episódio finalizou após %d passos" % (t))
        break
    
env.close()

Ultima Acao:  0
Posicao, velocidade finais:  [-0.4268427   0.00106375]
Episódio finalizou após 0 passos


Há uma versão contínua cujo espaço de ações é [-1, 1]

-1 : Aceleração total para a esquerda<br>
0 : Não acelerar<br>
1 : Aceleração total para a direita


In [12]:
env = gym.make("MountainCarContinuous-v0")
print(env.action_space)
print(env.observation_space)

Box([-1.], [1.], (1,), float32)
Box([-1.2  -0.07], [0.6  0.07], (2,), float32)


In [13]:
# inicializacao e estado inicial
observ0 = env.reset()

n_acoes = 1000

# acoes
for t in range(1,n_acoes+1):
    # exibe estado atual
    env.render()
    
    # obtem acao aleatoriamente
    acao = env.action_space.sample()
    
    # executa acao e obtem observacao/recompensa
    obs, rec, fim, info = env.step(acao)
    
    if (fim or t == n_acoes):
        print("Ultima Acao: ", acao)
        print("Posicao, velocidade finais: ", obs)
        print("Episódio finalizou após %d passos" % (t))
        break    
    
env.close()

Ultima Acao:  [0.05590169]
Posicao, velocidade finais:  [-0.643667   0.0075392]
Episódio finalizou após 999 passos


---
Outros ambientes

In [14]:
from gym import envs
print(envs.registry.all())

dict_values([EnvSpec(CartPole-v0), EnvSpec(CartPole-v1), EnvSpec(MountainCar-v0), EnvSpec(MountainCarContinuous-v0), EnvSpec(Pendulum-v1), EnvSpec(Acrobot-v1), EnvSpec(LunarLander-v2), EnvSpec(LunarLanderContinuous-v2), EnvSpec(BipedalWalker-v3), EnvSpec(BipedalWalkerHardcore-v3), EnvSpec(CarRacing-v0), EnvSpec(Blackjack-v1), EnvSpec(FrozenLake-v1), EnvSpec(FrozenLake8x8-v1), EnvSpec(CliffWalking-v0), EnvSpec(Taxi-v3), EnvSpec(Reacher-v2), EnvSpec(Pusher-v2), EnvSpec(Thrower-v2), EnvSpec(Striker-v2), EnvSpec(InvertedPendulum-v2), EnvSpec(InvertedDoublePendulum-v2), EnvSpec(HalfCheetah-v2), EnvSpec(HalfCheetah-v3), EnvSpec(Hopper-v2), EnvSpec(Hopper-v3), EnvSpec(Swimmer-v2), EnvSpec(Swimmer-v3), EnvSpec(Walker2d-v2), EnvSpec(Walker2d-v3), EnvSpec(Ant-v2), EnvSpec(Ant-v3), EnvSpec(Humanoid-v2), EnvSpec(Humanoid-v3), EnvSpec(HumanoidStandup-v2), EnvSpec(FetchSlide-v1), EnvSpec(FetchPickAndPlace-v1), EnvSpec(FetchReach-v1), EnvSpec(FetchPush-v1), EnvSpec(HandReach-v0), EnvSpec(HandManipula

In [9]:
# Problema do Taxi

env = gym.make("Taxi-v3")

print(env.action_space)
print(env.observation_space)
env.render()

Discrete(6)
Discrete(500)
+---------+
|[34;1mR[0m: | : :G|
| :[43m [0m| : : |
| : : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+



---
### Problema do táxi

* Temos 4 localizações relevantes indicadas por 0:R, 1:G, 2:Y e 3:B.
* Azul é o passageiro e magenta o destino.
* O taxi é amarelo quando livre e verde quando ocupado
* Grid contém 25 posições para o táxi, 5 para o passageiro, e 4 destinos



**Ações**:<br>
0 : mover para norte<br>
1 : mover para sul<br>
2 : mover para leste<br>
3 : mover para oeste<br>
4 : pegar passageiro (pickup)<br>
5 : deixar passageiro (dropoff)

**Observação/estado**:<br>
Posições do taxi, passageiro e destino codificada numericamente

**Recompensas**:<br>
* -1 : por passo<br>
* 20 : deixar passageiro<br>
* -10: executar "pegar" ou "deixar" ilegalmente

**Término**:
* Passageiro é deixado no destino

In [10]:
# inicializacao e estado inicial
observ0 = env.reset()
print("Estado inicial: ", observ0, "\n")
for t in range(8):
    acao = env.action_space.sample()
    s, r, fim, info = env.step(acao) # take a random action
    
    env.render()
    print("Estado atual:", s)
    print("Recompensa: ", r)
    print()

    if fim:
        print("Episódio finalizou após %d passos" % (t))
        break
    
env.close()

Estado inicial:  49 

+---------+
|R: | : :[35mG[0m|
| : |[43m [0m: : |
| : : : : |
| | : | : |
|[34;1mY[0m| : |B: |
+---------+
  (South)
Estado atual: 149
Recompensa:  -1

+---------+
|R: | : :[35mG[0m|
| : |[43m [0m: : |
| : : : : |
| | : | : |
|[34;1mY[0m| : |B: |
+---------+
  (Dropoff)
Estado atual: 149
Recompensa:  -10

+---------+
|R: | : :[35mG[0m|
| : |[43m [0m: : |
| : : : : |
| | : | : |
|[34;1mY[0m| : |B: |
+---------+
  (Dropoff)
Estado atual: 149
Recompensa:  -10

+---------+
|R: | : :[35mG[0m|
| : | : : |
| : :[43m [0m: : |
| | : | : |
|[34;1mY[0m| : |B: |
+---------+
  (South)
Estado atual: 249
Recompensa:  -1

+---------+
|R: | : :[35mG[0m|
| : | : : |
| : : : : |
| | :[43m [0m| : |
|[34;1mY[0m| : |B: |
+---------+
  (South)
Estado atual: 349
Recompensa:  -1

+---------+
|R: | : :[35mG[0m|
| : | : : |
| : : : : |
| | :[43m [0m| : |
|[34;1mY[0m| : |B: |
+---------+
  (Dropoff)
Estado atual: 349
Recompensa:  -10

+---------+
|R: | : :

In [11]:
from IPython.display import clear_output
from time import sleep

def animacao_episodio(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print("t: ", (i + 1))
        print("State: ", frame['state'])
        print("Action: ", frame['action'])
        print("Reward: ", frame['reward'])
        sleep(.2)

In [12]:
env = gym.make("Taxi-v3")

# inicializacao e estado inicial
observ0 = env.reset()

frames = [] # animacao

rec_total = 0

# passos
for t in range(100):
    
    # amostra ação do espaço
    a = env.action_space.sample()
    # executa acao
    s, r, fim, info = env.step(a) 
    
    rec_total += r
    
    frames.append({
        'frame': env.render(mode='ansi'),
        'state': s,
        'action': a,
        'reward': r
        }
    )
        
    if fim:
        print("Episódio finalizou após %d passos" % (t))
        break
    
env.close()

animacao_episodio(frames)
print("Recompensa total episódio: ", rec_total)

+---------+
|R: | : :[34;1mG[0m|
| : | : : |
| :[43m [0m: : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (West)

t:  100
State:  226
Action:  3
Reward:  -1
Recompensa total episódio:  -334
