## MBA em Ciência de Dados
# Redes Neurais e Arquiteturas Profundas

### <span style="color:darkred">Módulo 7 - Introdução ao Aprendizado por Reforço</span>

#### <span style="color:darkred">**Parte 2: Algoritmo de Aprendizado por Reforço "Value Learning"**</span>

Moacir Antonelli Ponti

CeMEAI - ICMC/USP São Carlos

---

In [1]:
import gym
import numpy as np
from IPython.display import clear_output

### Problema Taxi

Relembrando:
* Temos 4 localizações relevantes indicadas por 0:R, 1:G, 2:Y e 3:B.
* Azul é o passageiro e magenta o destino.
* O taxi é amarelo quando livre e verde quando ocupado
* Grid contém 25 posições para o táxi, 5 para o passageiro, e 4 destinos

**Ações**:<br>
0 : mover para norte<br>
1 : mover para sul<br>
2 : mover para leste<br>
3 : mover para oeste<br>
4 : pegar passageiro (pickup)<br>
5 : deixar passageiro (dropoff)

**Observação/estado**:<br>
Posições do taxi, passageiro e destino codificada numericamente

**Recompensas**:<br>
* -1 : por passo<br>
* 20 : deixar passageiro<br>
* -10: executar "pegar" ou "deixar" ilegalmente

**Término**:
* Passageiro é deixado no destino

In [16]:
env = gym.make("Taxi-v3")

# tabela Q
q_table = np.zeros([env.observation_space.n, env.action_space.n])

q_table.shape

(500, 6)

In [17]:
for i in range(301,305):
    print(np.round(q_table[i],4))

[0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0.]


#### Algoritmo de Value learning

Tentaremos predizer o valor atual, ajustando com o melhor valor do estado subsequente.

Iremos considerar uma taxa de aprendizado $\alpha$ e um desconto para recompensas futuras $\gamma$

In [18]:
# hiperparametros
alpha = 0.1 # taxa de aprendizado
gamma = 0.5 # desconto de recompensas futuras

# historico
episodios = []

# episodios
for t in range(1, 5001):
    s = env.reset()
    
    epochs, recompensas = 0, 0
    fim = False
    
    # episodio atual
    while not fim:
        # explorar espaco de acao
        a = env.action_space.sample()
        
        # realizar acao
        s_n, r, fim, info = env.step(a)
        # estado subsequente s_n

        # salvo o valor atual para (s,a) - Q(s,a)
        valor_ant = q_table[s,a]
        
        # verifica proximo valor
        prox_max = np.max(q_table[s_n])
        
        # combina com desconto na recompensa futura
        novo_valor = (1-alpha)*valor_ant + alpha*(r+gamma*prox_max)
        q_table[s,a] = novo_valor
        
        # atualiza estado
        s = s_n
        epochs += 1
        
    if (t % 250 == 0):
        clear_output(wait=True)
        print("Episódio: ", t)

Episódio:  5000


Ao consultar a tabela, teremos *valores* diferentes

In [19]:
for i in range(301,305):
    print(np.round(q_table[i],4))

[ -1.9988  -1.9951  -1.9976  -1.9976 -10.9976 -10.9976]
[ -1.9799  -1.9181  -1.9595  -1.9593 -10.9594 -10.9593]
[ -1.9975  -1.9897  -1.9949  -1.9949 -10.9949 -10.9949]
[ -1.9999  -1.9997  -1.9999  -1.9999 -10.9999 -10.9999]


### Avaliando a performance do agente

Após obter a função Q, armazenada na tabela, agora podemos avaliar a performance do agente

In [20]:
n_episodios_teste = 50
total_epochs = 0
total_recs = 0

for i in range(n_episodios_teste):
    s = env.reset()
    epochs, rec_total_i = 0,0
    fim = False
    while not fim:
        a = np.argmax(q_table[s])
        s, r, fim, info = env.step(a)
        epochs += 1
        rec_total_i += r
        
    total_epochs += epochs
    total_recs += rec_total_i

print("Média de recompensas totais: %.2f" % (total_recs/n_episodios_teste))
print("Média de passos por episódio: %.2f" % (total_epochs/n_episodios_teste))

Média de recompensas totais: 7.96
Média de passos por episódio: 13.04


#### Executando uma vez para visualizar

In [21]:
from time import sleep

def animacao_episodio(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print("t: ", (i + 1))
        print("Estado: ", frame['state'])
        print("Ação: ", frame['action'])
        print("Recompensa: ", frame['reward'])
        sleep(.5)

In [23]:
# inicializacao
env.reset()
frames = [] # animacao
rec_total = 0
epochs = 0

s = env.reset()
epochs, rec_total_i = 0,0
fim = False
while not fim:
    a = np.argmax(q_table[s])
    s, r, fim, info = env.step(a)
    epochs += 1
    rec_total += r
    
    frames.append({
        'frame': env.render(mode='ansi'),
        'state': s,
        'action': a,
        'reward': r
        }
    )
    
env.close()

animacao_episodio(frames)
print("\nRecompensa total: ", rec_total)
print("Passos até o estado terminal: ", epochs)

+---------+
|R: | : :G|
| : | : : |
| : : : : |
| | : | : |
|Y| : |[35m[34;1m[43mB[0m[0m[0m: |
+---------+
  (Dropoff)

t:  14
Estado:  475
Ação:  5
Recompensa:  20

Recompensa total:  7
Passos até o estado terminal:  14
