# Aprendizagem Reinforçada
## Taxi Auto-Dirigível
O agente de Aprendizagem Reinforçada _(Reinforcement Learning)_ encontra um estado/cenário, e então toma uma ação de acordo com o estado/cenário atual. O objetivo é que o agente aprenda a pegar o passageiro numa posição e deixá-lo no destino.

<a name="ilustracao"></a>
<img src="imagens/taxienv.png" width="400px" />

* 5 x 5 = 25 possíveis posições
* Posição atual do táxi (3,1) - Linha 3 e Coluna 1
* 4 locais para pegar (pick up) e deixar (drop off) passageiros: R, G, Y B
* Locais
    * R (0,0) 
    * G (0,4) 
    * Y (4,0) 
    * B (4,3)
* Posição do Passageiro sempre estará em AZUL
* O destino do passageiro estará sempre em ROSA
* Logo, no cenário atual o passageiro está no Y e deseja chegar no R
* As possíveis posições do passageiro são os 4 locais, mais 1 da posição de dentro do táxi
* Se a gente contabilizar todas as possíveis posições, teremos:
    * Posições do Táxi (5x5) | 5 Posições do Passageiro | 4 destinos
    * 5 x 5 x 5 x 4 = 500 estados/cenários possíveis
    

<table><tr>
        <td>  
        <ol>    
            <center><h4>6 Possíveis Ações</h4></center>
            <li>South (Sul)</li>
            <li>North (Norte)</li>
            <li>East  (Leste)</li>
            <li>West  (Oeste)</li>
            <li>Pickup (Pegar)</li>
            <li>Dropoff (Deixar)</li>
            </ol>
        </td>
        <td>
        <img src="imagens/rosadosventos.jpeg" width="200px"/>
        </td>    
       </tr>
</table>

<br>
<br>

In [1]:
import gym
env = gym.make('Taxi-v3').env
env.render()

+---------+
|R: | : :[35mG[0m|
| : |[43m [0m: : |
| : : : : |
| | : | : |
|[34;1mY[0m| : |B: |
+---------+



O objetivo é pegar um passageiro em um local e deixá-lo no destino requerido.
* **Recebe +20 pontos** quando deixar um passageiro no destino correto
* **Perder -1 ponto** a cada movimento que ele dá
* **Perde -10 pontos** para tentativa de pegar ou deixar o passageiro numa posição ilegal

O agente aprende a fazer 6 ações de 0-5
* 0 = south
* 1 = north
* 2 = east
* 3 = west
* 4 = pickup
* 5 = dropoff

PS1: Quando o táxi está com um passageiro dentro, sua cor muda para **verde**. <br>
PS2: Os 500 estados possíveis, numerados de 0-499 são uma codificação da posição do táxi, passageiro, e destino.
<br>PS3: O táxi não consegue fazer nenhum movimento em direção a parede. Quando o faz, **perde -1** e não sai do lugar.

In [2]:
env.reset()
env.render()

print(f'Ações possíveis: {env.action_space}')
print(f'Posições possíveis: {env.observation_space}')

+---------+
|R: | : :G|
| : | : : |
| : : : : |
| | :[43m [0m| : |
|[35mY[0m| : |[34;1mB[0m: |
+---------+

Ações possíveis: Discrete(6)
Posições possíveis: Discrete(500)


|Index|Letra
|---|---|
|  0 | R  |   
| 1  | G  |   
| 2  | Y  |  
| 3  | B  |  

### Renderizar o cenário da ilustração

[Ilustração](#ilustracao)

In [3]:
estado = env.encode(3,1,0,2) # taxi linha, taxi coluna, idx destino, idx pasageiro
print(f'Estado: {estado}')
env.s = estado
env.render()

Estado: 322
+---------+
|[34;1mR[0m: | : :G|
| : | : : |
| : : : : |
| |[43m [0m: | : |
|[35mY[0m| : |B: |
+---------+



### Tabela da Recompensa
<br>{ação: [(probabilidade, próximo_estado, recompensa, terminado)]
<br>ação: [(probabilidade, próximo_estado, recompensa, terminado)]
<br>ação: [(probabilidade, próximo_estado, recompensa, terminado)]
<br>ação: [(probabilidade, próximo_estado, recompensa, terminado)]
<br>ação: [(probabilidade, próximo_estado, recompensa, terminado)]
<br>ação: [(probabilidade, próximo_estado, recompensa, terminado)]}

In [4]:
env.P[estado]

{0: [(1.0, 422, -1, False)],
 1: [(1.0, 222, -1, False)],
 2: [(1.0, 342, -1, False)],
 3: [(1.0, 322, -1, False)],
 4: [(1.0, 322, -10, False)],
 5: [(1.0, 322, -10, False)]}

### Solucionando Sem Aprendizagem Reinforçada

In [5]:
env.s = estado

frames = []
epocas = 0
punicoes, recompensa = 0,0
terminado = False

while not terminado:
    acao = env.action_space.sample() # Ação aleatória
    estado, recompensa, terminado, info = env.step(acao)
    
    if recompensa == -10:
        punicoes += 1
        
    # frames
    frames.append({
        'frame': env.render(mode='ansi'),
        'estado': estado,
        'ação':acao,
        'recompensa': recompensa
    })
    
    epocas += 1
    
print(f'Passos dados (Timesteps): {epocas}\nPunições recebidas {punicoes}')

Passos dados (Timesteps): 3607
Punições recebidas 1204


In [23]:
from IPython.display import clear_output
from time import sleep

def print_frames(frames, seconds=0.1):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(f'{frame["frame"]}\n\
        Passos dados (Timesteps): {i+1}\n\
        Punições recebidas {frame["punish"]}\n\
        Estado: {frame["state"]}\n\
        Ação: {frame["action"]}\n\
        Recompensa: {frame["reward"]}')
        sleep(seconds)

In [7]:
print_frames(frames, seconds=0.1)

+---------+
|R: | : :G|
| : | : : |
| : : : : |
| | : | : |
|[35m[34;1m[43mY[0m[0m[0m| : |B: |
+---------+
  (Dropoff)

        Passos dados (Timesteps): 3607
        Punições recebidas 410
        ação: 5
        Recompensa: 20


### Com Aprendizagem Reinforçada

#### Q-learning
Essencialmente, o agente vai aprender através das recompensas(positivas e negativas) com um tempo a tomar a melhor decisão para um determinado estado.

* Temos a tabela da recompensa P que é de onde o agente vai aprender, ao tomar uma ação no estado atual e observando a recompensa/punição, atualiza o valor-Q (Q-value).
* O valor-Q para um estado/cenário representa a "qualidade" da ação que ele irá tomar

Os valores-Q são inicializados de forma aleatória, e o agente se expõe ao ambiente, onde recebe diferentes recompensas (positivas e negativas) ao tomar diferentes ações, de forma que os valores-Q são atualizados usando a seguinte fórmula:

$$Q({\small estado}, {\small ação}) = (1 - \alpha) \cdot Q({\small estado}, {\small ação}) + \alpha \Big({\small recompensa} + {\gamma \max}_{a} Q({\small próximo \ estado}, {\small todas \ ações})\Big)$$

Onde:
- $\Large \alpha$ (Alpha) é a taxa de aprendizagem (entre 0 e 1)
- $\Large \gamma$ (Gamma) é o fator de desconto também (entre 0 e 1), que significa o quanto de importância a gente quer dar para uma recompensa. De forma que 0 faz com que o agente se preocupe apenas com a recompensa imediata. O ideal é que o agente tome as ações considerando as recompensas do estado atual, e o máximo de recompensa para o próximo estado.

# Tabela-Q
<img src="imagens/qtable.png">

* A Tabela-Q tem seus valores inicializados como 0, e depois vão sendo atualizados conforme o agente vai tomando ações no ambiente e obtendo o máximo de recompensas

### Resumindo
* Inicializa a tabela-Q com zeros
* Começa a explorar o ambiente com ações, seleciona uma de todas as ações possíveis no estado atual ($Es_{1}$)
* Vai para o próximo estado ($Es_{2}$) como resultado da ação ($A_{1}$)
* De todas as possíveis ações no estado ($Es_{2}$) seleciona a que possui o maior valor-Q
* Atualiza a tabela-Q usando a equação
* Define o próximo estado como o estado atual
* Se o objetivo é alcançado, termina, senão, repete o processo

In [8]:
import numpy as np

q_table = np.zeros([env.observation_space.n, env.action_space.n])
q_table.shape

(500, 6)

In [9]:
q_table

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       ...,
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

### Explorando valores aprendidos
Depois de explorar ações aleatórias, os valores-Q tendem a se divergirem, de forma que o agente vai poder escolher a melhor ação possível para um determinado estado.

Existe um meio termo entre explorar (escolher uma ação aleatória) e usufruir (escolher ações baseadas em valores-Q já aprendidos/treinados). Nós queremos impedir o agente de ficar toda vez fazendo os exatos movimentos, e possivelmente se super-adequando _(overfitting)_. Para evitar isso, usamos mais um parâmetro chamado $\Large \epsilon$ "epsilon" para equilibrar essas ações durante o treino do agente.

Ao invés de apenas selecionar o melhor valor-Q, algumas vezes vamos explorar novas ações. Um epsilon grande trás mais punições (em média), o que é natural, uma vez que estamos explorando tomando ações aleatórias.

## Treinando o Agente

In [10]:
%%time

import random as rd

alpha = 0.1
gamma = 0.6
epsilon = 0.1

epoch = []
punish = []

for i in range(10000):
    state = env.reset()
    epoch, punish, reward = 0, 0, 0
    finish = False
    
    while not finish:
        if rd.uniform(0,1) < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(q_table[state])
            
        next_state, reward, finish, info = env.step(action)
        
        last_value = q_table[state, action]
        new_value_max = np.max(q_table[next_state])
        
        # Aplicar fórmula
        new_value = (1-alpha) * last_value + alpha * \
        (reward + gamma * new_value_max)
        
        q_table[state, action] = new_value
        
        if reward == -10:
            punish += 1
        
        state = next_state
        epoch +=1
        
    clear_output(wait=True)
    print(f'Episódios: {i+1}')
print('Done!')

Episódios: 10000
Done!
Wall time: 41.8 s


In [11]:
q_table

array([[ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ],
       [-2.39188928, -2.34712977, -2.37037285, -2.34926143, -2.27325184,
        -9.38612259],
       [-1.80764901, -1.49163064, -1.81217927, -1.47858899, -0.7504    ,
        -9.21764285],
       ...,
       [-1.12776008, -0.14568784, -1.08831672, -1.08690015, -2.7917036 ,
        -1.9172896 ],
       [-2.10036193, -2.09401674, -2.09997634, -2.09375705, -4.98244137,
        -2.8816    ],
       [ 0.27111402, -0.196     , -0.196     , 10.92847383, -1.56954548,
        -1.26084388]])

Agora que já treinamos o Agente, não precisamos mais explorar. Vamos apenas selecionar sempre a melhor ação escolhendo o melhor valor-Q.

In [21]:
# Avaliar performance do Agente

epoch, punish = 0,0

episodes = 10
frames = []

for _ in range(episodes):
    state = env.reset()
    done = False
    
    while not done:
        action = np.argmax(q_table[state])
        state, reward, done, info = env.step(action)
        
        if reward == -10:
            punish +=1
            
        frames.append({
            'frame':env.render(mode='ansi'),
            'state':state,
            'action':action,
            'reward':reward,
            'punish':punish
        })
        
        episodes+=1
        
print(f'Resultados após {episodes} epochs:\n\
Épocas: {episodes}\n\
Punições: {punish}')

Resultados após 129 epochs:
Épocas: 129
Punições: 0


In [24]:
print_frames(frames, 0.5)

+---------+
|R: | : :G|
| : | : : |
| : : : : |
| | : | : |
|[35m[34;1m[43mY[0m[0m[0m| : |B: |
+---------+
  (Dropoff)

        Passos dados (Timesteps): 119
        Punições recebidas 0
        Estado: 410
        Ação: 5
        Recompensa: 20


## Otimizações de Hiperparâmetros
Alpha, gamma e epsilon foram definidos baseados na intuição, mas existem melhores formas de escolher os melhores parâmetros e ter um desempenho melhor.

* $\Large \alpha$ (Alpha) - (Taxa de aprendizagem) = Deveria diminuir com o tempo, para o agente aprender cada vez mais e mais
* $\Large \gamma$ (Gamma) - Quanto mais próximo você está do objetivo final, maior deveria ser a preferência para a recompensa imediata
* $\Large \epsilon$ (Epsilon) - Quanto mais experiência tem o agente, menos precisará explorar. Logo, o epsilon deve diminuir com o tempo.

* Poderíamos aplicar uma pesquisa pelos melhores parâmetros, similar ao GridSearch que vimos para os modelos preditivos. 