# 🎮 Workshop de Introdução ao Aprendizado por Reforço
⠀

Bem vindes ao **Workshop de Introdução ao Aprendizado por Reforço**, organizado pelo Grupo Turing! 

O objetivo deste evento é ensinar o básico necessário da área de Aprendizado por Reforço utilizando um dos maiores clássicos da história dos video-games: ***Pong***.

![Pong](https://media2.giphy.com/media/aTGwuEFyg6d8c/giphy.gif)

## 🏓 Sobre o Pong

Começaremos falando sobre o problema, ou seja, sobre o jogo Pong. Este que foi o primeiro jogo de video-game lucrativo da história, publicado em 1972, constando 48 anos de legado.

Pong simula uma partida de tênis, existem duas "raquetes" e uma bola, e o objetivo de cada uma das raquetes é não somente evitar que a bola passe por ela, como também fazer com que esta passe pela linha que a outra raquete protege, criando assim a premissa que sustenta o interesse pelo jogo. Queremos então desenvolver um algoritmo capaz de - sem nenhuma explicação adicional - maximizar as suas recompensas, sendo as ações, os estados e as recompensas, todas relativas ao jogo Pong. Teremos no final, portanto, um modelo treinado capaz de bom desempenho dentro do ambiente. 

## 💻 Programando...

### Importando o Gym

O **[Gym](https://gym.openai.com/)** é uma biblioteca desenvolvida pela OpenAI que contém várias implementações prontas de ambientes de Aprendizagem por Reforço. Ela é muito utilizada quando se quer testar um algoritmo de agente sem ter o trabalho de programar seu próprio ambiente.

<img src="https://user-images.githubusercontent.com/10624937/42135602-b0335606-7d12-11e8-8689-dd1cf9fa11a9.gif" alt="Exemplos de Ambientes do Gym" class="inline"/>
<figcaption>Exemplo de Ambientes do Gym</figcaption>
<br>

Para se ter acesso a esses ambientes, basta importar o Gym da seguinte forma:

In [1]:
import gym

### O que é um Ambiente?

Um **Ambiente** de Aprendizagem por Reforço é um espaço que representa o nosso problema, é o objeto com o qual o nosso agente deve interagir para cumprir sua função. Isso significa que o agente toma **ações** nesse ambiente, e recebe **recompensas** dele com base na qualidade de sua tomada de decisões.

Todos os ambientes são dotados de um **espaço de observações**, que é a forma pela qual o agente recebe informações e deve se basear para a tomada de decisões, e um **espaço de ações**, que especifica as ações possíveis do agente. No xadrez, por exemplo, o espaço de observações seria o conjunto de todas as configurações diferentes do tabuleiro, e o espaço de ações seria o conjunto de todos os movimentos permitidos.

<img src="https://www.raspberrypi.org/wp-content/uploads/2016/08/giphy-1-1.gif" alt="Uma Ação do Xadrez" class="inline"/>

### Como Funciona um Ambiente do Gym?

Agora que você já sabe o que é um ambiente, é preciso entender como nosso agente interage efetivamente com ele. Todos os ambientes do Gym possuem alguns métodos simples para facilitar a comunicação com eles:

<br>

| Método               | Funcionalidade                                          |
| :------------------- |:------------------------------------------------------- |
| reset()              | Inicializa o ambiente e recebe a observação inicial     |
| step(action)         | Executa uma ação e recebe a observação e a recompensa   |
| render()             | Renderiza o ambiente                                    |
| close()              | Fecha o ambiente                                        |

<br>

Assim, o código para interagir com o ambiente costuma seguir o seguinte modelo:

---

```python
ambiente = gym.make("Nome do Ambiente")                         # Cria o ambiente
observação = ambiente.reset()                                   # Inicializa o ambiente
acabou = False

while not acabou:
    ambiente.render()                                           # Renderiza o ambiente
    observação, recompensa, acabou, info = ambiente.step(ação)  # Executa uma ação
    
ambiente.close()                                                # Fecha o ambiente
```

---

### Criando um Ambiente

Para utilizar um dos ambientes do Gym, nós utilizamos a função ```gym.make()```, passando o nome do ambiente desejado como parâmetro e guardando seu valor retornado em uma variável que chamaramos de ```env```. A lista com todos os ambiente pode ser encontrada [aqui](https://gym.openai.com/envs/#classic_control).

In [2]:
env = gym.make("pong:turing-easy-v0")
env.seed(0)

[0]

TODO: Trocar para Pong

Nesse caso, nós vamos utilizar o ambiente ```CartPole-v1```, um ambiente bem simples que modela um pêndulo invertido em cima de um carrinho buscando seu estado de equilíbrio.

<img src="https://miro.medium.com/max/1200/1*jLj9SYWI7e6RElIsI3DFjg.gif" width="400px" alt="Ambiente do CartPole-v1" class="inline"/>

#### CartPole

Antes de treinar qualquer agente, primeiro é preciso entender melhor quais as características do nosso ambiente.

O **Espaço de Observação** do CartPole é definido por 4 informações:

<br>

|     | Informação                         | Min     | Max    |
| :-- | :--------------------------------- | :-----: | :----: |
| 0   | Posição do Carrinho                | -4.8    | 4.8    |
| 1   | Velocidade do Carrinho             | -Inf    | Inf    |
| 2   | Ângulo da Barra                    | -24 deg | 24 deg |
| 3   | Velocidade na Extremidade da Barra | -Inf    | Inf    |

<br>

Dessa forma, a cada instante recebemos uma lista da observação com o seguinte formato:

In [3]:
print(env.observation_space.sample())

[ 4.4226079e+00  1.6426810e+38  2.2506310e-01 -1.2768003e+38]


Já o **Espaço de Ação** é composto por duas ações únicas: mover o carrinho para a **esquerda** ou para a **direita**.

Quando queremos mover o carrinho para a esquerda, fazemos um `env.step(0)`; quando queremos movê-lo para a direita, enviamos um `env.step(1)`

In [4]:
print(env.action_space.sample())

0


In [1]:
# Essa função deve rodar um episodio de Pong escolhendo ações aleatórias
def rodar_ambiente():
    # Criando o ambiente 'pong:turing-easy-v0'
    env = gym.make("pong:turing-easy-v0")

    # Resete o ambiente e receba o primeiro estado
    state = ...

    # Inicializando done como false
    done = False

    # Loop de treino
    while not done:
        # Escolha uma acao aleatoria
        action = ...

        # Tome essa acao e receba as informacoes do estado seguinte
        next_state, reward, done, info = ...

        # Renderize o ambiente
        ...

        # Atualizando o estado
        state = next_state

    # Fechando o ambiente
    env.close()

In [None]:
# Testando a função
rodar_ambiente()

## 👩‍💻 Algoritmo

Primeiramente, precisaremos utilizar uma biblioteca chamada ***Numpy*** para auxiliar nas computações. Esta é uma biblioteca do Python capaz de manusear diversas computações matemáticas com maestria e será importante futuramente para o nosso trabalho.

In [None]:
# Importando a biblioteca Numpy
import numpy as np

Em seguida, é importante definir nossas _variáveis globais_, as quais são responsáveis por regir valores que podem ser ajustados para melhor desempenho do modelo, ou maior velocidade de treinamento. Algumas dessas variáveis apenas farão sentido mais a frente, mas tentaremos dar explicações sucintas para cada uma delas.

* "EPSILON" será o a variável correspondete à letra grega "$\epsilon$" de mesmo nome, que é a notação usual para a probabilidade de exploração do nosso agente. Para exemplificar a posição do nosso agente, que iluminará a função dessa variável, será dado um exemplo do cotidiano humano: Digamos que sua mãe lhe concede algumas moedas de um real para comprar lanches na escola. Sua escola dispõe de quatro máquinas de alimentos, mas todas elas possuem diferentes probabilidades de lhe conceder chocolates de marcas estranhas das quais você nunca ouviu falar. Como você deve aumentar a sua satisfação (conseguir mais frequentemente os chocolates mais gostosos) com um número finito de recursos (as moedas que você possui) sem nunca saber com certeza o que esperar do seu investimento. Esse problema é famoso na área e é conhecido como _the multi-armed bandit problem_, então como resolvê-lo? Usaremos o algoritmo $\epsilon$-guloso, o qual nos instrui a inicialmente explorar bastante até existir certo conhecimento do que esperar de cada máquina de chocolate e, conforme é adquirida experiência, certa confiância de que determinada máquina nos fornece com maior frequencia os chocolates de melhor gosto é criada, então a necessidade de explorar irá decrescer. A variável em questão, portanto, representa a probabilidade inicial de tentarmos uma ação aleatória.

* "EPSILON_MIN", conforme nossa confiança aumenta, será desejável aproveitar nosso conhecimento com maior frequencia do que explorar ainda mais o ambiente. Contudo, sempre fará sentido explorar ao menos um pouco enquanto treinamos o algoritmo e, portanto, é criado um limite inferior para a probabilida de exploração e tal é a função dessa variável.

* "DECAIMENTO", como explicado, é desejado diminuir a exploração conforme a experiência aumenta. Essa variável é justamente a taxa de decaimento da nossa probabilidade de exploração.

* "ALFA", algoritmos de aprendizado de máquina costumam precisar de uma forma de serem otimizados. Q-learning trabalha em cima de gradientes, uma entidade matemática que indica a direção para maximizar (ou minimizar) uma função. Dispondo dessa direção, precisamos informar qual deve ser o tamanho do passo a ser dado antes de atualizar a nova "direção ideal".

* "GAMA" é a variável correspondente a letra grega de mesmo nome "$\gamma$", a qual denota o quanto desejamos que nosso algoritmo considere eventos futuros. Se "$\gamma = 1$", nosso algoritmo avaliará que a situação futura ser melhor que a atual é tão importante quanto a recompensa da situação atual em si, por outro lado, se "$\gamma = 0$", os eventos futuros não apresentam importância alguma para nosso algoritmo. 

* "N_EPISODIOS" dita quantas vezes o agente deverá "reviver" o ambiente (vitórias e derrotas) antes de acabar seu treinamento.

* "Q" é um dicionário, ou seja, uma estrtura de dados capaz de buscar elementos de forma rápida. Nós o usaremos para guardar valores relativos às estimativas do algoritmo.

In [None]:
# Constantes da Política Epsilon Greedy
# Epsilon: probabilidade de experimentar uma ação aleatória
EPSILON = 0.7        # Valor inicial do epsilon
EPSILON_MIN = 0.01   # Valor mínimo de epsilon
DECAIMENTO = 0.98    # Fator de decaímento do epsilon (por episódio)

# Hiperparâmetros do Q-Learning
ALFA = 0.05          # Learning rate
GAMA = 0.9           # Fator de desconto

N_EPISODIOS = 250    # Quantidade de episódios que treinaremos

# Dicionário dos valores de Q
# Chaves: estados; valores: qualidade Q atribuida a cada ação
Q = {}

![](https://www.kdnuggets.com/images/reinforcement-learning-fig1-700.jpg)

Antes de partir para o código do algoritmo em si, alguns esclarecimentos do ponto de vista do agente sobre o ambiente devem ser feitos. Pong é um jogo simples, consiste em controlar a sua raquete com esperança de maximizar a sua pontuação e manter a do adversário a menor possível. Devemos, contudo, adicionar algum rigor à essa expressão, de forma que o algoritmo seja capaz de lidar com essa informação. "controlar a raquete" significa haver três possíveis ações: subir, descer ou não se mover. Cada ação tomada em cada estado deve nos retornar uma recompensa e deve nos levar a um novo estado. A nossa recompensa será de +500 u.r. se pontuarmos, -500 u.r. se pontuarem sobre nós e 0 caso contrário. Finalmente, os estados serão vetores distância entre a raquete a bola, caso jogado no modo fácil.

In [None]:
# Importando a Biblioteca Gym
import gym

# Criando o nosso Ambiente: Pong
env = gym.make("pong:turing-easy-v0")

# Número total de ações: 3
# 0 = parado; 1 = baixo; 2 = cima
n_acoes = env.action_space.n

print('Número de ações:', n_acoes)

como foi dito, os estados que o nosso agente utilizará para tomar suas decisões são vetores ("setas") que apontam da raquete controlada até a bola, imagine agora o caso onde esses vetores apresentassem apenas seus módulos como números inteiros. Se a nossa tela possuisse 800 u.d. de largura e 600 u.d. de altura, o espaço amostral dos diferentes vetores e, portanto, diferentes estados do ponto de vista do agente seria $2 \times 800 \times 600 = 960000$. Para um algoritmo que consiste em guardar estimativas do valor de cada ação para cada estado, esse número de estados exigiria não somente guardar como atualizar cada um desses valores até chegar numa estimativa otimizada para os 3 milhões de valores. Não é o ideal. Para simplificar (e agilizar) a situação, "discretizar" os nossos estados é razoável e esperado, faremos com que estados similares o suficiente sejam considerados como iguais e comparilhem das mesmas estimativas (não faz sentido distinguir o vetor (502,234) do vetor (515,222))

In [None]:
def discretiza_estado(estado):
    return tuple(round(x/10) for x in estado)

Para o processo de de escolha de ação, é necessário lembrar do dilema entre **exploração** e **exploitação**. O modelo pode explorar o ambiente, realizando novas escolhas que as recompensas naquele instante não indicam como a melhor, mas que podem a resultar em uma recompensa maior, ou o modelo pode aproveitar o conhecimento que já possui, de forma a maximizar a recompensa que receberá no episódio. Porém, é impossível explorar e exploitar em uma mesma ação.

De forma a assegurar que o agente busque tanto novas alternativas que podem gerar melhores resultados quanto ser capaz de utilizar o aprendizado obtido de forma a maximizar a sua recompensa, existem diversas estratégias para a escolha de exploração e exploitação. Uma das mais utilizadas, que também vamos utilizar aqui, é a seleção de ações pelo método **"$\epsilon$-greedy"**.

A estratégia "$\epsilon$-greedy" está definida da seguinte forma: é retirado um número aleatório, no intervalo entre 0 e 1. caso este número tenha valor inferior ao valor do epsilon, a escolha será de uma ação aleatória, o que configura exploração. Caso este número seja superior ao epsilon, a ação a ser tomada é a que gera a maior recompensa de acordo com os valores da tabela Q.

Este valor de $\epsilon$ não é constante ao longo do treinamento. Inicialmente, este valor é alto, incentivando a maior exploração do ambiente. A medida que o treinamento ocorre, mais informação sobre o ambiente é adquirida, conseguindo uma tabela Q mais representativa da realidade. Dessa forma, quanto mais avançado no treinamento, menor a necessidade de exploração e maior a necessidade de exploitar o conhecimento adquirido para maximizar a recompensa. Esta atualização do $\epsilon$ é chamada **"$\epsilon$-decay"** (decaimento do epsilon)  

In [1]:
def escolhe_acao(env, Q, estado, epsilon):
    # Se não conhecermos ainda o estado, inicializamos o Q de cada ação como 0
    if estado not in Q.keys(): Q[estado] = [0] * n_acoes

    # Escolhemos um número aleatório com "np.random.random()"
    # Se esse número for menor que epsilon, tomamos uma ação aleatória
    if np.random.random() < epsilon:
        # Escolhemos uma ação aleatória, com env.action_space.sample()
        acao = ...
    else:
        # Escolhemos a melhor ação para o estado atual, com np.argmax()
        acao = ...
    return acao

Para rodar uma partida, são necessárias algumas etapas. Inicialmente, o ambiente é reiniciado, de forma a inicar um novo episódio. Em seguida, é necessário discretizar o estado, pelos motivos já explicados acima. Esta discretização deve ocorrer toda vez em que estamos em um novo estado.

Enquanto o ambiente não chega em seu estado terminal, indicado pela variável "done", será feito o processo de escolha de ações e, uma vez escolhida, deve-se receber do ambiente o próximo estado, a recompensa que a ação escolhida gerou, além do sinal se estamos no estado terminal. Todo o processo é repetido novamente para o próximo estado, até o final do episódio.

Como explicado na seção sobre a biblioteca "Gym", "env.render()" tem como papel mostrar o ambiente (neste caso, a partida de Pong)

In [None]:
def roda_partida(env, Q, renderiza=True):
    # Resetamos o ambiente
    estado = env.reset()

    # Discretizamos o estado
    estado = ...
    
    done = False
    retorno = 0
    
    while not done:
        # Escolhemos uma ação
        acao = ...

        # Tomamos nossa ação escolhida e recebemos informações do próximo estado
        prox_estado, recompensa, done, info = ...

        # Discretizamos o próximo estado
        prox_estado = ...

        # Renderizamos o Ambiente
        if renderiza:
            env.render()

        retorno += recompensa
        estado = prox_estado

    print(f'retorno {retorno:.1f},  '
          f'placar {env.score[0]}x{env.score[1]}')
    
    env.close()

In [None]:
# Rodamos uma partida de Pong
roda_partida(env, Q)

## 🏋️‍♀️ Treinamento

TODO: Falar de Treinamento

TODO: Explicar Bellman (o básico, já foi abordado antes)

In [None]:
def atualiza_q(Q, estado, acao, recompensa, prox_estado):
    # para cada estado ainda não descoberto, iniciamos seu valor como nulo
    if estado not in Q.keys(): Q[estado] = [0] * n_acoes
    if prox_estado not in Q.keys(): Q[prox_estado] = [0] * n_acoes

    # equação de Bellman
    Q[estado][acao] = ...

TODO: Explicar (brevemente?) pickle

In [None]:
import pickle

def salva_tabela(Q, nome = 'model.pickle'):
    with open(nome, 'wb') as pickle_out:
        pickle.dump(Q, pickle_out)

def carrega_tabela(nome = 'model.pickle'):
    with open(nome, 'rb') as pickle_out:
        return pickle.load(pickle_out)

TODO: Explicar função de treinamento

In [None]:
def treina(env, Q):
    retornos = []      # retorno de cada episódio
    epsilon = EPSILON

    for episodio in range(1, N_EPISODIOS+1):
        # resetar o ambiente e discretizar a ação
        ...
        
        done = False
        retorno = 0
        
        while not done:
            # escolher uma ação
            ...

            # tomar a ação
            ...

            # discretizar o próximo estado
            ...

            atualiza_q(Q, estado, acao, recompensa, prox_estado)

            retorno += recompensa
            estado = prox_estado

        # calcular o próximo epsilon
        epsilon = ...
        epsilon = max(epsilon, EPSILON_MIN)

        retornos.append(retorno)

        if episodio % 10 == 0:
            salva_tabela(Q)

        print(f'episódio {episodio},  '
              f'retorno {retorno:7.1f},  '
              f'retorno médio (últimos 10 episódios) {np.mean(retornos[-10:]):7.1f},  '
              f'placar {env.score[0]}x{env.score[1]},  '
              f'epsilon: {epsilon:.3f}')
        
    env.close()

In [None]:
treina(env, Q)

## 🏓 Testando nosso Agente Treinado

In [None]:
roda_partida(env, Q)