# 🎮 Prática de Aprendizado por Reforço
⠀

O objetivo deste notebook é fazer uma breve demonstração da área de Aprendizado por Reforço utilizando um dos maiores clássicos da história dos video-games: ***Flappy-bird***.

<br>

<p align="center">
  <img align="center"
       src="https://github.com/Talendar/flappy-bird-gym/blob/main/imgs/yellow_bird_playing.gif?raw=true"
       width="200"/>
  &nbsp;&nbsp;&nbsp;&nbsp;
  <img align="center"
       src="https://github.com/Talendar/flappy-bird-gym/blob/main/imgs/red_bird_start_screen.gif?raw=true"
       width="200"/>
  &nbsp;&nbsp;&nbsp;&nbsp;
  <img align="center"
       src="https://github.com/Talendar/flappy-bird-gym/blob/main/imgs/blue_bird_playing.gif?raw=true"
       width="200"/>
</p>

## 💻 Programando...

### Importando o Gymnasium

O **[Gymnasium](https://gymnasium.farama.org/index.html)** é uma biblioteca desenvolvida a partir de uma biblioteca semelhante desenvolvida pela OpenAI que contém várias implementações prontas de ambientes de Aprendizagem por Reforço. Ela é muito utilizada quando se quer testar um algoritmo de agente sem ter o trabalho de programar seu próprio ambiente.

<img src="https://user-images.githubusercontent.com/10624937/42135602-b0335606-7d12-11e8-8689-dd1cf9fa11a9.gif" alt="Exemplos de Ambientes do Gym" class="inline"/>
<figcaption>Exemplo de Ambientes do Gymnasium</figcaption>
<br>

Para ter acesso a esses ambientes, basta importar o Gymnasium da seguinte forma:

In [None]:
import gymnasium as gym

### O que é um Ambiente?

Um **Ambiente** de Aprendizagem por Reforço é um espaço que representa o nosso problema, é o objeto com o qual o nosso agente deve interagir para cumprir sua função. Isso significa que o agente toma **ações** nesse ambiente, e recebe **recompensas** dele com base na qualidade de sua tomada de decisões.

Todos os ambientes são dotados de um **espaço de observações**, que é a forma pela qual o agente recebe informações e deve se basear para a tomada de decisões, e um **espaço de ações**, que especifica as ações possíveis do agente. No xadrez, por exemplo, o espaço de observações seria o conjunto de todas as configurações diferentes do tabuleiro, e o espaço de ações seria o conjunto de todos os movimentos permitidos.

<img src="https://www.raspberrypi.org/wp-content/uploads/2016/08/giphy-1-1.gif" alt="Uma Ação do Xadrez" class="inline"/>

### Criando um Ambiente

Para utilizar um dos ambientes do Gymnasium, nós usamos a função ```gym.make()```, passando o nome do ambiente desejado como parâmetro e guardando o valor retornado em uma variável que chamaramos de ```env```. A lista com todos os ambientes do gym pode ser encontrada [aqui](https://gymnasium.farama.org/index.html).

In [None]:
import flappy_bird_gymnasium

env = gym.make("FlappyBird-v0", render_mode="human", use_lidar=False)

Nesse caso, nós vamos utilizar o ambiente ```FlappyBird-v0```, um ambiente que reproduz o jogo _Flappy Bird_.

#### Características do Flappy Bird

Antes de treinar qualquer agente, primeiro é preciso entender melhor quais as características do nosso ambiente.

O **Espaço de Observação** é definido por várias informações lidas por um sensor, como: 

- A posição horizontal do último cano
- A posição vertical do último cano superior
- A posição vertical do último cano inferior
- A posição horizontal do próximo cano
- A posição vertical do próximo cano superior
- A posição vertical do próximo cano inferior
- A posição horizontal do próximo próximo cano
- A posição vertical do próximo próximo cano superior
- A posição vertical do próximo próximo cano inferior
- A posição vertical do jogador
- A velocidade vertical do jogador
- A rotação do jogador

Dessa forma, a cada instante recebemos uma lista da observação com o seguinte formato:

In [None]:
print(env.observation_space.sample())

#### Características do Flappy Bird

Antes de treinar qualquer agente, primeiro é preciso entender melhor quais as características do espaço de ação do própio agente.

O **Espaço de Ação** é definido por 2 informações:

| Estado    | Informação                            |
| :-------- | :------------------------------------ |
| 0         | Não faz nada |
| 1         | Bate as asas |

Dessa forma, a cada instante recebemos uma lista da observação com o seguinte formato:

In [None]:
print(env.action_space.sample())

Por fim, cada vez que tomamos uma ação, recebemos do ambiente uma **recompensa**, conforme a tabela abaixo:

| Ocorrência                       | Recompensa|
| :--------------------------------| ---------:|
| Estar vivo                       | $+0.1$    |
| Passar por um cano com sucesso   | $+1.0$    |
| Morrer                           | $-1.0$    |
| Tocar o topo da tela             | $-0.5$    |

O objetivo do jogo é ultrapassar o maior número possível de canos. Assim, o dever do agente (pássaro) é acumular o máximo de pontos possíveis em um determinado período de tempo.

### ✍ Testando o código

Agora que você já entende como o jogo funciona, vamos tentar aplicar esse conhecimento rodando um episódio do jogo tomando ações aleatórias!

OBS: Algumas funções úteis do Gymnasium

| Método                 | Funcionalidade                                          |
| :--------------------- |:------------------------------------------------------- |
| `reset()`              | Inicializa o ambiente e recebe a observação inicial     |
| `step(acao)`           | Executa uma ação e recebe a observação e a recompensa   |
| `render()`             | Renderiza o ambiente                                    |
| `close()`              | Fecha o ambiente                                        |

In [None]:
# Criando o ambiente
env = gym.make("FlappyBird-v0", render_mode="human", use_lidar=False)

# Resete o ambiente e receba o estado inicial
estado, _ = env.reset()

# Inicializando uma variável booleana para indicar que o treinamento ainda não foi concluído
fim = False

# Loop de treino
while not fim:
    # Escolha uma acao aleatoria
    acao = env.action_space.sample()

    # Tome essa acao e receba as informacoes do estado seguinte
    prox_estado, recompensa, fim, truncated, info = env.step(acao)

# Fechando o ambiente
env.close()

### Overview

Para rodar uma partida, ou episódio de treinamento, são necessárias algumas etapas:

1. Iniciar um novo episódio chamando a função ```reset()```
2. Discretizar o estado
3. Escolher uma ação

O estado terminal do ambiente é indicado pela variável "fim" e, enquanto o valor dessa variável não for `True`, os últimos dos passos descritos acima são executados. No final de cada iteração, deve-se receber do ambiente o próximo estado, a recompensa que a ação escolhida gerou, além do sinal se estamos no estado terminal.

## 👩‍💻 Algoritmo

Primeiramente, precisaremos utilizar uma biblioteca chamada ***NumPy*** para auxiliar nas computações. Esta é uma biblioteca do Python capaz de manusear diversas computações matemáticas com maestria e será importante futuramente para o nosso trabalho.

In [None]:
import numpy as np # Importando a biblioteca NumPy
import gymnasium as gym         # Importando a Biblioteca Gymnasium

# Criando o nosso Ambiente
env = gym.make("FlappyBird-v0", render_mode="human", use_lidar=False)

# Número total de ações: 2
# 0 = não faz nada; 1 = bate as asas
n_acoes = env.action_space.n

print('Número de ações:', n_acoes)

### 🔢 Discretizando o nosso Estado

Como comentado anteriormente, o estado que o nosso agente recebe consiste das distâncias lidas pelo sensor. Dessa forma, uma breve partida de flappy bird pode conter inúmeros estados, resultados da leitura do sensor a cada momento. 

O Q-Learning é um algoritmo que guarda em uma tabela as estimativas do Q de cada ação para cada estado.  esse gigantesco número de estados exigiria não somente guardar como atualizar cada um desses Q. Não é uma situação ideal.

Para simplificar (e agilizar) a situação, podemos "discretizar" os nossos estados. Faremos com que estados similares o suficiente sejam considerados como iguais e comparilhem das mesmas estimativas.

In [None]:
def discretiza_estado(estado):
    return tuple(round(x/10) for x in estado)

### 🔀 Escolhendo Ações

Antes de iniciar o processo de escolha de ação, é necessário entender dois conceitos essenciais para o aprendizado por reforço:

- **Exploração**:É a fase em que o agente está **explorando o ambiente**, isto é, escolhendo ações que ele não costuma tomar para encontrar alguma solução que ele não havia pensado antes.

- **Explotação**: Acontece quando o agente **aproveita** um conhecimento prévio para tomar novas ações que podem maximizar a recompensa recebida em cada episódio

Nosso modelo precisa estabelecer um equilíbrio entre **explorar e explotar**. Para isso, existem diversas estratégias para alcançar esse fim. Uma delas, é a seleção de ações pela estratégia do **"$\epsilon$-greedy"**.

#### A Estratégia **$\epsilon$-greedy**

O algoritmo "$\epsilon$-greedy" é definido da seguinte forma: é retirado um número aleatório, no intervalo entre 0 e 1. caso este número tenha valor inferior ao valor do epsilon, a escolha será de uma ação aleatória, o que configura exploração. Caso este número seja superior ao epsilon, a ação a ser tomada é a que gera a maior recompensa de acordo com os valores da tabela Q.

Este valor de $\epsilon$ não é constante ao longo do treinamento. Inicialmente, este valor é alto, incentivando a maior exploração do ambiente. A medida que o treinamento ocorre, mais informação sobre o ambiente é adquirida, conseguindo uma tabela Q mais representativa da realidade. Dessa forma, quanto mais avançado no treinamento, menor a necessidade de exploração e maior a necessidade de exploitar o conhecimento adquirido para maximizar a recompensa. Esta atualização do $\epsilon$ é chamada **"$\epsilon$-decay"** (decaimento do epsilon). Também é estabelecido um valor mínimo para o $\epsilon$, para que o agente nunca pare completamente de explorar o ambiente.

In [None]:
# Constantes da Política Epsilon Greedy
# Epsilon: probabilidade de experimentar uma ação aleatória
EPSILON = 0.8        # Valor inicial do epsilon
EPSILON_MIN = 0.01   # Valor mínimo de epsilon
DECAIMENTO = 0.9    # Fator de decaímento do epsilon (por episódio)

In [None]:
def escolhe_acao(env, Q, estado, epsilon):
    # Se não conhecermos ainda o estado, inicializamos o Q de cada ação como 0
    if estado not in Q.keys(): Q[estado] = [0] * n_acoes

    # Escolhemos um número aleatório com "np.random.random()"
    # Se esse número for menor que epsilon, tomamos uma ação aleatória
    if np.random.random() < epsilon:
        # Escolhemos uma ação aleatória, com env.action_space.sample()
        acao = env.action_space.sample()
    else:
        # Escolhemos a melhor ação para o estado atual, com np.argmax()
        acao = np.argmax(Q)
    return acao

Agora, finalizando a implementação de todos os passos descritos anteriormente, criamos a função `roda_partida`, que recebe o ambiente e realiza todas as etapas necessárias para rodar uma partida, definidas anteriormente.

In [None]:
def roda_partida(env):
    # Resetamos o ambiente
    estado, _ = env.reset()

    # Discretizamos o estado
    estado = discretiza_estado(estado)

    done = False
    retorno = 0

    while not done:
        # Escolhemos uma ação
        acao = env.action_space.sample()

        # Tomamos nossa ação escolhida e recebemos informações do próximo estado
        prox_estado, recompensa, done, _, info = env.step(acao)

        # Discretizamos o próximo estado
        prox_estado = discretiza_estado(prox_estado)

        retorno += recompensa
        estado = prox_estado

In [None]:
# Rodamos uma partida
roda_partida(env)

## 🏋️‍♀️ Treinamento

Agora sim chegaremos no treinamento propriamente dito. Usando os conceitos vistos na apresentação e nas seções anteriores do notebook, podemos definir a função de treinamento que vai permitir que o agente aprenda a jogar Flappy Bird por meio de **Q-Learning tabular**.

O próximo passo é definir uma estratégia de treinamento do modelo, para que ele execute todos os passos definidos anteriormente de forma mais inteligente.

O algoritmo se baseia na atualização de estimativas dos valores Q para cada par estado-ação, de forma a chegar a uma tabela cada vez mais próxima da realidade do ambiente. Dessa forma, devemos atualizar cada entrada da tabela de acordo com a **equação do Q-Learning**:

$$Q*(s,a) \leftarrow Q*(s,a) + \alpha \cdot \left[r + \gamma \cdot \max_{a'} (Q(s',a')) - Q(s, a)\right]$$

Esta equação corrige o valor do Q(s,a) de acordo com os valores anteriores somados a uma parcela de correção, de forma a minimizar o erro. A recompensa é representada por r, enquanto os outros parâmetros estão explicados a seguir:

* "ALFA" ($\alpha$): algoritmos de aprendizado de máquina costumam precisar de uma forma de serem otimizados. Q-learning trabalha em cima de gradientes, uma entidade matemática que indica a direção para maximizar (ou minimizar) uma função. Dispondo dessa direção, precisamos informar qual deve ser o tamanho do passo a ser dado antes de atualizar a nova "direção ideal".

* "GAMA" ($\gamma$): denota o quanto desejamos que nosso algoritmo considere eventos futuros. Se "$\gamma = 1$", nosso algoritmo avaliará que a situação futura ser melhor que a atual é tão importante quanto a recompensa da situação atual em si, por outro lado, se "$\gamma = 0$", os eventos futuros não apresentam importância alguma para nosso algoritmo.

* "Q" é um dicionário, ou seja, uma estrtura de dados capaz de buscar elementos de forma rápida. Nós o usaremos para guardar valores relativos às estimativas do algoritmo.

In [None]:
# Hiperparâmetros do Q-Learning
ALFA = 0.001          # Learning rate
GAMA = 0.98           # Fator de desconto

# Dicionário dos valores de Q
# Chaves: estados; valores: qualidade Q atribuida a cada ação
Q = {}

In [None]:
def atualiza_q(Q, estado, acao, recompensa, prox_estado):
    # para cada estado ainda não descoberto, iniciamos seu valor como nulo
    if estado not in Q.keys(): Q[estado] = [0] * n_acoes
    if prox_estado not in Q.keys(): Q[prox_estado] = [0] * n_acoes

    # equação do Q-Learning
    Q[estado][acao] = Q[estado][acao] + ALFA * (recompensa + GAMA*np.max(Q[prox_estado]) - Q[estado][acao])

Pickle é uma maneira de salvar dados em um arquivo independente. Dessa forma, podemos gravar os valores da nossa tabela Q em um arquivo próprio, ficando disponível para ser acessada em outro momento. Assim, podemos efetivamente salvar o modelo treinado para ser utilizado posteriormente. Abaixo, já estão presentes as funções de salvar e de abrir as tabelas com pickle.

In [None]:
import pickle

def salva_tabela(Q, nome = 'model.pickle'):
    with open(nome, 'wb') as pickle_out:
        pickle.dump(Q, pickle_out)

def carrega_tabela(nome = 'model.pickle'):
    with open(nome, 'rb') as pickle_out:
        return pickle.load(pickle_out)

A função de treinamento tem estrutura semelhante à função roda_partida, conforme visto anteriormente. A cada episódio, o embiente deve ser reiniciado e discretizado, e deve indicar que o episódio ainda não chegou em sua condição terminal. Devemos também zerar o valor da recompensa, pois não devemos utilizar o retorno do episódio anterior.

Enquanto o episódio não chega no final, o agente deve escolher uma ação e tomar a ação escolhida. Uma vez tomada a ação, o ambiente fornece o próximo estado, a recompensa recebida com a escolha, a indicação se o estado é terminal e informações sobre o ambiente.

Em seguida, devemos discretizar o próximo estado e atualizar os valores de q, o retorno e o estado atual.

Por fim, devemos atualizar o valor do epsilon, de acordo com o método $\epsilon$-greedy, onde deve ocorrer o decaimento do epsilon, mas seu valor nunca deve ser inferior ao valor mínimo definido.



* `N_EPISODIOS` dita quantas vezes o agente deverá "reviver" o ambiente (vitórias e derrotas) antes de acabar seu treinamento.

In [None]:
N_EPISODIOS = 120    # quantidade de episódios que treinaremos

In [None]:
def treina(env, Q):
    retornos = []      # retorno de cada episódio
    epsilon = EPSILON

    for episodio in range(1, N_EPISODIOS+1):
        # resetar o ambiente
        estado, _ = env.reset()
        
        # discretizar o estado inicial
        estado = discretiza_estado(estado)
        
        done = False
        retorno = 0
        
        while not done:
            # politica
            acao = escolhe_acao(env, Q, estado, epsilon)

            # A ação é tomada e os valores novos são coletados
            # O novo estado é salvo numa nova variavel
            prox_estado, recompensa, done, _, info = env.step(acao)
            prox_estado = discretiza_estado(prox_estado)

            atualiza_q(Q, estado, acao, recompensa, prox_estado)

            retorno += recompensa
            estado = prox_estado

        # atualiza o valor de epsilon para o próximo episódio
        epsilon = max(DECAIMENTO*epsilon, EPSILON_MIN)
        retornos.append(retorno)

        if episodio % 10 == 0:
            salva_tabela(Q)

        # log do resultado dos últimos episódios
        print(f'episódio {episodio},  '
              f'retorno {retorno:7.1f},  '
              f'retorno médio (últimos 10 episódios) {np.mean(retornos[-10:]):7.1f},  '
              f'epsilon: {epsilon:.3f}')

Antes de testa a função de treino, será necessário inicializar um novo ambiente.

In [None]:
treina(env, Q)

## Testando nosso Agente Treinado

In [None]:
roda_partida(env)

In [None]:
# Encerramos o ambienteclose
env.close()