# üéÆ Pr√°tica de Aprendizado por Refor√ßo
‚†Ä

O objetivo deste notebook √© fazer uma breve demonstra√ß√£o da √°rea de Aprendizado por Refor√ßo utilizando um dos maiores cl√°ssicos da hist√≥ria dos video-games: ***Flappy-bird***.

<br>

<p align="center">
  <img align="center"
       src="https://github.com/Talendar/flappy-bird-gym/blob/main/imgs/yellow_bird_playing.gif?raw=true"
       width="200"/>
  &nbsp;&nbsp;&nbsp;&nbsp;
  <img align="center"
       src="https://github.com/Talendar/flappy-bird-gym/blob/main/imgs/red_bird_start_screen.gif?raw=true"
       width="200"/>
  &nbsp;&nbsp;&nbsp;&nbsp;
  <img align="center"
       src="https://github.com/Talendar/flappy-bird-gym/blob/main/imgs/blue_bird_playing.gif?raw=true"
       width="200"/>
</p>

## üíª Programando...

### Importando o Gymnasium

O **[Gymnasium](https://gymnasium.farama.org/index.html)** √© uma biblioteca desenvolvida a partir de uma biblioteca semelhante desenvolvida pela OpenAI que cont√©m v√°rias implementa√ß√µes prontas de ambientes de Aprendizagem por Refor√ßo. Ela √© muito utilizada quando se quer testar um algoritmo de agente sem ter o trabalho de programar seu pr√≥prio ambiente.

<img src="https://user-images.githubusercontent.com/10624937/42135602-b0335606-7d12-11e8-8689-dd1cf9fa11a9.gif" alt="Exemplos de Ambientes do Gym" class="inline"/>
<figcaption>Exemplo de Ambientes do Gymnasium</figcaption>
<br>

Para ter acesso a esses ambientes, basta importar o Gymnasium da seguinte forma:

In [None]:
import gymnasium as gym

### O que √© um Ambiente?

Um **Ambiente** de Aprendizagem por Refor√ßo √© um espa√ßo que representa o nosso problema, √© o objeto com o qual o nosso agente deve interagir para cumprir sua fun√ß√£o. Isso significa que o agente toma **a√ß√µes** nesse ambiente, e recebe **recompensas** dele com base na qualidade de sua tomada de decis√µes.

Todos os ambientes s√£o dotados de um **espa√ßo de observa√ß√µes**, que √© a forma pela qual o agente recebe informa√ß√µes e deve se basear para a tomada de decis√µes, e um **espa√ßo de a√ß√µes**, que especifica as a√ß√µes poss√≠veis do agente. No xadrez, por exemplo, o espa√ßo de observa√ß√µes seria o conjunto de todas as configura√ß√µes diferentes do tabuleiro, e o espa√ßo de a√ß√µes seria o conjunto de todos os movimentos permitidos.

<img src="https://www.raspberrypi.org/wp-content/uploads/2016/08/giphy-1-1.gif" alt="Uma A√ß√£o do Xadrez" class="inline"/>

### Criando um Ambiente

Para utilizar um dos ambientes do Gymnasium, n√≥s usamos a fun√ß√£o ```gym.make()```, passando o nome do ambiente desejado como par√¢metro e guardando o valor retornado em uma vari√°vel que chamaramos de ```env```. A lista com todos os ambientes do gym pode ser encontrada [aqui](https://gymnasium.farama.org/index.html).

In [None]:
import flappy_bird_gymnasium

env = gym.make("FlappyBird-v0", render_mode="human", use_lidar=False)

Nesse caso, n√≥s vamos utilizar o ambiente ```FlappyBird-v0```, um ambiente que reproduz o jogo _Flappy Bird_.

#### Caracter√≠sticas do Flappy Bird

Antes de treinar qualquer agente, primeiro √© preciso entender melhor quais as caracter√≠sticas do nosso ambiente.

O **Espa√ßo de Observa√ß√£o** √© definido por v√°rias informa√ß√µes lidas por um sensor, como: 

- A posi√ß√£o horizontal do √∫ltimo cano
- A posi√ß√£o vertical do √∫ltimo cano superior
- A posi√ß√£o vertical do √∫ltimo cano inferior
- A posi√ß√£o horizontal do pr√≥ximo cano
- A posi√ß√£o vertical do pr√≥ximo cano superior
- A posi√ß√£o vertical do pr√≥ximo cano inferior
- A posi√ß√£o horizontal do pr√≥ximo pr√≥ximo cano
- A posi√ß√£o vertical do pr√≥ximo pr√≥ximo cano superior
- A posi√ß√£o vertical do pr√≥ximo pr√≥ximo cano inferior
- A posi√ß√£o vertical do jogador
- A velocidade vertical do jogador
- A rota√ß√£o do jogador

Dessa forma, a cada instante recebemos uma lista da observa√ß√£o com o seguinte formato:

In [None]:
print(env.observation_space.sample())

#### Caracter√≠sticas do Flappy Bird

Antes de treinar qualquer agente, primeiro √© preciso entender melhor quais as caracter√≠sticas do espa√ßo de a√ß√£o do pr√≥pio agente.

O **Espa√ßo de A√ß√£o** √© definido por 2 informa√ß√µes:

| Estado    | Informa√ß√£o                            |
| :-------- | :------------------------------------ |
| 0         | N√£o faz nada |
| 1         | Bate as asas |

Dessa forma, a cada instante recebemos uma lista da observa√ß√£o com o seguinte formato:

In [None]:
print(env.action_space.sample())

Por fim, cada vez que tomamos uma a√ß√£o, recebemos do ambiente uma **recompensa**, conforme a tabela abaixo:

| Ocorr√™ncia                       | Recompensa|
| :--------------------------------| ---------:|
| Estar vivo                       | $+0.1$    |
| Passar por um cano com sucesso   | $+1.0$    |
| Morrer                           | $-1.0$    |
| Tocar o topo da tela             | $-0.5$    |

O objetivo do jogo √© ultrapassar o maior n√∫mero poss√≠vel de canos. Assim, o dever do agente (p√°ssaro) √© acumular o m√°ximo de pontos poss√≠veis em um determinado per√≠odo de tempo.

### ‚úç Testando o c√≥digo

Agora que voc√™ j√° entende como o jogo funciona, vamos tentar aplicar esse conhecimento rodando um epis√≥dio do jogo tomando a√ß√µes aleat√≥rias!

OBS: Algumas fun√ß√µes √∫teis do Gymnasium

| M√©todo                 | Funcionalidade                                          |
| :--------------------- |:------------------------------------------------------- |
| `reset()`              | Inicializa o ambiente e recebe a observa√ß√£o inicial     |
| `step(acao)`           | Executa uma a√ß√£o e recebe a observa√ß√£o e a recompensa   |
| `render()`             | Renderiza o ambiente                                    |
| `close()`              | Fecha o ambiente                                        |

In [None]:
# Criando o ambiente
env = gym.make("FlappyBird-v0", render_mode="human", use_lidar=False)

# Resete o ambiente e receba o estado inicial
estado, _ = env.reset()

# Inicializando uma vari√°vel booleana para indicar que o treinamento ainda n√£o foi conclu√≠do
fim = False

# Loop de treino
while not fim:
    # Escolha uma acao aleatoria
    acao = env.action_space.sample()

    # Tome essa acao e receba as informacoes do estado seguinte
    prox_estado, recompensa, fim, truncated, info = env.step(acao)

# Fechando o ambiente
env.close()

### Overview

Para rodar uma partida, ou epis√≥dio de treinamento, s√£o necess√°rias algumas etapas:

1. Iniciar um novo epis√≥dio chamando a fun√ß√£o ```reset()```
2. Discretizar o estado
3. Escolher uma a√ß√£o

O estado terminal do ambiente √© indicado pela vari√°vel "fim" e, enquanto o valor dessa vari√°vel n√£o for `True`, os √∫ltimos dos passos descritos acima s√£o executados. No final de cada itera√ß√£o, deve-se receber do ambiente o pr√≥ximo estado, a recompensa que a a√ß√£o escolhida gerou, al√©m do sinal se estamos no estado terminal.

## üë©‚Äçüíª Algoritmo

Primeiramente, precisaremos utilizar uma biblioteca chamada ***NumPy*** para auxiliar nas computa√ß√µes. Esta √© uma biblioteca do Python capaz de manusear diversas computa√ß√µes matem√°ticas com maestria e ser√° importante futuramente para o nosso trabalho.

In [None]:
import numpy as np # Importando a biblioteca NumPy
import gymnasium as gym         # Importando a Biblioteca Gymnasium

# Criando o nosso Ambiente
env = gym.make("FlappyBird-v0", render_mode="human", use_lidar=False)

# N√∫mero total de a√ß√µes: 2
# 0 = n√£o faz nada; 1 = bate as asas
n_acoes = env.action_space.n

print('N√∫mero de a√ß√µes:', n_acoes)

### üî¢ Discretizando o nosso Estado

Como comentado anteriormente, o estado que o nosso agente recebe consiste das dist√¢ncias lidas pelo sensor. Dessa forma, uma breve partida de flappy bird pode conter in√∫meros estados, resultados da leitura do sensor a cada momento. 

O Q-Learning √© um algoritmo que guarda em uma tabela as estimativas do Q de cada a√ß√£o para cada estado.  esse gigantesco n√∫mero de estados exigiria n√£o somente guardar como atualizar cada um desses Q. N√£o √© uma situa√ß√£o ideal.

Para simplificar (e agilizar) a situa√ß√£o, podemos "discretizar" os nossos estados. Faremos com que estados similares o suficiente sejam considerados como iguais e comparilhem das mesmas estimativas.

In [None]:
def discretiza_estado(estado):
    return tuple(round(x/10) for x in estado)

### üîÄ Escolhendo A√ß√µes

Antes de iniciar o processo de escolha de a√ß√£o, √© necess√°rio entender dois conceitos essenciais para o aprendizado por refor√ßo:

- **Explora√ß√£o**:√â a fase em que o agente est√° **explorando o ambiente**, isto √©, escolhendo a√ß√µes que ele n√£o costuma tomar para encontrar alguma solu√ß√£o que ele n√£o havia pensado antes.

- **Explota√ß√£o**: Acontece quando o agente **aproveita** um conhecimento pr√©vio para tomar novas a√ß√µes que podem maximizar a recompensa recebida em cada epis√≥dio

Nosso modelo precisa estabelecer um equil√≠brio entre **explorar e explotar**. Para isso, existem diversas estrat√©gias para alcan√ßar esse fim. Uma delas, √© a sele√ß√£o de a√ß√µes pela estrat√©gia do **"$\epsilon$-greedy"**.

#### A Estrat√©gia **$\epsilon$-greedy**

O algoritmo "$\epsilon$-greedy" √© definido da seguinte forma: √© retirado um n√∫mero aleat√≥rio, no intervalo entre 0 e 1. caso este n√∫mero tenha valor inferior ao valor do epsilon, a escolha ser√° de uma a√ß√£o aleat√≥ria, o que configura explora√ß√£o. Caso este n√∫mero seja superior ao epsilon, a a√ß√£o a ser tomada √© a que gera a maior recompensa de acordo com os valores da tabela Q.

Este valor de $\epsilon$ n√£o √© constante ao longo do treinamento. Inicialmente, este valor √© alto, incentivando a maior explora√ß√£o do ambiente. A medida que o treinamento ocorre, mais informa√ß√£o sobre o ambiente √© adquirida, conseguindo uma tabela Q mais representativa da realidade. Dessa forma, quanto mais avan√ßado no treinamento, menor a necessidade de explora√ß√£o e maior a necessidade de exploitar o conhecimento adquirido para maximizar a recompensa. Esta atualiza√ß√£o do $\epsilon$ √© chamada **"$\epsilon$-decay"** (decaimento do epsilon). Tamb√©m √© estabelecido um valor m√≠nimo para o $\epsilon$, para que o agente nunca pare completamente de explorar o ambiente.

In [None]:
# Constantes da Pol√≠tica Epsilon Greedy
# Epsilon: probabilidade de experimentar uma a√ß√£o aleat√≥ria
EPSILON = 0.8        # Valor inicial do epsilon
EPSILON_MIN = 0.01   # Valor m√≠nimo de epsilon
DECAIMENTO = 0.9    # Fator de deca√≠mento do epsilon (por epis√≥dio)

In [None]:
def escolhe_acao(env, Q, estado, epsilon):
    # Se n√£o conhecermos ainda o estado, inicializamos o Q de cada a√ß√£o como 0
    if estado not in Q.keys(): Q[estado] = [0] * n_acoes

    # Escolhemos um n√∫mero aleat√≥rio com "np.random.random()"
    # Se esse n√∫mero for menor que epsilon, tomamos uma a√ß√£o aleat√≥ria
    if np.random.random() < epsilon:
        # Escolhemos uma a√ß√£o aleat√≥ria, com env.action_space.sample()
        acao = env.action_space.sample()
    else:
        # Escolhemos a melhor a√ß√£o para o estado atual, com np.argmax()
        acao = np.argmax(Q)
    return acao

Agora, finalizando a implementa√ß√£o de todos os passos descritos anteriormente, criamos a fun√ß√£o `roda_partida`, que recebe o ambiente e realiza todas as etapas necess√°rias para rodar uma partida, definidas anteriormente.

In [None]:
def roda_partida(env):
    # Resetamos o ambiente
    estado, _ = env.reset()

    # Discretizamos o estado
    estado = discretiza_estado(estado)

    done = False
    retorno = 0

    while not done:
        # Escolhemos uma a√ß√£o
        acao = env.action_space.sample()

        # Tomamos nossa a√ß√£o escolhida e recebemos informa√ß√µes do pr√≥ximo estado
        prox_estado, recompensa, done, _, info = env.step(acao)

        # Discretizamos o pr√≥ximo estado
        prox_estado = discretiza_estado(prox_estado)

        retorno += recompensa
        estado = prox_estado

In [None]:
# Rodamos uma partida
roda_partida(env)

## üèãÔ∏è‚Äç‚ôÄÔ∏è Treinamento

Agora sim chegaremos no treinamento propriamente dito. Usando os conceitos vistos na apresenta√ß√£o e nas se√ß√µes anteriores do notebook, podemos definir a fun√ß√£o de treinamento que vai permitir que o agente aprenda a jogar Flappy Bird por meio de **Q-Learning tabular**.

O pr√≥ximo passo √© definir uma estrat√©gia de treinamento do modelo, para que ele execute todos os passos definidos anteriormente de forma mais inteligente.

O algoritmo se baseia na atualiza√ß√£o de estimativas dos valores Q para cada par estado-a√ß√£o, de forma a chegar a uma tabela cada vez mais pr√≥xima da realidade do ambiente. Dessa forma, devemos atualizar cada entrada da tabela de acordo com a **equa√ß√£o do Q-Learning**:

$$Q*(s,a) \leftarrow Q*(s,a) + \alpha \cdot \left[r + \gamma \cdot \max_{a'} (Q(s',a')) - Q(s, a)\right]$$

Esta equa√ß√£o corrige o valor do Q(s,a) de acordo com os valores anteriores somados a uma parcela de corre√ß√£o, de forma a minimizar o erro. A recompensa √© representada por r, enquanto os outros par√¢metros est√£o explicados a seguir:

* "ALFA" ($\alpha$): algoritmos de aprendizado de m√°quina costumam precisar de uma forma de serem otimizados. Q-learning trabalha em cima de gradientes, uma entidade matem√°tica que indica a dire√ß√£o para maximizar (ou minimizar) uma fun√ß√£o. Dispondo dessa dire√ß√£o, precisamos informar qual deve ser o tamanho do passo a ser dado antes de atualizar a nova "dire√ß√£o ideal".

* "GAMA" ($\gamma$): denota o quanto desejamos que nosso algoritmo considere eventos futuros. Se "$\gamma = 1$", nosso algoritmo avaliar√° que a situa√ß√£o futura ser melhor que a atual √© t√£o importante quanto a recompensa da situa√ß√£o atual em si, por outro lado, se "$\gamma = 0$", os eventos futuros n√£o apresentam import√¢ncia alguma para nosso algoritmo.

* "Q" √© um dicion√°rio, ou seja, uma estrtura de dados capaz de buscar elementos de forma r√°pida. N√≥s o usaremos para guardar valores relativos √†s estimativas do algoritmo.

In [None]:
# Hiperpar√¢metros do Q-Learning
ALFA = 0.001          # Learning rate
GAMA = 0.98           # Fator de desconto

# Dicion√°rio dos valores de Q
# Chaves: estados; valores: qualidade Q atribuida a cada a√ß√£o
Q = {}

In [None]:
def atualiza_q(Q, estado, acao, recompensa, prox_estado):
    # para cada estado ainda n√£o descoberto, iniciamos seu valor como nulo
    if estado not in Q.keys(): Q[estado] = [0] * n_acoes
    if prox_estado not in Q.keys(): Q[prox_estado] = [0] * n_acoes

    # equa√ß√£o do Q-Learning
    Q[estado][acao] = Q[estado][acao] + ALFA * (recompensa + GAMA*np.max(Q[prox_estado]) - Q[estado][acao])

Pickle √© uma maneira de salvar dados em um arquivo independente. Dessa forma, podemos gravar os valores da nossa tabela Q em um arquivo pr√≥prio, ficando dispon√≠vel para ser acessada em outro momento. Assim, podemos efetivamente salvar o modelo treinado para ser utilizado posteriormente. Abaixo, j√° est√£o presentes as fun√ß√µes de salvar e de abrir as tabelas com pickle.

In [None]:
import pickle

def salva_tabela(Q, nome = 'model.pickle'):
    with open(nome, 'wb') as pickle_out:
        pickle.dump(Q, pickle_out)

def carrega_tabela(nome = 'model.pickle'):
    with open(nome, 'rb') as pickle_out:
        return pickle.load(pickle_out)

A fun√ß√£o de treinamento tem estrutura semelhante √† fun√ß√£o roda_partida, conforme visto anteriormente. A cada epis√≥dio, o embiente deve ser reiniciado e discretizado, e deve indicar que o epis√≥dio ainda n√£o chegou em sua condi√ß√£o terminal. Devemos tamb√©m zerar o valor da recompensa, pois n√£o devemos utilizar o retorno do epis√≥dio anterior.

Enquanto o epis√≥dio n√£o chega no final, o agente deve escolher uma a√ß√£o e tomar a a√ß√£o escolhida. Uma vez tomada a a√ß√£o, o ambiente fornece o pr√≥ximo estado, a recompensa recebida com a escolha, a indica√ß√£o se o estado √© terminal e informa√ß√µes sobre o ambiente.

Em seguida, devemos discretizar o pr√≥ximo estado e atualizar os valores de q, o retorno e o estado atual.

Por fim, devemos atualizar o valor do epsilon, de acordo com o m√©todo $\epsilon$-greedy, onde deve ocorrer o decaimento do epsilon, mas seu valor nunca deve ser inferior ao valor m√≠nimo definido.



* `N_EPISODIOS` dita quantas vezes o agente dever√° "reviver" o ambiente (vit√≥rias e derrotas) antes de acabar seu treinamento.

In [None]:
N_EPISODIOS = 120    # quantidade de epis√≥dios que treinaremos

In [None]:
def treina(env, Q):
    retornos = []      # retorno de cada epis√≥dio
    epsilon = EPSILON

    for episodio in range(1, N_EPISODIOS+1):
        # resetar o ambiente
        estado, _ = env.reset()
        
        # discretizar o estado inicial
        estado = discretiza_estado(estado)
        
        done = False
        retorno = 0
        
        while not done:
            # politica
            acao = escolhe_acao(env, Q, estado, epsilon)

            # A a√ß√£o √© tomada e os valores novos s√£o coletados
            # O novo estado √© salvo numa nova variavel
            prox_estado, recompensa, done, _, info = env.step(acao)
            prox_estado = discretiza_estado(prox_estado)

            atualiza_q(Q, estado, acao, recompensa, prox_estado)

            retorno += recompensa
            estado = prox_estado

        # atualiza o valor de epsilon para o pr√≥ximo epis√≥dio
        epsilon = max(DECAIMENTO*epsilon, EPSILON_MIN)
        retornos.append(retorno)

        if episodio % 10 == 0:
            salva_tabela(Q)

        # log do resultado dos √∫ltimos epis√≥dios
        print(f'epis√≥dio {episodio},  '
              f'retorno {retorno:7.1f},  '
              f'retorno m√©dio (√∫ltimos 10 epis√≥dios) {np.mean(retornos[-10:]):7.1f},  '
              f'epsilon: {epsilon:.3f}')

Antes de testa a fun√ß√£o de treino, ser√° necess√°rio inicializar um novo ambiente.

In [None]:
treina(env, Q)

## Testando nosso Agente Treinado

In [None]:
roda_partida(env)

In [None]:
# Encerramos o ambienteclose
env.close()