# üéÆ Pong

Ol√° e bem vindo ao workshop de **reinforcement learning** (RL) do grupo Turing! O prop√≥sito desse projeto √© ensinar aos interessados como implementar um algoritmo revolucion√°rio - Q-learning - para resolver um dos maiores cl√°ssicos da hist√≥ria dos video-games, pong.

Come√ßaremos falando sobre o problema, ou seja, sobre o jogo Pong. Este que foi o primeiro jogo de video-game lucrativo da hist√≥ria, publicado em 1972, o jogo consta 48 anos de legado. Pong simula uma partida de t√™nis, existem duas "raquetes" e uma bola, e o objetivo de cada uma das raquetes √© n√£o somente evitar que a bola passe por ela, como tamb√©m fazer com que esta passe pela linha que a outra raquete protege, criando assim a premissa que sustenta o interesse pelo jogo. Queremos ent√£o desenvolver um algoritmo capaz de - sem nenhuma explica√ß√£o adicional - maximizar as suas recompensas, sendo as a√ß√µes, os estados e as recompensas, todas relativas ao jogo Pong. Teremos no final, portanto, um modelo treinado capaz de bom desempenho dentro do ambiente. 



Usaremos uma biblioteca chamada "numpy" para auxiliar nas computa√ß√µes. Esta √© uma biblioteca do python capaz de manuzear diversas computa√ß√µes matem√°ticas com maestria e nos ser√° importante para o trabalho vindouro.

In [None]:
# Importando a biblioteca Numpy
import numpy as np

Em seguida, √© importante definir nossas _vari√°veis globais_, as quais s√£o respons√°veis por regir valores que podem ser ajustados para melhor desempenho do modelo, ou maior velocidade de treinamento. Algumas dessas vari√°veis apenas far√£o sentido mais a frente, mas tentaremos dar explica√ß√µes sucintas para cada uma delas.

* "EPSILON" ser√° o a vari√°vel correspondete √† letra grega "$\epsilon$" de mesmo nome, que √© a nota√ß√£o usual para a probabilidade de explora√ß√£o do nosso agente. Para exemplificar a posi√ß√£o do nosso agente, que iluminar√° a fun√ß√£o dessa vari√°vel, ser√° dado um exemplo do cotidiano humano: Digamos que sua m√£e lhe concede algumas moedas de um real para comprar lanches na escola. Sua escola disp√µe de quatro m√°quinas de alimentos, mas todas elas possuem diferentes probabilidades de lhe conceder chocolates de marcas estranhas das quais voc√™ nunca ouviu falar. Como voc√™ deve aumentar a sua satisfa√ß√£o (conseguir mais frequentemente os chocolates mais gostosos) com um n√∫mero finito de recursos (as moedas que voc√™ possui) sem nunca saber com certeza o que esperar do seu investimento. Esse problema √© famoso na √°rea e √© conhecido como _the multi-armed bandit problem_, ent√£o como resolv√™-lo? Usaremos o algoritmo $\epsilon$-guloso, o qual nos instrui a inicialmente explorar bastante at√© existir certo conhecimento do que esperar de cada m√°quina de chocolate e, conforme √© adquirida experi√™ncia, certa confi√¢ncia de que determinada m√°quina nos fornece com maior frequencia os chocolates de melhor gosto √© criada, ent√£o a necessidade de explorar ir√° decrescer. A vari√°vel em quest√£o, portanto, representa a probabilidade inicial de tentarmos uma a√ß√£o aleat√≥ria.

* "EPSILON_MIN", conforme nossa confian√ßa aumenta, ser√° desej√°vel aproveitar nosso conhecimento com maior frequencia do que explorar ainda mais o ambiente. Contudo, sempre far√° sentido explorar ao menos um pouco enquanto treinamos o algoritmo e, portanto, √© criado um limite inferior para a probabilida de explora√ß√£o e tal √© a fun√ß√£o dessa vari√°vel.

* "DECAIMENTO", como explicado, √© desejado diminuir a explora√ß√£o conforme a experi√™ncia aumenta. Essa vari√°vel √© justamente a taxa de decaimento da nossa probabilidade de explora√ß√£o.

* "ALFA", algoritmos de aprendizado de m√°quina costumam precisar de uma forma de serem otimizados. Q-learning trabalha em cima de gradientes, uma entidade matem√°tica que indica a dire√ß√£o para maximizar (ou minimizar) uma fun√ß√£o. Dispondo dessa dire√ß√£o, precisamos informar qual deve ser o tamanho do passo a ser dado antes de atualizar a nova "dire√ß√£o ideal".

* "GAMA" √© a vari√°vel correspondente a letra grega de mesmo nome "$\gamma$", a qual denota o quanto desejamos que nosso algoritmo considere eventos futuros. Se "$\gamma = 1$", nosso algoritmo avaliar√° que a situa√ß√£o futura ser melhor que a atual √© t√£o importante quanto a recompensa da situa√ß√£o atual em si, por outro lado, se "$\gamma = 0$", os eventos futuros n√£o apresentam import√¢ncia alguma para nosso algoritmo. 

* "N_EPISODIOS" dita quantas vezes o agente dever√° "reviver" o ambiente (vit√≥rias e derrotas) antes de acabar seu treinamento.

* "Q" √© um dicion√°rio, ou seja, uma estrtura de dados capaz de buscar elementos de forma r√°pida. N√≥s o usaremos para guardar valores relativos √†s estimativas do algoritmo.

In [None]:
# Constantes da Pol√≠tica Epsilon Greedy
# Epsilon: probabilidade de experimentar uma a√ß√£o aleat√≥ria
EPSILON = 0.7        # Valor inicial do epsilon
EPSILON_MIN = 0.01   # Valor m√≠nimo de epsilon
DECAIMENTO = 0.98    # Fator de deca√≠mento do epsilon (por epis√≥dio)

# Hiperpar√¢metros do Q-Learning
ALFA = 0.05          # Learning rate
GAMA = 0.9           # Fator de desconto

N_EPISODIOS = 250    # Quantidade de epis√≥dios que treinaremos

# Dicion√°rio dos valores de Q
# Chaves: estados; valores: qualidade Q atribuida a cada a√ß√£o
Q = {}

![](https://www.kdnuggets.com/images/reinforcement-learning-fig1-700.jpg)

Antes de partir para o c√≥digo do algoritmo em si, alguns esclarecimentos do ponto de vista do agente sobre o ambiente devem ser feitos. Pong √© um jogo simples, consiste em controlar a sua raquete com esperan√ßa de maximizar a sua pontua√ß√£o e manter a do advers√°rio a menor poss√≠vel. Devemos, contudo, adicionar algum rigor √† essa express√£o, de forma que o algoritmo seja capaz de lidar com essa informa√ß√£o. "controlar a raquete" significa haver tr√™s poss√≠veis a√ß√µes: subir, descer ou n√£o se mover. Cada a√ß√£o tomada em cada estado deve nos retornar uma recompensa e deve nos levar a um novo estado. A nossa recompensa ser√° de +500 u.r. se pontuarmos, -500 u.r. se pontuarem sobre n√≥s e 0 caso contr√°rio. Finalmente, os estados ser√£o vetores dist√¢ncia entre a raquete a bola, caso jogado no modo f√°cil.

In [None]:
# Importando a Biblioteca Gym
import gym

# Criando o nosso Ambiente: Pong
env = gym.make("pong:turing-easy-v0")

# N√∫mero total de a√ß√µes: 3
# 0 = parado; 1 = baixo; 2 = cima
n_acoes = env.action_space.n

print('N√∫mero de a√ß√µes:', n_acoes)

como foi dito, os estados que o nosso agente utilizar√° para tomar suas decis√µes s√£o vetores ("setas") que apontam da raquete controlada at√© a bola, imagine agora o caso onde esses vetores apresentassem apenas seus m√≥dulos como n√∫meros inteiros. Se a nossa tela possuisse 800 u.d. de largura e 600 u.d. de altura, o espa√ßo amostral dos diferentes vetores e, portanto, diferentes estados do ponto de vista do agente seria $2 \times 800 \times 600 = 960000$. Para um algoritmo que consiste em guardar estimativas do valor de cada a√ß√£o para cada estado, esse n√∫mero de estados exigiria n√£o somente guardar como atualizar cada um desses valores at√© chegar numa estimativa otimizada para os 3 milh√µes de valores. N√£o √© o ideal. Para simplificar (e agilizar) a situa√ß√£o, "discretizar" os nossos estados √© razo√°vel e esperado, faremos com que estados similares o suficiente sejam considerados como iguais e comparilhem das mesmas estimativas (n√£o faz sentido distinguir o vetor (502,234) do vetor (515,222))

In [None]:
def discretiza_estado(estado):
    return tuple(round(x/10) for x in estado)

TODO: Explicar tomada de a√ß√£o

In [None]:
def escolhe_acao(env, Q, estado, epsilon):
    # Se n√£o conhecermos ainda o estado, inicializamos o Q de cada a√ß√£o como 0
    if estado not in Q.keys(): Q[estado] = [0] * n_acoes

    # Escolhemos um n√∫mero aleat√≥rio com "np.random.random()"
    # Se esse n√∫mero for menor que epsilon, tomamos uma a√ß√£o aleat√≥ria
    if np.random.random() < epsilon:
        # Escolhemos uma a√ß√£o aleat√≥ria, com env.action_space.sample()
        acao = ...
    else:
        # Escolhemos a melhor a√ß√£o para o estado atual, com np.argmax()
        acao = ...
    return acao

TODO: Explicar fun√ß√£o de rodar partida

In [None]:
def roda_partida(env, Q, renderiza=True):
    # Resetamos o ambiente
    estado = env.reset()

    # Discretizamos o estado
    estado = ...
    
    done = False
    retorno = 0
    
    while not done:
        # Escolhemos uma a√ß√£o
        acao = ...

        # Tomamos nossa a√ß√£o escolhida e recebemos informa√ß√µes do pr√≥ximo estado
        prox_estado, recompensa, done, info = ...

        # Discretizamos o pr√≥ximo estado
        prox_estado = ...

        # Renderizamos o Ambiente
        if renderiza:
            env.render()

        retorno += recompensa
        estado = prox_estado

    print(f'retorno {retorno:.1f},  '
          f'placar {env.score[0]}x{env.score[1]}')
    
    env.close()

In [None]:
# Rodamos uma partida de Pon
roda_partida(env, Q)

## üèãÔ∏è‚Äç‚ôÄÔ∏è Treinamento

TODO: Falar de Treinamento

TODO: Explicar Bellman (o b√°sico, j√° foi abordado antes)

In [None]:
def atualiza_q(Q, estado, acao, recompensa, prox_estado):
    # para cada estado ainda n√£o descoberto, iniciamos seu valor como nulo
    if estado not in Q.keys(): Q[estado] = [0] * n_acoes
    if prox_estado not in Q.keys(): Q[prox_estado] = [0] * n_acoes

    # equa√ß√£o de Bellman
    Q[estado][acao] = ...

TODO: Explicar (brevemente?) pickle

In [None]:
import pickle

def salva_tabela(Q, nome = 'model.pickle'):
    with open(nome, 'wb') as pickle_out:
        pickle.dump(Q, pickle_out)

def carrega_tabela(nome = 'model.pickle'):
    with open(nome, 'rb') as pickle_out:
        return pickle.load(pickle_out)

TODO: Explicar fun√ß√£o de treinamento

In [None]:
def treina(env, Q):
    retornos = []      # retorno de cada epis√≥dio
    epsilon = EPSILON

    for episodio in range(1, N_EPISODIOS+1):
        # resetar o ambiente e discretizar a a√ß√£o
        ...
        
        done = False
        retorno = 0
        
        while not done:
            # escolher uma a√ß√£o
            ...

            # tomar a a√ß√£o
            ...

            # discretizar o pr√≥ximo estado
            ...

            atualiza_q(Q, estado, acao, recompensa, prox_estado)

            retorno += recompensa
            estado = prox_estado

        # calcular o pr√≥ximo epsilon
        epsilon = ...
        epsilon = max(epsilon, EPSILON_MIN)

        retornos.append(retorno)

        if episodio % 10 == 0:
            salva_tabela(Q)

        print(f'epis√≥dio {episodio},  '
              f'retorno {retorno:7.1f},  '
              f'retorno m√©dio (√∫ltimos 10 epis√≥dios) {np.mean(retornos[-10:]):7.1f},  '
              f'placar {env.score[0]}x{env.score[1]},  '
              f'epsilon: {epsilon:.3f}')
        
    env.close()

In [None]:
treina(env, Q)

## üèì Testando nosso Agente Treinado

In [None]:
roda_partida(env, Q)