#### Nomes: David Rodrigues Albuquerque e Ramon Oliveira de Azevedo
#### DRE: 120047390 e 120023419
#### 7° Período
#### Ciência da Computação

# Projeto de Introdução ao Aprendizado de Máquina - Professor João Carlos Pereira da Silva

# <center>Aplicação de Aprendizado por Reforço - Snake Game</center>

---



## Sumário

*   Apresentação do projeto e objetivo
*   O que é aprendizado por reforço?
*   Q-Learning
*   Q-Table e Equação de Bellman
*   Implementação
*   Conjunto de Testes
*   Análise dos resultados obtidos
*   Agradecimentos
*   Referências Bibliográficas

### Apresentação do projeto e objetivo

Este trabalho tem como objetivo a realização de estudos envolvendo o campo de Aprendizado de Reforço em Python, sendo o mesmo aplicado em um Snake Game, se caracterizando como a quarta tarefa dada pela disciplina "Introdução ao Aprendizado de Máquina", sendo a mesma ministrada pelo professor João Carlos Pereira da Silva. 

### O que é aprendizado por reforço?

O aprendizado por reforço (ou Reinforcement Learning – RL) se caracteriza como um modelo de aprendizado semi-supervisionado em Machine Learning, sendo uma técnica para permitir que um agente tome ações e interaja com um ambiente, a fim de maximizar as recompensas totais. Mas como isso acontece? 
Nesse tipo de aprendizado, o agente não é informado sobre as ações corretas a serem executadas, mas recebe feedback na forma de recompensas ou punições após realizar uma ação. O objetivo do agente é aprender uma política de ações que maximize a recompensa acumulada ao longo do tempo.

Existem três componentes fundamentais no Aprendizado por Reforço: o Agente (agent), o Ambiente (Environment) e a Recompensa (Reward). O agente é responsável por tomar ações com base nas informações do ambiente, enquanto o ambiente é o contexto onde o agente interage. Paralelo a isso, a recompensa é uma medida numérica que o agente recebe após cada ação, indicando o quão boa foi sua escolha. 

Utilizando um exemplo do nosso cotidiano, podemos pensar na lógica por trás do adestramento de um animal doméstico, como por exemplo, um cachorro. Ao treinarmos, a cada tarefa bem sucedida damos a ele uma recompensa como um carinho ou um biscoito. Porém, em caso de desobediência damos a ele uma espécie de "punição" como uma pequena bronca. É com essa linha de raciocínio que a Aprendizagem por Reforço se baseia, se caracterizando como a ciência de tomar decisões consideradas como ótimas usando a experiência como principal fator avaliativo. De maneira visual, podemos demonstrar toda essa interação através da imagem abaixo: 

![Interação entre Agente e Ambiente](Imagens/Agent_Enviroment.png)

Desta maneira, podemos dividir todo esse processo em etapas simples, são elas:

*  Observação do ambiente
*  Decidir como agir usando alguma estratégia
*  Agindo de acordo com a abordagem escolhida
*  Receber uma recompensa ou penalidade
*  Aprendendo com as experiências e refinando nossa estratégia
*  Iterar até que uma estratégia ótima seja encontrada

Em termos mais técnicos, o Aprendizado Por Reforço é uma tentativa de modelar uma distribuição de probabilidade complexa de recompensas em relação a um número muito grande de pares de ação de estado. Esse é um dos motivos pelos quais o Aprendizado Por Reforço é combinado com, digamos, um processo de decisão de Markov (MDP – Markov Decision Process), pois o mesmo serve justamente para modelar e solucionar situações onde uma sequência de ações será executada em um ambiente onde não há certeza sobre o estado atual e o resultado da ação aplicada sobre esse estado. Em linhas gerais, esse tipo de raciocínio se assemelha bastante com o problema que fez com que Stan Ulam inventasse o método de Monte Carlo, podendo gerar certas confusões, já que o mesmo busca estimar resultados através da geração de números aleatórios e da repetição de experimentos, sendo especialmente útil em problemas complexos em que as soluções analíticas não são práticas ou não estão disponíveis.


Dando continuidade, existem basicamente 2 tipos principais de algoritmos de RL. Eles são baseados em modelo e sem modelo.

*  Algoritmo sem modelo - É um algoritmo que estima a política ótima sem usar ou estimar a dinâmica (funções de transição e recompensa) do ambiente. Desta forma, o algoritmo é capaz de predizer os estados futuros a partir do estado atual. Um exemplo disto é um jogo de xadrez, onde é possível explorar os movimentos futuros com base no estado atual do jogo. 
*  Algoritmo baseado em modelo - É um algoritmo que usa a função de transição (e a função de recompensa) para estimar a política ideal


![Hierarquia - Aprendizado pro Reforço](Imagens/Hierarquia_RL.png)

### Q-Learning

O Q-Learning é um algoritmo de aprendizado por reforço da categoria de algoritmos Model-Free. Esse algoritmo é dito value-based, isto é, ele atualizar a sua value-function através de uma equação: a equação de Bellman. 

De modo geral, ele é um método de aprendizado por reforço que ensina um agente de aprendizagem a realizar uma tarefa, recompensando o bom comportamento e punindo o mau comportamento. Em Snake, por exemplo, aproximar-se da comida é bom. Sair da tela é ruim. A cada ponto do jogo, o agente escolherá a ação com maior recompensa esperada.

Definição:

- Q*(s,a): Valor esperado tomando a ação *a* no espaço *s* e seguindo a optimal policy.
- O algoritmo irá usar a diferença temporal: estimar o valor de Q*(s,a) baseado em um agente aprendendo dentro do environment através de iterações/épocas sem nenhum conhecimento prévio.
- O agente mantém uma tabela **Q[s,a]** em que S é uma conjunto de estados e A um conjunto de ações.
- **Q[s,a]** representa a estimativa no instante de tempo *t* de Q*(s,a).

### Q-Table e Equação de Bellman

Uma Q-Table, também conhecida como tabela-Q, é uma estrutura de dados utilizada no algoritmo de Q-Learning para armazenar os valores Q para cada par estado-ação. Cada entrada na tabela representa um estado específico e uma ação possível a ser tomada nesse estado. O valor Q em uma determinada entrada indica a "qualidade" ou a recompensa esperada ao realizar a ação naquele estado.

A Q-Tabela é inicializada com valores arbitrários e é atualizada iterativamente à medida que o agente interage com o ambiente. Através da atualização dos valores Q, a Q-Table gradualmente converge para os valores ótimos que representam a política de ações a serem tomadas em cada estado. Podemos notar um exemplo disso através da imagem abaixo, que retrata uma Q-Table após N execuções:

![Q-Table](Imagens/QTable_Execucoes.webp)



Equação de Bellman:

A equação de Bellman é uma fórmula que descreve como os valores Q podem ser atualizados na Q-Tabela durante o processo de aprendizado por reforço. Ela se baseia no princípio de otimalidade de Bellman, que afirma que um valor Q ótimo para um estado é igual à recompensa imediata dessa ação mais o valor Q máximo esperado do próximo estado.

![Equação de Bellman](Imagens/Bellman.png)


Nessa equação:

Q(s, a) representa o valor Q atual para o par estado-ação (s, a).
α (alfa) é a taxa de aprendizado, um valor entre 0 e 1 que controla o quão rapidamente os novos aprendizados substituem os valores antigos na tabela.
R é a recompensa imediata recebida após a transição do estado s para o estado s' ao realizar a ação a.
γ (gama) é o fator de desconto, um valor entre 0 e 1 que pondera a importância das recompensas futuras em relação às recompensas imediatas.
max(Q(s', a')) é o valor Q máximo esperado para todas as ações possíveis no próximo estado s'.
A equação de Bellman permite que o agente atualize o valor Q para um par estado-ação com base na recompensa recebida e no valor Q máximo esperado do próximo estado. Essa atualização é realizada de forma iterativa para cada transição de estado, permitindo que o agente refine gradualmente sua estimativa dos valores Q ótimos.

Resumidamente, a Q-Table é uma tabela que armazena os valores Q para cada par estado-ação, e a equação de Bellman é uma fórmula usada para atualizar os valores Q na Q-Table, levando em consideração as recompensas imediatas e as recompensas futuras esperadas. Essas duas componentes são fundamentais no algoritmo de Q-Learning para aprender uma política ótima de ações em um ambiente de aprendizado por reforço.

### Implementação

##### Começando do básico, vamos importar as bibliotecas


In [12]:
import pygame
import numpy as np
import sys
import random
import time
import seaborn as sns
import matplotlib.pyplot as plt

##### Como esse trabalho servirá como portfólio pessoal, vale deixar explícito as versões que aqui serão trabalhadas:

In [13]:
print('Python: {}'.format(sys.version))
print('Pygame: {}'.format(pygame.__version__))
print('Seaborn: {}'.format(sns.__version__))

Python: 3.9.13 (main, Aug 25 2022, 23:51:50) [MSC v.1916 64 bit (AMD64)]
Pygame: 2.4.0
Seaborn: 0.11.2


Abaixo, temos as constantes que serão utilizadas no decorrer de nosso código. Elas se referem ao tamanho do ambiente que será utilizado ao nosso modelo, ou seja, o tamanho do nosso grid, que no caso será $20X20$. Além disso, temos outras definições técnicas, como 

In [14]:
# Definindo as constantes
GRID_SIZE = 20
GRID_WIDTH = 20
GRID_HEIGHT = 20
WINDOW_SIZE = (GRID_WIDTH * GRID_SIZE, GRID_HEIGHT * GRID_SIZE)
FPS = 10
BLACK = (0, 0, 0)
GREEN = (0, 255, 0)
RED = (255, 0, 0)

Abaixo, temos a classe responsável pelo "controle" da Cobra no decorrer do jogo e por realizar todo o processo envolvendo o Q-Learning.

In [15]:
class QLearningSnake:
    def __init__(self, width, height):
        self.width = width
        self.height = height
        self.q_table = np.zeros((self.width * self.height, self.width * self.height ,  4))
        self.epsilon = 1.0
        self.min_epsilon = 0.01
        self.epsilon_decay = 0.99
        self.alpha = 0.1
        self.gamma = 0.9
        self.reset()

    def generate_apple(self):
        while True:
            apple = (random.randint(0, self.width - 1),
                     random.randint(0, self.height - 1))
            if apple not in self.snake:
                return apple

    def change_direction(self, direction):
        if direction == 'up' and self.direction != 'down':
            self.direction = 'up'
        elif direction == 'down' and self.direction != 'up':
            self.direction = 'down'
        elif direction == 'left' and self.direction != 'right':
            self.direction = 'left'
        elif direction == 'right' and self.direction != 'left':
            self.direction = 'right'

    def move(self):
        head = self.snake[0]
        x, y = head

        if self.direction == 'up':
            y -= 1
        elif self.direction == 'down':
            y += 1
        elif self.direction == 'left':
            x -= 1
        elif self.direction == 'right':
            x += 1

        if x < 0 or x >= self.width or y < 0 or y >= self.height or (x, y) in self.snake[1:]:
            self.game_over = True
            return True, False

        self.snake.insert(0, (x, y))

        if self.snake[0] == self.apple:
            self.score += 1
            self.apple = self.generate_apple()
            return False, True
        else:
            self.snake.pop()
            return False, False

    def get_state_index(self):
        head_pos = self.snake[0]
        apple_pos = self.apple
        return head_pos[0] * self.height + head_pos[1], apple_pos[0] * self.height + apple_pos[1]

    def select_action(self, state_index):
        if random.random() < self.epsilon:
            return random.randint(0, 3)  # Choose random action
        else:
            return np.argmax(self.q_table[state_index])

    def update_q_table(self, state_index, action_index, reward, next_state_index):
        old_value = self.q_table[state_index][action_index]
        next_max = np.max(self.q_table[next_state_index])
        new_value = old_value + self.alpha * \
            (reward + self.gamma * next_max - old_value)
        self.q_table[state_index][action_index] = new_value

    def reset(self):
        self.snake = [(self.width // 2, self.height // 2)]
        self.apple = self.generate_apple()
        self.direction = random.choice(['up', 'down', 'left', 'right'])
        self.game_over = False
        self.score = 0

    def train(self, num_episodes):
        # Dados estatísticos para gerar os gráficos
        rewards = []
        scores = []
        average_scores = []
        epsilons = []

        start_time = time.time()

        for episode in range(num_episodes):
            self.reset()
            done = False
            rounds_without_apple = 0
            max_rounds_without_apple = 200

            while not done:
                # Escolha na Q-Table e movimento da cobra
                state_index = self.get_state_index()
                action_index = self.select_action(state_index)
                self.change_direction(
                    ['up', 'down', 'left', 'right'][action_index])
                done, ate_apple = self.move()

                # Função de recompensa + checa se a cobra está em loop sem comer maçã
                reward = 0
                # if rounds_without_apple >= max_rounds_without_apple:
                #     done = True
                if done:
                    reward = -10
                elif ate_apple:
                    reward = 10
                    rounds_without_apple = 0
                else:
                    reward = -1
                    rounds_without_apple += 1
                

                # Atualiza Q-Table
                next_state_index = self.get_state_index()
                self.update_q_table(state_index, action_index,
                                    reward, next_state_index)

            # Atualiza taxa de exploração
            self.epsilon = max(self.min_epsilon, self.epsilon * self.epsilon_decay)

            # Resolução dos dados estatísticos
            rewards.append(self.score)
            scores.append(self.score)
            average_score = np.mean(scores[-100:])
            average_score = 1
            average_scores.append(average_score)
            epsilons.append(self.epsilon)

            print(
                f"Episode: {episode + 1}/{num_episodes}, Score: {self.score}")
        
        end_time = time.time()
        elapsed_time = end_time - start_time
        print(f"Treinamento levou {elapsed_time:.2f} segundos")

        return rewards, scores, average_scores, epsilons

    def render(self, screen):
        screen.fill(BLACK)
        for segment in self.snake:
            pygame.draw.rect(
                screen, GREEN, (segment[0] * GRID_SIZE, segment[1] * GRID_SIZE, GRID_SIZE, GRID_SIZE))
        pygame.draw.rect(
            screen, RED, (self.apple[0] * GRID_SIZE, self.apple[1] * GRID_SIZE, GRID_SIZE, GRID_SIZE))
        pygame.display.flip()


Como podemos perceber, a classe abaixo possui um caráter mais simplista com relação a anterior. Isso se deve ao fato dela ser responsável pelo jogo propriamente dito, ou seja, por rodar a interface gráfica criada. Dessa forma, Classe responsável pelo jogo propriamente dito

In [16]:
class PygameSnakeGame:
    def __init__(self, q_learning_snake):
        self.snake_game = q_learning_snake

    def draw_parameters(self, screen):
        font = pygame.font.Font(None, 24)
        text_margin = 10

        score_text = font.render(
            f"Score: {self.snake_game.score}", True, (255, 255, 255))
        screen.blit(
            score_text, (WINDOW_SIZE[0] - score_text.get_width() - text_margin, text_margin))

        # Adicione outros parâmetros aqui, se desejar

    def play(self):
        # Inicializando o Pygame e executando o jogo com o modelo treinado
        pygame.init()
        pygame.display.set_caption("Snake Q-Learning")
        screen = pygame.display.set_mode(WINDOW_SIZE)
        clock = pygame.time.Clock()
        
        running = True

        while running:
            self.snake_game.reset()  # Resetar o jogo antes de começar a jogar

            rounds_without_apple = 0
            max_rounds_without_apple = 200

            while not self.snake_game.game_over:
                # Checa se o jogo foi encerrado
                for event in pygame.event.get():
                    if event.type == pygame.QUIT:
                        self.game_over = True
                        running = False
                
                # Escolha na Q-Table e movimento da cobra
                state_index = self.snake_game.get_state_index()
                action_index = np.argmax(self.snake_game.q_table[state_index])
                self.snake_game.change_direction(
                    ['up', 'down', 'left', 'right'][action_index])
                _, ate_apple = self.snake_game.move()

                # Checa se a cobra está em loop sem comer maçãs
                if ate_apple:
                    rounds_without_apple = 0
                else:
                    rounds_without_apple += 1
                if rounds_without_apple >= max_rounds_without_apple:
                    self.snake_game.game_over = True

                # Renderizar o jogo na janela
                screen.fill(BLACK)
                self.draw_parameters(screen)
                for segment in self.snake_game.snake:
                    pygame.draw.rect(
                        screen, GREEN, (segment[0] * GRID_SIZE, segment[1] * GRID_SIZE, GRID_SIZE, GRID_SIZE))
                pygame.draw.rect(
                    screen, RED, (self.snake_game.apple[0] * GRID_SIZE, self.snake_game.apple[1] * GRID_SIZE, GRID_SIZE, GRID_SIZE))
                pygame.display.flip()
                clock.tick(FPS)

            print(f"Game Over! Score: {self.snake_game.score}")
            time.sleep(1)

        pygame.quit()

In [17]:
def generate_plots(rewards, scores, average_scores, epsilons):
    # Gráfico de recompensa ao longo das épocas
    plt.figure(figsize=(10, 5))
    plt.plot(range(1, len(rewards) + 1), rewards)
    plt.xlabel("Época")
    plt.ylabel("Recompensa")
    plt.title("Recompensa ao longo das épocas")
    plt.show()

    # Gráfico de pontuação ao longo das épocas
    plt.figure(figsize=(10, 5))
    plt.plot(range(1, len(scores) + 1), scores)
    plt.xlabel("Época")
    plt.ylabel("Pontuação")
    plt.title("Pontuação ao longo das épocas")
    plt.show()

    # Gráfico de pontuação média ao longo das épocas
    plt.figure(figsize=(10, 5))
    plt.plot(range(1, len(average_scores) + 1), average_scores)
    plt.xlabel("Época")
    plt.ylabel("Pontuação Média")
    plt.title("Pontuação Média ao longo das épocas")
    plt.show()

    # Gráfico de epsilon ao longo das épocas
    plt.figure(figsize=(10, 5))
    plt.plot(range(1, len(epsilons) + 1), epsilons)
    plt.xlabel("Época")
    plt.ylabel("Epsilon")
    plt.title("Epsilon ao longo das épocas")
    plt.show()

    # Salvar os gráficos em um arquivo (opcional)
    # plt.savefig("q_learning_plots.png")


### Conjunto de Testes

Conjunto de Teste 1:
- epsilon: 1.0
- min_epsilon: 0.01
- min_epsilon_decay: 0.995
- alpha: 0.1
- gamma: 0.9

**Justificativa:** Neste conjunto, começamos com um valor alto para epsilon (1.0), o que significa que a exploração é inicialmente priorizada. Com o tempo, a probabilidade de explorar diminui gradualmente devido ao fator de decaimento (min_epsilon_decay = 0.995), chegando ao valor mínimo de 0.01 (min_epsilon). O alpha é definido como 0.1, permitindo um equilíbrio entre a importância dos novos dados e o conhecimento acumulado (taxa de aprendizado). O gamma é definido como 0.9 para dar um desconto alto para recompensas futuras, incentivando a maximização de recompensas ao longo do tempo.

Conjunto de Teste 2:
- epsilon: 0.5
- min_epsilon: 0.001
- min_epsilon_decay: 0.999
- alpha: 0.2
- gamma: 0.95

**Justificativa:** Neste conjunto, começamos com um valor moderado para epsilon (0.5), priorizando a exploração, e diminuímos ainda mais lentamente a probabilidade de explorar (min_epsilon_decay = 0.999) até o valor mínimo de 0.001 (min_epsilon). O alpha é definido como 0.2, permitindo um pouco mais de importância para os novos dados na atualização da tabela Q. O gamma é definido como 0.95 para dar um desconto um pouco mais alto para recompensas futuras.



Conjunto de Teste 3:
- epsilon: 0.8
- min_epsilon: 0.05
- min_epsilon_decay: 0.99
- alpha: 0.05
- gamma: 0.8

**Justificativa:** Neste conjunto, começamos com um valor relativamente alto para epsilon (0.8), priorizando a exploração no início, e diminuímos a probabilidade de explorar um pouco mais rapidamente (min_epsilon_decay = 0.99) até o valor mínimo de 0.05 (min_epsilon). O alpha é definido como 0.05, dando menos importância para os novos dados e enfatizando o conhecimento acumulado. O gamma é definido como 0.8 para dar um desconto moderado para recompensas futuras.


Conjunto de Teste 4:
- epsilon: 0.2
- min_epsilon: 0.1
- min_epsilon_decay: 0.995
- alpha: 0.3
- gamma: 0.99

**Justificativa:** Neste conjunto, começamos com um valor relativamente baixo para epsilon (0.2), priorizando a exploração no início, e diminuímos a probabilidade de explorar gradualmente (min_epsilon_decay = 0.995) até o valor mínimo de 0.1 (min_epsilon). O alpha é definido como 0.3, dando mais importância para os novos dados na atualização da tabela Q. O gamma é definido como 0.99 para dar um desconto alto para recompensas futuras, incentivando a maximização de recompensas ao longo do tempo.

Conjunto de Teste 5:
- epsilon: 0.1
- min_epsilon: 0.001
- min_epsilon_decay: 0.9999
- alpha: 0.1
- gamma: 0.95

**Justificativa:** Neste conjunto, começamos com um valor baixo para epsilon (0.1), priorizando a exploração no início, e diminuímos muito lentamente a probabilidade de explorar (min_epsilon_decay = 0.9999) até o valor mínimo de 0.001 (min_epsilon). O alpha é definido como 0.1, dando um equilíbrio entre a importância dos novos dados e o conhecimento acumulado na atualização da tabela Q. O gamma é definido como 0.95 para dar um desconto um pouco mais alto para recompensas futuras.

### Análise dos resultados obtidos

### Agradecimentos

Gostaria de utilizar esse espaço para ressaltar meus agradecimentos aos seguintes professores:

*   Hugo Tremonte de Carvalho
*   João Antônio Recio da Paixão
*   João Carlos Pereira da Silva

Por fim, espero ter conseguido articular bem os conceitos, pois os mesmos não são fáceis. Dessa forma, venho por meio deste terminar com uma breve citação:

# ***“A esperança é uma coisa boa, talvez a melhor de todas, e nada que é bom, deve morrer” - King, Stephen***

# Referências Bibliográficas

https://www.youtube.com/watch?v=je0DdS0oIZk

https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/

https://towardsdatascience.com/a-beginners-guide-to-q-learning-c3e2a30a653c

https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#

https://www.deeplearningbook.com.br/componentes-do-aprendizado-por-reforco-reinforcement-learning/

https://www.deeplearningbook.com.br/distribuicoes-de-probabilidade-redes-neurais-e-reinforcement-learning/
