# Objetivos do Trabalho
O objetivo deste trabalho é aplicar métodos de aprendizado por reforço a um problema escolhido e modelado pelos estudantes, comparando os resultados obtidos pelos métodos Monte Carlo, Q-Learning e SARSA(lambda), avaliando: qualidade das soluções, custo computacional, tamanho do espaço de estados, tamanho do espaço de ações e influência da função de reforço no resultado. Também pretende-se aplicar aproximadores lineares de função a cada método e comparar o desempenho de cada método **com** e **sem** o aproximador de função.

# Problema
Escolhemos trabalhar com o jogo Snake, também conhecido como "Serpente" ou "Jogo da Cobrinha", disponível em https://www.google.com/fbx?fbx=snake_arcade.

O jogador é uma cobra, inicialmente pequena, e seu objetivo é comer maçãs. A cobra pode se mover para cima, para baixo, para a esquerda e para a direita. Maçãs aparecem em posições aleatórias do mapa, e o jogador deve se movimentar a fim de passar pela posição que contém a maçã atual. O jogador pode se mover livremente, mas não pode colidir com as bordas do mapa (paredes), nem com seu próprio corpo. Conforme as maçãs são consumidas, o tamanho da cobra aumenta, e há mais risco de colidir com seu próprio corpo ao se movimentar pelo mapa, assim aumentando a dificuldade do jogo.

## Formulação do problema como MDP

Conforme visto em aula, um Processo Decisório de Markov (MDP) é uma tupla <S, P, A, R, gamma>, sendo S um conjunto finito de estados, A um conjunto finito de ações, P uma matriz de probabilidades de transições entre estados, R uma função de reforço e gamma um fator de desconto, que é um número real no intervalo [0,1].

Um estado é uma tupla com 11 valores booleanos:
1. Se há perigo (parede ou o próprio corpo da cobra) uma ou duas unidades do tabuleiro à frente;
2. Se há perigo uma ou duas unidades à direita;
3. Se há perigo uma ou duas unidades à esquerda;
4. Se a cobra está se movendo para a esquerda;
5. Se a cobra está se movendo para a direita;
6. Se a cobra está se movendo para cima;
7. Se a cobra está se movendo para baixo.
8. Se há comida à esquerda;
9. Se há comida à direita;
10. Se há comida para cima;
11. Se há comida para baixo;

Essas direções (esquerda, direita, cima, baixo) são sempre consideradas na perspectiva da cabeça da cobra.

As ações possíveis são:
- Continuar indo na mesma direção, representada pelo vetor [1,0,0];
- Virar para a direita, representada por [0,1,0];
- Virar para a esquerda, representada por [0,0,1];

A tela de jogo tem 440 pixels de largura e 440 pixels de altura. Cada parte do corpo da cobra é um quadrado de 20 pixels de altura e 20 pixels de largura. A maçã tem 20 pixels de altura e 20 pixels de largura também.

A matriz de transição de probabilidades P contém somente uns e zeros, pois dada uma posição (estado) atual no tabuleiro e uma ação, o resultado é sempre o mesmo. Para cada estado atual **s**, estado resultante **s'** quando tomada uma ação **a** e estados restantes **Z** que não são obtidos tomando **a** a partir de **s**, a probabilidade de ir de **s** para **s'** é 1, enquanto que de **s** a qualquer dos **Z** é zero. Isso vale para todos os estados e ações, por isso a matriz terá somente zeros e uns.

Quanto à função de reforço, definimos uma função padrão e depois exploramos outras. Isso será detalhado mais adiante no relatório, assim como os diferentes fatores de desconto (gamma) adotados nos experimentos.

## Natureza do ambiente

* Determinístico ou estocástico: **determinístico**, pois, dado um estado corrente e uma ação, o estado resultante é sempre o mesmo (dada uma posição, a ação de continuar na mesma direção/virar para a direita/virar para a esquerda leva sempre ao mesmo destino).

* Contínuo ou discreto: **discreto**, já que temos um conjunto finito de ações que podemos escolher tomar a partir de um certo estado (virar para a direita, virar para a esquerda, continuar na mesma direção).

* Episódico ou não episódico: **episódico**, sendo cada episódio um jogo. O episódio termina somente quando a cobra morre.

* Single-agent ou multi-agent: **single-agent**, pois nosso único agente é a cobra.

## Modelo de discretização adotado

Como nosso ambiente já é discreto, não precisamos adotar nenhuma estratégia de discretização.

## Estados terminais

Nossos estados terminais são aqueles referentes à morte da cobra, portanto ocorrem somente auando a cobra colide com a parede e quando a cobra colide com seu próprio corpo.

## Funções de Reforço

Nossa **função de reforço padrão** foi -10 quando a cobra morre, +10 quando come a maçã e 0 caso contrário.

```
def default_reward(env):
    """
    Return the reward.
    The reward is:
        -10 when Snake crashes.
        +10 when Snake eats food
        0 otherwise
    """
    reward = 0
    if env.game.crash:
        reward = -10
    elif env.player.eaten:
        reward = 10

    return reward
```

Exploramos também as seguintes:

* Função reward1: visa penalizar a cobra por não estar comendo a maçã.

```
def reward1(env):
    """
    Return the reward.
    The reward is:
        -100 when Snake crashes.
        +100 when Snake eats food
        -1 otherwise
    """
    reward = -1
    if env.game.crash:
        reward = -100
    elif env.player.eaten:
        reward = 100

    return reward
```

* Função reward_linear: visa penalizar a cobra por cada momento em que não melhorar seu desempenho. É possível fornecer diferentes penalizações (penalty_rate).

```
def reward_linear(env, penalty_rate=0.01, dist_metric=cityblock):
    """
    Return the reward.
    The reward is:
        -100 when Snake crashes.
        +100 when Snake eats food
        -0.01*non_improvement otherwise
    """
    global non_improvement
    reward = -non_improvement*penalty_rate
    if env.game.crash:
        reward = -100
    elif env.player.eaten:
        reward = 100
        non_improvement = 0
    else:
        non_improvement += 1

    return reward
```

## Parâmetros

Ao longo dos experimentos, diferentes valores para os seguintes parâmetros foram explorados:

* Fator de desconto (gamma): o fator de desconto 

* Step-size (alfa):

* N0:

# Implementação

## Como o problema foi modelado em Python

## Particularidades e restrições da implementação

Para executar o código, é preciso instalar a biblioteca PyGame. Isso pode ser feito com o comando `pip install pygame` no terminal.

# Métodos

## Monte Carlo

## Q-Learning

## SARSA

## Aproximador Linear de Função

# Experimentos realizados

Com o método Q-Learning, experimentamos diferentes valores de N0 e gamma. Depois, mantendo N0 = ... e gamma = ..., experimentamos diferentes funções de reforço.

- colocar tabelas

Com o método Monte Carlo, ... .

# Discussão de Resultados
- Qual método demorou menos?
- Qual método fez a cobra sobreviver mais tempo?
- Quais parâmetros foram melhores?
- etc...

# Membros do Grupo e Contribuições
### Ana Clara Zoppi Serpa (RA 165880)
- Implementação do método Monte Carlo
- Implementação do método SARSA(lambda)
- Escrita do relatório
- Formulação do problema como MDP

### Gabriel Oliveira dos Santos (RA 197460)
- Implementação do método Q-Learning
- Implementação do método SARSA(0)
- Experimentos com diferentes funções de reforço, nos métodos Q-Learning e SARSA(0)
- Formulação do problema como MDP

### Silvio Bento Garcia Junior (RA 265194)
- Melhorias nos experimentos com o método de Monte Carlo, explorando diferentes funções de reforço
- Formulação do problema como MDP

### Tito Barbosa Rezende (RA 025327)
- Implementação e correção de problemas no método Monte Carlo
- Implementação do Aproximador Linear de Função para o método Monte Carlo
- Formulação do problema como MDP

# Observações

Na próxima seção, colocamos o código-fonte da implementação. Ao executá-los, uma janela com o jogo será aberta, mas ficará preta pois desabilitamos os recursos gráficos a fim de realizar medições mais rápidas dos dados que precisamos. Optamos por adicionar uma seção de demonstração, logo abaixo da seção de código-fonte, com os recursos gráficos habilitados para que seja possível ver o aprendizado da cobra no jogo.

Se desejar ver as animações dos experimentos, apesar de demorarem, basta alterar o parâmetro display das chamadas a run_q_learning, run_monte_carlo e run_sarsa para True.

# Referências

# Demonstração do jogo

Nessa seção, colocamos algumas células que executam o jogo mostrando graficamente o aprendizado da cobra ao longo das iterações, já que para os experimentos anteriores desabilitamos os recursos gráficos a fim de realizar medições mais rápidas.