# Tarefa
__________
Resolver o problema do rato utilizando Q-Table. Você deve programar o ambiente e o algoritmo de Reinforcement Learning.

![alt text](./rato.png "Rato")

Sobre o ambiente:
  * O episódio deve terminar quando o rato alcançar a pilha de queijos ou tomar o veneno.
  * O objetivo é fazer com que o rato pegue todos os queijos do mapa sem tomar o veneno.
  * As ações devem ser mover o rato, em 1 casa, para cima, baixo, esquerda e direita.
  * O rato está confinado no espaço de 6 casas, conforme a imagem abaixo.

Dicas:
  * É possível completar toda a tarefa utilizando apenas numpy.
  * Ler sobre Q-Learning na referência \[1\].
  * Representar o mapa como uma matriz.

Tabela Q sugerida:

![alt text](./tabela.png "Q-Table")

Referências:

1. PALANISAMY, Praveen. Hands-On Intelligent Agents with OpenAI Gym: Your guide to   developing AI agents using deep reinforcement learning. Packt Publishing Ltd, 2018.

# Entrega
___________

Prazo: **22/02**

Enviar para **lbpires@latam.stefanini.com**

# Código
____

### Parâmetros

In [None]:
class TrainingParameters:
    def __init__(self, max_episodes: int, steps_per_episode: int):  
        self.max_episodes = int(max_episodes)
        self.steps_per_episode = int(steps_per_episode)


class AgentParameters:
    def __init__(self, epsilon_min, epsilon_decay, start_epsilon):
        self.epsilon_min = epsilon_min
        self.epsilon_decay = epsilon_decay
        self.start_epsilon = start_epsilon


class LearningParameters:
    def __init__(self, alpha, gamma):
        self.alpha = alpha
        self.gamma = gamma

### Q-Table

In [None]:
import numpy as np

class QTable:
    def __init__(self, num_states: int, num_actions: int, params: LearningParameters):
        self.table = np.random.rand(num_states, num_actions)
        self.gamma = params.gamma
        self.alpha = params.alpha

    # calculates Q-table values
    def learn(self, obs, action_index, reward, next_obs):
        deltaQ = reward + self.gamma*np.max(self.table[next_obs]) - self.table[obs, action_index]
        self.table[obs, action_index] = self.table[obs,action_index] + self.alpha*deltaQ

### Agente

In [None]:
class Agent:
    def __init__(self, params: AgentParameters, actions_shape):
        self.epsilon_min = params.epsilon_min
        self.epsilon_decay = params.epsilon_decay
        self.epsilon = params.start_epsilon
        self.actions = [i for i in range(actions_shape)]


    def set_q_table(self, q_table: QTable):
        self.q_table = q_table


    def set_actions(self, actions):
        self.actions = actions


    def get_action(self, obs):
        if self.epsilon > self.epsilon_min:
            self.epsilon -= self.epsilon_decay
        if np.random.random() > self.epsilon:
            action_index = np.argmax(self.q_table.table[obs,:])
            self.action = self.actions[action_index]            
        else:
            action = np.random.choice(self.actions)
            self.action = action
        return self.action                
        

    def set_action(self, action_index: int):
        self.action_index = action_index
        self.action = self.actions[action_index]
        

### Ambiente

In [None]:
### Código do ambiente

### Treino

In [None]:
### Função de treino

### Teste

In [None]:
### Função de teste, exibindo o correto funcionamento do algoritmo.