<a href="https://colab.research.google.com/github/LeonimerMelo/Reinforcement-Learning/blob/Q-Learning/Q_learning_introduction_v4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Reinforcement Learning Q-Learning Algorithm

### **Q-learning: Algoritmo de Aprendizado por Reforço**

**Q-learning** é um algoritmo de aprendizado por reforço **off-policy** (ou seja, o agente aprende uma política ótima independentemente da política seguida durante a execução) que visa encontrar a **política ótima** em um ambiente com transições estocásticas e recompensas desconhecidas. O objetivo é aprender o valor da função de ação-valor $ Q(s, a) $, que define o valor de tomar uma ação $ a $ no estado $ s $ e seguir uma política ótima após isso.

### **Objetivo do Q-learning**
A meta do Q-learning é estimar a função de valor de ação ótima $ Q^*(s, a) $ para encontrar a política ótima $ \pi^*(s) $, que é dada por:

$$
\pi^*(s) = \arg\max_a Q^*(s, a)
$$

Onde:

- $ Q^*(s, a) $ é o valor da ação $ a $ no estado $ s $, que reflete o retorno esperado ao tomar a ação $ a $ em $ s $ e, a partir daí, seguir a política ótima.

### **Fórmula de Atualização do Q-learning**
Durante a execução, o agente atualiza a função de valor de ação $ Q(s, a) $ com base nas experiências coletadas. A fórmula de atualização do Q-learning é:

$$
Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
$$

Onde:

- $ Q(s, a) $: valor atual da ação $ a $ no estado $ s $.
- $ \alpha $: taxa de aprendizado (quanto o agente deve ajustar o valor estimado com base em novas informações).
- $ r $: recompensa imediata recebida após tomar a ação $ a $ no estado $ s $.
- $ \gamma $: fator de desconto (quanto o agente valoriza recompensas futuras em relação às recompensas imediatas).
- $ \max_{a'} Q(s', a') $: o valor máximo de $ Q(s', a') $ no próximo estado $ s' $, que indica o melhor valor possível de ação para o próximo estado.

### **Passos do Algoritmo Q-learning**
Aqui estão os passos principais do algoritmo Q-learning:

1. **Inicialização**:
   - Inicialize a função de valor de ação $ Q(s, a) $ arbitrariamente (normalmente com valores próximos de zero para todos os $ s $ e $ a $).
   - Defina a taxa de aprendizado $ \alpha $ e o fator de desconto $ \gamma $.
   - Inicialize o número máximo de episódios e o número máximo de passos por episódio.

2. **Interação com o Ambiente**:
   - Para cada episódio:
     1. **Estado Inicial**: Reinicie o ambiente e defina o estado inicial $ s $.
     2. **Execução do Passo de Tempo**: Para cada passo de tempo $ t $:
        - O agente escolhe uma ação $ a $ em $ s $ com base na **política de exploração-exploração** (geralmente uma política $ \epsilon $-greedy):
          - Com probabilidade $ 1 - \epsilon $, escolha a ação $ a = \arg\max_a Q(s, a) $ (exploitation).
          - Com probabilidade $ \epsilon $, escolha uma ação aleatória (exploration).
        - O agente executa a ação $ a $, observa a recompensa $ r $ e o novo estado $ s' $.
        - O agente atualiza $ Q(s, a) $ com a fórmula de atualização do Q-learning.
        - Atualize o estado $ s \leftarrow s' $.
        - Se o estado $ s' $ for terminal, pare o episódio.

3. **Repetição**:
   - Repita o processo para múltiplos episódios até que a função $ Q(s, a) $ converja para $ Q^*(s, a) $.

### **Pseudocódigo do Q-learning**

```python
# Inicialização
Q = {}  # Função de valor de ação (arbitrário para todos os estados e ações)
alpha = 0.1  # Taxa de aprendizado
gamma = 0.9  # Fator de desconto
epsilon = 0.1  # Probabilidade de exploração
MAX_EPISODES = 1000  # Número máximo de episódios
MAX_STEPS = 100  # Número máximo de passos por episódio

for episode in range(MAX_EPISODES):
    estado = ambiente.reset()  # Reiniciar o ambiente e obter estado inicial
    for t in range(MAX_STEPS):
        if random.uniform(0, 1) < epsilon:
            ação = ambiente.ação_aleatória()  # Exploração (escolher ação aleatória)
        else:
            ação = max(Q[estado], key=Q[estado].get)  # Exploração (escolher a melhor ação)

        novo_estado, recompensa, feito = ambiente.step(ação)  # Executar a ação no ambiente
        # Atualização do valor Q usando a fórmula de atualização do Q-learning
        Q[estado][ação] += alpha * (recompensa + gamma * max(Q[novo_estado].values()) - Q[estado][ação])

        estado = novo_estado  # Mover para o próximo estado

        if feito:
            break  # Terminar o episódio se o estado for terminal
```


### **Exploration vs Exploitation**
`Obs. importante: Não existe tradução para 'exploitation' no português. É traduzido como 'exploração' e pode confundir com 'exploration', que tem a mesma tradução!`

Um dos desafios do Q-learning é o dilema entre **Exploration** (tentar novas ações) e **Exploitation** (usar o conhecimento adquirido para maximizar a recompensa). Para equilibrar isso, muitas vezes usa-se uma política **$ \epsilon $-greedy**, onde o agente:

- Com probabilidade $ 1 - \epsilon $, escolhe a melhor ação $ a = \arg\max_a Q(s, a) $ (Exploitation).
- Com probabilidade $ \epsilon $, escolhe uma ação aleatória (Exploration).

A $ \epsilon $ geralmente começa com um valor relativamente alto e decai lentamente durante o treinamento, para que o agente explore mais no início e depois explore mais.
O dilema **exploração vs exploração** (ou **exploration vs exploitation**) é um dos conceitos centrais no aprendizado por reforço. Ele descreve o trade-off entre:

- **Exploration**: Tentar novas ações para descobrir informações sobre o ambiente que ainda não foram aprendidas.
- **Exploitation**: Usar o conhecimento adquirido até o momento (ou seja, o que já foi aprendido) para maximizar a recompensa.

### **Exploração (Exploration)**

- **Objetivo**: O objetivo da exploração é **descobrir novas informações** sobre o ambiente. Isso é importante porque o agente pode não saber inicialmente quais ações levam a boas recompensas, e a exploração permite que ele descubra essas ações.
- **Exemplo**: Em um tabuleiro de xadrez, se um jogador tentar movimentos nunca antes testados, ele está explorando novas estratégias.
- **Benefício**: A exploração ajuda a evitar que o agente se prenda a uma solução subótima, garantindo que ele tenha a chance de descobrir a política ótima.
- **Risco**: A exploração pode levar a ações que resultam em recompensas baixas ou até negativas, pois o agente está tentando algo novo sem saber o resultado.

### **Exploração (Exploitation)**
- **Objetivo**: O objetivo da exploitation é **usar o conhecimento já adquirido** para maximizar a recompensa. Quando o agente explora, ele escolhe as ações que ele sabe que são boas com base na experiência passada.
- **Exemplo**: Se um jogador de xadrez já aprendeu que uma determinada jogada é muito forte, ele escolheria essa jogada sempre que possível.
- **Benefício**: A exploração maximiza a recompensa imediata, pois o agente sempre escolhe a ação que já levou a boas recompensas no passado.
- **Risco**: Se o agente sempre explorar (usar as mesmas ações), ele pode perder a oportunidade de encontrar uma estratégia melhor (política ótima) que ainda não foi explorada.

### **O Dilema**
O **dilema** ocorre porque, se o agente se concentrar apenas em explorar ou apenas em explorar, ele pode não alcançar a melhor solução:

- Se ele **explorar demais**, pode perder recompensas mais altas, já que ele pode continuar tentando ações sem sucesso.
- Se ele **explorar pouco**, pode se fixar em uma política subótima, já que ele não está tentando novas possibilidades que poderiam ser melhores.

### **Como Gerenciar o Dilema: Estratégias**

A maneira de gerenciar o dilema é usar uma política que balanceie exploração e exploração. A mais comum é a **política $ \epsilon $-greedy**.

#### **Política $ \epsilon $-greedy**
- A política $ \epsilon $-greedy permite que o agente **explore** com uma probabilidade $ \epsilon $ e **explore** com uma probabilidade $ 1 - \epsilon $.
- **Exploração**: Com probabilidade $ \epsilon $, o agente escolhe uma ação aleatória.
- **Exploitation**: Com probabilidade $ 1 - \epsilon $, o agente escolhe a melhor ação com base nas estimativas de $ Q(s, a) $ (ou a política atual).

**Exemplo**:
- Se $ \epsilon = 0.1 $, o agente explora (escolhe uma ação aleatória) 10% das vezes e explora (escolhe a melhor ação) 90% das vezes.

#### **Diminuição de $ \epsilon $**

Uma abordagem comum é **diminuir $ \epsilon $** ao longo do tempo. No início, o agente pode explorar mais, pois ele não tem informações suficientes sobre o ambiente. Com o tempo, ele se concentra mais em explorar, à medida que adquire mais conhecimento sobre o ambiente.

- **Exploração inicial**: $ \epsilon $ começa com um valor alto (ex: 0.9), incentivando a exploração.
- **Exploração final**: $ \epsilon $ diminui gradualmente (ex: até 0.1 ou 0.01), permitindo que o agente explore mais.

### **Exemplo Prático: Política $ \epsilon $-greedy**

Imagine um ambiente simples em que o agente tem 5 ações possíveis em um estado e quer aprender qual delas traz a maior recompensa. A política $ \epsilon $-greedy poderia ser usada da seguinte forma:

1. **Início**: O agente explora com $ \epsilon = 0.9 $, então ele escolheria uma ação aleatória 90% das vezes e escolheria a melhor ação 10% das vezes.
2. **Após alguns episódios**: O agente começa a entender quais ações levam a melhores recompensas. O valor de $ \epsilon $ diminui gradualmente para 0.1.
3. **Final**: O agente explora muito menos, preferindo explorar a melhor ação 90% das vezes.

### **Outras Estratégias**

Além da política $ \epsilon $-greedy, existem outras estratégias para balancear exploração e exploração:

1. **Boltzmann Exploration**:
   - Em vez de escolher uma ação aleatoriamente com probabilidade $ \epsilon $, a **exploração** é feita de forma probabilística com base em uma distribuição de Boltzmann, onde as ações com valores $ Q(s, a) $ mais altos são mais prováveis de serem escolhidas.
   
2. **Softmax**:
   - Similar ao Boltzmann, o agente escolhe ações com base em probabilidades que dependem dos valores $ Q(s, a) $. Quanto maior o valor $ Q(s, a) $, maior a chance de escolher essa ação.

### **Conclusão**
- O Q-learning é uma técnica poderosa de aprendizado por reforço que permite ao agente aprender uma política ótima, mesmo sem conhecer o modelo do ambiente.
- A atualização das funções de valor de ação $ Q(s, a) $ ao longo do tempo permite ao agente aprender quais ações são mais vantajosas em cada estado.
- A política $ \epsilon $-greedy é crucial para equilibrar exploração e exploração durante o aprendizado.

O **dilema Exploration vs Exploitation** é fundamental no aprendizado por reforço, pois afeta como o agente aprende a tomar decisões. Um bom equilíbrio entre explorar novas ações e explorar as melhores ações conhecidas é essencial para encontrar a política ótima. A política $ \epsilon $-greedy é uma solução simples e eficaz para esse dilema, especialmente quando $ \epsilon $ é ajustado ao longo do tempo.

##Q-learning aplicado ao CartPole
O **Q-learning aplicado ao CartPole** é um exemplo clássico de problema de controle em aprendizado por reforço. O CartPole é um ambiente de simulação onde o objetivo é controlar um carrinho que se move ao longo de uma linha reta, com um pólo (barra) invertida em cima. O objetivo é equilibrar o pólo na posição vertical o maior tempo possível.

### Descrição do Problema CartPole

No **CartPole** (do OpenAI Gym), a tarefa consiste em aprender a controlar o carrinho (com ações de "mover para a esquerda" ou "mover para a direita") para equilibrar o pólo. O estado do ambiente é descrito por 4 variáveis:

1. **Posição do carrinho**: A posição do carrinho ao longo da linha.
2. **Velocidade do carrinho**: A velocidade com que o carrinho se move.
3. **Ângulo do pólo**: O ângulo entre a barra e a vertical.
4. **Velocidade angular do pólo**: A taxa de variação do ângulo do pólo.

O agente pode realizar uma das duas ações:
- **0**: Mover para a esquerda.
- **1**: Mover para a direita.

O objetivo do Q-learning é aprender uma política ótima, ou seja, um conjunto de ações a tomar em cada estado para maximizar a recompensa total, que no caso do CartPole é o tempo que o pólo permanece equilibrado.

### Q-learning no CartPole

O Q-learning será usado para aprender uma **função de valor de ação** $ Q(s, a) $, que representa a qualidade de tomar uma ação $ a $ no estado $ s $. O Q-learning é um método **off-policy**, ou seja, o agente aprende a política ótima independentemente das ações que ele toma durante a execução.

A **função de valor $ Q(s, a) $** é atualizada com base na fórmula de atualização do Q-learning:

$$
Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
$$

Onde:
- $ s $ é o estado atual.
- $ a $ é a ação tomada.
- $ r $ é a recompensa recebida após a ação.
- $ s' $ é o novo estado após a ação.
- $ a' $ é a ação possível no novo estado $ s' $.
- $ \alpha $ é a taxa de aprendizado.
- $ \gamma $ é o fator de desconto.
  
### Passos para implementar Q-learning no CartPole

1. **Inicializar a tabela $ Q(s, a) $**: Como o CartPole tem um espaço contínuo de estados, precisaremos discretizar os estados para armazenar os valores de $ Q(s, a) $.
   
2. **Escolher uma política de exploration/exploitation**: Uma política $ \epsilon $-greedy pode ser usada, onde o agente escolhe a ação com base no valor $ Q(s, a) $ com maior probabilidade $ 1-\epsilon $, e escolhe uma ação aleatória com probabilidade $ \epsilon $.

3. **Interagir com o ambiente**: Para cada episódio:
   - O agente começa em um estado inicial.
   - O agente escolhe uma ação de acordo com a política.
   - A ação é executada, o novo estado e a recompensa são observados.
   - A função de valor $ Q(s, a) $ é atualizada.
   - O episódio termina quando o pólo cai ou o número máximo de passos é atingido.

4. **Repetir até convergir**: Continuar o processo por um grande número de episódios até que a função $ Q(s, a) $ se estabilize, e o agente aprenda a política ótima.

### Exemplo de Código para Q-learning no CartPole

Abaixo está um exemplo simples de implementação de Q-learning para o problema CartPole usando o OpenAI Gym.

```python
import numpy as np
import gymnasium as gym
import random

# Criar o ambiente CartPole
env = gym.make('CartPole-v1')

# Definir parâmetros
alpha = 0.1  # Taxa de aprendizado
gamma = 0.99  # Fator de desconto
epsilon = 0.1  # Taxa de exploração
episodes = 1000  # Número de episódios
max_steps = 200  # Número máximo de passos por episódio

# Discretizar o espaço de estados (aproximação)
n_bins = 10  # Número de bins para discretização dos estados
state_bins = [np.linspace(-x, x, n_bins) for x in [4.8, 5.0, 0.418, 5.0]]  # Limites do estado
q_table = np.zeros([len(state_bins[0]) + 1, len(state_bins[1]) + 1, len(state_bins[2]) + 1, len(state_bins[3]) + 1, 2])  # Tabela Q

# Função para discretizar o estado contínuo
def discretize_state(state):
    state_discretized = []
    for i in range(len(state)):
        state_discretized.append(np.digitize(state[i], state_bins[i]) - 1)
    return tuple(state_discretized)

# Política epsilon-greedy
def choose_action(state):
    if random.uniform(0, 1) < epsilon:
        return env.action_space.sample()  # Exploração
    else:
        return np.argmax(q_table[state])  # Exploração

# Treinamento
for episode in range(episodes):
    state = discretize_state(env.reset())  # Estado inicial
    total_reward = 0

    for step in range(max_steps):
        action = choose_action(state)
        next_state, reward, done, _, _ = env.step(action)  # Executar ação
        next_state = discretize_state(next_state)

        # Atualização da tabela Q
        q_table[state][action] += alpha * (reward + gamma * np.max(q_table[next_state]) - q_table[state][action])

        state = next_state  # Atualizar o estado

        total_reward += reward  # Acumular recompensa

        if done:
            break  # Fim do episódio

    print(f'Episódio {episode + 1}/{episodes} - Recompensa: {total_reward}')

# Avaliação final
total_reward = 0
for _ in range(100):  # Testar o agente após o treinamento
    state = discretize_state(env.reset())
    for step in range(max_steps):
        action = np.argmax(q_table[state])  # Escolher ação com maior valor Q
        next_state, reward, done, _, _ = env.step(action)
        state = discretize_state(next_state)
        total_reward += reward
        if done:
            break

print(f'Recompensa média após treinamento: {total_reward / 100}')
```

### Explicação do Código

- **Discretização dos estados**: Como o CartPole tem um espaço contínuo de estados, usamos a função `discretize_state` para dividir cada variável de estado (como a posição do carrinho ou o ângulo do pólo) em bins discretos. Isso ajuda a armazenar e acessar os valores de $ Q(s, a) $ na tabela.
  
- **Tabela Q**: A tabela $ Q $ é uma matriz que mapeia pares de estado e ação para valores de recompensa. O tamanho da tabela depende do número de bins que usamos para discretizar cada uma das 4 variáveis do estado.

- **Política $ \epsilon $-greedy**: A função `choose_action` escolhe uma ação com base em uma política $ \epsilon $-greedy, explorando ações aleatórias com probabilidade $ \epsilon $ e explorando a melhor ação com probabilidade $ 1-\epsilon $.

- **Treinamento**: O agente interage com o ambiente durante um número fixo de episódios e atualiza a tabela $ Q $ após cada ação tomada.

### Considerações Finais

- **Desafios**: O CartPole é um ambiente com um espaço de estados contínuo e, portanto, a discretização pode afetar a qualidade do aprendizado. Em problemas mais complexos, técnicas como redes neurais (usando Deep Q-Learning) podem ser usadas para aproximar a função de valor $ Q(s, a) $ sem a necessidade de discretizar o espaço de estados.
  
- **Exploração e Exploração**: A política $ \epsilon $-greedy é fundamental para garantir que o agente explore diferentes possibilidades antes de se fixar nas ações mais vantajosas.


##Tabela Q-Learning (Q-Table)
A **Tabela Q-Learning (Q-Table)** é a estrutura de dados fundamental no algoritmo de aprendizado por reforço **Q-Learning**. Ela é utilizada para armazenar e atualizar os valores de qualidade (valores Q) associados a cada estado e ação. Esses valores representam a **recompensa** esperada que o agente pode obter a partir de um estado ao executar uma determinada ação.

---

### **Estrutura da Q-Table**
- A Q-Table é uma matriz (ou tensor) onde:
  - **Linhas (Estados):** Representam os estados possíveis do ambiente.
  - **Colunas (Ações):** Representam as ações possíveis que o agente pode tomar.
  - Cada célula da tabela (**Q(s, a)**) contém o valor Q, que é a **estimativa da recompensa futura** esperada para o par estado-ação $(s, a)$.

Por exemplo:
- Para um ambiente com 3 estados ($S = \{s_0, s_1, s_2\}$) e 2 ações ($A = \{a_0, a_1\}$), a Q-Table teria o formato:

| Estado | $a_0$  | $a_1$  |
|--------|----------|----------|
| $s_0$ | $Q(s_0, a_0)$ | $Q(s_0, a_1)$ |
| $s_1$ | $Q(s_1, a_0)$ | $Q(s_1, a_1)$ |
| $s_2$ | $Q(s_2, a_0)$ | $Q(s_2, a_1)$ |

---

### **Objetivo da Q-Table**
O objetivo do treinamento com Q-Learning é atualizar a Q-Table para que:
1. O agente possa determinar a melhor ação a ser tomada em qualquer estado.
2. A política ótima ($\pi^*$) seja derivada diretamente da Q-Table. A política é obtida selecionando a ação com o maior valor Q em cada estado:

$$
\pi^*(s) = \arg\max_{a} Q(s, a)
$$

---

### **Atualização da Q-Table**
Os valores Q na tabela são atualizados iterativamente durante o treinamento. A fórmula de atualização é:

$$
Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
$$

Explicando a equação:

Novo Valor Q = Valor Q antigo + taxa de aprendizado * (recompensa + fator de desconto * valor Q máximo do próximo estado - Valor Q antigo)


- $s$: Estado atual.
- $a$: Ação tomada.
- $r$: Recompensa recebida após executar a ação $a$ em $s$.
- $s'$: Próximo estado alcançado.
- $\alpha$: Taxa de aprendizado (determina o peso dado à nova informação).
- $\gamma$: Fator de desconto (determina a importância das recompensas futuras).
- $\max_{a'} Q(s', a')$: Melhor valor Q estimado no próximo estado $s'$.

---

### **Interpretação dos Valores Q**
- **Valores Altos:** Indicam que a ação em um estado específico leva a recompensas mais altas no futuro.
- **Valores Baixos ou Negativos:** Indicam que a ação é menos vantajosa ou leva a penalidades.
- **Zeros (Inicialmente):** Representam incerteza antes do treinamento.

---

### **Exemplo**
Suponha um ambiente de navegação com um robô que precisa alcançar um objetivo, evitando obstáculos. Inicialmente, a Q-Table pode parecer algo assim:

| Estado  | Up   | Down | Left | Right |
|---------|-------|-------|-------|-------|
| (0, 0)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (0, 1)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (0, 2)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (0, 3)  | 1.00 | 1.00 | 1.00 | 1.00  |

Após o treinamento, a tabela pode ser atualizada para refletir os valores Q aprendidos:

| Estado  | Up    | Down   | Left  | Right |
|---------|-------|--------|-------|-------|
| (0, 0)  | -0.1  | 0.50   | 0.00  | 0.75  |
| (0, 1)  | 0.30  | 0.40   | 0.25  | 0.90  |
| (0, 2)  | 0.60  | -0.20  | 0.50  | 1.00  |
| (0, 3)  | 1.00  | 1.00   | 1.00  | 1.00  |

Aqui:
- O robô sabe que em $(0, 3)$, qualquer ação é ótima (valor $Q = 1.00$).
- Em $(0, 2)$, a melhor ação é "Right" ($Q = 1.00$).

---

### **Exemplo Detalhado de Preenchimento da Q-Table: Navegação de Robô**

Vamos detalhar como a Q-Table é preenchida durante o treinamento para um problema de navegação em que um robô precisa alcançar um objetivo enquanto evita obstáculos.

---

#### **Descrição do Problema**

- **Grid (3x4):**  
  O ambiente é uma grade $3 \times 4$, onde:
  - $S = (0,0)$ é o estado inicial.
  - $G = (2,3)$ é o objetivo.
  - Obstáculos estão em $(1,1)$.
  
  O robô pode se mover nas direções: `"up"`, `"down"`, `"left"`, `"right"`. Se tentar mover para fora dos limites ou colidir com obstáculos, permanece no estado atual.

- **Recompensas:**
  - $+10$ ao alcançar o objetivo ($G$).
  - $-1$ para cada movimento para incentivar soluções rápidas.
  - $-10$ ao colidir com um obstáculo.

- **Parâmetros de Treinamento:**
  - $\alpha = 0.1$ (taxa de aprendizado).
  - $\gamma = 0.9$ (fator de desconto).
  - Inicialmente, todos os valores Q são $0$.

---

#### **Etapas de Atualização**

1. **Inicializar a Q-Table:**
   Começamos com uma Q-Table preenchida com zeros:

| Estado  | Up   | Down | Left | Right |
|---------|------|------|------|-------|
| (0, 0)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (0, 1)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (0, 2)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (0, 3)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (1, 0)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (1, 2)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (1, 3)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (2, 0)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (2, 1)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (2, 2)  | 0.00 | 0.00 | 0.00 | 0.00  |
| (2, 3)  | 0.00 | 0.00 | 0.00 | 0.00  |

2. **Episódio 1 (Passos):**

   **(a) Estado Inicial:** $(0,0)$  
   Ação escolhida aleatoriamente: `"right"`.  
   Próximo estado: $(0,1)$.  
   Recompensa: $-1$.

   Atualização do valor $Q((0,0), \text{"right"})$:

   $$
   Q((0,0), \text{"right"}) = 0 + 0.1 \left[ -1 + 0.9 \cdot \max(0, 0, 0, 0) - 0 \right]
   $$

   $$
   Q((0,0), \text{"right"}) = -0.1
   $$

   **(b) Estado Atual:** $(0,1)$  
   Ação: `"down"`.  
   Próximo estado: $(1,1)$ (obstáculo).  
   Recompensa: $-10$.

   Atualização do valor $Q((0,1), \text{"down"})$:

   $$
   Q((0,1), \text{"down"}) = 0 + 0.1 \left[ -10 + 0.9 \cdot \max(0, 0, 0, 0) - 0 \right]
   $$

   $$
   Q((0,1), \text{"down"}) = -1
   $$

3. **Após Múltiplos Episódios:**
   Após várias explorações e atualizações, a Q-Table reflete os valores esperados:

| Estado  | Up    | Down   | Left  | Right |
|---------|-------|--------|-------|-------|
| (0, 0)  | -0.5  | 0.00   | 0.00  | 1.25  |
| (0, 1)  | -0.5  | -1.00  | -0.5  | 2.50  |
| (0, 2)  | -0.5  | -0.20  | -0.5  | 5.00  |
| (0, 3)  | 10.00 | 10.00  | 10.00 | 10.00 |
| (1, 0)  | -0.5  | 0.00   | -0.5  | 1.25  |
| (1, 2)  | -0.5  | -0.20  | -0.5  | 2.50  |
| (1, 3)  | -0.5  | -0.20  | -0.5  | 5.00  |
| (2, 0)  | -0.5  | 0.00   | -0.5  | 1.25  |
| (2, 1)  | -0.5  | -0.20  | -0.5  | 2.50  |
| (2, 2)  | -0.5  | -0.20  | -0.5  | 5.00  |
| (2, 3)  | 10.00 | 10.00  | 10.00 | 10.00 |

---

#### **Interpretação Final**
1. **Estado Objetivo ($2,3$):**
   Todos os valores Q para as ações são $10.00$, indicando que qualquer ação ali não tem custo adicional.

2. **Outros Estados:**
   - Os valores positivos em direções apontam para o caminho em direção ao objetivo.
   - Valores negativos indicam que o movimento leva a penalizações.

---

##Outro explemplo de Q-Table
Imagine um rato em um labirinto. O objetivo do rato é encontrar o queijo.

<img src='https://drive.google.com/uc?id=1SugGt3tVIiOeANEyITPBtbjJjEccUb3Q' width=400>

 * Estados: Cada posição no labirinto é um estado.
 * Ações: O rato pode se mover para cima, para baixo, para a esquerda ou para a direita.
 * Recompensas: O rato recebe uma grande recompensa ao encontrar o queijo e pequenas recompensas negativas ao se chocar com paredes.

Tabela Q Inicial:

| Estado | Acima | Abaixo | Esquerda | Direita |
|---|---|---|---|---|
| S1 | 0 | 0 | 0 | 0 |
| S2 | 0 | 0 | 0 | 0 |
| ... | ... | ... | ... | ... |

Como funciona:
 * Inicialização: A tabela Q começa com todos os valores iguais a zero, indicando que o rato não tem conhecimento sobre o labirinto.
 * Exploração: O rato explora o labirinto aleatoriamente, tentando diferentes ações em cada estado.
 * Atualização da Tabela Q: A cada passo, o valor Q da ação escolhida é atualizado usando a seguinte fórmula (simplificada):

   Novo Valor Q = Valor Q antigo + taxa de aprendizado * (recompensa + valor Q máximo do próximo estado - Valor Q antigo)

 * Exploration vs. Exploitation: Com o tempo, o rato começa a explorar menos aleatoriamente e a escolher as ações com os maiores valores Q, aumentando suas chances de encontrar o queijo mais rapidamente.

Exemplo de Atualização:
Suponha que o rato esteja no estado S1 e decida se mover para a direita. Ele encontra uma parede e recebe uma recompensa negativa. A tabela Q é atualizada para diminuir o valor Q da ação "direita" no estado S1, indicando que essa não é uma boa opção.

Tabela Q após algumas iterações:

| Estado | Acima | Abaixo | Esquerda | Direita |
|---|---|---|---|---|
| S1 | 0.1 | -0.2 | 0.3 | -0.5 |
| S2 | ... | ... | ... | ... |

Por que isso funciona:
O Q-learning permite que o rato aprenda gradualmente qual a melhor ação a tomar em cada estado, maximizando a recompensa total ao longo do tempo. Essa técnica pode ser aplicada a uma variedade de problemas, desde jogos até robótica.

##Q-Learning Metrics
As métricas são essenciais para avaliar o desempenho do agente no treinamento de Q-Learning. Elas ajudam a entender se o agente está aprendendo e se está se aproximando da política ótima. Aqui estão as principais métricas utilizadas no contexto do Q-Learning:

---

### **1. Recompensa Acumulada por Episódio**
- **Descrição:** Soma das recompensas recebidas pelo agente durante um único episódio.
- **Propósito:** Avaliar a eficácia do agente em alcançar estados de alta recompensa.
- **Interpretação:**
  - Recompensa acumulada crescente ao longo do treinamento indica que o agente está aprendendo.
  - Convergência da recompensa acumulada sugere que o agente encontrou uma política estável.
- **Exemplo de Gráfico:** Plotar a recompensa acumulada por episódio ao longo do tempo.

```python
import matplotlib.pyplot as plt

plt.plot(rewards_per_episode)
plt.title("Recompensa Acumulada por Episódio")
plt.xlabel("Episódios")
plt.ylabel("Recompensa Acumulada")
plt.show()
```

---

### **2. Taxa de Sucesso**
- **Descrição:** A proporção de episódios em que o agente alcançou o objetivo.
- **Propósito:** Medir a eficácia do agente em alcançar o estado final desejado.
- **Interpretação:**
  - Uma taxa de sucesso próxima de 100% indica que o agente aprendeu a política ótima.
- **Fórmula:**
  $$
  \text{Taxa de Sucesso} = \frac{\text{Episódios com Sucesso}}{\text{Total de Episódios}}
  $$

---

### **3. Número de Passos por Episódio**
- **Descrição:** Número de passos (ações) realizados pelo agente em um episódio.
- **Propósito:** Verificar a eficiência do agente em encontrar a solução.
- **Interpretação:**
  - Um número decrescente de passos por episódio indica que o agente está encontrando rotas mais curtas ou eficientes.
- **Exemplo de Gráfico:**

```python
plt.plot(steps_per_episode)
plt.title("Número de Passos por Episódio")
plt.xlabel("Episódios")
plt.ylabel("Passos")
plt.show()
```

---

### **4. Diferença de Valores Q**
- **Descrição:** Média da diferença entre os valores Q atualizados e os anteriores (\(\Delta Q\)).
- **Propósito:** Avaliar a convergência da Q-Table.
- **Interpretação:**
  - Diferenças pequenas sugerem que o agente está convergindo para uma solução estável.
- **Fórmula:**
  $$
  \Delta Q = \frac{\sum |Q_{\text{novo}} - Q_{\text{anterior}}|}{\text{Total de Estados e Ações}}
  $$

---

### **5. Exploration vs. Exploitation (Razão de Ações Exploratórias)**
- **Descrição:** A proporção de ações exploratórias (escolhidas aleatoriamente) em comparação às ações exploitation (com base na política atual).
- **Propósito:** Avaliar o equilíbrio entre exploration e exploitation.
- **Interpretação:**
  - Durante o início do treinamento, mais ações exploratórias são esperadas.
  - Com o tempo, a exploração deve diminuir, e a exploitation aumentar.

---

### **6. Valor Médio da Q-Table**
- **Descrição:** Média de todos os valores Q na tabela.
- **Propósito:** Monitorar a evolução geral da estimativa de recompensa futura.
- **Interpretação:**
  - Valores Q crescentes indicam que o agente está aprendendo a maximizar a recompensa.
- **Fórmula:**
  $$
  Q_{\text{médio}} = \frac{\sum Q(s, a)}{\text{Total de Estados e Ações}}
  $$

---

### **7. Desempenho em Ambientes Não Explorados**
- **Descrição:** Avaliar o desempenho do agente em novos ambientes ou estados que não foram explorados durante o treinamento.
- **Propósito:** Testar a capacidade de generalização do agente.

---

### **8. Estabilidade da Política**
- **Descrição:** Frequência com que a política (melhor ação para cada estado) muda durante o treinamento.
- **Propósito:** Medir a convergência da política.
- **Interpretação:**
  - Uma política estável sugere que o agente convergiu para uma solução ótima.

---

### **9. Tempo de Treinamento**
- **Descrição:** O tempo total necessário para treinar o agente até a convergência.
- **Propósito:** Avaliar a eficiência computacional do algoritmo.

---

### **10. Consistência dos Resultados**
- **Descrição:** Variância na recompensa acumulada, taxa de sucesso ou passos por episódio em execuções diferentes.
- **Propósito:** Avaliar a robustez do aprendizado.
- **Interpretação:**
  - Baixa variância indica que o agente é consistente.

---

### **Resumo das Métricas**
| **Métrica**               | **Propósito**                                  | **Exemplo de Uso**                 |
|---------------------------|-----------------------------------------------|-----------------------------------|
| Recompensa Acumulada      | Avaliar a eficácia do aprendizado.             | Crescimento ao longo do tempo.   |
| Taxa de Sucesso           | Avaliar se o agente alcança o objetivo.        | Sucesso em 90% dos episódios.    |
| Número de Passos          | Medir a eficiência do agente.                  | Caminho mais curto.              |
| Diferença de Valores Q    | Monitorar a convergência da Q-Table.           | Diferença tende a 0.             |
| Exploração vs. Exploração | Verificar equilíbrio durante o aprendizado.     | Razão de exploração diminui.     |
| Valor Médio da Q-Table    | Avaliar a evolução geral da estimativa.         | Valores crescentes.              |
| Estabilidade da Política  | Monitorar mudanças frequentes na política.     | Política converge.               |

---

### Exemplo de Aplicação no Python

```python
# Monitorar métricas durante o treinamento
rewards_per_episode = []
steps_per_episode = []

for episode in range(total_episodes):
    state = start_state
    total_reward = 0
    steps = 0
    
    while not done:
        action = choose_action(state)
        next_state, reward = take_action(state, action)
        
        # Atualizar Q-Table
        q_table[state, action] = update_q_value(state, action, reward, next_state)
        
        state = next_state
        total_reward += reward
        steps += 1
        
        if state == goal_state:
            done = True

    rewards_per_episode.append(total_reward)
    steps_per_episode.append(steps)
```

##Referências

Artigos

1. "Q-learning" - Watkins e Dayan (1992)
2. "Learning from Delayed Rewards" - Watkins (1989)
3. "Deep Q-Networks" - Mnih et al. (2015)
4. "Double Q-Learning" - Hasselt (2010)

Livros
1. "Reinforcement Learning: An Introduction" - Richard S. Sutton e Andrew G. Barto (2018)
   - Autores: Richard S. Sutton e Andrew G. Barto  
   - Descrição: Considerado o livro clássico sobre aprendizado por reforço, inclui capítulos detalhados sobre Q-Learning e outros métodos.
   - [Link oficial](http://incompleteideas.net/book/the-book.html)

2. "Deep Reinforcement Learning" - Sutton e Barto (2019)
3. "Q-Learning e Aprendizado de Máquina" - Luciano Vargas (2019)
4. "Inteligência Artificial: Uma Abordagem Moderna" - Stuart Russell e Peter Norvig (2014)
  - [Artificial Intelligence: A Modern Approach (em inglês)](https://www.amazon.com.br/Artificial-Intelligence-Approach-Stuart-Russell/dp/0134610997)

  - [Inteligência Artificial - Uma Abordagem Moderna (versão em português)](https://www.amazon.com.br/Intelig%C3%AAncia-Artificial-Uma-Abordagem-Moderna/dp/8595158878)

Artigos Científicos
1. **Learning from Delayed Rewards**  
   - Autor: Chris J.C.H. Watkins (1992)  
   - Descrição: Este é o artigo seminal que introduziu o Q-Learning.
   - [Link para o artigo](https://link.springer.com/article/10.1007/BF00992698)

2. **Playing Atari with Deep Reinforcement Learning**  
   - Autores: Mnih et al. (2013)  
   - Descrição: Este artigo conecta Q-Learning com redes neurais profundas (Deep Q-Networks).
   - [Link para o artigo](https://arxiv.org/abs/1312.5602)

1. "Q-learning" - Watkins e Dayan (1992)
2. "Learning from Delayed Rewards" - Watkins (1989)
3. "Deep Q-Networks" - Mnih et al. (2015)
4. "Double Q-Learning" - Hasselt (2010)

Tutoriais Online e Cursos

1. **OpenAI Spinning Up**  
   - Descrição: Fornece uma introdução prática ao aprendizado por reforço, incluindo Q-Learning.
   - [Link para o site](https://spinningup.openai.com)

2. **Coursera - Reinforcement Learning Specialization**  
   - Instituição: University of Alberta  
   - Descrição: Curso online que inclui tópicos de Q-Learning.
   - [Acesse aqui](https://www.coursera.org/specializations/reinforcement-learning)

3. **Stanford CS234: Reinforcement Learning**  
   - Descrição: Slides e vídeos que cobrem Q-Learning e outros tópicos relacionados.
   - [Site do curso](http://web.stanford.edu/class/cs234/)

Repositórios no GitHub

1. **Q-Learning Implementation**  
   - Autor: PacktPublishing  
   - [Repositório](https://github.com/PacktPublishing/Hands-On-Reinforcement-Learning-with-Python/tree/master/Chapter02)

2. **OpenAI Gym Examples**  
   - Descrição: Exemplos de implementações práticas de aprendizado por reforço com ambientes do OpenAI Gym.
   - [Repositório](https://github.com/openai/gym)

Blogs e Artigos Populares

1. **Simple Reinforcement Learning with TensorFlow**  
   - Blog: Medium (Morvan Zhou)  
   - Descrição: Explicação passo a passo do Q-Learning.
   - [Leia aqui](https://morvanzhou.github.io/tutorials/)

2. **Understanding Q-Learning**  
   - Blog: Towards Data Science  
   - [Leia aqui](https://towardsdatascience.com)

