## Aprendizado por Reforço com Q-Learning

Neste Jupyter Notebook, implementaremos um exemplo simples de aprendizado por reforço usando o algoritmo Q-Learning. Vamos treinar um agente para tomar decisões em um ambiente com 4 estados e 2 ações possíveis. O agente aprenderá a maximizar as recompensas ao longo do tempo.

## Importação de Bibliotecas e Inicialização

Importação das bibliotecas e inicialização dos parâmetros iniciais do nosso ambiente de aprendizado por reforço, como o número de estados (4) e o número de ações (2). 

Em seguida, Criação de uma Q-table (tabela Q) com valores aleatórios para iniciar o processo de aprendizado.

In [1]:
import numpy as np

# Defina o número de estados e ações possíveis no ambiente
num_states = 4
num_actions = 2

# Inicialize a Q-table com valores aleatórios
q_table = np.random.rand(num_states, num_actions)


## Definição de Hiperparâmetros

Definição dos hiperparâmetros que afetam o treinamento do agente. 

* learning_rate controla a taxa de aprendizado 
* discount_factor determina a importância das recompensas futuras em relação às recompensas imediatas
* num_episodes especifica quantos episódios de treinamento realizaremos.

In [2]:
# Defina hiperparâmetros para o algoritmo de aprendizado por reforço
learning_rate = 0.1
discount_factor = 0.9
num_episodes = 10


## Treinamento do Agente

É feito uma iteração por num_episodes, onde cada episódio começa com um estado inicial aleatório. 

O agente interage com o ambiente e escolhe ações com base em uma política epsilon-greedy (exploração vs. exploração). As recompensas são simuladas e usadas para atualizar a Q-table usando a equação de Bellman.

In [3]:
# Simule o ambiente com episódios de treinamento
for episode in range(num_episodes):
    # Inicialize o ambiente (estado inicial)
    state = np.random.randint(0, num_states)
    
    # Execute o episódio até terminar
    while True:
        # Escolha uma ação com base na política epsilon-greedy
        epsilon = 0.2  # Probabilidade de explorar ao invés de escolher a melhor ação
        if np.random.uniform(0, 1) < epsilon:
            action = np.random.randint(0, num_actions)  # Ação aleatória
        else:
            action = np.argmax(q_table[state, :])  # Escolha a ação com maior Q-value
            
        # Simule a ação no ambiente e receba a recompensa
        next_state = (state + 1) % num_states  # Transição simples de estado para ilustração
        reward = -1 if next_state != 3 else 10  # Recompensa final
        
        # Atualize a Q-table usando a equação de Bellman
        q_table[state, action] = (1 - learning_rate) * q_table[state, action] + \
                                  learning_rate * (reward + discount_factor * np.max(q_table[next_state, :]))
        
        # Atualize o estado
        state = next_state
        
        # Verifique se o episódio terminou
        if state == 3:
            break


## Exibição da Q-Table Final

Cada valor na tabela representa o valor Q associado a uma ação em um estado específico. Isso nos permite interpretar como o agente aprendeu a valorizar diferentes ações em diferentes estados com base nas recompensas e nas políticas de exploração durante o treinamento.

In [4]:
# Imprima a Q-table final com interpretação
print("Q-Table com Interpretação:")
for state in range(num_states):
    print(f"Estado {state}:")
    for action in range(num_actions):
        print(f"  Ação {action}: Q-value = {q_table[state, action]}")
    print()


Q-Table com Interpretação:
Estado 0:
  Ação 0: Q-value = 0.3916430528911931
  Ação 1: Q-value = 0.11850142819284026

Estado 1:
  Ação 0: Q-value = 2.1501683653038253
  Ação 1: Q-value = 0.8042213101199582

Estado 2:
  Ação 0: Q-value = 0.5051103180790946
  Ação 1: Q-value = 7.126649041587006

Estado 3:
  Ação 0: Q-value = 0.6735571805539834
  Ação 1: Q-value = 0.07296742463946193

