# üéØ Value Iteration em Labirinto - MDP (Markov Decision Process)

## Objetivo Educacional

Demonstrar como um **agente** aprende a encontrar o caminho √≥timo em um labirinto usando:
- üìä **Value Iteration** (Itera√ß√£o de Valor)
- üîÑ **Equa√ß√£o de Bellman**
- üé≤ **Processos de Decis√£o Markovianos (MDP)**

## O Problema

Um agente est√° preso em um **labirinto** e precisa encontrar a sa√≠da (objetivo).

- üü´ **Paredes (1)**: N√£o √© poss√≠vel atravessar
- ‚ö™ **Caminhos Livres (0)**: Espa√ßos onde o agente pode andar
- üéØ **Objetivo (9)**: A meta a alcan√ßar

## A Solu√ß√£o: Value Iteration

O algoritmo calcula o **valor de cada estado** usando:

$$V(s) = \max_a \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma \cdot V(s')]$$

**Simplificado para nosso caso:**
$$V(s) = \max_a [\gamma \cdot (0.8 \cdot V(s_{pr√≥ximo}) + 0.2 \cdot V(s))]$$

Onde:
- **V(s)**: Valor do estado atual (quanto de recompensa se espera da√≠)
- **0.8**: Probabilidade de sucesso na transi√ß√£o (80%)
- **0.2**: Probabilidade de falha (ficar no mesmo lugar = 20%)
- **Œ≥ = 0.9**: Fator de desconto

## 1Ô∏è‚É£ Importa√ß√µes e Configura√ß√£o

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from matplotlib.colors import LinearSegmentedColormap
import warnings
warnings.filterwarnings('ignore')

# Par√¢metros do MDP
gamma = 0.9  # Fator de desconto
transition_success = 0.8  # Probabilidade de sucesso na a√ß√£o
transition_failure = 0.2  # Probabilidade de falha (ficar no mesmo lugar)

# ============ DEFINI√á√ÉO DO LABIRINTO ============
# 0 = Caminho livre
# 1 = Parede
# 9 = Objetivo
maze = np.array([
    [1, 1, 1, 1, 1, 1],
    [1, 0, 1, 0, 0, 1],
    [1, 0, 1, 0, 1, 1],
    [1, 0, 0, 0, 0, 1],
    [1, 0, 1, 0, 0, 1],
    [1, 0, 0, 1, 9, 1],
    [1, 1, 1, 1, 1, 1]
])

num_rows, num_cols = maze.shape

# Inicializar matriz de valores
V = np.zeros((num_rows, num_cols))

# Coordenadas do objetivo
goal_pos = np.where(maze == 9)
goal_row, goal_col = goal_pos[0][0], goal_pos[1][0]

print("="*70)
print("LABIRINTO - VALUE ITERATION (MDP)")
print("="*70)
print(f"\nüìê Dimens√µes: {num_rows} x {num_cols}")
print(f"üéØ Objetivo em: ({goal_row}, {goal_col})")
print(f"‚öñÔ∏è  Fator de Desconto (Œ≥): {gamma}")
print(f"‚úÖ Prob. de Sucesso: {transition_success*100}% | ‚ùå Prob. Falha: {transition_failure*100}%")
print("\nMapa do Labirinto:")
print("  1 = Parede | 0 = Caminho | 9 = Objetivo")
print(maze)
print("="*70)

## 2Ô∏è‚É£ Fun√ß√µes de C√°lculo - Equa√ß√£o de Bellman

### L√≥gica do MDP

Para cada estado e a√ß√£o:
1. Determinar o pr√≥ximo estado se a a√ß√£o tiver sucesso (80% chance)
2. Determinar o estado se a a√ß√£o falhar (20% chance = fica no mesmo lugar)
3. Calcular valor = Œ≥ √ó (0.8 √ó V(pr√≥ximo) + 0.2 √ó V(atual))
4. Pegar o m√°ximo entre todas as 4 a√ß√µes poss√≠veis

In [None]:
def get_next_state(state, action):
    """
    Retorna o pr√≥ximo estado dado uma a√ß√£o.
    
    Par√¢metros:
    - state: tupla (row, col)
    - action: str ('up', 'down', 'left', 'right')
    
    Retorno:
    - tupla (new_row, new_col)
    """
    row, col = state
    
    if action == 'up':
        return (max(row - 1, 0), col)
    elif action == 'down':
        return (min(row + 1, num_rows - 1), col)
    elif action == 'left':
        return (row, max(col - 1, 0))
    elif action == 'right':
        return (row, min(col + 1, num_cols - 1))
    
    return state

def calculate_action_value(state, action):
    """
    Calcula o valor de uma a√ß√£o em um determinado estado.
    
    Usa a f√≥rmula do MDP:
    V(s,a) = Œ≥ √ó [0.8 √ó V(s') + 0.2 √ó V(s)]
    
    Par√¢metros:
    - state: tupla (row, col)
    - action: str ('up', 'down', 'left', 'right')
    
    Retorno:
    - float: valor calculado
    """
    row, col = state
    
    # N√£o calcular para paredes ou objetivo j√° alcan√ßado
    if maze[row, col] == 1:
        return 0
    if maze[row, col] == 9:  # Se j√° est√° no objetivo
        return 1
    
    # Pr√≥ximo estado se a a√ß√£o tiver sucesso (80%)
    next_state = get_next_state(state, action)
    next_row, next_col = next_state
    
    # Par√¢metros da equa√ß√£o de Bellman
    # Recompensa imediata + valor descontado do pr√≥ximo estado
    action_value = gamma * (
        transition_success * V[next_row, next_col] +  # 80% de sucesso
        transition_failure * V[row, col]               # 20% de falha (fica no lugar)
    )
    
    return action_value

def value_iteration(max_iterations=50, tolerance=1e-2):
    """
    Executa o algoritmo de itera√ß√£o de valor.
    
    Par√¢metros:
    - max_iterations: n√∫mero m√°ximo de itera√ß√µes
    - tolerance: crit√©rio de parada (converg√™ncia)
    
    Retorno:
    - history: hist√≥rico de itera√ß√µes
    """
    global V
    
    history = []
    
    for iteration in range(max_iterations):
        delta = 0
        V_old = V.copy()
        
        # Para cada estado no labirinto
        for row in range(num_rows):
            for col in range(num_cols):
                # Ignorar paredes
                if maze[row, col] == 1:
                    continue
                
                # Objetivo tem valor 1
                if maze[row, col] == 9:
                    V[row, col] = 1.0
                    continue
                
                # Calcular valor m√°ximo entre todas as a√ß√µes
                max_value = -np.inf
                
                for action in ['up', 'down', 'left', 'right']:
                    action_value = calculate_action_value((row, col), action)
                    max_value = max(max_value, action_value)
                
                V[row, col] = max_value
                delta = max(delta, abs(V_old[row, col] - V[row, col]))
        
        history.append({
            'iteration': iteration + 1,
            'delta': delta,
            'V': V.copy()
        })
        
        print(f"Itera√ß√£o {iteration + 1:2d}: Delta = {delta:.6f}")
        
        # Crit√©rio de converg√™ncia
        if delta < tolerance:
            print(f"\n‚úÖ Converg√™ncia alcan√ßada em {iteration + 1} itera√ß√µes!")
            break
    
    return history

print("‚úì Fun√ß√µes de c√°lculo definidas com sucesso!")

## 3Ô∏è‚É£ Fun√ß√µes de Visualiza√ß√£o

In [None]:
def plot_value_function(V, title="Fun√ß√£o de Valor - Labirinto", iteration=None):
    """
    Visualiza a fun√ß√£o de valor usando matplotlib.
    
    Par√¢metros:
    - V: matriz de valores
    - title: t√≠tulo do gr√°fico
    - iteration: n√∫mero da itera√ß√£o (opcional)
    """
    fig, ax = plt.subplots(figsize=(10, 8))
    
    # Criar colormap customizado
    cmap = plt.cm.RdYlGn
    
    # Visualizar valores
    im = ax.imshow(np.where(maze == 1, np.nan, V), cmap=cmap, vmin=0, vmax=1)
    
    # Desenhar paredes
    for row in range(num_rows):
        for col in range(num_cols):
            if maze[row, col] == 1:
                rect = patches.Rectangle((col-0.5, row-0.5), 1, 1, 
                                        linewidth=0, facecolor='black', alpha=0.5)
                ax.add_patch(rect)
    
    # Adicionar valores nas c√©lulas
    for row in range(num_rows):
        for col in range(num_cols):
            if maze[row, col] != 1:
                if maze[row, col] == 9:
                    ax.text(col, row, '‚òÖ\nOBJ', ha='center', va='center', 
                           fontsize=10, fontweight='bold', color='white')
                else:
                    ax.text(col, row, f'{V[row, col]:.2f}', ha='center', va='center',
                           fontsize=9, fontweight='bold', 
                           color='black' if V[row, col] < 0.5 else 'white')
    
    # Configurar eixos
    ax.set_xticks(range(num_cols))
    ax.set_yticks(range(num_rows))
    ax.set_xlim(-0.5, num_cols-0.5)
    ax.set_ylim(num_rows-0.5, -0.5)
    
    # T√≠tulo
    if iteration:
        title = f"{title}\nItera√ß√£o: {iteration}"
    ax.set_title(title, fontsize=13, fontweight='bold')
    
    # Colorbar
    cbar = plt.colorbar(im, ax=ax, label='Valor do Estado')
    
    plt.tight_layout()
    return fig

def plot_value_progression(history):
    """
    Visualiza a progress√£o do delta ao longo das itera√ß√µes.
    """
    fig, ax = plt.subplots(figsize=(11, 5))
    
    iterations = [h['iteration'] for h in history]
    deltas = [h['delta'] for h in history]
    
    ax.semilogy(iterations, deltas, 'o-', linewidth=2.5, markersize=8, color='#E74C3C')
    ax.axhline(y=1e-2, color='green', linestyle='--', linewidth=2, label='Toler√¢ncia (1e-2)')
    
    ax.set_xlabel('N√∫mero de Itera√ß√µes', fontweight='bold', fontsize=11)
    ax.set_ylabel('Delta (log scale)', fontweight='bold', fontsize=11)
    ax.set_title('Converg√™ncia do Value Iteration', fontweight='bold', fontsize=12)
    ax.grid(True, alpha=0.3)
    ax.legend(fontsize=10)
    
    plt.tight_layout()
    return fig

def plot_policy(V):
    """
    Visualiza a pol√≠tica √≥tima (melhor a√ß√£o em cada estado).
    """
    fig, ax = plt.subplots(figsize=(10, 8))
    
    # Fundo com valores
    im = ax.imshow(np.where(maze == 1, np.nan, V), cmap='RdYlGn', vmin=0, vmax=1, alpha=0.6)
    
    # Desenhar paredes
    for row in range(num_rows):
        for col in range(num_cols):
            if maze[row, col] == 1:
                rect = patches.Rectangle((col-0.5, row-0.5), 1, 1, 
                                        linewidth=0, facecolor='black', alpha=0.7)
                ax.add_patch(rect)
    
    # Desenhar dire√ß√µes da pol√≠tica √≥tima
    arrows = {
        'up': (0, -0.3, '‚Üë'),
        'down': (0, 0.3, '‚Üì'),
        'left': (-0.3, 0, '‚Üê'),
        'right': (0.3, 0, '‚Üí')
    }
    
    for row in range(num_rows):
        for col in range(num_cols):
            if maze[row, col] != 1 and maze[row, col] != 9:
                # Encontrar melhor a√ß√£o
                best_action = None
                best_value = -np.inf
                
                for action in ['up', 'down', 'left', 'right']:
                    action_value = calculate_action_value((row, col), action)
                    if action_value > best_value:
                        best_value = action_value
                        best_action = action
                
                # Desenhar seta
                if best_action:
                    dx, dy, arrow = arrows[best_action]
                    ax.text(col + dx, row + dy, arrow, ha='center', va='center',
                           fontsize=16, fontweight='bold', color='blue')
            
            elif maze[row, col] == 9:
                ax.text(col, row, '‚òÖ', ha='center', va='center',
                       fontsize=14, fontweight='bold', color='red')
    
    ax.set_xticks(range(num_cols))
    ax.set_yticks(range(num_rows))
    ax.set_xlim(-0.5, num_cols-0.5)
    ax.set_ylim(num_rows-0.5, -0.5)
    ax.set_title('Pol√≠tica √ìtima (Melhor A√ß√£o em Cada Estado)', fontweight='bold', fontsize=12)
    
    plt.colorbar(im, ax=ax, label='Valor do Estado')
    plt.tight_layout()
    return fig

print("‚úì Fun√ß√µes de visualiza√ß√£o definidas com sucesso!")

## 4Ô∏è‚É£ Executar Value Iteration

O algoritmo calcular√° o valor de cada estado iterativamente at√© convergir.

In [None]:
print("\n" + "="*70)
print("EXECUTANDO VALUE ITERATION")
print("="*70 + "\n")

# Executar o algoritmo
history = value_iteration(max_iterations=50, tolerance=1e-2)

print("\n" + "="*70)
print("RESULTADOS FINAIS")
print("="*70)
print(f"\nMatriz Final de Valores (V):")
print(V.round(3))
print(f"\nMaior valor encontrado: {V.max():.4f}")
print(f"Menor valor encontrado: {V[V > 0].min():.4f}")
print(f"N√∫mero de itera√ß√µes: {len(history)}")

## 5Ô∏è‚É£ Visualiza√ß√µes dos Resultados

### Visualiza√ß√£o 1: Fun√ß√£o de Valor Final

In [None]:
# Plotar a fun√ß√£o de valor final
fig1 = plot_value_function(V, title="Fun√ß√£o de Valor Final - Itera√ß√£o da Solu√ß√£o")
plt.show()

print("\nüìä Interpreta√ß√£o do Mapa de Valores:")
print("-" * 70)
print("‚Ä¢ Cores VERDES: Estados com alto valor (perto do objetivo)")
print("‚Ä¢ Cores VERMELHAS: Estados com baixo valor (longe do objetivo)")
print("‚Ä¢ PRETO: Paredes (n√£o acess√≠veis)")
print("‚Ä¢ ‚òÖ OBJ: Objetivo (valor = 1.0)")

### Visualiza√ß√£o 2: Converg√™ncia do Algoritmo

In [None]:
fig2 = plot_value_progression(history)
plt.show()

print("\nüìà Gr√°fico de Converg√™ncia:")
print("-" * 70)
print("‚Ä¢ Eixo Y (log): Delta - maior mudan√ßa em qualquer estado")
print("‚Ä¢ Eixo X: N√∫mero de itera√ß√£o")
print("‚Ä¢ Linha verde: Toler√¢ncia de converg√™ncia (1e-2)")
print(f"‚Ä¢ O algoritmo parou quando Delta < {1e-2}")

### Visualiza√ß√£o 3: Pol√≠tica √ìtima (Melhor A√ß√£o em Cada Estado)

In [None]:
fig3 = plot_policy(V)
plt.show()

print("\nüéØ Pol√≠tica √ìtima:")
print("-" * 70)
print("‚Ä¢ Cada seta (‚Üë‚Üì‚Üê‚Üí) representa a melhor a√ß√£o em aquele estado")
print("‚Ä¢ Seguir as setas levar√° ao caminho √≥timo at√© ao objetivo")
print("‚Ä¢ ‚òÖ = Objetivo (meta final)")
print("\nCom a pol√≠tica √≥tima, o agente sabe exatamente para onde ir!")

## 6Ô∏è‚É£ An√°lise e Insights

### O Que Aprendemos com Value Iteration?

#### 1Ô∏è‚É£ **Fun√ß√£o de Valor Representa "Proximidade da Meta"**

O algoritmo aprendeu que:
- ‚úÖ Estados pr√≥ximos ao objetivo t√™m valores ALTOS (verde)
- ‚ùå Estados longe do objetivo t√™m valores BAIXOS (vermelho)

Isso corresponde √† ideia intuitiva: "Quanto mais perto estou do objetivo, maior √© meu valor esperado"

#### 2Ô∏è‚É£ **Converg√™ncia √© Garantida**

A Equa√ß√£o de Bellman converge quando:
- A recompensa √© limitada
- 0 ‚â§ Œ≥ < 1 (desconto futuro)

No nosso caso:
- Convergiria em **{len(history)} itera√ß√µes** (muito r√°pido!)
- Delta diminuiu exponencialmente (veja o gr√°fico log)

#### 3Ô∏è‚É£ **A Pol√≠tica √ìtima Emerge Naturalmente**

A melhor estrat√©gia (pol√≠tica) √© simplesmente:
> **"Em cada estado, sempre execute a a√ß√£o que maximiza o valor esperado"**

Sem explora√ß√£o aleat√≥ria, sem aprendizado - apenas c√°lculos matem√°ticos!

#### 4Ô∏è‚É£ **Transi√ß√µes Estoc√°sticas Importam**

- 80% de sucesso + 20% de falha = A√ß√µes incertas
- O algoritmo aprende a ser robusto a falhas
- N√£o assume execu√ß√£o perfeita

### Equa√ß√£o de Bellman em Detalhe

$$V^{k+1}(s) = \max_a \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^k(s')]$$

Em nosso labirinto:
- **P(s'|s,a)** = 0.8 (sucesso) ou 0.2 (falha)
- **R(s,a,s')** = 0 (custo apenas de movimento)
- **Recompensa** = 1 se s' = objetivo, sen√£o 0
- **Œ≥** = 0.9 (valor do futuro)

### Aplica√ß√µes Pr√°ticas de Value Iteration

| Dom√≠nio | Problema | Objetivo |
|---------|----------|----------|
| **Rob√≥tica** | Navega√ß√£o | Mover robot do ponto A ao B |
| **Games** | Estrat√©gia | Encontrar movimento √≥timo |
| **Controle** | Estabiliza√ß√£o | Manter sistema em estado desejado |
| **Finan√ßas** | Portf√≥lio | Maximizar riqueza ao longo do tempo |

### Compara√ß√£o: Value Iteration vs Policy Iteration

| Aspecto | Value Iteration | Policy Iteration |
|--------|-----------------|-----------------|
| **Velocidade** | Mais itera√ß√µes | Menos itera√ß√µes |
| **Custo/Itera√ß√£o** | Menor | Maior (resolve sistema linear) |
| **Implementa√ß√£o** | Simples | Complexa |
| **Uso** | Ambientes pequenos | Problemas grandes |

## 7Ô∏è‚É£ Desafios Pr√°ticos para Aprendizado

### üöÄ Quest√µes para Reflex√£o

1. **E se o labirinto fosse muito maior?** (1000x1000 estados)
   - Value Iteration ainda convergiria?
   - Qual seria o problema de mem√≥ria?
   - ‚Üí Solu√ß√£o: Usar aproxima√ß√£o (fun√ß√£o universal aproximadora / rede neural)

2. **E se n√£o conhec√™ssemos o modelo (MDP)?** (Sem transi√ß√µes e recompensas)
   - Como aprender a pol√≠tica?
   - ‚Üí Solu√ß√£o: Q-Learning, SARSA (aprendizado por experi√™ncia)

3. **E se o ambiente mudasse?** (Paredes movem, novos objetivos aparecem)
   - Como adaptar a pol√≠tica?
   - ‚Üí Solu√ß√£o: Aprendizado cont√≠nuo, replanejamento

4. **E se houvesse m√∫ltiplos objetivos?** (Encontrar A, depois B, depois C)
   - Como estruturar o problema?
   - ‚Üí Solu√ß√£o: Subtarefas, hierarquias, op√ß√µes

5. **E se houvesse incerteza maior?** (A√ß√µes falham 50% das vezes)
   - Como o algoritmo se comportaria?
   - ‚Üí Experimente mudar `transition_success` para 0.5!

### üìö Pr√≥ximos T√≥picos Relacionados

- **Q-Learning**: Aprende sem conhecer o modelo
- **Policy Gradient**: Otimiza a pol√≠tica diretamente
- **Deep Reinforcement Learning**: Combina DNNs com RL
- **Monte Carlo Tree Search**: Busca em espa√ßos enormes (com sampling)
- **Multi-Agent RL**: V√°rios agentes interagindo

### üìñ Refer√™ncias

- Sutton & Barto: "Reinforcement Learning: An Introduction" (Cap√≠tulos 3-4)
- David Silver: Lectures on Reinforcement Learning (YouTube)
- Berkeley CS 285: Deep Reinforcement Learning

## ‚úÖ Conclus√£o

### O que Value Iteration nos ensinou

**Value Iteration √© um algoritmo fundamental para resolver Processos de Decis√£o Markovianos** quando:
- ‚úÖ Conhecemos o modelo (transi√ß√µes e recompensas)
- ‚úÖ O espa√ßo de estados √© razoavelmente pequeno
- ‚úÖ Precisamos de converg√™ncia garantida

**Equa√ß√£o de Bellman √© a base te√≥rica:**
> *Toda decis√£o √≥tima pode ser decomposta em uma recompensa imediata + valor descontado do estado futuro*

Isso permite algoritmos como:
- üéÆ Game AI (Chess, Go, Video Games)
- ü§ñ Robot Control
- üí∞ Finan√ßas & Trading
- üöó Autonomous Vehicles
- üì¶ Supply Chain Optimization

### Pr√≥ximo Passo Recomendado

**Implemente voc√™ mesmo:**
1. Modifique o labirinto (adicione mais paredes, mude objetivo)
2. Teste com diferentes valores de Œ≥
3. Acompanhe como as setas (pol√≠tica) mudam
4. Implemente Policy Iteration para comparar

---

**"A matem√°tica dos problemas de decis√£o sequencial √© elegante, poderosa e universal. Uma vez que entendes Bellman, opens portas para IA moderna."**