# 🧠 Mapa de Decisiones del Agente: Explorando un MDP 🌐

## 🎯 Objetivo
Explorar los fundamentos de un **Proceso de Decisión de Markov (MDP)** a través de una simulación visual y matemática. El estudiante aprenderá a:
- Representar los estados, acciones, recompensas y transiciones de un MDP.
- Construir una tabla de transición probabilística.
- Visualizar el comportamiento del sistema como un grafo.

📊 Ideal para estudiantes de pregrado y posgrado en cursos de Machine Learning o Inteligencia Artificial.


In [None]:
# 📦 Instalación de librerías necesarias
!pip install networkx matplotlib --quiet


In [None]:
# 🔧 Importación de librerías
import numpy as np
import networkx as nx
import matplotlib.pyplot as plt


## 🔍 Definimos nuestro MDP

El entorno tiene 3 estados:
- S0: Inicio
- S1: Trampa
- S2: Meta

El agente puede:
- A0: Avanzar
- A1: Esperar

Las probabilidades de transición están dadas por la función P(s'|s,a) y se definen en la matriz `P`.

Los valores de recompensa se asignan solo al alcanzar la Meta (+1) o caer en la Trampa (-1).


In [None]:
# Estados: S0, S1, S2
# Acciones: A0 (Avanzar), A1 (Esperar)

states = ['S0', 'S1', 'S2']
actions = ['Avanzar', 'Esperar']

# P[s][a] = [(next_state, probabilidad, recompensa)]
P = {
    'S0': {
        'Avanzar': [('S1', 0.7, 0), ('S2', 0.3, 1)],
        'Esperar': [('S0', 1.0, 0)]
    },
    'S1': {
        'Avanzar': [('S1', 1.0, -1)],
        'Esperar': [('S1', 1.0, -1)]
    },
    'S2': {
        'Avanzar': [('S2', 1.0, 0)],
        'Esperar': [('S2', 1.0, 0)]
    }
}


## 🌐 Visualizamos el MDP como un grafo

Usamos `networkx` para representar los estados como nodos y las transiciones como aristas con sus respectivas probabilidades y recompensas.


In [None]:
# Crear grafo dirigido
G = nx.DiGraph()

# Añadir nodos y aristas
for s in P:
    for a in P[s]:
        for dest, prob, reward in P[s][a]:
            label = f"{a}\nP={prob}, R={reward}"
            G.add_edge(s, dest, label=label)

# Posiciones para los nodos
pos = {'S0': (0, 0), 'S1': (1, -1), 'S2': (1, 1)}

# Dibujar nodos
plt.figure(figsize=(8,6))
nx.draw_networkx_nodes(G, pos, node_size=1500, node_color='lightblue')
nx.draw_networkx_labels(G, pos, font_size=12)

# Dibujar aristas
edges = G.edges(data=True)
edge_labels = {(u, v): d['label'] for u, v, d in edges}
nx.draw_networkx_edges(G, pos, arrowstyle='->', arrowsize=20)
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels, font_size=10)

plt.title("🌐 MDP: Mapa de Decisiones del Agente")
plt.axis('off')
plt.show()


## 🎓 Reflexión Final

Este MDP muestra cómo un agente puede tener caminos con distintos riesgos y recompensas.

📌 La probabilidad define la incertidumbre.  
📌 Las recompensas definen el objetivo.  
📌 Este mapa ayuda al agente a decidir cuál acción es mejor en cada estado.

🔄 En módulos posteriores podrás usar estas estructuras para entrenar políticas óptimas con Q-Learning o Dynamic Programming.
