Universidad del Valle de Guatemala  
Aprendizaje por Refuerzo
Alberto Suriano  

Laboratorio 2  
Marlon Hernández - 15177  

- Link del repositorio: https://github.com/ivanhez/RL-LAB2

## Task 1

Responda a cada de las siguientes preguntas de forma clara y lo más completamente posible.
1. **¿Qué es un Markov Decision Process (MDP)?**  
    Un Proceso de Decisión de Markov (MDP) es un proceso de control estocástico en tiempo discreto. Proporciona un marco matemático para modelar la toma de decisiones en situaciones en las que los resultados son en parte aleatorios y en parte bajo el control de un decisor. 

2. **¿Cuáles son los componentes principales de un MDP?**  
    Los MDP están compuestos por un conjunto de estados S, un conjunto de acciones A, una función de transición de estados T(s,a,s’) y una función de recompensa R(s,a,s’). La función de transición de estado determina la probabilidad de pasar al estado s’ dado que el estado actual es s y la acción realizada es a. La función de recompensa da la recompensa recibida al pasar del estado s al s’ dado que la acción realizada es a.
    
3. **¿Cuál es el objetivo principal del aprendizaje por refuerzo con MDPs?**  
    El objetivo principal del aprendizaje por refuerzo con MDPs es encontrar una política óptima que maximice la recompensa acumulada a largo plazo para el agente. Una política (π) es una estrategia que define qué acción debe tomar el agente en cada estado. La política óptima π* maximiza el valor esperado de las recompensas acumuladas a lo largo del tiempo, considerando las transiciones de estado y las recompensas inmediatas. Esto implica que el agente debe aprender a tomar decisiones que no solo maximicen las recompensas inmediatas, sino que también consideren las consecuencias futuras de esas decisiones.

## Task 2
El objetivo principal de este ejercicio es que simule un MDP que represente un robot que navega por un laberinto de cuadrículas de 3x3 y evalúe una política determinada. Por ello considere, a un robot navega por un laberinto de cuadrícula de 3x3. El robot puede moverse en cuatro direcciones: arriba, abajo, izquierda y derecha. El objetivo es navegar desde la posición inicial hasta la posición de meta evitando obstáculos. El robot recibe una recompensa cuando alcanza la meta y una penalización si choca con un obstáculo.

In [210]:
import numpy as np

# Estados
S = list(range(9))
print(f"Estados S: {S}")

# Acciones
A = ["arriba", "abajo", "izquierda", "derecha"]
print(f"Acciones: {A}")

start = 0
goal = 2
obstacles = {4, 8}

laberinto = [
    ['0', '1', '2'],
    ['3', '4', '5'],
    ['6', '7', '8']
]
print(f"Start: {start}")
print(f"Goal: {goal}")
print(f"Obstacles: {obstacles}")
print("+---+---+---+")
for fila in laberinto:
    print("|", end="")
    for celda in fila:
        print(f" {celda} |", end="")
    print("\n+---+---+---+")

Estados S: [0, 1, 2, 3, 4, 5, 6, 7, 8]
Acciones: ['arriba', 'abajo', 'izquierda', 'derecha']
Start: 0
Goal: 2
Obstacles: {8, 4}
+---+---+---+
| 0 | 1 | 2 |
+---+---+---+
| 3 | 4 | 5 |
+---+---+---+
| 6 | 7 | 8 |
+---+---+---+


In [211]:
# Matriz de transicion
P = {s: {a: [] for a in A} for s in S}

# Funcion de recompensa
R = {s: {a: {} for a in A} for s in S}

# Determinar el siguiente estado y la recompensa
def get_next_state_reward(s, a):
    row, col = divmod(s, 3)
    if a == "arriba":
        next_state = (row - 1, col) if row > 0 else (row, col)
    elif a == "abajo":
        next_state = (row + 1, col) if row < 2 else (row, col)
    elif a == "izquierda":
        next_state = (row, col - 1) if col > 0 else (row, col)
    elif a == "derecha":
        next_state = (row, col + 1) if col < 2 else (row, col)


    next_state = next_state[0] * 3 + next_state[1]
 
    if next_state == s:
        reward = -5
    elif next_state == goal:
        reward = 10
    elif next_state in obstacles:
        reward = -10
        next_state = s
    else:
        reward = 1

    return next_state, reward

for s in S:
    if s not in obstacles:
        for a in A:
            next_state, reward = get_next_state_reward(s, a)
            P[s][a].append((1.0, next_state))
            R[s][a][next_state] = reward


print("Matriz de transicion")
for key, value in P.items():
    print(f"{key}: {value}")

print("Funcion de recompensa")
for key, value in R.items():
    print(f"{key}: {value}")

Matriz de transicion
0: {'arriba': [(1.0, 0)], 'abajo': [(1.0, 3)], 'izquierda': [(1.0, 0)], 'derecha': [(1.0, 1)]}
1: {'arriba': [(1.0, 1)], 'abajo': [(1.0, 1)], 'izquierda': [(1.0, 0)], 'derecha': [(1.0, 2)]}
2: {'arriba': [(1.0, 2)], 'abajo': [(1.0, 5)], 'izquierda': [(1.0, 1)], 'derecha': [(1.0, 2)]}
3: {'arriba': [(1.0, 0)], 'abajo': [(1.0, 6)], 'izquierda': [(1.0, 3)], 'derecha': [(1.0, 3)]}
4: {'arriba': [], 'abajo': [], 'izquierda': [], 'derecha': []}
5: {'arriba': [(1.0, 2)], 'abajo': [(1.0, 5)], 'izquierda': [(1.0, 5)], 'derecha': [(1.0, 5)]}
6: {'arriba': [(1.0, 3)], 'abajo': [(1.0, 6)], 'izquierda': [(1.0, 6)], 'derecha': [(1.0, 7)]}
7: {'arriba': [(1.0, 7)], 'abajo': [(1.0, 7)], 'izquierda': [(1.0, 6)], 'derecha': [(1.0, 7)]}
8: {'arriba': [], 'abajo': [], 'izquierda': [], 'derecha': []}
Funcion de recompensa
0: {'arriba': {0: -5}, 'abajo': {3: 1}, 'izquierda': {0: -5}, 'derecha': {1: 1}}
1: {'arriba': {1: -5}, 'abajo': {1: -10}, 'izquierda': {0: 1}, 'derecha': {2: 10}}
2:

In [212]:
# Generar una politica
def generate_policy():
    policy = {}
    for s in S:
        if s not in obstacles:
            policy[s] = np.random.choice(A)
    return policy

# Simular la politica
def simulate_policy(policy, start_state, steps):
    state = start_state
    total_reward = 0
    for _ in range(steps):
        action = policy[state]
        probs, next_states = zip(*P[state][action])
        next_state = np.random.choice(next_states, p=probs)
        reward = R[state][action][next_state]
        total_reward += reward
        state = next_state
        if state == goal:
            break
    return total_reward

# Evaluar una politica
def evaluate_policy(policy, start_state, steps, simulations):
    total_rewards = []
    for i in range(simulations):
        total_reward = simulate_policy(policy, start_state, steps)
        total_rewards.append(total_reward)
        # print(f"Iteracion {i} Recompensa {total_reward}")
    average_reward = np.mean(total_rewards)
    return average_reward

# Encontrar la mejor politica
def find_best_policy(start_state, steps, simulations, policy_trials):
    best_policy = None
    best_reward = -np.inf
    for _ in range(policy_trials):
        policy = generate_policy()
        avg_reward = evaluate_policy(policy, start_state, steps, simulations)
        if avg_reward > best_reward:
            best_reward = avg_reward
            best_policy = policy
    return best_policy, best_reward

policy_trials = 100
simulations = 1000
steps = 10

best_policy, best_reward = find_best_policy(start, steps, simulations, policy_trials)

print("La política óptima es:")
print(*list(best_policy.values()))
print(f"La recompensa promedio acumulada es: {best_reward}")

La política óptima es:
derecha derecha abajo arriba arriba abajo arriba
La recompensa promedio acumulada es: 11.0


## Task 3
En clase hemos dicho que una vez tengamos v* o q* sabemos la póliza óptima π* ¿Por qué?
Puede consultar el libro en la sección 3.8 en adelante

El tener v* o q* nos da el estado y el valor óptimo, por lo que  podemos determinar la mejor acción a tomar en cada estado para maximizar la recompensa acumulada a largo plazo, siendo esto la política óptima π*.

Referencias
* https://python.plainenglish.io/understanding-markov-decision-processes-17e852cd9981
* https://medium.com/@ngao7/markov-decision-process-basics-3da5144d3348
* https://techlib.net/techedu/proceso-de-decision-de-markov-mdp/
* https://medium.com/@TechInsight/reinforcement-learning-part-3-d037fa27c5cb