## Laboratorio 02 - MDP
Integrantes:
- Ricardo Méndez
- Sara Echevería
- Melissa Pérez

Repositorio: https://github.com/MelissaPerez09/Lab02-CC3104

### Task 01
1. ¿Qué es un Markov Decision Process (MDP)?
    - Es un modelo matemático donde un agente interactúa con el entorno, principalmente busca maximizar una recompensa acumulada. Se basa en la propiedad de Markov por lo que la toma de decisiones se basa en el estado actual y no en los estados pasados.
2. ¿Cuáles son los componentes principales de un MDP?
    - `S`: conjunto de estados posibles del entorno.
    - `A`: conjunto de acciones que el agente puede tomar.
    - `P(s'|s, a)`: función de transición de probabilidad, que describe la probabilidad de pasar al estado `s'` al tomar la acción a desde el estado `s`.
    - `R(s, a)`: función de recompensa, que asigna un valor numérico (recompensa esperada) al tomar la acción a en el estado `s`.
    - `γ (gamma)`: factor de descuento, un valor entre 0 y 1 que determina la importancia de las recompensas futuras frente a las inmediatas.
3. ¿Cuál es el objetivo principal del aprendizaje por refuerzo con MDPs?
    - Aprender una política óptima, que define qué acción tomar en cada estado para maximizar la recompensa acumulada a largo plazo. Esto se logra evaluando y mejorando políticas mediante métodos como Value Iteration, Policy Iteration, o algoritmos como Q-learning o SARSA.

_Givan, Bob. An Introduction to Markov Decision Processes https://www.cs.rice.edu/~vardi/dag01/givan1.pdf_

### Task 02

In [39]:
import random

In [40]:
states = list(range(9))

actions = ['up', 'down', 'left', 'right']

obstacles = [4,8]
goal = 2

In [41]:
def get_next_state(state, action):
    row, col = divmod(state, 3)

    if action == 'up':
        row = max(0, row - 1)
    elif action == 'down':
        row = min(2, row + 1)
    elif action == 'left':
        col = max(0, col - 1)
    elif action == 'right':
        col = min(2, col + 1)

    next_state = row * 3 + col
    
    return next_state


In [42]:
P = {s: {} for s in states}

for s in states:
    for a in actions:
        next_state = get_next_state(s, a)
        if a not in P[s]:
            P[s][a] = {}
        P[s][a][next_state] = 1.0 # Deterministic transitions

In [43]:
R = {s: {} for s in states}

for s in states:
    for a in actions:
        next_state = get_next_state(s, a)
        if a not in R[s]:
            R[s][a] = {}
        if s == next_state and next_state in obstacles:
            R[s][a][next_state] = -10 #Penalty for crashing into an obstacle
        elif next_state == goal:
            R[s][a][next_state] = 10
        else:
            R[s][a][next_state] = -1

In [None]:
policy = {
    0: 'right',
    1: 'right',
    2: 'down', #goal
    3: 'right',
    4: 'up',    #obstacle
    5: 'down',
    6: 'right',
    7: 'right',
    8: 'right'  #obstacle
}


In [45]:
def simulate_policy(start_state, policy, P, R, steps=20):
    state = start_state
    total_reward = 0
    path = [state]
    
    for _ in range(steps):
        if state == goal:
            break
        action = policy[state]
        transitions = P[state][action]
        next_states = list(transitions.keys())
        probabilities = list(transitions.values())
        next_state = random.choices(next_states, probabilities)[0]
        reward = R[state][action][next_state]
        total_reward += reward
        state = next_state
        path.append(state)
    return total_reward, path

In [46]:
def evaluate_policy(runs=100):
    rewards = []
    for _ in range(runs):
        reward, path = simulate_policy(0, policy, P, R)
        rewards.append(reward)
    avg_reward = sum(rewards) / len(rewards)
    return avg_reward

In [47]:
avg_reward = evaluate_policy()
print(f"Average reward over 100 runs: {avg_reward}")

Average reward over 100 runs: 9.0


### Task 03
__En clase hemos dicho que una vez tengamos v* o q* sabemos la póliza óptima π* ¿Por qué?__

Porque una vez se tiene `v*` o `q*`, ya no se necesita seguir explorando el entorno. Esto se debe a que:
- `v*` es el valor máximo que se puede obtener desde un estado `s` siguiendo la mejor política posible.
- `q*` es el valor máximo esperado si el agente toma la acción en el estado `s`y luego sigue la mejor política posible.

**CREO QUE HAY QUE AGREGAR MÁS**