# TOMAS ACOSTA BERNAL 
202011237

# Gridworld y su soluci√≥n como MDPs

En este trabajo definiremos el ambiente de Gridworld y su soluci√≥n como un MDP.
Gridworld es un ambiente cl√°sico de prueba dentro del aprendizaje por refuerzo. Durante este taller definiremos el modelo b√°sico del ambiente, que extenderemos incrementalmente de acuerdo a las necesidades del algoritmo de soluci√≥n.

## Ambiente üåé

El ambiente de gridworld se define como una cuadricula de `nxm`. El ambiente tiene obstaculos, es decir casillas por las cuales no puede pasar el agente. Al chocar con un obstaculo, el agente terminar√≠a en el mismo estado inicial. Adem√°s, el ambiente tiene una casilla de inicio, y algunas casillas de salida. Un ejemplo del ambiente para el caso `3x4` se muestra a continuaci√≥n.

![gridworld.png](./img/gridworld.png)

En este ejemplo del ambiente el agente comienza en la casilla inferior izquierda y tiene como objetivo llegar a la casilla de salida verde, con recompensa 1. La otra casilla de salida, tiene recompensa -1.



### Task 1.
#### ¬øC√≥mo podemos codificar el ambiente?

De una definici√≥n completa del ambiente, como una clase de python llamada `Environment`, estableciendo:
1. Un atributo que define la cuadr√≠cula (`board`). El ambiente recibir√° una matriz como par√°metro describiendo la cuadr√≠cula en el momento de su creaci√≥n. Definiremos las casillas por las que puede pasar el agente como casillas vacias, las casillas por las que no puede pasar el agente con un valor none `#` y las casillas de salida con el valor asociado a la recompensa definidas para cada una de ellas.
2. Un atributo `nrows` para almacenar la cantidad de filas de la cuadr√≠cula.
3. Un atributo `ncols` para almacenar la cantidad de columnas de la cuadr√≠cula.
4. Un atributo `initial_state` para almacenar el estado inicial del agente dentro del ambiente.
5. Un atributo con el estado actual (`current_state`) en el que se encuentra el agente. El valor de `current_state` se definir√° como una tupla 
6. Un atributo `P` que guarda la matriz de probabilidades de cada una de las acciones para cada estado. Dicha matriz esta definida por par√°metro.

Un ejemplo de la definici√≥n del tablero para el caso de 5x5 de la figura anterior se da a continuaci√≥n.
```
board = [['', ' ', ' ',  '+1'],
         [' ', '#', ' ',  '-1'],
         ['S', ' ', ' ', ' ']]
```
En el ejemplo `S` denota el estado inicial y `'#'` la casilla prohibida (manejaremos esta convenci√≥n para todos los ambientes de gridworld).

De forma similar a la definici√≥n del `board` la matriz de probabilidades `P` se define como:
```
P = [[[0.1, 0.1, 0, 0.8], [0.1, 0.1, 0, 0.8], [0.1, 0.1, 0, 0.8],  [1]],
         [[0.8, 0, 0.1, 0.1], '#', [0.8, 0, 0.1, 0.1],  [-1]],
         [[0.8, 0, 0.1, 0.1], [0.1, 0.1, 0.8, 0], [0.1, 0.1, 0.8, 0], [0.1, 0.1, 0.8, 0]]]
```
Para la definici√≥n de `P` vamos a entender cada una de las posiciones de la probabilidad en el orden (`'up', 'down', 'left', 'right'`). Adicionalmente, vamos a suponer que la casilla da la probabilidad de tal forma que el agente siempre toma la acci√≥n en direcci√≥n al objetivo (la acci√≥n que tiene probabilidad `0.8`). Por ejemplo, para la casilla superior izquierda la probabilidad de tomar la acci√≥n `up` y llegar a la casilla de arriba es de `0.1`, a la casilla de abajo con probabilidad `0.1` y a la casilla de la derecha con  probabilidad `0.8` (el agente nunca puede llegar a la casilla de la izquierda). En las casillas de salida, el agente solo tiene una posibilidad que es tomar la acci√≥n `exit` que le da la recompensa asociada a la casilla al agente.


#### Comportamiento del ambeinte

Una vez definido el ambiente definimos su comportamiento. Para ello requerimos los siguientes m√©todos:
1. `get_current_state` que no recibe par√°metros y retorna el estado actual (la casilla donde se encuentra el agente)
2. `get_posible_actions` que recibe el estado actual del agente como par√°metro y retorna las acciones disponibles para dicho estado. Las acciones estar√°n dadas por su nombre (`'up', 'down', 'left', 'right'`) para las casillas normales y (`'exit'`) para las casillas de salida. Como convenci√≥n definiremos que el agente siempre puede moverse en todas las direcciones, donde un movimiento en direcci√≥n de un obst√°culo o los l√≠mites del ambiente no tienen ning√∫n efecto visible en la posici√≥n del agente.
3. `do_action` que recibe como par√°metro la acci√≥n a ejecutar y retorna el valor de la recompensa y el nuevo estado del agente, como un pareja `reward, new_state`. Note que `do_action` esta restringida por la matriz de probabilidad `P` para la ejecuci√≥n real de las acciones.
4. `reset` que no recibe par√°metros y restablece el ambiente a su estado inicial.
5. `is_terminal` que no recibe par√°metros y determina si el agente est√° en el estado final o no. En nuestro caso, el estado final estar√° determinado por las casillas de salida (i.e., con un valor definido).



In [1]:
from loguru import logger
import numpy as np
from typing import Tuple, List, Union


class Environment:
    def __init__(self, board: List[List[Union[str, int, float]]], P: List[List[Union[str, List[float]]]], initial_state: Tuple[int, int]):
        logger.info("Inicializando ambiente de Gridworld")
        
        self.board = board
        self.nrows = len(board)
        self.ncols = len(board[0])
        self.initial_state = initial_state
        self.current_state = initial_state
        self.P = P
        
        logger.debug(f"Dimensiones del tablero: {self.nrows}x{self.ncols}")
        logger.debug(f"Estado inicial: {self.initial_state}")
        logger.success("Ambiente inicializado correctamente")
    
    def get_current_state(self) -> Tuple[int, int]:
        logger.trace(f"Obteniendo estado actual: {self.current_state}")
        return self.current_state
    
    def get_possible_actions(self, state: Tuple[int, int]) -> List[str]:
        r, c = state
        
        logger.trace(f"Obteniendo acciones posibles para estado {state}")
        
        if isinstance(self.board[r][c], (int, float)):
            logger.debug(f"Estado {state} es terminal, acci√≥n disponible: ['exit']")
            return ['exit']
        
        actions = ['up', 'down', 'left', 'right']
        logger.debug(f"Estado {state} tiene acciones: {actions}")
        return actions
    
    def do_action(self, action: str) -> Tuple[Union[int, float], Tuple[int, int]]:
        r, c = self.current_state
        
        logger.info(f"Ejecutando acci√≥n '{action}' desde estado {self.current_state}")
        
        if self.is_terminal():
            if action == 'exit':
                reward = self.board[r][c]
                logger.success(f"Acci√≥n 'exit' ejecutada. Recompensa: {reward}")
                return reward, self.current_state
            else:
                logger.warning(f"Acci√≥n '{action}' inv√°lida en estado terminal. Sin efecto.")
                return 0, self.current_state
        
        if self.P[r][c] == '#':
            logger.warning(f"Estado {self.current_state} es un obst√°culo. Sin efecto.")
            return 0, self.current_state
        
        probs = self.P[r][c]
        
        action_map = {'up': 0, 'down': 1, 'left': 2, 'right': 3}
        actual_action_idx = np.random.choice(4, p=probs)
        actual_actions = ['up', 'down', 'left', 'right']
        actual_action = actual_actions[actual_action_idx]
        
        if actual_action != action:
            logger.debug(f"Estocasticidad: acci√≥n solicitada '{action}', acci√≥n ejecutada '{actual_action}'")
        
        new_state = self._calculate_new_state(r, c, actual_action)
        
        reward = 0
        if isinstance(self.board[new_state[0]][new_state[1]], (int, float)):
            reward = self.board[new_state[0]][new_state[1]]
            logger.info(f"Estado terminal alcanzado {new_state} con recompensa {reward}")
        
        self.current_state = new_state
        logger.info(f"Nuevo estado: {self.current_state}, Recompensa: {reward}")
        
        return reward, new_state
    
    def _calculate_new_state(self, r: int, c: int, action: str) -> Tuple[int, int]:
        logger.trace(f"Calculando nuevo estado desde ({r}, {c}) con acci√≥n '{action}'")
        
        if action == 'up':
            new_r, new_c = r - 1, c
        elif action == 'down':
            new_r, new_c = r + 1, c
        elif action == 'left':
            new_r, new_c = r, c - 1
        elif action == 'right':
            new_r, new_c = r, c + 1
        else:
            logger.error(f"Acci√≥n desconocida: '{action}'")
            return (r, c)
        
        if (new_r < 0 or new_r >= self.nrows or 
            new_c < 0 or new_c >= self.ncols or
            self.board[new_r][new_c] == '#'):
            logger.debug(f"Movimiento bloqueado (l√≠mite/obst√°culo). Permanece en ({r}, {c})")
            return (r, c)
        
        logger.trace(f"Nuevo estado calculado: ({new_r}, {new_c})")
        return (new_r, new_c)
    
    def reset(self) -> None:
        logger.info("Reseteando ambiente al estado inicial")
        self.current_state = self.initial_state
        logger.success(f"Ambiente reseteado. Estado actual: {self.current_state}")
    
    def is_terminal(self) -> bool:
        r, c = self.current_state
        is_term = isinstance(self.board[r][c], (int, float))
        logger.trace(f"Verificando si estado {self.current_state} es terminal: {is_term}")
        return is_term


if __name__ == "__main__":
    logger.add("gridworld.log", rotation="500 MB", level="DEBUG")
    
    board = [['', ' ', ' ', 1],
             [' ', '#', ' ', -1],
             ['S', ' ', ' ', ' ']]
    
    P = [[[0.1, 0.1, 0, 0.8], [0.1, 0.1, 0, 0.8], [0.1, 0.1, 0, 0.8], [1, 0, 0, 0]],
         [[0.8, 0, 0.1, 0.1], '#', [0.8, 0, 0.1, 0.1], [0, 1, 0, 0]],
         [[0.8, 0, 0.1, 0.1], [0.1, 0.1, 0.8, 0], [0.1, 0.1, 0.8, 0], [0.1, 0.1, 0.8, 0]]]
    
    initial_state = (2, 0)
    
    env = Environment(board, P, initial_state)
    
    logger.info("=== Prueba de ambiente ===")
    logger.info(f"Estado actual: {env.get_current_state()}")
    logger.info(f"Acciones posibles: {env.get_possible_actions(env.get_current_state())}")
    
    for i in range(5):
        logger.info(f"\n--- Step {i+1} ---")
        action = np.random.choice(['up', 'down', 'left', 'right'])
        reward, new_state = env.do_action(action)
        logger.info(f"Acci√≥n tomada: {action}, Recompensa: {reward}, Nuevo estado: {new_state}")
        
        if env.is_terminal():
            logger.success("Estado terminal alcanzado!")
            break
    
    env.reset()
    logger.info(f"Despu√©s del reset, estado actual: {env.get_current_state()}")

[32m2026-02-16 20:13:17.016[0m | [1mINFO    [0m | [36m__main__[0m:[36m__init__[0m:[36m8[0m - [1mInicializando ambiente de Gridworld[0m
[32m2026-02-16 20:13:17.017[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m__init__[0m:[36m17[0m - [34m[1mDimensiones del tablero: 3x4[0m
[32m2026-02-16 20:13:17.017[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m__init__[0m:[36m18[0m - [34m[1mEstado inicial: (2, 0)[0m
[32m2026-02-16 20:13:17.018[0m | [32m[1mSUCCESS [0m | [36m__main__[0m:[36m__init__[0m:[36m19[0m - [32m[1mAmbiente inicializado correctamente[0m
[32m2026-02-16 20:13:17.018[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m129[0m - [1m=== Prueba de ambiente ===[0m
[32m2026-02-16 20:13:17.019[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m130[0m - [1mEstado actual: (2, 0)[0m
[32m2026-02-16 20:13:17.020[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36mget_possible_actions[0m:[36m35[0m - [3

Teniendo en cuenta la definici√≥n del agente, genere un ambiente de `10x10` como se muestra a continuaci√≥n.

![evaluacion.png](./img/evaluacion.png)

### Task 2.
Plantee el problema de MDP para cada una de las casillas. Especifique el estado de inicio, las transiciones y su probabilidad (suponiendo que todas las acciones sucede con probabilidad de 0.25) y los estados de fin con su recompensa.
¬øC√≥mo ser√≠an las recompensas esperadas para cada estado?



# Task 2: Planteamiento del MDP para el ambiente 10x10

## Definici√≥n del ambiente


- **Estado inicial**: Casilla superior izquierda (0, 0) 
- **Obst√°culos**: Casillas grises que forman una barrera vertical y horizontal
- **Estados terminales**:
  - (4, 5): Recompensa R = -1
  - (5, 5): Recompensa R = 1
  - (7, 4): Recompensa R = -1
  - (7, 5): Recompensa R = -1

## Componentes del MDP

### 1. S

El conjunto de estados est√° compuesto por todas las casillas del grid 10√ó10, excluyendo los obst√°culos:
```
S = {(i, j) | 0 ‚â§ i < 10, 0 ‚â§ j < 10, (i, j) ‚àâ Obst√°culos}
```

Donde los **Obst√°culos** son:
```
Obst√°culos = {
    (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (2, 7),
    (3, 4),
    (4, 4),
    (5, 4),
    (6, 4),
    (7, 4) - estado terminal,
    (8, 4)
}
```

Y los **Estados Terminales** son:
```
S_terminal = {(4, 5), (5, 5), (7, 4), (7, 5)}
```

### 2. A

Para cada estado no terminal:
```
A(s) = {up, down, left, right}  ‚àÄs ‚àà S \ S_terminal
```

Para estados terminales:
```
A(s) = {exit}  ‚àÄs ‚àà S_terminal
```

### 3. P

Dado que todas las acciones ocurren con **probabilidad uniforme de 0.25**, la funci√≥n de transici√≥n se define como:

Para cualquier estado no terminal `s = (r, c)`:
```
P(s' | s, a) = 0.25  para cada a ‚àà {up, down, left, right}
```

Donde `s'` es el estado resultante despu√©s de ejecutar la acci√≥n `a`.

#### Reglas para poder hacer la transici√≥n:

1. Movimiento v√°lido: Si la acci√≥n conduce a una casilla v√°lida (dentro del grid y sin obst√°culo), el agente se mueve a esa casilla.

2. Colisi√≥n con obst√°culo o l√≠mite: Si la acci√≥n conduce a un obst√°culo o fuera del grid, el agente permanece en el estado actual.

3. Estados terminales: Una vez alcanzado un estado terminal, el agente permanece all√≠.


### 4. R

La funci√≥n de recompensa se define como:
```
R(s, a, s') = {
    1     si s' = (5, 5)
   -1     si s' ‚àà {(4, 5), (7, 4), (7, 5)}
    0     en caso contrario
}
```

O de manera equivalente:
```
R(s) = {
    1     si s = (5, 5)
   -1     si s ‚àà {(4, 5), (7, 4), (7, 5)}
    0     para todos los dem√°s estados
}
```



## Recompensas Esperadas para Cada Estado

La recompensa esperada para cada estado depende de la pol√≠tica seguida. Sin embargo, podemos calcular las recompensas inmediatas esperadas asumiendo acciones equiprobables:

### Estados no terminales

Para cualquier estado `s` no terminal, la recompensa esperada inmediata bajo una pol√≠tica uniforme aleatoria es:
```
E[R | s] = Œ£ P(a) Œ£ P(s' | s, a) R(s, a, s')
         = 0.25 √ó Œ£_{a ‚àà A} Œ£_{s'} P(s' | s, a) R(s, a, s')
```

**Ejemplo: Estado (4, 4)**
```
Acciones posibles: {up, down, left, right}

up:    s' = (4, 4)     R = 0
down:  s' = (4, 4)     R = 0
left:  s' = (4, 3)     R = 0
right: s' = (4, 5)     R = -1

E[R | (4,4)] = 0.25 √ó (0 + 0 + 0 + (-1)) = -0.25
```

**Ejemplo: Estado (4, 6)**
```
Acciones posibles: {up, down, left, right}

up:    s' = (3, 6)     R = 0
down:  s' = (5, 6)     R = 0
left:  s' = (4, 5)     R = -1
right: s' = (4, 7)     R = 0

E[R | (4,6)] = 0.25 √ó (0 + 0 + (-1) + 0) = -0.25
```

**Ejemplo: Estado (5, 6)**
```
Acciones posibles: {up, down, left, right}

up:    s' = (4, 6)     R = 0
down:  s' = (6, 6)     R = 0
left:  s' = (5, 5)     R = 1
right: s' = (5, 7)     R = 0

E[R | (5,6)] = 0.25 √ó (0 + 0 + 1 + 0) = 0.25
```

### Estados terminales

Para estados terminales, la recompensa esperada es simplemente la recompensa del estado:
```
E[R | (4, 5)] = -1
E[R | (5, 5)] = 1
E[R | (7, 4)] = -1
E[R | (7, 5)] = -1
```

### Task 3.
Bajo la definci√≥n del problema anterior, suponga que cada acci√≥n tiene una probabilidad de √©xito de 60%, con probabilidad de 20% se ejecutar√° la sigiente acci√≥n (en direcci√≥n de las manesillas del reloj), con probabilidad de 10% se ejecutar√° la sigiente acci√≥n (en contra de las manesillas del reloj) y con probabilidad de 10% no pasar√° nada. Bajo estas condiciones, ¬øC√≥mo ser√≠an las recompensas esperadas para cada estado? 

Codifique el ambiente para el gridworld de `10x10` utilizando esta funci√≥n de probabilidad. En esta codificaci√≥n del ambiente no es necesario pasar la matriz `P` como par√°metro, pero esta informaci√≥n se debe tener en cuenta en la funci√≥n `do_action`.

Tenga en cuenta que la calidad del programa que entreguen ser√° tenida en cuentra dentro de la calificaci√≥n.


In [4]:
from loguru import logger
import numpy as np
from typing import Tuple, List, Dict


class GridWorld10x10:
    def __init__(self):
        logger.info("Inicializando ambiente GridWorld 10x10")
        
        self.nrows = 10
        self.ncols = 10
        self.initial_state = (0, 0)
        self.current_state = self.initial_state
        
        self._initialize_board()
        self._initialize_obstacles()
        
        self.action_success_prob = 0.60
        self.clockwise_prob = 0.20
        self.counterclockwise_prob = 0.10
        self.stay_prob = 0.10
        
        self.action_map = {
            'up': (-1, 0),
            'down': (1, 0),
            'left': (0, -1),
            'right': (0, 1)
        }
        
        logger.success("Ambiente inicializado correctamente")
        logger.debug(f"Dimensiones: {self.nrows}x{self.ncols}")
        logger.debug(f"Estado inicial: {self.initial_state}")
        logger.debug(f"Probabilidades - √âxito: {self.action_success_prob}, Horario: {self.clockwise_prob}, Antihorario: {self.counterclockwise_prob}, Permanencia: {self.stay_prob}")
    
    def _initialize_board(self):
        self.board = [[' ' for _ in range(self.ncols)] for _ in range(self.nrows)]
        
        self.board[0][0] = 'S'
        
        self.board[4][5] = -1
        self.board[5][5] = 1
        self.board[7][4] = -1
        self.board[7][5] = -1
        
        logger.debug("Tablero inicializado con estados terminales")
    
    def _initialize_obstacles(self):
        obstacles = [
            (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (2, 7),
            (3, 4),
            (4, 4),
            (5, 4),
            (6, 4),
            (8, 4)
        ]
        
        for r, c in obstacles:
            self.board[r][c] = '#'
        
        logger.debug(f"Obst√°culos inicializados: {len(obstacles)} casillas bloqueadas")
    
    def _get_clockwise_action(self, action: str) -> str:
        clockwise_map = {
            'up': 'right',
            'right': 'down',
            'down': 'left',
            'left': 'up'
        }
        return clockwise_map.get(action, action)
    
    def _get_counterclockwise_action(self, action: str) -> str:
        counterclockwise_map = {
            'up': 'left',
            'left': 'down',
            'down': 'right',
            'right': 'up'
        }
        return counterclockwise_map.get(action, action)
    
    def _calculate_new_state(self, r: int, c: int, action: str) -> Tuple[int, int]:
        if action not in self.action_map:
            logger.warning(f"Acci√≥n desconocida: '{action}'")
            return (r, c)
        
        dr, dc = self.action_map[action]
        new_r, new_c = r + dr, c + dc
        
        if (new_r < 0 or new_r >= self.nrows or 
            new_c < 0 or new_c >= self.ncols or
            self.board[new_r][new_c] == '#'):
            logger.trace(f"Movimiento bloqueado desde ({r},{c}) hacia '{action}'. Permanece en lugar")
            return (r, c)
        
        logger.trace(f"Movimiento v√°lido desde ({r},{c}) hacia ({new_r},{new_c}) con acci√≥n '{action}'")
        return (new_r, new_c)
    
    def get_current_state(self) -> Tuple[int, int]:
        logger.trace(f"Estado actual: {self.current_state}")
        return self.current_state
    
    def get_possible_actions(self, state: Tuple[int, int]) -> List[str]:
        r, c = state
        
        if isinstance(self.board[r][c], (int, float)):
            logger.debug(f"Estado {state} es terminal, acci√≥n: ['exit']")
            return ['exit']
        
        actions = ['up', 'down', 'left', 'right']
        logger.debug(f"Estado {state} acciones disponibles: {actions}")
        return actions
    
    def do_action(self, action: str) -> Tuple[float, Tuple[int, int]]:
        r, c = self.current_state
        
        logger.info(f"Ejecutando acci√≥n '{action}' desde estado {self.current_state}")
        
        if self.is_terminal():
            if action == 'exit':
                reward = self.board[r][c]
                logger.success(f"Acci√≥n 'exit' ejecutada. Recompensa: {reward}")
                return reward, self.current_state
            else:
                logger.warning(f"Acci√≥n '{action}' inv√°lida en estado terminal")
                return 0, self.current_state
        
        if action not in ['up', 'down', 'left', 'right']:
            logger.error(f"Acci√≥n desconocida: '{action}'")
            return 0, self.current_state
        
        clockwise_action = self._get_clockwise_action(action)
        counterclockwise_action = self._get_counterclockwise_action(action)
        
        actions_with_probs = [
            (action, self.action_success_prob),
            (clockwise_action, self.clockwise_prob),
            (counterclockwise_action, self.counterclockwise_prob),
            ('stay', self.stay_prob)
        ]
        
        rand = np.random.random()
        cumulative_prob = 0
        executed_action = action
        
        for act, prob in actions_with_probs:
            cumulative_prob += prob
            if rand < cumulative_prob:
                executed_action = act
                break
        
        if executed_action == 'stay':
            new_state = self.current_state
            logger.debug(f"Acci√≥n 'stay' ejecutada. Permanece en {self.current_state}")
        else:
            new_state = self._calculate_new_state(r, c, executed_action)
        
        if executed_action != action:
            logger.debug(f"Estocasticidad: intenci√≥n '{action}' ‚Üí ejecuci√≥n '{executed_action}'")
        
        reward = 0
        if isinstance(self.board[new_state[0]][new_state[1]], (int, float)):
            reward = self.board[new_state[0]][new_state[1]]
            logger.info(f"Estado terminal alcanzado {new_state} con recompensa {reward}")
        
        self.current_state = new_state
        logger.info(f"Nuevo estado: {self.current_state}, Recompensa: {reward}")
        
        return reward, new_state
    
    def reset(self) -> None:
        logger.info("Reseteando ambiente al estado inicial")
        self.current_state = self.initial_state
        logger.success(f"Ambiente reseteado. Estado: {self.current_state}")
    
    def is_terminal(self) -> bool:
        r, c = self.current_state
        is_term = isinstance(self.board[r][c], (int, float))
        logger.trace(f"¬øEstado {self.current_state} es terminal? {is_term}")
        return is_term
    
    def get_expected_reward(self, state: Tuple[int, int], action: str) -> float:
        r, c = state
        
        if isinstance(self.board[r][c], (int, float)):
            return self.board[r][c]
        
        if action not in ['up', 'down', 'left', 'right']:
            return 0.0
        
        clockwise_action = self._get_clockwise_action(action)
        counterclockwise_action = self._get_counterclockwise_action(action)
        
        actions_with_probs = [
            (action, self.action_success_prob),
            (clockwise_action, self.clockwise_prob),
            (counterclockwise_action, self.counterclockwise_prob),
            ('stay', self.stay_prob)
        ]
        
        expected_reward = 0.0
        
        for act, prob in actions_with_probs:
            if act == 'stay':
                next_state = (r, c)
            else:
                next_state = self._calculate_new_state(r, c, act)
            
            next_r, next_c = next_state
            if isinstance(self.board[next_r][next_c], (int, float)):
                reward = self.board[next_r][next_c]
            else:
                reward = 0
            
            expected_reward += prob * reward
        
        logger.trace(f"E[R | {state}, {action}] = {expected_reward:.3f}")
        return expected_reward
    
    def print_board(self) -> None:
        logger.info("Imprimiendo estado del tablero")
        print("\n" + "="*50)
        print("GRIDWORLD 10x10")
        print("="*50)
        
        for i in range(self.nrows):
            row_str = ""
            for j in range(self.ncols):
                if (i, j) == self.current_state:
                    row_str += "[A]"
                elif self.board[i][j] == '#':
                    row_str += " # "
                elif self.board[i][j] == 'S':
                    row_str += " S "
                elif isinstance(self.board[i][j], (int, float)):
                    row_str += f"{self.board[i][j]:+2} "
                else:
                    row_str += " . "
            print(row_str)
        
        print("="*50)
        print(f"Estado actual: {self.current_state}")
        print(f"Terminal: {self.is_terminal()}")
        print("="*50 + "\n")


if __name__ == "__main__":
    logger.add("gridworld_10x10.log", level="DEBUG")
    
    env = GridWorld10x10()
    
    logger.info("=== Visualizaci√≥n del tablero ===")
    env.print_board()
    
    logger.info("=== An√°lisis de recompensas esperadas ===")
    
    test_states = [
        ((0, 0), "Estado inicial"),
        ((4, 4), "Adyacente a terminal negativo"),
        ((5, 6), "Adyacente a terminal positivo"),
        ((2, 0), "Adyacente a obst√°culos")
    ]
    
    for state, description in test_states:
        logger.info(f"\n--- {description}: {state} ---")
        for action in ['up', 'down', 'left', 'right']:
            expected_r = env.get_expected_reward(state, action)
            print(f"E[R | {state}, {action:>5}] = {expected_r:+.3f}")
    
    logger.info("\n=== Simulaci√≥n de episodio ===")
    env.reset()
    
    total_reward = 0
    steps = 0
    max_steps = 1000
    
    while not env.is_terminal() and steps < max_steps:
        state = env.get_current_state()
        action = np.random.choice(['up', 'down', 'left', 'right'])
        
        reward, new_state = env.do_action(action)
        total_reward += reward
        steps += 1
        
        logger.info(f"Step {steps}: {state} --[{action}]--> {new_state}, R={reward:+.1f}")
    
    logger.success(f"\nEpisodio terminado en {steps} pasos")
    logger.success(f"Recompensa total acumulada: {total_reward:+.2f}")
    logger.success(f"Estado final: {env.get_current_state()}")
    
    env.print_board()

[32m2026-02-16 20:20:45.198[0m | [1mINFO    [0m | [36m__main__[0m:[36m__init__[0m:[36m8[0m - [1mInicializando ambiente GridWorld 10x10[0m
[32m2026-02-16 20:20:45.199[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m_initialize_board[0m:[36m45[0m - [34m[1mTablero inicializado con estados terminales[0m
[32m2026-02-16 20:20:45.200[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m_initialize_obstacles[0m:[36m60[0m - [34m[1mObst√°culos inicializados: 12 casillas bloqueadas[0m
[32m2026-02-16 20:20:45.203[0m | [32m[1mSUCCESS [0m | [36m__main__[0m:[36m__init__[0m:[36m30[0m - [32m[1mAmbiente inicializado correctamente[0m
[32m2026-02-16 20:20:45.203[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m__init__[0m:[36m31[0m - [34m[1mDimensiones: 10x10[0m


[32m2026-02-16 20:20:45.204[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m__init__[0m:[36m32[0m - [34m[1mEstado inicial: (0, 0)[0m
[32m2026-02-16 20:20:45.205[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36m__init__[0m:[36m33[0m - [34m[1mProbabilidades - √âxito: 0.6, Horario: 0.2, Antihorario: 0.1, Permanencia: 0.1[0m
[32m2026-02-16 20:20:45.206[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m250[0m - [1m=== Visualizaci√≥n del tablero ===[0m
[32m2026-02-16 20:20:45.208[0m | [1mINFO    [0m | [36m__main__[0m:[36mprint_board[0m:[36m219[0m - [1mImprimiendo estado del tablero[0m
[32m2026-02-16 20:20:45.209[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m253[0m - [1m=== An√°lisis de recompensas esperadas ===[0m
[32m2026-02-16 20:20:45.211[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m263[0m - [1m
--- Estado inicial: (0, 0) ---[0m
[32m2026-02-16 20:20:45.213[0m | [1mINFO    [0m | [36


GRIDWORLD 10x10
[A] .  .  .  .  .  .  .  .  . 
 .  .  .  .  .  .  .  .  .  . 
 .  #  #  #  #  #  #  #  .  . 
 .  .  .  .  #  .  .  .  .  . 
 .  .  .  .  # -1  .  .  .  . 
 .  .  .  .  # +1  .  .  .  . 
 .  .  .  .  #  .  .  .  .  . 
 .  .  .  . -1 -1  .  .  .  . 
 .  .  .  .  #  .  .  .  .  . 
 .  .  .  .  .  .  .  .  .  . 
Estado actual: (0, 0)
Terminal: False

E[R | (0, 0),    up] = +0.000
E[R | (0, 0),  down] = +0.000
E[R | (0, 0),  left] = +0.000
E[R | (0, 0), right] = +0.000
E[R | (4, 4),    up] = -0.200
E[R | (4, 4),  down] = -0.100
E[R | (4, 4),  left] = +0.000
E[R | (4, 4), right] = -0.600
E[R | (5, 6),    up] = +0.100
E[R | (5, 6),  down] = +0.200
E[R | (5, 6),  left] = +0.600
E[R | (5, 6), right] = +0.000
E[R | (2, 0),    up] = +0.000
E[R | (2, 0),  down] = +0.000
E[R | (2, 0),  left] = +0.000
E[R | (2, 0), right] = +0.000


[32m2026-02-16 20:20:45.403[0m | [34m[1mDEBUG   [0m | [36m__main__[0m:[36mdo_action[0m:[36m157[0m - [34m[1mEstocasticidad: intenci√≥n 'up' ‚Üí ejecuci√≥n 'left'[0m
[32m2026-02-16 20:20:45.405[0m | [1mINFO    [0m | [36m__main__[0m:[36mdo_action[0m:[36m165[0m - [1mNuevo estado: (0, 3), Recompensa: 0[0m
[32m2026-02-16 20:20:45.406[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m283[0m - [1mStep 7: (0, 4) --[up]--> (0, 3), R=+0.0[0m
[32m2026-02-16 20:20:45.409[0m | [1mINFO    [0m | [36m__main__[0m:[36mdo_action[0m:[36m115[0m - [1mEjecutando acci√≥n 'left' desde estado (0, 3)[0m
[32m2026-02-16 20:20:45.410[0m | [1mINFO    [0m | [36m__main__[0m:[36mdo_action[0m:[36m165[0m - [1mNuevo estado: (0, 2), Recompensa: 0[0m
[32m2026-02-16 20:20:45.411[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m283[0m - [1mStep 8: (0, 3) --[left]--> (0, 2), R=+0.0[0m
[32m2026-02-16 20:20:45.412[0m | [1mINFO    [0m | 


GRIDWORLD 10x10
 S  .  .  .  .  .  .  .  .  . 
 .  .  .  .  .  .  .  .  .  . 
 .  #  #  #  #  #  #  #  .  . 
 .  .  .  .  #  .  .  .  .  . 
 .  .  .  .  # -1  .  .  .  . 
 .  .  .  .  # +1  .  .  .  . 
 .  .  .  .  #  .  .  .  .  . 
 .  .  .  . [A]-1  .  .  .  . 
 .  .  .  .  #  .  .  .  .  . 
 .  .  .  .  .  .  .  .  .  . 
Estado actual: (7, 4)
Terminal: True




### Task 4. 
Defina una situaci√≥n de la vide real (de su escogencia) como un MDP.

# MDP: Optimizaci√≥n de Prompts para Agentes de Servicio al Cliente

## Contexto del Problema

Cuando trabajo en agentes conversacionales, constantemente necesito iterar y optimizar prompts para mejorar la calidad de las respuestas del agente. Este proceso de optimizaci√≥n puede modelarse como un MDP donde el objetivo es alcanzar un prompt de alta calidad minimizando el tiempo y costo de iteraciones.

## Componentes del MDP

### 1. Estados (S)

El estado del sistema se representa como una tupla: `s = (quality_score, iteration_count, prompt_structure)`

Donde:
- **quality_score**: Calidad actual del prompt medida en el rango [0, 100]
  - 0-30: Pobre (respuestas inconsistentes, errores frecuentes)
  - 31-60: Aceptable (funciona pero necesita mejoras)
  - 61-85: Bueno (cumple requisitos b√°sicos)
  - 86-100: Excelente (producci√≥n-ready)

- **iteration_count**: N√∫mero de iteraciones realizadas [0, 1, 2, 3, 4, 5+]

- **prompt_structure**: Estado actual de la estructura del prompt
  - `basic`: Instrucciones simples sin ejemplos
  - `with_examples`: Incluye 2-3 ejemplos
  - `structured`: Con formato XML/JSON y secciones claras
  - `advanced`: Incluye chain-of-thought, pocos ejemplos, manejo de errores

**Ejemplo de estados:**
```
s1 = (25, 0, 'basic')           # Prompt inicial pobre
s2 = (45, 1, 'with_examples')   # Primera iteraci√≥n con ejemplos
s3 = (72, 2, 'structured')      # Segunda iteraci√≥n estructurada
s4 = (88, 3, 'advanced')        # Prompt optimizado
```

**Estados terminales:**
- `quality_score >= 85`: Prompt aprobado para producci√≥n
- `iteration_count >= 6`: L√≠mite de iteraciones alcanzado (requiere replantear estrategia)

### 2. Acciones (A)

Las acciones disponibles representan diferentes estrategias de optimizaci√≥n:
```
A = {
    'add_examples',          # Agregar 2-3 ejemplos de few shot
    'restructure',           # Cambiar formato (a XML, JSON, con secciones)
    'adjust_temperature',    # Modificar temperatura
    'add_constraints',       # Agregar reglas/restricciones espec√≠ficas
    'add_cot',              # Agregar chain-of-thought reasoning
    'simplify',             # Simplificar prompt 
    'test_edge_cases',      # Evaluar
    'deploy'                # Desplegar a producci√≥n (solo si quality >= 85)
}
```

**Restricciones por estado:**
- Si `prompt_structure = 'basic'`: No puedes hacer `simplify`
- Si `quality_score < 85`: No puedes hacer `deploy`
- Si `iteration_count >= 6`: Solo puedes hacer `deploy` o reiniciar

### 3. Funci√≥n de Transici√≥n P(s' | s, a)

La transici√≥n es estoc√°stica porque el resultado de modificar un prompt tiene incertidumbre inherente.

#### Ejemplo 1: `add_examples` desde estado `(45, 1, 'basic')`
```
Acci√≥n: add_examples
Estado actual: (45, 1, 'basic')

Posibles resultados:
- (65, 2, 'with_examples'): prob = 0.60  # Mejora significativa
- (55, 2, 'with_examples'): prob = 0.25  # Mejora moderada
- (48, 2, 'with_examples'): prob = 0.10  # Mejora m√≠nima
- (40, 2, 'with_examples'): prob = 0.05  # Empeora (ejemplos confusos)
```

#### Ejemplo 2: `restructure` desde estado `(55, 2, 'with_examples')`
```
Acci√≥n: restructure
Estado actual: (55, 2, 'with_examples')

Posibles resultados:
- (75, 3, 'structured'): prob = 0.50  # Estructura ayuda mucho
- (62, 3, 'structured'): prob = 0.30  # Mejora moderada
- (50, 3, 'structured'): prob = 0.15  # Poca mejora
- (45, 3, 'structured'): prob = 0.05  # Estructura muy compleja
```

#### Ejemplo 3: `adjust_temperature` desde estado `(72, 2, 'structured')`
```
Acci√≥n: adjust_temperature
Estado actual: (72, 2, 'structured')

Posibles resultados:
- (82, 3, 'structured'): prob = 0.40  # Temperatura √≥ptima encontrada
- (75, 3, 'structured'): prob = 0.35  # Mejora leve
- (70, 3, 'structured'): prob = 0.20  # Sin cambio significativo
- (65, 3, 'structured'): prob = 0.05  # Temperatura incorrecta
```

#### Ejemplo 4: `add_cot` desde estado `(75, 3, 'structured')`
```
Acci√≥n: add_cot
Estado actual: (75, 3, 'structured')

Posibles resultados:
- (90, 4, 'advanced'): prob = 0.55  # CoT mejora razonamiento
- (82, 4, 'advanced'): prob = 0.30  # Mejora moderada
- (72, 4, 'advanced'): prob = 0.10  # Poco efecto
- (68, 4, 'advanced'): prob = 0.05  # CoT a√±ade confusi√≥n
```

### 4. Funci√≥n de Recompensa R(s, a, s')

La recompensa refleja el **trade-off entre calidad y costo/tiempo**:
```python
def R(s, a, s_prime):
    quality_old, iter_old, struct_old = s
    quality_new, iter_new, struct_new = s_prime
    
    # Recompensa base por mejora de calidad
    quality_improvement = quality_new - quality_old
    
    # Penalizaci√≥n por iteraci√≥n (tiempo/costo)
    iteration_penalty = -5
    
    # Bonificaci√≥n por alcanzar producci√≥n
    if quality_new >= 85:
        production_bonus = 100
    else:
        production_bonus = 0
    
    # Penalizaci√≥n fuerte por exceder iteraciones
    if iter_new >= 6:
        excess_penalty = -50
    else:
        excess_penalty = 0
    
    # Penalizaci√≥n por empeorar
    if quality_improvement < 0:
        degradation_penalty = quality_improvement * 2  # Doble penalizaci√≥n
    else:
        degradation_penalty = 0
    
    total_reward = (
        quality_improvement + 
        iteration_penalty + 
        production_bonus + 
        excess_penalty + 
        degradation_penalty
    )
    
    return total_reward
```

#### Ejemplos de Recompensas:

**Caso 1: Mejora significativa**
```
s = (45, 1, 'basic')
a = 'add_examples'
s' = (65, 2, 'with_examples')

R = (65-45) + (-5) + 0 + 0 + 0 = +15
```

**Caso 2: Alcanzar producci√≥n**
```
s = (75, 3, 'structured')
a = 'add_cot'
s' = (90, 4, 'advanced')

R = (90-75) + (-5) + 100 + 0 + 0 = +110
```

**Caso 3: Empeorar el prompt**
```
s = (55, 2, 'with_examples')
a = 'restructure'
s' = (45, 3, 'structured')

R = (45-55) + (-5) + 0 + 0 + (10*2) = -25
```

**Caso 4: Exceder iteraciones**
```
s = (70, 5, 'structured')
a = 'adjust_temperature'
s' = (72, 6, 'structured')

R = (72-70) + (-5) + 0 + (-50) + 0 = -53
```

### 5. Factor de Descuento (Œ≥)
```
Œ≥ = 0.9
```

Un factor alto (0.9) porque queremos que el agente considere recompensas futuras y no solo mejoras inmediatas.

## Pol√≠tica √ìptima

Una pol√≠tica heur√≠stica razonable ser√≠a:
```
œÄ(s):
    if quality_score < 50 and prompt_structure == 'basic':
        return 'add_examples'
    
    elif quality_score < 70 and prompt_structure == 'with_examples':
        return 'restructure'
    
    elif quality_score < 85 and prompt_structure == 'structured':
        return 'add_cot' or 'adjust_temperature'
    
    elif quality_score >= 85:
        return 'deploy'
    
    elif iteration_count >= 5:
        return 'test_edge_cases' (validar antes de decidir)
```

## Ejemplo de Trayectoria √ìptima
```
Estado inicial: s0 = (25, 0, 'basic')

s0 = (25, 0, 'basic')
    ‚Üì [add_examples]
s1 = (45, 1, 'with_examples')     R = +15
    ‚Üì [restructure]
s2 = (65, 2, 'structured')        R = +15
    ‚Üì [add_constraints]
s3 = (75, 3, 'structured')        R = +5
    ‚Üì [add_cot]
s4 = (88, 4, 'advanced')          R = +108
    ‚Üì [deploy]
s5 = TERMINAL                     R = 0

Recompensa total: 15 + 15 + 5 + 108 = 143
Pasos: 4 iteraciones
```

## Ejemplo de Trayectoria Sub√≥ptima
```
Estado inicial: s0 = (25, 0, 'basic')

s0 = (25, 0, 'basic')
    ‚Üì [adjust_temperature]
s1 = (30, 1, 'basic')             R = 0
    ‚Üì [simplify] (inv√°lido, asume que se permite)
s2 = (28, 2, 'basic')             R = -7
    ‚Üì [add_examples]
s3 = (48, 3, 'with_examples')     R = +15
    ‚Üì [adjust_temperature]
s4 = (52, 4, 'with_examples')     R = -1
    ‚Üì [restructure]
s5 = (70, 5, 'structured')        R = +13
    ‚Üì [add_cot]
s6 = (75, 6, 'structured')        R = -48 (exceso)

Recompensa total: 0 - 7 + 15 - 1 + 13 - 48 = -28
Pasos: 6 iteraciones (l√≠mite alcanzado sin producci√≥n)
```

## Matriz de Transici√≥n Simplificada

Para el estado `s = (45, 1, 'with_examples')`:

| Acci√≥n | s' (quality, iter, struct) | P(s'\|s,a) | R(s,a,s') |
|--------|---------------------------|------------|-----------|
| add_examples | (50, 2, 'with_examples') | 0.70 | 0 |
| restructure | (65, 2, 'structured') | 0.50 | +15 |
| restructure | (55, 2, 'structured') | 0.30 | +5 |
| restructure | (40, 2, 'structured') | 0.20 | -15 |
| adjust_temperature | (52, 2, 'with_examples') | 0.60 | +2 |
| add_constraints | (58, 2, 'with_examples') | 0.65 | +8 |