## **Julio García Salas - 22076**
## **Sofía García - 22210**

# **Hoja de trabajo #2**

# Task 1 - Preguntas Teóricas

Responda a cada de las siguientes preguntas de forma clara y lo más completamente posible.

## 1. Defina el proceso de decisión de Markov (MDP) y explique sus componentes.

Un **Proceso de Decisión de Markov** (MDP, por sus siglas en inglés) es un marco matemático utilizado para modelar la toma de decisiones en entornos estocásticos con recompensas. Un MDP se define mediante los siguientes componentes:

- **Estados ($S$):** Conjunto finito o infinito de estados posibles en los que puede encontrarse el agente.
- **Acciones ($A$):** Conjunto de acciones que el agente puede tomar en cada estado.
- **Función de transición ($P(s' | s, a)$):** Probabilidad de que el sistema transicione del estado $s$ al estado $s'$ al tomar la acción $a$.
- **Recompensa ($R(s, a, s')$):** Recompensa inmediata obtenida al realizar la acción $a$ en el estado $s$ y moverse al estado $s'$.
- **Factor de descuento ($\gamma \in [0,1]$):** Parámetro que determina la importancia de las recompensas futuras.

El objetivo en un MDP es encontrar una política óptima que maximice la recompensa acumulada esperada a lo largo del tiempo.

---

## 2. Diferencia entre política, evaluación de políticas, mejora de políticas e iteración de políticas en los MDP

- **Política ($\pi$):** Función que define la acción a tomar en cada estado. Puede ser determinística ($\pi(s) = a$) o estocástica ($\pi(a | s)$ da una distribución de probabilidad sobre acciones).
- **Evaluación de políticas:** Proceso de calcular el valor de cada estado dado que se sigue una política específica, generalmente usando la ecuación de Bellman para la función de valor:
  $$ V^{\pi}(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \middle| s_0 = s, \pi \right] $$
- **Mejora de políticas:** Proceso de actualizar la política para obtener una mejor política basada en la función de valor calculada.
- **Iteración de políticas:** Algoritmo que alterna entre la evaluación de políticas y la mejora de políticas hasta converger a una política óptima.

---

## 3. Concepto de factor de descuento ($\gamma$) en los MDP y su influencia en la toma de decisiones

El **factor de descuento** $\gamma$ es un valor en el rango $[0,1]$ que controla la importancia de las recompensas futuras en la toma de decisiones. Se usa en la función de valor esperada:

$$ V^{\pi}(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \right] $$

### Influencia en la toma de decisiones:
- **Si $\gamma \approx 0$:** Se priorizan recompensas inmediatas, ignorando recompensas futuras.
- **Si $\gamma \approx 1$:** Se consideran las recompensas futuras con casi la misma importancia que las inmediatas.
- Un valor muy alto de $\gamma$ puede hacer que el aprendizaje sea lento y que las decisiones se basen en horizontes de tiempo muy largos.

---

## 4. Diferencia entre iteración de valores e iteración de políticas para resolver MDP

### **Iteración de Valores**
- Se actualiza la función de valor directamente usando la ecuación de Bellman:
  $$ V_{k+1}(s) = \max_a \sum_{s'} P(s'|s, a) \left[R(s, a, s') + \gamma V_k(s')\right] $$
- Se repite hasta que $V(s)$ converge.
- Luego, se extrae la política óptima como $\pi^*(s) = \arg\max_a Q(s,a)$.

### **Iteración de Políticas**
- Se parte de una política inicial.
- Se evalúa su función de valor.
- Se mejora la política en base a la evaluación.
- Se repite hasta converger.

### **Diferencias clave**
- **Iteración de valores** actualiza los valores sin definir una política hasta el final.
- **Iteración de políticas** optimiza directamente la política en cada iteración.
- Iteración de valores suele ser más estable, mientras que iteración de políticas converge más rápido en muchos casos.

---

## 5. Desafíos y limitaciones en la resolución de MDP a gran escala

Algunos desafíos en MDP de gran escala incluyen:
- **Dimensionalidad del estado y acción:** Si hay demasiados estados o acciones, almacenar y calcular las funciones de valor es computacionalmente costoso.
- **Exploración vs. explotación:** Encontrar un equilibrio entre explorar nuevas estrategias y explotar las mejores estrategias conocidas.
- **Tiempo de cómputo:** Algoritmos como la iteración de valores pueden ser ineficientes para problemas grandes.

### **Enfoques para abordar estos desafíos:**
- **Aproximación de funciones:** En lugar de almacenar valores exactos, se usan redes neuronales o modelos lineales.
- **Métodos basados en muestreo:** Métodos como Monte Carlo y Q-learning evitan la necesidad de modelar toda la dinámica del MDP.
- **Algoritmos jerárquicos:** Dividen el problema en subproblemas más manejables.
- **Aprendizaje por refuerzo profundo:** Combinación de aprendizaje profundo con técnicas de RL para manejar espacios de estado masivos.

Estos enfoques permiten aplicar MDPs en problemas complejos como juegos, robótica y optimización de recursos en tiempo real.


# Task 2 - Preguntas Analíticas

Responda a cada de las siguientes preguntas de forma clara y lo más completamente posible.

## 1. Análisis crítico de los supuestos subyacentes a la propiedad de Markov en los MDP

El **supuesto de Markov** establece que el futuro depende únicamente del estado actual y no del historial de estados previos. Sin embargo, en escenarios reales, este supuesto puede no ser válido. Algunos ejemplos incluyen:

- **Dependencia del historial:** En situaciones donde los efectos acumulativos del pasado afectan el futuro, como la fatiga en un atleta o el historial de crédito de un usuario.
- **Estados parcialmente observables:** Cuando el agente no tiene acceso completo a la información relevante del entorno, lo que requiere enfoques como los POMDPs (Procesos de Decisión de Markov Parcialmente Observables).
- **Variables ocultas:** Factores externos que influyen en la transición de estados pero que no están explícitamente representados en el modelo.

Para abordar estas limitaciones, se pueden emplear enfoques como el uso de memoria a largo plazo, técnicas de inferencia y redes neuronales recurrentes (RNNs) para estimar estados ocultos.

---

## 2. Modelado de la incertidumbre en los MDP y estrategias de toma de decisiones sólida

La incertidumbre en los MDPs puede surgir debido a la variabilidad en las transiciones de estado y recompensas. Algunas estrategias para manejar esta incertidumbre incluyen:

- **Aprendizaje por refuerzo robusto:** Busca optimizar la política en el peor caso posible.
- **Métodos de exploración y explotación:** Técnicas como Thompson Sampling o UCB (Upper Confidence Bound) ayudan a manejar la incertidumbre de manera efectiva.
- **Modelos probabilísticos bayesianos:** Permiten actualizar las creencias sobre la dinámica del entorno a medida que se recopilan datos.

Estas estrategias son fundamentales en aplicaciones como la robótica, el comercio financiero y la gestión de recursos.
