## **Práctica 2 - Teoría**

Defina en qué consiste y en qué clase de problemas se pueden usar cada uno de los siguientes acercamientos en
Deep Reinforcement Learning.

---

### 1. Proximal Policy Optimization (PPO)

**¿En qué consiste?**  
- PPO es un método **on-policy** de optimización de políticas.  
- Busca un balance entre **mejorar la recompensa esperada** y **mantener la política actual cercana a la anterior**.  
- Introduce una **función de pérdida con un término de "clipping"** que evita actualizaciones muy grandes en los parámetros de la política, lo que ayuda a mantener la estabilidad.  
- Generalmente se implementa como **actor-critic**: el actor propone acciones y el crítico estima su valor.  

**Características clave:**  
- Simplicidad en la implementación.  
- Estable y confiable.  
- Menos costoso computacionalmente que TRPO, pero con resultados similares.  

**¿Dónde se usa?**  
- Juegos como **Atari**, **StarCraft II**, **Dota 2**.  
- Entornos de **control continuo en robótica**.

---

### 2. Deep Deterministic Policy Gradients (DDPG)

**¿En qué consiste?**  
- DDPG es un método **off-policy** y **actor-critic** para espacios de acción continuos.  
- El **actor** produce acciones determinísticas (no probabilísticas).  
- El **crítico** estima la función Q (valor esperado de una acción en un estado).  
- Usa un **replay buffer** para almacenar experiencias pasadas y entrenar con ellas, reduciendo la correlación de datos.  
- Utiliza **target networks suavizadas** para mejorar la estabilidad del entrenamiento.  

**Características clave:**  
- Adecuado para problemas de **alto control continuo**.  
- Puede aprender políticas muy precisas en tareas de control físico.  
- Puede ser inestable si no se ajustan bien los hiperparámetros.  

**¿Dónde se usa?**  
- Control de robots (ej. un brazo robótico que debe agarrar objetos).  
- Conducción autónoma.  
- Tareas de locomoción en simuladores 3D (ej. MuJoCo).  

---

### 3. Trust Region Policy Optimization (TRPO)

**¿En qué consiste?**  
- TRPO es un algoritmo **on-policy** basado en políticas.  
- En lugar de permitir actualizaciones arbitrarias de la política, **impone una restricción de confianza (trust region)**.  
- Esta restricción se mide con la **KL-divergence**, asegurando que la política nueva no se desvíe demasiado de la anterior.  
- Se enfoca en **estabilidad garantizada**, aunque a costa de más complejidad computacional.  

**Características clave:**  
- Muy estable en comparación con otros métodos.  
- Requiere resolver un problema de optimización más costoso.  
- Sirvió de base para el desarrollo de PPO.  

**¿Dónde se usa?**  
- Entornos de **robótica realista**, donde la estabilidad es crítica.  
- Tareas de control continuo donde un error drástico sería costoso.

---

### 4. Asynchronous Advantage Actor-Critic (A3C)

**¿En qué consiste?**  
- A3C es un método **actor-critic** que entrena **múltiples agentes en paralelo** (cada uno con una copia del entorno).  
- Cada agente actualiza de manera asíncrona los parámetros compartidos del modelo global.  
- Usa la ventaja (**$Advantage = Q(s,a) – V(s)$**) para reducir la varianza en el entrenamiento.  
- La paralelización acelera la exploración y evita caer en mínimos locales.  

**Características clave:**  
- Eficiente en términos de exploración y velocidad.  
- Reduce la correlación entre muestras al tener múltiples agentes explorando en paralelo.  
- Puede ser más inestable que PPO en algunos casos.  

**¿Dónde se usa?**  
- Juegos de Atari.  
- Entornos 3D complejos (ej. Doom, Minecraft).  
- Simulaciones con muchos estados posibles.  

---

### Tabla comparativa

| Algoritmo | Tipo | Idea principal | Ventajas | Limitaciones | Casos típicos |
|-----------|------|----------------|----------|--------------|---------------|
| **PPO** (Proximal Policy Optimization) | On-policy, Actor-Critic | Función de pérdida con *clipping* para limitar cambios bruscos en la política | Estable, eficiente, fácil de implementar | Menos muestra-eficiente que off-policy | Juegos (Atari, Dota2), robótica |
| **DDPG** (Deep Deterministic Policy Gradients) | Off-policy, Actor-Critic | Actor produce acciones continuas determinísticas, crítico evalúa con función Q, usa replay buffer | Maneja acciones continuas, buena precisión | Sensible a hiperparámetros, menos estable | Robótica, control autónomo, locomoción |
| **TRPO** (Trust Region Policy Optimization) | On-policy, Policy Gradient | Restringe la actualización de la política usando KL-divergence (trust region) | Muy estable, garantías teóricas | Computacionalmente costoso, difícil de implementar | Robótica avanzada, simulaciones físicas |
| **A3C** (Asynchronous Advantage Actor-Critic) | On-policy, Actor-Critic asíncrono | Entrena múltiples agentes en paralelo, cada uno explora y actualiza parámetros globales | Explora más rápido, menos correlación, eficiente | Puede ser inestable, reemplazado por PPO en muchos casos | Atari, videojuegos 3D, exploración compleja |

## Referencias

- DhanushKumar. (2025, agosto 11). PPO algorithm. Medium. https://medium.com/@danushidk507/ppo-algorithm-3b33195de14a

- Marekar, A. (2022, junio 12). How DDPG (Deep Deterministic Policy Gradient) Algorithms works in reinforcement learning ? Medium. https://medium.com/@amaresh.dm/how-ddpg-deep-deterministic-policy-gradient-algorithms-works-in-reinforcement-learning-117e6a932e68

- Sciforce. (2021, marzo 25). Reinforcement learning and Asynchronous Actor-Critic Agent (A3C) Algorithm, explained. Medium. https://medium.com/sciforce/reinforcement-learning-and-asynchronous-actor-critic-agent-a3c-algorithm-explained-f0f3146a14ab

- Wu, H. (2024, marzo 9). Trust Region Policy Optimization explained. Medium. https://medium.com/@hsinhungw/trust-region-policy-optimization-explained-c2671542c329