## **Fundamentos del aprendizaje por refuerzo**

El aprendizaje por refuerzo (RL, por sus siglas en inglés) es un paradigma del aprendizaje automático donde un agente aprende a tomar decisiones mediante la interacción con su entorno, recibiendo recompensas o penalizaciones según sus acciones. 

A diferencia del aprendizaje supervisado, donde el aprendizaje se basa en un conjunto de datos etiquetados, RL se basa en la retroalimentación recibida a partir de la experiencia directa. 

#### **Elementos básicos del aprendizaje por refuerzo**

En RL, los principales elementos son el agente, el entorno, los estados, las acciones y las recompensas. Estos elementos se relacionan de la siguiente manera:

1. **Agente**: Es el tomador de decisiones que interactúa con el entorno. El agente recibe información del entorno, toma decisiones (acciones) y aprende de las consecuencias de esas decisiones.

2. **Entorno**: Es el mundo con el que interactúa el agente. El entorno responde a las acciones del agente y proporciona nuevas observaciones y recompensas.

3. **Estados (s)**: Representan la situación actual del entorno. Un estado contiene toda la información necesaria para describir la situación en un momento dado.

4. **Acciones (a)**: Son las decisiones o movimientos que el agente puede realizar en un estado dado. El conjunto de todas las posibles acciones se denota como A.

5. **Recompensas (r)**: Son señales de retroalimentación que indican el valor de una acción en un estado específico. El objetivo del agente es maximizar la recompensa total a lo largo del tiempo.

La interacción entre estos elementos puede describirse como una serie de pasos, donde el agente percibe un estado del entorno, selecciona una acción, recibe una recompensa y transita a un nuevo estado.

#### **Procesos de decisión de Markov (MDPs)**

Los procesos de decisión de Markov (MDPs) son una herramienta matemática utilizada para modelar problemas de RL. Un MDP se define por los siguientes componentes:

1. **Conjunto de estados (S)**: Todos los posibles estados en los que el agente puede encontrarse.
2. **Conjunto de acciones (A)**: Todas las posibles acciones que el agente puede tomar.
3. **Función de transición (P)**: Describe la probabilidad de transición de un estado a otro, dado una acción. $P(s'|s,a)$ representa la probabilidad de moverse al estado $s'$ desde el estado $s$ tomando la acción $a$.
4. **Función de recompensa (R)**: Define la recompensa esperada al realizar una acción en un estado particular. $R(s,a)$ es la recompensa inmediata recibida al realizar la acción $a$ en el estado $s$.
5. **Factor de descuento ($\gamma$)**: Es un valor entre 0 y 1 que determina la importancia de las recompensas futuras. Un factor de descuento cercano a 0 hace que el agente se enfoque en recompensas inmediatas, mientras que un valor cercano a 1 da más peso a las recompensas futuras.

Los MDPs permiten formalizar el problema de RL y proporcionar una base para diseñar y analizar algoritmos.

#### **Políticas y funciones de valor**

En RL, una política ($\pi$) es una estrategia que el agente sigue para decidir qué acciones tomar en cada estado. Una política puede ser determinista ($\pi(s) = a$) o estocástica ($\pi(a|s)$), donde la acción es elegida con una cierta probabilidad.

Las funciones de valor son herramientas clave para evaluar la calidad de los estados y las acciones bajo una política determinada. Hay dos tipos principales de funciones de valor:

1. **Función de valor del estado (V)**: $V^\pi(s)$ es el valor esperado de las recompensas futuras comenzando desde el estado $s$ y siguiendo la política $\pi$. Se define como:
   $$
   V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_t = s \right]
   $$

2. **Función de valor de la acción (Q)**: $Q^\pi(s,a)$ es el valor esperado de las recompensas futuras al tomar la acción $a$ en el estado $s$ y luego seguir la política $\pi$. Se define como:
   $$
   Q^\pi(s,a) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_t = s, a_t = a \right]
   $$

El objetivo del agente es encontrar la política óptima ($\pi^*$) que maximice estas funciones de valor.






#### **Métodos basados en el valor**

Los métodos basados en el valor se centran en aprender una función de valor que estima la calidad de los estados y acciones. Los dos algoritmos más representativos en esta categoría son Q-Learning y SARSA.

**Q-Learning**:
Q-Learning es un algoritmo off-policy que busca aprender la función de valor de acción $Q(s, a)$. La actualización de Q-Learning se basa en la ecuación de Bellman:

$$Q(s, a) \leftarrow Q(s, a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s, a)]$$

Aquí, $s$ es el estado actual, $a$ es la acción tomada, $r$ es la recompensa recibida, $s'$ es el nuevo estado, $\alpha$ es la tasa de aprendizaje, y $\gamma$ es el factor de descuento.


**SARSA**:
    
SARSA (State-Action-Reward-State-Action) es un algoritmo on-policy que actualiza la función de valor de acción utilizando la acción actual y la siguiente acción seleccionada por la política. La actualización de SARSA se basa en la ecuación:

$$Q(s, a) \leftarrow Q(s, a) + \alpha [r + \gamma Q(s', a') - Q(s, a)]$$


#### **Métodos basados en la política**

Los métodos basados en la política se enfocan en aprender directamente una política que mapea estados a acciones, sin necesidad de una función de valor intermedia. Los dos algoritmos más comunes en esta categoría son REINFORCE y Actor-Critic.

**REINFORCE**:
REINFORCE es un algoritmo de gradiente de política que ajusta los parámetros de la política para maximizar la recompensa esperada. La actualización de la política se basa en la ecuación:

$$\theta \leftarrow \theta + \alpha \nabla_\theta \log \pi_\theta(a|s) G_t$$

Donde $G_t$ es la recompensa acumulada desde el tiempo $t$.


**Actor-Critic**:
El método Actor-Critic combina una red de política (actor) y una red de valor (critic). El actor actualiza la política basándose en la ventaja estimada por el crítico. La actualización de la política sigue:
$$\theta \leftarrow \theta + \alpha \nabla_\theta \log \pi_\theta(a|s) A(s, a)$$

Y la actualización de la función de valor sigue:

$$\phi \leftarrow \phi + \beta \nabla_\phi (r + \gamma V_\phi(s') - V_\phi(s))$$

### **Métodos híbridos**

Los métodos híbridos combinan enfoques basados en el valor y en la política para aprovechar las fortalezas de ambos. Entre los algoritmos híbridos más avanzados se encuentran DDPG, PPO y A3C.

**DDPG (Deep Deterministic Policy Gradient)**:
DDPG es un algoritmo off-policy que combina DQN y el actor-critic. Utiliza una red de actor para seleccionar acciones y una red crítico para evaluar la calidad de esas acciones. También emplea una red de destino para estabilizar el entrenamiento.

**PPO (Proximal Policy Optimization)**:
PPO es un algoritmo de política basada en la proximidad que busca mejorar la estabilidad del entrenamiento limitando el tamaño del paso de actualización. La función objetivo de PPO es:

$$ L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} A_t, \text{clip}\left( \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}, 1 - \epsilon, 1 + \epsilon \right) A_t \right) \right]$$


**A3C (Asynchronous Advantage Actor-Critic)**:

A3C es un algoritmo de aprendizaje asincrónico donde múltiples agentes independientes aprenden simultáneamente y actualizan una política global. Utiliza la misma estructura que el actor-critic, pero distribuye el entrenamiento en múltiples instancias del entorno.

En resumen, los métodos de aprendizaje por refuerzo abarcan una variedad de enfoques, cada uno con sus propias fortalezas y desafíos. Desde los métodos basados en el valor como Q-Learning y SARSA, hasta los métodos basados en la política como REINFORCE y Actor-Critic, y finalmente los métodos híbridos como DDPG, PPO y A3C, todos juegan un papel crucial en el desarrollo de agentes inteligentes capaces de tomar decisiones en entornos complejos y dinámicos.

### **Métodos de Monte Carlo: simulación y estimación de valores**

Los métodos de Monte Carlo son una clase de algoritmos computacionales que dependen de muestreos aleatorios repetidos para obtener resultados numéricos. Se utilizan principalmente en optimización, integración numérica y generación de muestras de una distribución de probabilidad. En el contexto del aprendizaje por refuerzo, los métodos de Monte Carlo se usan para estimar el valor esperado de una política dada, promediando las recompensas observadas a lo largo de múltiples episodios.

**Simulación y estimación de valores con Monte Carlo**

En el aprendizaje por refuerzo, la simulación mediante métodos de Monte Carlo implica ejecutar varios episodios de interacción entre el agente y el entorno para recopilar datos sobre las recompensas obtenidas. A partir de estas simulaciones, se pueden calcular las estimaciones de valor. Estas estimaciones se basan en la premisa de que, a largo plazo, las recompensas acumuladas reflejan el valor esperado de un estado o una acción.

Para estimar los valores de una política, se sigue un procedimiento que incluye:

1. **Generación de episodios:** Se generan múltiples episodios siguiendo la política actual, donde un episodio es una secuencia de estados, acciones y recompensas que termina en un estado terminal.
2. **Cálculo de retornos:** Para cada estado visitado en un episodio, se calcula el retorno, que es la suma de recompensas futuras descontadas.
3. **Promedio de retornos:** Se promedian los retornos de todos los episodios en los que se visitó un estado específico para obtener una estimación de su valor.

Una característica fundamental de los métodos de Monte Carlo es que requieren episodios completos, lo que significa que sólo se actualizan los valores al final de un episodio. Esto puede ser una limitación en entornos donde los episodios son largos o no terminan.

**Métodos de diferencias temporales (TD): TD($\lambda$) y n-step TD**

Los métodos de diferencias temporales combinan las ventajas del aprendizaje Monte Carlo y el aprendizaje dinámico, actualizando las estimaciones de valores en función de las diferencias temporales, es decir, la diferencia entre las estimaciones de valor consecutivas.

**TD($\lambda$)**

TD($\lambda$) es una técnica que unifica los métodos TD y Monte Carlo mediante el uso de trazas de elegibilidad, que son variables que asignan crédito a los estados y acciones visitados recientemente. $\lambda$ es un parámetro que controla la ponderación de las actualizaciones.

1. **Trazas de elegibilidad:** Se utilizan para dar crédito a los estados visitados recientemente. A medida que el agente se mueve a través del entorno, las trazas de elegibilidad se actualizan, decayendo con cada paso.
2. **Actualización de valores:** Las actualizaciones de valores se realizan no solo en función del estado actual y el siguiente estado, sino también en función de los estados anteriores, ponderados por sus trazas de elegibilidad.

La fórmula general de actualización para TD($\lambda$) es:

$$V(s) \leftarrow V(s) + \alpha \delta_t e_t(s)$$
donde:
- $\alpha$ es la tasa de aprendizaje,
- $\delta_t$ es el error de TD,
- $e_t(s)$ es la traza de elegibilidad.

**n-step TD**

El método n-step TD extiende la idea básica de TD al utilizar recompensas de los siguientes n pasos en lugar de solo la recompensa inmediata y el valor del siguiente estado. Este método actualiza los valores basándose en n pasos futuros de interacción con el entorno.

1. **Recompensas acumuladas:** Para cada estado, se acumulan las recompensas de los próximos n pasos.
2. **Actualización de valores:** Los valores se actualizan utilizando esta suma de recompensas, proporcionando un equilibrio entre la actualización a corto plazo (TD(0)) y la actualización a largo plazo (Monte Carlo).

**Exploración vs. explotación: estrategias epsilon-greedy, Upper Confidence Bound (UCB)**

En el aprendizaje por refuerzo, un desafío clave es balancear la exploración de nuevas acciones con la explotación de las acciones conocidas que proporcionan las mayores recompensas. Este dilema se conoce como el trade-off exploración-explotación.

**Estrategia epsilon-greedy**

La estrategia epsilon-greedy es una de las técnicas más simples y efectivas para gestionar este trade-off. En esta estrategia:

1. **Exploración:** Con una probabilidad ($\epsilon$), el agente selecciona una acción al azar, lo que permite explorar nuevas acciones.
2. **Explotación:** Con una probabilidad (1 - $\epsilon$), el agente selecciona la acción con el mayor valor esperado (explota el conocimiento actual).

El parámetro ($\epsilon$) se puede ajustar durante el entrenamiento, a menudo comenzando con un valor alto para fomentar la exploración y disminuyéndolo gradualmente para favorecer la explotación a medida que el agente aprende más sobre el entorno.

**Upper Confidence Bound (UCB)**

El método Upper Confidence Bound es otra estrategia para balancear exploración y explotación, utilizando una forma más teórica y matemática basada en la teoría de la toma de decisiones en condiciones de incertidumbre.

1. **Valor de confianza:** UCB asigna a cada acción un valor de confianza que aumenta con la incertidumbre de la estimación del valor de esa acción.
2. **Selección de acciones:** El agente selecciona la acción con el valor de confianza más alto, lo que favorece las acciones con altos valores esperados y aquellas que han sido menos exploradas.

La fórmula general para el valor de confianza en UCB es:
$$Q(a) + c \sqrt{\frac{\ln(t)}{N(a)}}$$
donde:
- $Q(a)$ es el valor estimado de la acción $a$,
- $c$ es un parámetro que controla el grado de exploración,
- $t$ es el número total de selecciones de acciones,
- $N(a)$ es el número de veces que la acción $a$ ha sido seleccionada.

UCB proporciona un marco matemáticamente riguroso para el trade-off exploración-explotación, asegurando que cada acción sea seleccionada un número suficiente de veces para obtener estimaciones precisas de su valor.


UCB-V es una variante del algoritmo UCB que considera la varianza en la estimación de las recompensas.

### **Deep Q-Networks (DQN)**

Deep Q-Networks (DQN) representan una evolución significativa en el campo del Aprendizaje por Refuerzo (RL), combinando técnicas tradicionales de RL con redes neuronales profundas. Este enfoque fue popularizado por la investigación de DeepMind, donde se demostró que una red neuronal podía aprender a jugar videojuegos de Atari a nivel humano.

En los métodos tradicionales de RL, la función Q se representa mediante tablas (tabular methods) que mapean cada par estado-acción a un valor Q. Sin embargo, este enfoque no es escalable a entornos con grandes espacios de estados y acciones. Aquí es donde entran las redes neuronales: en lugar de almacenar valores Q explícitamente, una red neuronal se entrena para aproximar la función Q.

La arquitectura de un DQN es bastante simple: se utiliza una red neuronal con varias capas ocultas que toma el estado del entorno como entrada y produce un valor Q para cada posible acción. La actualización de los pesos de la red neuronal se realiza mediante un proceso de backpropagation, donde el objetivo es minimizar el error entre el valor Q estimado y el valor Q objetivo, el cual se define mediante la ecuación de Bellman.

### **Redes Actor-Critic**
El enfoque Actor-Critic combina las ventajas de los métodos basados en políticas y los basados en valor. En lugar de tener una única red que aprenda la política o el valor Q, se utilizan dos redes: una para la política (actor) y otra para el valor (critic).

La red Actor se encarga de seleccionar acciones según una política aprendida, mientras que la red Critic evalúa estas acciones proporcionando una estimación del valor Q. 

El Actor mejora su política utilizando las críticas del Critic, haciendo que este enfoque sea más estable y eficiente en comparación con los métodos puramente basados en políticas.

### **Optimización de políticas**

La optimización de políticas se refiere a la mejora continua de la política $\pi$ para maximizar la recompensa acumulada esperada.

#### **Policy Gradient**

Los métodos de Policy Gradient optimizan directamente la política parametrizada $\pi_\theta$ mediante gradientes de la recompensa acumulada esperada.

#### **Ecuaciones clave**

La función objetivo a maximizar es el retorno esperado:

$$
J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{\infty} \gamma^t R(s_t, a_t) \right]
$$

El gradiente de la política se calcula como:

$$
\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t \mid s_t) Q^\pi(s_t, a_t) \right]
$$

Esta ecuación se deriva utilizando la regla del gradiente logarítmico (Log-Likelihood Ratio) y el teorema de la expectativa, lo que permite que el gradiente de la política sea calculado como la expectativa de los gradientes ponderados por el valor de la acción $Q^\pi(s_t, a_t)$.

#### **A2C/A3C (Asynchronous Advantage Actor-Critic)**

A2C y A3C son algoritmos actor-crítico que combinan un actor que aprende la política y un crítico que evalúa la política.

#### **Ecuaciones clave**

El objetivo es minimizar la pérdida:

$$
L(\theta) = -\log \pi_\theta(a_t \mid s_t) \left( R_t - V^\pi(s_t) \right) + \frac{1}{2} \left( R_t - V^\pi(s_t) \right)^2
$$

Donde $R_t$ es el retorno observado y $V^\pi(s_t)$ es el valor estimado del estado. La primera parte de la ecuación es la pérdida del actor, que se minimiza cuando las acciones que lleva a cabo la política son buenas según la estimación del crítico. La segunda parte es la pérdida del crítico, que se minimiza ajustando el valor del estado para que coincida con el retorno observado.

#### **PPO (Proximal Policy Optimization)**

PPO es un método que restringe la actualización de la política para evitar grandes cambios que desestabilicen el entrenamiento.

#### **Ecuaciones clave**

La función objetivo para PPO es:

$$
L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right]
$$

Donde $r_t(\theta) = \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}$ y $\hat{A}_t$ es la ventaja estimada. El objetivo es maximizar la recompensa esperada mientras se evita que $r_t(\theta)$, que es la relación de probabilidad, se aleje demasiado de 1 mediante la operación de "clipping".

#### **TRPO (Trust Region Policy Optimization)**

TRPO optimiza la política dentro de una región de confianza para garantizar la mejora de la política.

#### **Ecuaciones clave**

El objetivo de TRPO es maximizar:

$$
L^{\text{TRPO}}(\theta) = \mathbb{E}_t \left[ \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)} \hat{A}_t \right]
$$

Sujeto a:

$$
\mathbb{E}_t \left[ \text{KL} \left[ \pi_{\theta_{\text{old}}} (\cdot \mid s_t) \parallel \pi_\theta (\cdot \mid s_t) \right] \right] \leq \delta
$$

Donde la función objetivo maximiza el rendimiento esperado, y la restricción asegura que el cambio en la política (medido por la divergencia KL) no sea mayor que un valor umbral $\delta$.

#### **DPPO (Distributed Proximal Policy Optimization)**

DPPO extiende PPO para entornos distribuidos, permitiendo el entrenamiento paralelo de múltiples agentes.

#### **Ecuaciones clave**

DPPO utiliza la misma función objetivo que PPO, pero con actualizaciones distribuidas y sincronizadas de los parámetros de la política a través de múltiples trabajadores. La clave está en la gestión de la sincronización y agregación de las actualizaciones para asegurar una convergencia estable y eficiente.

#### **TD3 (Twin Delayed Deep Deterministic Policy Gradient)**

TD3 es una mejora del DDPG (Deep Deterministic Policy Gradient) que reduce la sobreestimación del valor de la acción mediante el uso de dos críticos y actualizaciones retrasadas.

#### **Ecuaciones clave**

Las actualizaciones de los críticos son:

$$
y_t = r_t + \gamma \min_{i=1,2} Q_{\theta_i'}(s_{t+1}, \pi_{\phi'}(s_{t+1}))
$$

Donde $y_t$ es la estimación de la recompensa futura, $Q_{\theta_i'}$ son las funciones de valor de los dos críticos, y $\pi_{\phi'}$ es la política actualizada.

Las actualizaciones del actor son retrasadas:

$$
\nabla_\phi J(\phi) = \mathbb{E}_t \left[ \nabla_a Q_{\theta_1}(s_t, a) \mid_{a = \pi_\phi(s_t)} \nabla_\phi \pi_\phi(s_t) \right]
$$

El actor se actualiza usando el gradiente de la función de valor del primer crítico, asegurando que las actualizaciones sean más estables al introducir un retraso.


### **Aprendizaje por Refuerzo basado en modelos**

El Aprendizaje por Refuerzo Basado en Modelo (Model-Based RL) implica la construcción y utilización de un modelo explícito del entorno para la planificación y toma de decisiones. Este enfoque puede ser más eficiente en cuanto a muestras que los métodos sin modelo (Model-Free RL), ya que permite que el agente utilice simulaciones del modelo para aprender y mejorar su política.

#### **Aprender el modelo**

Aprender un modelo del entorno implica construir una representación interna que capture las dinámicas del entorno. Este modelo puede ser utilizado para predecir las transiciones de estado y recompensas, facilitando la planificación y la toma de decisiones.

#### **World Models**

Los World Models son un enfoque en el que el agente aprende una representación compacta del entorno y utiliza esta representación para planificar y tomar decisiones.

**Componentes clave**

1. **VAE (Variational Autoencoder)**: Se utiliza para aprender una representación latente de los estados del entorno.

   - **Función de pérdida del VAE**:
     $$
     \mathcal{L}_{\text{VAE}} = \mathbb{E}_{q_\phi(z|s)} \left[ \log p_\theta(s|z) \right] - D_{\text{KL}}(q_\phi(z|s) \| p(z))
     $$
     
     - **Término de reconstrucción**: $\mathbb{E}_{q_\phi(z|s)} \left[ \log p_\theta(s|z) \right]$ mide cuán bien el VAE puede reconstruir el estado original $s$ a partir de la representación latente $z$.
     - **Término de regularización**: $D_{\text{KL}}(q_\phi(z|s) \| p(z))$ es la divergencia KL entre la distribución aproximada $q_\phi(z|s)$ y una distribución prior $p(z)$ (normalmente una distribución gaussiana).

2. **MDN-RNN (Mixture Density Network - Recurrent Neural Network)**: Modelo recurrente que predice la próxima representación latente y recompensa dadas las representaciones latentes actuales y acciones.

   - **Función de pérdida del MDN-RNN**:
     $$
     p(z_{t+1}, r_t | z_t, a_t) = \text{MDN-RNN}(z_t, a_t)
     $$
     - La salida del MDN-RNN es una combinación de varias distribuciones gausianas que modelan las posibles próximas representaciones latentes $z_{t+1}$ y recompensas $r_t$.

3. **Controller**: Utiliza la representación latente y las predicciones del MDN-RNN para tomar decisiones de acción.

#### **I2A (Imagination-Augmented Agents)**

I2A utiliza un modelo imaginativo para simular futuros posibles y mejorar la toma de decisiones.

**Componentes clave**

1. **Modelo imaginativo**: Simula transiciones futuras del entorno.

   - **Modelo de transición**:
     $$
     \hat{s}_{t+1}, \hat{r}_t = f(s_t, a_t)
     $$
     - Aquí, $f(s_t, a_t)$ representa un modelo que predice el siguiente estado $\hat{s}_{t+1}$ y la recompensa $\hat{r}_t$ dado el estado actual $s_t$ y la acción $a_t$.

2. **Imagination core**: Genera múltiples trayectorias imaginadas a partir del estado actual y posibles acciones.

   - **Trayectorias imaginadas**:
     $$
     \{ (\hat{s}_{t+1}^i, \hat{r}_t^i) \}_{i=1}^n
     $$
     - Este conjunto de trayectorias imaginadas permite que el agente considere varios futuros posibles y sus respectivas recompensas.

3. **Policy network**: Integra las trayectorias imaginadas para seleccionar la acción óptima.

   - **Selección de acción**:
     $$
     a_t = \pi(s_t, \{\hat{s}_{t+1}^i, \hat{r}_t^i \}_{i=1}^n)
     $$
     - La red de políticas $\pi$ toma como entrada el estado actual $s_t$ y las trayectorias imaginadas para seleccionar la mejor acción $a_t$.

#### **MBMF (Model-Based Model-Free)**

MBMF combina elementos de RL basado en modelo y sin modelo para aprovechar las ventajas de ambos.

**Componentes clave**

1. **Modelo dinámico**: Predice transiciones y recompensas.

   - **Modelo de transición**:
     $$
     \hat{s}_{t+1}, \hat{r}_t = f(s_t, a_t)
     $$

2. **Planificación corta**: Utiliza el modelo dinámico para planificar a corto plazo y generar rollouts.

   - **Rollouts a corto plazo**:
     $$
     \{ (\hat{s}_{t+1}^k, \hat{r}_t^k) \}_{k=1}^K
     $$
     - Se generan múltiples secuencias de estados y recompensas simuladas para un horizonte de planificación corto.

3. **Entrenamiento sin modelo**: Utiliza los rollouts generados para actualizar una política o función de valor sin modelo.

   - **Actualización de la política**:
     $$
     \theta \leftarrow \theta - \alpha \nabla_\theta \mathcal{L}(\pi_\theta, \{ (\hat{s}_{t+1}^k, \hat{r}_t^k) \}_{k=1}^K)
     $$
     - Los rollouts simulados se utilizan para calcular las gradientes y actualizar los parámetros de la política $\theta$.

#### **MBVE (Model-Based Value Expansion)**

MBVE utiliza un modelo del entorno para expandir la estimación de valor más allá del horizonte de planificación actual.

**Componentes clave**

1. **Modelo dinámico**: Predice transiciones y recompensas.

   - **Modelo de transición**:
     $$
     \hat{s}_{t+1}, \hat{r}_t = f(s_t, a_t)
     $$

2. **Expansión de valor**: Utiliza el modelo para expandir la estimación de valor más allá del horizonte.

   - **Expansión de valor**:
     $$
     V(s_t) = r_t + \gamma \hat{r}_{t+1} + \gamma^2 \hat{r}_{t+2} + \dots + \gamma^H V_\text{target}(\hat{s}_{t+H})
     $$
     - Esta ecuación combina las recompensas inmediatas predichas $\hat{r}_t$ con el valor estimado a largo plazo $V_\text{target}$.

3. **Entrenamiento de valor**: Actualiza la función de valor utilizando la expansión de valor.

   - **Actualización de la función de valor**:
     $$
     \theta \leftarrow \theta - \alpha \nabla_\theta \mathcal{L}(V_\theta, V(s_t))
     $$
     - Se utiliza la expansión de valor para calcular las gradientes y actualizar los parámetros de la función de valor $\theta$.

#### **Usar un modelo dado**

En algunos casos, se utiliza un modelo predefinido del entorno para facilitar la toma de decisiones.

#### **AlphaZero**

AlphaZero es un algoritmo que combina búsqueda en árbol de Monte Carlo (MCTS) con redes neuronales profundas para jugar juegos de tablero de manera superhumana.

**Componentes clave**

1. **Red neuronal**: Estima la política y el valor del estado.

   - **Red neuronal**:
     $$
     \pi(a|s), v(s) = f_\theta(s)
     $$
     - La red neuronal parametrizada por $\theta$ estima la probabilidad de cada acción $\pi(a|s)$ y el valor del estado $v(s)$.

2. **Búsqueda MCTS**: Realiza simulaciones para explorar posibles futuras secuencias de jugadas.

   - **Selección**: Elige el nodo con el mayor valor de UCB.
     $$
     \text{UCB}(s, a) = Q(s, a) + c \sqrt{\frac{\log N(s)}{N(s, a)}}
     $$
     - Aquí, $Q(s, a)$ es el valor esperado de la acción $a$ en el estado $s$, $N(s)$ es el número total de visitas al nodo $s$, y $N(s, a)$ es el número de visitas al nodo hijo correspondiente a la acción $a$.

   - **Expansión**: Añade un nuevo nodo al árbol de búsqueda.

   - **Simulación**: Realiza un rollout desde el nodo expandido hasta un estado terminal o un número fijo de pasos.

   - **Backup**: Actualiza los valores de $Q(s, a)$ hacia atrás en el árbol.
     $$
     Q(s, a) \leftarrow Q(s, a) + \frac{1}{N(s, a)} \left( v - Q(s, a) \right)
     $$
     - Aquí, $v$ es el valor simulado desde el nodo expandido.

3. **Actualización de la política**: Utiliza las estadísticas de las simulaciones MCTS para actualizar la política.

   - **Nueva política**:
     $$
     \pi_\text{new}(a|s) \propto \text{visit count}(a|s)
     $$
     - La nueva política se actualiza en función del conteo de visitas de las acciones durante la búsqueda MCTS.

4. **Entrenamiento**: Actualiza los parámetros de la red neuronal usando las jugadas simuladas y el valor de las jugadas.

   - **Pérdida de entrenamiento**:
     $$
     \mathcal{L}(\pi_\theta, \pi_\text{new}, v_\theta, z) = (z - v_\theta)^2 - \pi_\text{new} \cdot \log \pi_\theta
     $$
     - Aquí, $z$ es el resultado del juego (1, 0, -1) y $\pi_\text{new}$ es la política mejorada de MCTS.

   - **Actualización de los parámetros**:
     $$
     \theta \leftarrow \theta - \alpha \nabla_\theta \mathcal{L}(\pi_\theta, \pi_\text{new}, v_\theta, z)
     $$



### **Aprendizaje por refuerzo desde retroalimentación humana (RLHF)**

#### **El aprendizaje por imitación (IL)** 

Es un campo del aprendizaje automático en el cual un agente aprende a realizar tareas replicando el comportamiento de un experto. Este enfoque es especialmente útil en escenarios donde es difícil definir una función de recompensa precisa o cuando la exploración directa en el entorno es costosa o peligrosa.

**1 . Behavioral cloning (BC)**
Behavioral cloning (BC) es una técnica básica de aprendizaje por imitación que utiliza aprendizaje supervisado para entrenar al agente a partir de demostraciones de expertos.

**Proceso de BC:**

- Recopilación de datos: Se recopilan datos de demostraciones de un experto, que consisten en pares de estados y acciones $(s, a)$.
- Entrenamiento del modelo: Se entrena un modelo de política (por ejemplo, una red neuronal) utilizando los pares de estados y acciones. El objetivo es minimizar la diferencia entre las acciones predichas por el modelo y las acciones del experto en los estados correspondientes.
- Ejecución de la política: El modelo entrenado se utiliza para predecir acciones en nuevos estados durante la ejecución.

**Ventajas y desventajas**:

* Ventajas: Simple de implementar y puede funcionar bien si las demostraciones del experto cubren adecuadamente el espacio de estados.
* Desventajas: Puede sufrir de errores de compounding, donde pequeños errores en la predicción de acciones pueden acumularse y llevar a un desempeño pobre. BC también depende en gran medida de la calidad y cobertura de las demostraciones del experto.

**2 . DAgger (Dataset Aggregation)**

DAgger (Dataset Aggregation) es una técnica que mejora BC al abordar el problema de los errores de compounding. DAgger es un enfoque iterativo que combina el aprendizaje supervisado con la retroalimentación en tiempo real del experto.

**Proceso de DAgger:**

- Recopilación de datos inicial: Se recopila un conjunto inicial de demostraciones del experto.
- Entrenamiento inicial: Se entrena una política inicial usando BC con los datos iniciales.
- Iteraciones de DAgger:
    * Ejecución de la política actual: La política entrenada se ejecuta en el entorno, generando nuevas trayectorias de estados.
    * Corrección del experto: El experto revisa las acciones tomadas por la política en estos nuevos estados y proporciona las acciones correctas.
    * Agregación de datos: Los nuevos pares de estados y acciones proporcionados por el experto se agregan al conjunto de datos de entrenamiento.
    * Reentrenamiento: La política se reentrena con el conjunto de datos ampliado.
 
**3 . Generative adversarial imitation learning (GAIL):**

GAIL combina aprendizaje por imitación con técnicas de aprendizaje generativo adversarial. En GAIL, un generador (la política del agente) y un discriminador (que distingue entre trayectorias generadas por el agente y trayectorias del experto) se entrenan conjuntamente. El objetivo del generador es producir trayectorias que sean indistinguibles de las trayectorias del experto, según el discriminador.

#### **Aprendiza inverso de reforzamiento (IRL)**

El aprendizaje por refuerzo inverso (Inverse Reinforcement Learning, IRL) es un campo de la inteligencia artificial donde el objetivo es inferir la función de recompensa que un agente está tratando de maximizar a partir de su comportamiento observado. A diferencia del aprendizaje por refuerzo tradicional, donde la función de recompensa está dada y el objetivo es encontrar la política óptima, en IRL se observa la política del experto y se trata de descubrir la función de recompensa que podría haber llevado a esa política.

#### **Máxima entropía inverse reinforcement learning (MaxEnt IRL)**

MaxEnt IRL es un algoritmo que busca inferir una función de recompensa a partir de demostraciones de expertos, utilizando el principio de máxima entropía para manejar la incertidumbre de manera robusta. Este enfoque garantiza que entre todas las distribuciones posibles de trayectorias que coinciden con las demostraciones, se selecciona aquella que tiene la máxima entropía, evitando suposiciones innecesarias y promoviendo la diversidad.

**Proceso de MaxEnt IRL**

- Recopilación de datos: Obtener demostraciones de expertos que consisten en trayectorias de estados y acciones.
- Modelado de trayectorias: Representar las trayectorias como secuencias de estados y acciones.
- Cálculo de la entropía: Utilizar el principio de máxima entropía para modelar la probabilidad de las trayectorias.
- Optimización: Ajustar la función de recompensa para maximizar la probabilidad de las trayectorias observadas.

A continuación, se presenta un ejemplo simplificado de cómo implementar MaxEnt IRL en PyTorch. Este ejemplo asume un entorno simple donde se conocen las transiciones de estados.

#### **Aprendizaje por Imitación mediante Aprendizaje por Refuerzo Inverso**

El concepto de "Aprendizaje por Imitación" implica aprender una política similar a la de un experto mediante el aprendizaje de la función de recompensa subyacente que el experto está optimizando. Aquí te presento una implementación básica utilizando PyTorch.

La idea principal es iterar entre dos fases:

* Actualizar la política: Usar una técnica de RL estándar para optimizar la política dada una función de recompensa.
* Actualizar la función de recompensa: Usar las trayectorias generadas por la política actual para ajustar la función de recompensa.

#### **Aprendizaje profundo de refuerzo inverso (Deep IRL)**

Deep IRL extiende los métodos tradicionales de IRL utilizando redes neuronales profundas para modelar la función de recompensa. Este enfoque permite manejar problemas más complejos con estados de alta dimensionalidad.

**Procesos**

* Definir una red neural para la función de recompensa.
* Optimizar la función de recompensa usando trayectorias observadas.
* Entrenar una política usando RL con la función de recompensa aprendida.

Revisar: [Maximum Entropy Deep Inverse Reinforcement Learning](https://arxiv.org/abs/1507.04888).

#### **Aprendizaje por preferencia**

El aprendizaje por preferencias es una subárea del aprendizaje automático que se centra en aprender a partir de preferencias en lugar de ejemplos etiquetados de manera explícita. En lugar de aprender a partir de pares de datos de entrada y salida, el modelo aprende a partir de comparaciones o rankings de diferentes opciones. 

Este enfoque es especialmente útil en situaciones donde las etiquetas exactas son difíciles de obtener, pero es fácil obtener preferencias relativas.

Por ejemplo, en lugar de saber que la opción A tiene una recompensa de 10 y la opción B tiene una recompensa de 5, el modelo sólo sabe que A es preferida sobre B. Este tipo de aprendizaje es común en aplicaciones como sistemas de recomendación, donde las preferencias de los usuarios son más fáciles de obtener que las evaluaciones cuantitativas exactas.

En el contexto del aprendizaje por refuerzo, el aprendizaje por refuerzo basado en preferencias (PBRL) se centra en aprender políticas óptimas a partir de preferencias en lugar de recompensas numéricas explícitas. Esto es útil en situaciones donde es difícil definir una función de recompensa exacta, pero se pueden obtener comparaciones de resultados o trayectorias.

#### **El modelo Bradley-Terry**

Es un modelo probabilístico utilizado para predecir el resultado de comparaciones binarias entre pares de opciones. Es ampliamente utilizado en la teoría de la decisión y en el aprendizaje por preferencias para modelar preferencias en varios contextos, como competiciones deportivas, sistemas de recomendación y encuestas de opinión.

En el modelo Bradley-Terry, se asume que cada opción $i$ tiene una habilidad o "score" $\theta_i$. La probabilidad de que la opción $i$ sea preferida sobre la opción $j$ se modela como:

$$P(i \succ j) = \frac{\theta_i}{\theta_i + \theta_j}$$

donde $i \succ j$ indica que la opción $i$ es preferida sobre la opción $j$.

**Estimación de parámetros**

Para estimar los parámetros $\theta_i$ de cada opción $i$, se puede utilizar el método de máxima verosimilitud. La función de verosimilitud para el conjunto de comparaciones observadas se maximiza con respecto a los parámetros $\theta$.





#### **PBRL (Preference-based Reinforcement Learning)**
El PBRL es una extensión del aprendizaje por refuerzo (RL) que utiliza preferencias en lugar de recompensas numéricas explícitas para guiar el aprendizaje del agente. En PBRL, el agente recibe retroalimentación en forma de comparaciones entre diferentes trayectorias o acciones, indicando cuál es preferida.

**Conceptos clave en PBRL**

* Preferencias en lugar de recompensas: En lugar de recibir recompensas numéricas después de cada acción, el agente recibe comparaciones de trayectorias o acciones.
* Función de recompensa implícita: El agente aprende una función de recompensa implícita que satisface las preferencias observadas.
* Actualización de la política: La política del agente se actualiza para maximizar la probabilidad de generar trayectorias que sean consistentes con las preferencias observadas.
  
#### **Algoritmos de PBRL**

**Preferencia por trayectorias (trajectory preference learning):**

En este enfoque, el agente aprende a partir de comparaciones entre trayectorias completas. Las trayectorias son secuencias de estados y acciones, y el agente recibe retroalimentación sobre qué trayectorias son preferidas.

- Ejemplo de algoritmo: Maximum Entropy Inverse Reinforcement Learning (MaxEnt IRL), donde se aprende una función de recompensa que maximiza la entropía de la política condicionada a las preferencias observadas.

**Preferencia por parejas de estados (state pair preference learning):**

Aquí, el agente aprende a partir de comparaciones entre pares de estados o pares de estado-acción. La retroalimentación indica qué par es preferido.

- Ejemplo de algoritmo: Preference-Based Policy Iteration (PBPI), donde se actualiza la política basada en las preferencias entre pares de estados.

**Preferencia por acciones (action preference learning):**

En este enfoque, el agente aprende preferencias entre diferentes acciones en un estado dado. La retroalimentación se proporciona sobre cuál acción es preferida en un estado específico.

- Ejemplo de algoritmo: Bayesian Preference Learning, donde se usa inferencia bayesiana para aprender las preferencias y actualizar la política en consecuencia.

Hay varios algoritmos más de PBRL que utilizan técnicas como el modelo de Bradley-Terry para manejar preferencias en lugar de recompensas numéricas tradicionales. 

**Learning from ranked trajectories (RaPP)**

El algoritmo RaPP se basa en la idea de aprender una política óptima a partir de trayectorias que están ordenadas según las preferencias. En este enfoque, el agente aprende una función de valor que respeta el orden de las trayectorias proporcionadas.

Proceso de RaPP

- Recopilación de datos: Obtener conjuntos de trayectorias ordenadas por preferencias.
- Modelado de la función de valor: Utilizar un modelo para estimar los valores de las trayectorias.
- Optimización: Ajustar la política para maximizar la preferencia de las trayectorias ordenadas.

**Coactive learning**

Coactive learning es un enfoque donde un agente interactúa con un experto y recibe feedback en forma de preferencias sobre acciones. Este feedback se utiliza para ajustar la política del agente.

Proceso de coactive learning

- Interacción: El agente toma una acción y recibe feedback en forma de preferencia.
- Actualización: La política se actualiza para preferir las acciones que el experto prefiere.
- Repetición: Este proceso se repite para refinar la política del agente.

**Active preference-based learning (APBL)**

APBL es un enfoque activo donde el agente selecciona pares de trayectorias para comparación con el fin de aprender de manera más eficiente. Este enfoque utiliza técnicas de selección activa para mejorar el aprendizaje.

Proceso de APBL

- Selección activa: El agente selecciona pares de trayectorias que son más informativas.
- Feedback de preferencias: El agente recibe feedback en forma de preferencias.
- Actualización de la política: La política se ajusta para reflejar el feedback recibido.