<a href="https://colab.research.google.com/github/JuanjoLQ/k_brazos_CBLQ/blob/main/notebook1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introducción al Problema de los K-Brazos y Métodos de Aprendizaje por Refuerzo**

## **1. Contexto del Problema**

El problema de los **K-Brazos** (*Multi-Armed Bandit*, MAB) es un problema fundamental en el **Aprendizaje por Refuerzo** y en la toma de decisiones secuenciales bajo incertidumbre. En este escenario, un agente debe elegir repetidamente entre **K opciones** (brazos), cada una de las cuales proporciona una recompensa **desconocida y estocástica**.

El objetivo del agente es aprender, a partir de la experiencia, **qué brazo seleccionar** para maximizar su recompensa acumulada a lo largo del tiempo. Para ello, debe equilibrar dos estrategias opuestas:

- **Exploración:** Probar nuevos brazos para descubrir cuál es el mejor.
- **Explotación:** Elegir el brazo que ha dado las mejores recompensas hasta el momento.

Este dilema entre **exploración y explotación** es clave en numerosas aplicaciones reales, como la **publicidad online**, la **medicina personalizada**, los **sistemas de recomendación** y la **optimización de estrategias de inversión**.

---

## **2. Tipos de Brazos Implementados**

Para modelar las recompensas en el problema de los K-Brazos, hemos utilizado tres distribuciones estadísticas diferentes:

### **2.1. Brazo con Distribución Normal**

Cada brazo genera recompensas que siguen una **distribución normal** con media **μ** y desviación estándar **σ**:

> **X ∼ N(μ, σ²)**

- Se usa cuando las recompensas pueden tomar valores continuos.
- Ejemplo: *Tiempo de respuesta de un servidor, precios en bolsa, etc.*

### **2.2. Brazo con Distribución Bernoulli**

Cada brazo devuelve una recompensa **binaria** (0 o 1) con probabilidad **p**:

> **X ∼ Bernoulli(p)**

- Se emplea en problemas donde cada acción tiene **éxito o fracaso**.
- Ejemplo: *Un usuario hace clic en un anuncio o no.*

### **2.3. Brazo con Distribución Binomial**

Cada brazo devuelve una recompensa que sigue una **distribución binomial** con **n** intentos y probabilidad de éxito **p**:

> **X ∼ Bin(n, p)**

- Se usa en contextos donde una acción puede tener múltiples intentos exitosos dentro de un periodo.
- Ejemplo: *Cantidad de clics en un anuncio tras n visualizaciones.*

---

## **3. Algoritmos Utilizados**

Para resolver el problema de los K-Brazos, se han implementado diferentes estrategias de selección de brazos:

### **3.1. Algoritmo ε-Greedy**

Este algoritmo combina exploración y explotación de forma simple:

- Con probabilidad **ε**, selecciona un brazo **aleatoriamente** (exploración).
- Con probabilidad **1 - ε**, selecciona el brazo con **mayor recompensa esperada** (explotación).

**Parámetro clave:**
- **ε (epsilon):** Controla el grado de exploración (valores típicos: 0.1, 0.01, 0).

**Ventajas:**
- Simple de implementar.  
- Funciona bien en la práctica con un ajuste adecuado de ε.  

**Desventajas:**
- No ajusta dinámicamente la exploración.

---

### **3.2. Algoritmo UCB (Upper Confidence Bound)**

Este algoritmo balancea exploración y explotación utilizando la **incertidumbre** sobre cada brazo:

- Se calcula un **límite superior de confianza** para cada brazo.
- Se selecciona el brazo con el **mayor valor**, favoreciendo la exploración al inicio y la explotación posteriormente.

**Variantes implementadas:**

1. **UCB1:** Calcula los límites superiores como:

   > **UCBᵢ = μ̂ᵢ + c · √( log(t) / Nᵢ )**

   donde **c** controla el grado de exploración.

2. **UCB2:** Introduce un ajuste dinámico basado en la duración de las fases de exploración.

**Ventajas:**
- Reduce la exploración innecesaria con el tiempo.  
- Mejores garantías teóricas que ε-Greedy.

**Desventajas:**
- Más costoso computacionalmente.

---

### **3.3. Algoritmos Basados en Gradiente**

Estos algoritmos actualizan las **preferencias** de cada brazo utilizando la recompensa obtenida:

#### **Softmax**

Asigna probabilidades a cada brazo usando la función **softmax**:

> **P(aᵢ) = exp(Hᵢ) / Σ exp(Hⱼ)**

Donde **Hᵢ** es la preferencia del brazo i, actualizada tras cada iteración.

#### **Gradient Bandit**

Variante que ajusta las preferencias usando una **tasa de aprendizaje**, teniendo en cuenta la media de las recompensas.

**Ventajas:**
- Adecuado para recompensas con estructura continua.  
- Ajusta dinámicamente exploración/explotación.

**Desventajas:**
- Sensible a la tasa de aprendizaje.

---

## **4. Métricas de Evaluación**

Para comparar el rendimiento de los algoritmos, se utilizan las siguientes métricas:

1. **Recompensa Promedio**
   - Evalúa cómo evoluciona la recompensa media con el tiempo.
   - Indica qué estrategia aprende más rápido y obtiene mejores resultados.

2. **Porcentaje de Selección del Brazo Óptimo**
   - Mide con qué frecuencia se selecciona el mejor brazo.
   - Un valor alto implica una buena capacidad de aprendizaje.

3. **Regret Acumulado**
   - Cuantifica la pérdida por no haber elegido siempre la mejor acción.
   - Cuanto menor sea el **regret**, mejor es el algoritmo.

---

## **5. Conclusión**

Este estudio analiza distintos enfoques para resolver el problema de los **K-Brazos**, comparando estrategias como **ε-Greedy**, **UCB** y **métodos basados en gradiente**. Además, se han evaluado distintas distribuciones de recompensa para observar su impacto en el comportamiento del agente.

**Resumen de resultados esperados:**

- **ε-Greedy (ε = 0.1)** suele ser una opción robusta en muchos escenarios.
- **UCB** permite una exploración más eficiente, especialmente en etapas tempranas.
- **Métodos de gradiente** se adaptan bien cuando las recompensas presentan estructuras complejas.
- La **distribución de los brazos** afecta significativamente la velocidad de aprendizaje y el rendimiento.

---

**Nota:** Todos los experimentos han sido desarrollados en **Python**, utilizando librerías como `numpy` y `matplotlib`, y están organizados en módulos para facilitar su ejecución y análisis.
