<a href="https://colab.research.google.com/github/estebanbecerra/k_brazos_BCR/blob/main/notebook1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introducción al Problema de los K-Brazos y Métodos de Aprendizaje por Refuerzo**

## **1. Contexto del Problema**

El problema de los **K-Brazos** (*Multi-Armed Bandit*, MAB) es un problema fundamental en el **Aprendizaje por Refuerzo** y en la toma de decisiones secuenciales bajo incertidumbre. En este escenario, un agente tiene que elegir repetidamente entre **K opciones** (brazos), cada una de las cuales proporciona una recompensa **desconocida y estocástica**.

El objetivo del agente es aprender, a partir de la experiencia, **qué brazo seleccionar** para maximizar su recompensa acumulada a lo largo del tiempo. Para ello, debe equilibrar dos estrategias opuestas:

- **Exploración:** Probar nuevos brazos para descubrir cuál es el mejor.
- **Explotación:** Elegir el brazo que ha dado las mejores recompensas hasta el momento.

Este dilema entre **exploración y explotación** es clave en numerosas aplicaciones reales, como la **publicidad online**, la **medicina personalizada**, los **sistemas de recomendación** y la **optimización de estrategias de inversión**.

---

## **2. Tipos de Brazos Implementados**

Para modelar las recompensas en el problema de los K-Brazos, hemos utilizado tres distribuciones estadísticas diferentes:

### **2.1. Brazo con Distribución Normal**
Cada brazo genera recompensas que siguen una **distribución normal** con media **μ** y desviación estándar **σ**:

**X ∼ N(μ, σ²)**

- Se usa cuando las recompensas pueden tomar valores continuos.
- Ejemplo: **Tiempo de respuesta de un servidor, precios en bolsa, etc.**

### **2.2. Brazo con Distribución Bernoulli**
Cada brazo devuelve una recompensa **binaria** (0 o 1) con probabilidad **p**:

**X ∼ Bernoulli(p)**

- Se emplea en problemas donde cada acción tiene **éxito o fracaso**.
- Ejemplo: **Un usuario hace clic en un anuncio o no.**

### **2.3. Brazo con Distribución Binomial**
Cada brazo devuelve una recompensa que sigue una **distribución Binomial** con **n** intentos y probabilidad de éxito **p**:

**X ∼ Bin(n, p)**

- Se usa en contextos donde una acción puede tener múltiples intentos exitosos dentro de un periodo.
- Ejemplo: **Cantidad de clics en un anuncio después de n visualizaciones.**

---

## **3. Algoritmos Utilizados**

Para resolver el problema de los K-Brazos, se han implementado diferentes estrategias de selección de brazos:

### **3.1. Algoritmo Epsilon-Greedy**
El algoritmo **ε-Greedy** combina exploración y explotación de forma simple:
- Con probabilidad **ε**, selecciona un brazo **aleatoriamente** (exploración).
- Con probabilidad **1 - ε**, selecciona el brazo con **mayor recompensa esperada** (explotación).

Parámetro clave:
- **ε (epsilon)**: Controla el grado de exploración (valores típicos: **0.1, 0.01, 0**).

**Ventajas:**
Simple de implementar.  
Funciona bien en la práctica con un ajuste adecuado de **ε**.  

**Desventajas:**
No ajusta dinámicamente la exploración.  

---

### **3.2. Algoritmo UCB (Upper Confidence Bound)**
El algoritmo **UCB (Upper Confidence Bound)** **balancea exploración y explotación** de manera más eficiente utilizando una estrategia basada en la **incertidumbre** de cada brazo.

- Se calcula un **intervalo de confianza superior** para cada brazo.
- Se selecciona el brazo con el **mayor límite superior**, favoreciendo la exploración al inicio y la explotación posteriormente.

Dos variantes implementadas:
1. **UCB1:** Calcula los límites superiores como:

   **UCB_i = μ̂_i + c √( log(t) / N_i )**

   donde **c** controla la exploración.

2. **UCB2:** Introduce un ajuste dinámico basado en la duración de las fases de exploración.

**Ventajas:**
Reduce la exploración innecesaria con el tiempo.  
Tiene mejores garantías teóricas que **ε-Greedy**.  

**Desventajas:**
Requiere más cálculos en comparación con **ε-Greedy**.  

---

### **3.3. Algoritmos Basados en Gradiente**
Los algoritmos basados en **ascenso de gradiente** actualizan las preferencias de cada brazo basándose en la recompensa obtenida.

1. **Softmax:** Asigna probabilidades a cada brazo según la regla de **softmax**:

   **P(a_i) = exp(H_i) / Σ exp(H_j)**

   donde **H_i** es la preferencia del brazo **i**, actualizada tras cada iteración.

2. **Gradient Bandit:** Variante que ajusta las preferencias utilizando una tasa de aprendizaje.

**Ventajas:**
Funciona bien en problemas con recompensas más estructuradas.  
Ajusta dinámicamente la exploración y explotación.  

**Desventajas:**
Sensible a la elección de la tasa de aprendizaje.  

---

## **4. Métricas de Evaluación**
Para comparar el rendimiento de los algoritmos, se utilizan las siguientes métricas:

1. **Recompensa Promedio**   
   - Muestra **cómo evoluciona la recompensa media** obtenida por cada algoritmo con el tiempo.
   - Indica qué estrategia aprende **más rápido** y obtiene **mejores recompensas**.

2. **Porcentaje de Selección del Brazo Óptimo**  
   - Indica **con qué frecuencia cada algoritmo selecciona el mejor brazo**.
   - Un valor alto implica que el algoritmo **aprendió bien** cuál es la mejor opción.

3. **Regret Acumulado**   
   - Mide **la pérdida acumulada** por no elegir siempre el brazo óptimo.
   - Cuanto **menor sea el regret**, mejor es el algoritmo.

---

## **5. Conclusión**
Este estudio analiza distintos enfoques para resolver el problema de los **K-Brazos**, comparando estrategias clásicas como **ε-Greedy**, métodos basados en **UCB** y enfoques de **ascenso de gradiente**. Además, se han evaluado distintas distribuciones de recompensa para entender su impacto en el aprendizaje del agente.

**Resumen de resultados esperados:**
- **ε-Greedy (ε=0.1)** suele ser una opción robusta en muchos escenarios.
- **UCB** ofrece una mejor exploración adaptativa con el tiempo.
- **Métodos de Gradiente** pueden ser útiles cuando las recompensas siguen distribuciones más complejas.
- **La elección de la distribución de los brazos afecta significativamente la velocidad de aprendizaje y el rendimiento de los algoritmos**.

En los siguientes notebooks, realizaremos **estudios detallados** para cada combinación de algoritmos y distribuciones, evaluando su impacto y rendimiento.

---

**Nota:** Todos los experimentos han sido implementados en **Python** utilizando librerías como `numpy` y `matplotlib`, organizados en módulos para facilitar su análisis y ejecución.
