# Notebook Principal: Problema del Bandido de los k-Brazos

Notebook principal del proyecto. Desde aquí, puedes acceder y navegar entre los distintos notebooks de experimentos relacionados con el problema del bandido de los k-brazos.

    Author: Iván Martínez Cuevas y Antonio Orenes Lucas
    Email: ivan.martinezc@um.es y antonio.orenesl@um.es
    Date: 2025/02/12

This software is licensed under the GNU General Public License v3.0 (GPL-3.0),
with the additional restriction that it may not be used for commercial purposes.

For more details about GPL-3.0: https://www.gnu.org/licenses/gpl-3.0.html

## Instrucciones
1. **Ejecuta las primeras celdas** para clonar el repositorio e instalar los paquetes necesarios.
2. **Explora los experimentos** accediendo a los notebooks individuales desde los enlaces proporcionados más adelante.

A continuación, se presenta una introducción al problema y una descripción de los experimentos que realizaremos.


# Problema del bandido de k-brazos

## ¿Sobre qué trata el problema del bandido de k-brazos?
Es un problema clásico de aprendizaje por refuerzo donde un agente debe tomar decisiones en un entorno incierto para maximizar su recompensa a lo largo del tiempo.

### Analogía con una máquina tragamonedas
En un casino hay **k** máquinas tragamonedas diferentes (**brazos**). Cada una tiene una **distribución** de recompensa desconocida:
* Algunas máquinas dan dinero frequentemente.
* Otras dan menos a menudo, pero cuando lo dan el premio suele ser más grande.

El objetivo es encontrar la máquina que da la mayor ganancia en el largo plazo, pero sin saber cúal es al inicio.

Para lograrlo, debemos decidir entre:
* **Exploración**: probamos máquinas diferentes para descrubir cual es mejor.
* **Explotación**: utilizamos la máquina que creemos que da la mejor recompensa basado en lo que ya sabemos.

Este dilema entre **exploración y explotación** es el **corazón del problema**.

## ¿Cómo se modela matemáticamente?
El problema se define con los siguientes elementos:
* $k$: Número de brazos disponible.
* $a_t$: Acción elegida en el instante t (qué brazo seleccionamos).
* $r_t$: Recompensa obtenida en el tiempo $t$ tras elegir $a_t$.

Cada brazo tiene una distribución de recompensa desconocida $P(r_t| a_t = a)$, y el objetivo es maximizar la recompensa total:
$$max\sum_{t=1}^{T} r_t$$
Donde $T$ es el horizonte temporal.

## ¿Cómo resolvemos este problema? (Distintos experimentos)
Existen varios algoritmos que intentan equilibar la exploración con la explotacion. En este trabajo vamos a probar y comparar algunos de ellos.
1. Epsilon-greedy
2. Upper Confidence Bound (UCB)
3. Ascenso del gradiente: Softmax y Gradiente de Preferencias

# Enlaces a estudios (notebooks)

A continuación se adjuntan los enlaces a los distintos estudios realizados:

[Epsilon-Greedy](https://colab.research.google.com/github/Imartinezcuevas/k_brazos_MC_OL/blob/main/bandit_experiment_epsilon_greedy.ipynb)

[UCB](https://colab.research.google.com/github/Imartinezcuevas/k_brazos_MC_OL/blob/main/bandit_experiment_ucb.ipynb)

[Ascenso de Gradiente](https://colab.research.google.com/github/Imartinezcuevas/k_brazos_MC_OL/blob/main/bandit_experiment_gradient_ascent.ipynb)

[Epsilon-Greedy VS Ascenso de Gradiente](https://colab.research.google.com/github/Imartinezcuevas/k_brazos_MC_OL/blob/main/bandit_experiment_GreedyVsGPreferencias.ipynb)

[UCB2 VS Ascenso de Gradiente](https://colab.research.google.com/github/Imartinezcuevas/k_brazos_MC_OL/blob/main/bandit_experiment_UCB2vsGPreferencias.ipynb)

[Comparación final](https://colab.research.google.com/github/Imartinezcuevas/k_brazos_MC_OL/blob/main/bandit_experiment_ComparacionFinal.ipynb)