<a href="https://colab.research.google.com/github/josesanchfez-umu/k_brazos_SFDD/blob/main/main.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción al Problema del Bandido de k-Brazos

## ¿Qué es el problema del bandido de k-brazos?

El problema del bandido de k-brazos es un problema asociado al aprendizaje por refuerzo que modela una situación de toma de decisiones secuencial bajo incertidumbre.

Consiste en una máquina tragaperras con *k* brazos, donde cada brazo tiene una distribución de recompensa desconocida. El objetivo es maximizar la recompensa acumulada a lo largo del tiempo, equilibrando la exploración (probar nuevos brazos) y la explotación (usar el conocimiento previo para elegir el brazo que parece mejor). Para ello, se emplearán diversos algoritmos que siguen una política diferente a la hora de tomar decisiones, obteniendo unos resultados representados de forma gráfica que se utilizarán, posteriormente, para realizar una serie de comparaciones entre ellos con el fin de alcanzar unas conclusiones sobre la idoneidad de unos u otros.

## Algoritmos a estudiar

En este trabajo se estudiarán los siguientes algoritmos ya incluidos y vistos en clase:

1. **ε-Greedy**: Un algoritmo que equilibra exploración y explotación eligiendo aleatoriamente con probabilidad ε y eligiendo el mejor brazo conocido con probabilidad 1-ε.
2. **UCB (Upper Confidence Bound)**: Un algoritmo que selecciona el brazo con el límite superior de confianza más alto.
3. **Ascenso del Gradiente**: Un algoritmo que ajusta las preferencias de los brazos basándose en las recompensas obtenidas.
4. **Métodos Bayesianos**: Incluyen el muestreo de Thompson y UCB Bayesiano, que utilizan distribuciones de probabilidad para modelar la incertidumbre sobre las recompensas.

# Estructura del repositorio

Este repositorio contiene los siguientes ficheros y directorios, siguiendo de manera similar la estructura recomendada en el enunciado de la práctica:

- **docs/**: Carpeta con los documentos usados para la memoria (LaTex, bibliografías y pdfs generados)
- **src/**: Directorio que almacena los ficheros .py incluidos en el repositorio base. Se compone de las siguientes carpetas:
    - **algorithms/**: Ficheros Python con los algoritmos a implementar en los estudios.
    - **arms/**: Ficheros Python que definen las clases de objetos utilizados en los algoritmos.
    - **plotting**: Ficheros correspondientes a la representación de resultados de ejecución de los algoritmos y posterior dibujo de gráficas.
- **bandit_experiment.ipynb**: Experimento original del repositorio que estudia los algoritmos ε-Greedy.
- **Estudios de la familia UCB**: Estudio propio de la familia de algoritmos UCB: UCB1 y UCB2.
    - **ucb_bernoulli.ipynb**
    - **ucb_binomial.ipynb**
    - **ucb_normal.ipynb**
- **Estudios de la familia de ascenso del gradiente**: Estudio propio de la familia de algoritmos de ascenso del gradiente: Softmax y Gradiente de Preferencias.
    - **gradiente_bernoulli.ipynb**
    - **gradiente_binomial.ipynb**
    - **gradiente_normal.ipynb**

## Configuración del entorno

Clonamos el repositorio y lo seleccionamos como directorio principal.

In [None]:
!git clone https://github.com/josesanchfez-umu/k_brazos_SFDD.git
!cd k_brazos_SFDD

Antes de ejecutar los notebooks, se deben instalar las dependencias necesarias ejecutando la siguiente celda:

In [None]:
# Instalar dependencias
!pip install -r requirements.txt

## Navegación entre notebooks

En esta celda se incluyen los enlaces a todos los estudios mencionados arriba:

- [Estudio base ε-Greedy](bandit_experiment.ipynb)
- [Estudio UCB con distribución Bernoulli](ucb_bernoulli.ipynb)
- [Estudio UCB con distribución binomial](ucb_binomial.ipynb)
- [Estudio UCB con distribución normal](ucb_normal.ipynb)
- [Estudio ascenso del gradiente con distribución Bernoulli](gradiente_bernoulli.ipynb)
- [Estudio ascenso del gradiente con distribución binomial](gradiente_binomial.ipynb)
- [Estudio ascenso del gradiente con distribución normal](gradiente_normal.ipynb)