***
# Multi-armed bandit (Bayesian Bandits)
***

***
### Librerias

In [None]:
import numpy as np
from tqdm import tqdm
from scipy.stats import beta
import matplotlib.pyplot as plt

***
### Parámetros

In [None]:
# Probabilidades de ganar de cada tragamonedas (desconocida a priori).
probabilidades = [0.25, 0.35, 0.55, 0.60]

# Pasos de entrenamiento.
epocas = 10000

***
### Entrenamiento

In [None]:
# Creamos la lista de alpha y beta para cada acción.
alphas = [1 for _ in range(len(probabilidades))]
betas = [1 for _ in range(len(probabilidades))]

In [None]:
R = []
for ni in tqdm(range(epocas)):
    # Tomamos un valor aleatorio de cada distribucion.
    rnd_values = [np.random.beta(alphas[i], betas[i]) for i in range(len(probabilidades))]
    
    # Elegimos la mejor acción.
    action = np.argmax(rnd_values)
    
    # Devuelve una recompenza de 1 si ganamos y de 0 si no.
    reward = 1*(np.random.rand()<=probabilidades[action])
    R.append(reward)
    
    # ACtualizamos los valores de alpha y beta a esa acción.
    alphas[action] += reward
    betas[action] += 1-reward

In [None]:
plt.figure(figsize=(10,6))
plt.plot(np.cumsum(R)/(np.array(range(len(R)))+1), lw=3)
for i in range(len(probabilidades)):
    plt.plot([0,len(R)], [probabilidades[i], probabilidades[i]], 
             ':', lw=3, label='prob='+str(probabilidades[i]))
plt.grid()
plt.xlabel('epocas')
plt.ylabel('probabilidades')
legend = plt.legend()

***
***