***
# Multi-armed bandit (UCB1)
***

***
### Librerias

In [None]:
import numpy as np
from tqdm import tqdm
import matplotlib.pyplot as plt

***
### Parámetros

In [None]:
# Probabilidades de ganar de cada tragamonedas (desconocida a priori).
probabilidades = [0.25, 0.35, 0.55, 0.60]

# Pasos de entrenamiento.
epocas = 10000

***
### Entrenamiento

In [None]:
# Se crea una lista para contar cuantas veces se tomo cada decision.
n_i = {i:1 for i in range(len(probabilidades))}

# Inizializamos un diccionario para guardar los historicos de recompanzas obtenidas.
mu_i = {i:[0.5] for i in range(len(probabilidades))}

# Iniziamos el vector de recompenzas estimadas.
Q = np.zeros(len(probabilidades))

In [None]:
R = []
for ni in tqdm(range(epocas)):
    # Calculamos la cantidad de iteraciones.
    n = sum(n_i.values())
    
    # Calculamos la recompenza estimada de cada tragamoneda.
    Q = [np.mean(mu_i[i]) for i in range(len(probabilidades))]
    
    # Elegimos la mejor acción segun la ecuacion vista.
    action = np.array([Q[i] + np.sqrt(2*np.log(n)/n_i[i]) for i in range(len(probabilidades))]).argmax()
    
    # Devuelve una recompenza de 1 si ganamos y de 0 si no.
    reward = 1*(np.random.rand()<=probabilidades[action])
    R.append(reward)
    
    # Agregamos la recompenza al historico de esa acción.
    mu_i[action].append(reward)
    
    # Sumamos una interacción a esa tragamoneda.
    n_i[action] +=1

In [None]:
plt.figure(figsize=(10,6))
plt.plot(np.cumsum(R)/(np.array(range(len(R)))+1), lw=3)
for i in range(len(probabilidades)):
    plt.plot([0,len(R)], [probabilidades[i], probabilidades[i]], 
             ':', lw=3, label='prob='+str(probabilidades[i]))
plt.grid()
plt.xlabel('epocas')
plt.ylabel('probabilidades')
legend = plt.legend()

***
***