***
# Multi-armed bandit (Softmax)
***

***
### Librerias

In [None]:
import numpy as np
from tqdm import tqdm
from scipy.special import softmax
import matplotlib.pyplot as plt

***
### Parámetros

In [None]:
# Probabilidades de ganar de cada tragamonedas (desconocida a priori).
probabilidades = [0.25, 0.35, 0.55, 0.60]

# Pasos de entrenamiento.
epocas = 10000

# Tau.
t = 0.3

***
### Entrenamiento

In [None]:
# Se crea una lista para contar cuantas veces se tomo cada decision.
k = np.zeros(len(probabilidades))

# Iniziamos el vector de probabilidades estimadas.
Q = 0.5*np.ones(len(probabilidades))

In [None]:
R = []
for i in tqdm(range(epocas)):
    # Elegimos una acción con la probabilidad dada por softmax.
    action = np.random.choice(len(Q),p=softmax(Q/t))

    # Devuelve una recompenza de 1 si ganamos y de 0 si no.
    reward = 1*(np.random.rand()<=probabilidades[action])
    R.append(reward)

    # Actualizamos las probabilidades estimadas segun la ecuación vista.
    Q[action] = Q[action] + 1.0/(1.0+k[action]) * (reward-Q[action])
    k[action] += 1

In [None]:
plt.figure(figsize=(10,6))
plt.plot(np.cumsum(R)/(np.array(range(len(R)))+1), lw=3)
for i in range(len(probabilidades)):
    plt.plot([0,len(R)], [probabilidades[i], probabilidades[i]], 
             ':', lw=3, label='prob='+str(probabilidades[i]))
plt.grid()
plt.xlabel('epocas')
plt.ylabel('probabilidades')
legend = plt.legend()

***
***