***
# Multi-armed bandit (Epsilon-decreasing)
***

***
### Librerias

In [None]:
import numpy as np
from tqdm import tqdm
import matplotlib.pyplot as plt

***
### Parámetros

In [None]:
# Probabilidades de ganar de cada tragamonedas (desconocida a priori).
probabilidades = [0.25, 0.35, 0.55, 0.60]

# Pasos de entrenamiento.
epocas = 10000

# Epsilon-decreasing.
epsilon_greedy = np.logspace(0,-5, epocas)

In [None]:
plt.plot(epsilon_greedy, lw=3)
plt.grid()
plt.xlabel('epocas');
plt.ylabel('epsilon');

***
### Entrenamiento

In [None]:
# Se crea una lista para contar cuantas veces se tomo cada decision.
k = np.zeros(len(probabilidades))

# Inicializamos el vector de probabilidades estimadas.
Q = 0.5*np.ones(len(probabilidades))

In [None]:
R = []
for i in tqdm(range(epocas)):
    eps = epsilon_greedy[i]
    rnd = np.random.rand()

    # Si el valor aleatorio es menor al valor 
    # de epsilon elegimos una tragamoneda al azar.
    if rnd<eps:
        action = np.random.choice(range(len(Q)))
    # Si es mayor, elegimos la tragamoneda que tiene mayor probabilidad (segun nuestra estimación).
    else:
        action = np.argmax(Q)

    # Devuelve una recompenza de 1 si ganamos y de 0 si no.
    reward = 1*(np.random.rand()<=probabilidades[action])
    R.append(reward)

    # Actualizamos las probabilidades estimadas segun la ecuación vista.
    Q[action] = Q[action] + 1.0/(1.0+k[action]) * (reward-Q[action])
    k[action] += 1

In [None]:
plt.figure(figsize=(10,6))
plt.plot(np.cumsum(R)/(np.array(range(len(R)))+1), lw=3)
for i in range(len(probabilidades)):
    plt.plot([0,len(R)], [probabilidades[i], probabilidades[i]], 
             ':', lw=3, label='prob='+str(probabilidades[i]))
plt.grid()
plt.xlabel('epocas')
plt.ylabel('probabilidades')
legend = plt.legend()

***
***