In [38]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [39]:
class BernoulliBanditEnv(object): 
    # Clase que define el environment donde el reward es 0 o 1 dependiendo de una probabilidad p.

    def __init__(self, num_arms=10, p=None):
        self.num_arms = num_arms
        self.actions = np.arange(num_arms)     # define set of actions

        if len(p)==1:
            self.p = np.random.beta(0.5, 0.5, size=num_arms)
        elif len(p) == num_arms:
            self.p = p
        else:
            raise Exception('Number of probabilities ({}) does not correspond to number of arms ({}).'.format(len(q), num_arms))
        self.best_action = np.argmax(self.p)   # La mejor accion dado el enviroenment

    def reward(self, action):
        return np.random.binomial(1, p=self.p[action])


In [40]:
class Agent(object):
    # Clase que define al agente. Cada agente cuenta con una regla de decisión y una regla de aprendizaje.
    
    def __init__(self, learning_rule, decision_rule, param=None):
        self.decision_rule = decision_rule
        self.learning_rule = learning_rule

        if decision_rule == "epsilon-greedy":
            self.epsilon = param["epsilon"]
        
        if decision_rule == "UCB":
            self.UCB_param = param["UCB_param"]
    
    def environment(self, env, init_q):
        # inicializa el environment
        self.env = env                                  
        self.k = env.num_arms                           
        self.actions = np.arange(self.k)                
        self.act_count = np.zeros(self.k)               
        self.iteration = 0     
        if self.learning_rule == "BayesianBetaPrior":
            self.alpha = np.random.uniform(size=self.k)
            self.beta = np.random.uniform(size=self.k)
        if len(init_q) == self.k:
            self.q_estimate = init_q
        else:
            raise Exception('Number of initial values ({}) does not correspond to number of arms ({}).'.format(len(init_q), self.k))

    def learn(self, a, r):
        # dada una acción y una recompenza, actualiza la value function.
        if self.learning_rule == "averaging":
            self.q_estimate[a] += 1/self.act_count[a] * (r - self.q_estimate[a])
            
        if self.learning_rule == "BayesianBetaPrior":
            self.alpha[a] += r
            self.beta[a] += 1 - r 
            
    def act(self):
        # realiza una acción.
        self.iteration += 1 
        if self.decision_rule == "greedy":
            # COMPLETAR
            pass

        if self.decision_rule == "epsilon-greedy":
            # COMPLETAR
            selected_action = 0
            pass
        
        if self.decision_rule == "UCB":
            # COMPLETAR
            pass
        if self.decision_rule == "Thompson":
            # COMPLETAR
            pass
        self.act_count[selected_action] += 1
        return selected_action

In [41]:
def simulateBandits(agents, narms, initp=None, initq=None, repetitions=1000, N=100):
    # función que realiza las simulaciones de los agentes. Se define el número de repeticiones que seran
    #  promediadas y el número de pasos N. agents es una lista de agentes.
    
    rewards = np.zeros((len(agents), repetitions, N))
    bestarm = np.zeros((len(agents), repetitions, N))
    for i, agent in enumerate(agents):
        for j in np.arange(repetitions):
            environment = BernoulliBanditEnv(num_arms=narms, p=initp)
            agent.environment(environment, initq if not(initq == None) else np.zeros(narms))
            for n in np.arange(N):
                a = agent.act()
                r = environment.reward(a)
                agent.learn(a, r)
                rewards[i, j, n] = r
                bestarm[i, j, n] = 1 if a == environment.best_action else 0
    
    return np.squeeze(np.mean(rewards, axis=1)), np.squeeze(np.mean(bestarm, axis=1))

In [42]:
def plot_results(agents, actions, rewards):
    # COMPLETAR
    
    pass

In [43]:
# new agent
params = {"epsilon": 0.1}
agent = Agent("averaging", "epsilon-greedy", params)
agents = [agent]
# print simulation with n arms

initp = [0.5, 0.5] #prob of something of each arm
narms = len(initp)
print(simulateBandits(agents, narms=narms, initp=initp))

(array([0.481, 0.531, 0.505, 0.521, 0.489, 0.504, 0.503, 0.498, 0.502,
       0.548, 0.484, 0.508, 0.487, 0.482, 0.471, 0.509, 0.504, 0.504,
       0.452, 0.509, 0.468, 0.506, 0.534, 0.497, 0.511, 0.479, 0.518,
       0.508, 0.499, 0.488, 0.527, 0.51 , 0.489, 0.473, 0.461, 0.52 ,
       0.516, 0.532, 0.49 , 0.506, 0.476, 0.522, 0.534, 0.49 , 0.494,
       0.531, 0.504, 0.516, 0.493, 0.51 , 0.488, 0.481, 0.487, 0.507,
       0.494, 0.498, 0.494, 0.508, 0.516, 0.482, 0.493, 0.509, 0.455,
       0.496, 0.506, 0.502, 0.477, 0.487, 0.535, 0.497, 0.507, 0.505,
       0.51 , 0.488, 0.489, 0.507, 0.48 , 0.526, 0.465, 0.484, 0.492,
       0.471, 0.491, 0.491, 0.511, 0.491, 0.511, 0.523, 0.508, 0.523,
       0.491, 0.475, 0.48 , 0.484, 0.473, 0.52 , 0.497, 0.497, 0.516,
       0.475]), array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 

# Ejercicios:

1) Completar pertinentemente el código donde diga "COMPLETAR".

2) Realizar simulaciones con un bandit de 2 brazos (P = [0.4, 0.8]) para cada una de las reglas de decisión y graficar la recompensa promedio, la recompensa acumulada y el porcentaje de veces que fue elegido el mejor brazo en función de los pasos. Interprete los resultados.

3) Realizar simulaciones con un bandit de 10 brazos (P = [0.2, 0.2, 0.4, 0.2, 0.2, 0.2, 0.2, 0.8, 0.2, 0.2]) para cada una de las reglas de decisión y graficar la recompensa promedio, la recompensa acumulada y el porcentaje de veces que fue elegido el mejor brazo en función de los pasos. Interprete los resultados.

4) Estudie la dependencia del hiperparametro epsilon en la regla de decisión epsilon-greedy.
