
![image](Banner.jpg)

# Bandidos con &epsilon;-decay 

Para este ejercicio extenderemos la implementación de los bandidos de k-brazos del tutorial de construcción de bandidos, con la estrategia de epsilon decay para permitir al bandido mediar entre la exploración y la explotación de los los brazos a accionar.

La estrategía de &epsilon;-decay extendiende la forma greedy de escoger las acciones del bandido; se escoge la acción con mayor recompensa esperada Q<sub>n</sub>(b) con probabilidad 1-&epsilon; y una acción aleatoria con probabilidad &epsilon;. La extensión que implementaremos debe comenzar con un valor de &epsilon; grande para fomentar la exploración de los brazos y se debe reducir el tamaño de &epsilon; con el paso de los episodios para empezar el proceso de exploración.

En esta implementación particular, utilizaremos un algoritmo que reduce el tamaño de &epsilon; en un 10\% cada 100 episodios ejecutados.

## Implementación del algoritmo

El código base de este ejercicio será la implementación del bandido de k-brazos.

Los cambios que realizaremos sobre el bandido se definen incrementalmente, pero todos se deben realizar sobre la misma celda del notebook. Cada modificación reuqerida estará asociada con sus pruebas correspondientes.


### Parámetro epsilon

Para introducir la estrategia de epsilon decay es necesario definir un nuevo atributo (`epsilon`) para la clase `Bandit`. El valor de epsilon se recibe como parámetro en la construcción de la clase y por defecto tendrá un valor de 0.9 (para fomentar la exploración al comienzo de la ejecución.


In [None]:
#Implementación del algoritmo

import random 
#Definición de librerias requeridas
# your code here
#raise NotImplementedError

class Bandit:
    def __init__(self, num_arms=10, epsilon = 0.9):
        self.arms = [random.uniform(-3,3) for i in range(num_arms)]
        self.rewards = [0 for i in range(num_arms)]
        self.occurrences = [0 for i in range(num_arms)]
        self.cumulative_rewards = [0 for i in range(num_arms)]
        # definición nuevos atributos
        self.epsilon = epsilon
        self.arm = 0
        # your code here
        #raise NotImplementedError
    
    def choose_arm(self) -> int:
        # your code here
        self.arm = random.choice(range(len(self.arms)))
        return self.arm

    def expected_reward(self, arm:int) -> float:
        self.occurrences[arm] += 1
        reward = self.arms[arm]
        self.cumulative_rewards[arm] += reward
        self.rewards[arm] = self.cumulative_rewards[arm]/self.occurrences[arm]
        return self.rewards[arm]
    
    def run(self, episodes = 1000) -> float:
        # your code here
        for episode in range(episodes):
            if random.random() > self.epsilon:
                self.arm = self.choose_arm()
            else:
                self.arm = self.rewards.index(max(self.rewards))
            self.expected_reward(self.arm)
        raise NotImplementedError
        return self.rewards
    

In [22]:
#pruebas de la definición del bandido

bandit = Bandit()
### BEGIN TESTS
try:
    bandit.arms
except:
    print("El atributo arms no esta definido")
assert len(bandit.arms) == 10, "Por defecto, el bandido debe tener 10 brazos"

b = Bandit(num_arms=4,epsilon=0.1)
assert len(b.arms) == 4, "El bandido se debe definir con la cantidad de brazos que se pasan por parámetro"
assert b.epsilon == 0.1, "El valor de epsilon se debe inicializar correctamente"

try:
    bandit.rewards
except:
    print("El atributo reward no esta definido")
try:
    bandit.arm
except:
    print("El atributo reward no esta definido")
try:
    bandit.epsilon
except:
    print("El atributo epsilon no esta definido")

for i in range(len(bandit.arms)):
    reward = bandit.rewards[i]
    assert reward == 0, "La recompensa acumulada para cada brazo se debe inicializar en 0"    
### END TESTS
for _ in range(100):
    i = bandit.choose_arm()
    brazos[i] += 1
brazos

[51, 50, 47, 59, 51, 52, 45, 49, 48, 48]

In [None]:
#Pruebas adicionales


### Agregar la estrategia &epsilon;

Modifique la función `choose_arm` para tenga en cuenta el atributo epsilon del agente, para escoger el brazo a ejecutar aleatoriamente con probabilidad `epsilon` y escoge el brazo con mejor recompensa acumulada total (en la lista de `rewards`) con probabilidad `1-epsilon`.

Si existen varios brazos con el valor máximo de recompensa, se retorna cualquiera de ellos.

Esta función debe retornar el número del brazo del bandito a ejecutar.

In [None]:
#pruebas de la función choose_arm

bandit = Bandit()



In [None]:
#Pruebas adicionales


### Epsilon decay

Modifique la función `run` que, ahora, debe calcular el decrecimiento del atributo epsilon. Cada 100 episodios ejecutados, la epsilon debe caer un 10\% (se reduce el valor de epsilon en un 10\% del valor actual)

In [None]:
#Pruebas de la función run

bandit = Bandit(10, 0.9)



In [None]:
#Pruebas adicionales
