# Creación de la clase Bandit

In [47]:
import random

# Inicialmente crearemos un bandido con una cantidad de brazos dado por parámetro (por defecto utilizaremos 10 brazos)
class Bandit:
    def __init__(self, num_arms=10):
        # Cada uno de los brazos del bandido tiene su propia recompensa, la cual asignaremos como un número flotante aleatorio en el rango [-3, 3]. 
        self.arms = [random.uniform(-3,3) for i in range(num_arms)]

        # Adicionalmente, definimos un atributo de la clase (reward) para mantener la recompensa cumulativa del bandido
        self.reward = 0
        self.occurrences = [0] * num_arms
        self.cumulative_rewards = [0] * num_arms
        
    def choose_arm(self):
        # Se encarga de seleccionar un brazo a ejecutar, de forma aleatoria
        arm = random.randint(0, len(self.arms)-1)

        # Para poder realizar este cálculo, debemos llevar la cuenta de la cantidad de veces que ha sido escogido cada brazo
        # El cálculo de la recompensa primero actualiza las ocurrencias de escoger el brazo seleccionado aleatoriamente
        self.occurrences[arm] += 1

        # y la recompensa acumulada de cada brazo
        # Debemos actualizar la recompensa cumulativa, sumando la recompensa correspondiente al brazo 
        self.cumulative_rewards[arm] += self.arms[arm]

        # Calculamos Qt(a) como la recompensa cumulativa sobre las ocurrencias para el brazo dado y retornamos dicho valor
        Qta = self.cumulative_rewards[arm]/self.occurrences[arm]
        self.reward += Qta
        return Qta
        
    def run(self):
        # Creamos un bandido y una variable para almacenar la recompensa obtenida en cada iteración 
        expected_reward = []
        bandit = Bandit()

        # Para cada uno de los episodios, ejecutamos el bandido llamando la función choose_arm() y guardamos el resultado en la lista de recompensas esperadas
        for _ in range(1000):
            expected_reward.append(bandit.choose_arm())
        return expected_reward

# Ejecución del Bandido Greedy

In [45]:
bandit_greedy = Bandit()
bandit_greedy.run()

[2.7584122199646686,
 0.6784481391835291,
 2.2341676744308216,
 2.2341676744308216,
 2.7584122199646686,
 -2.4391730972818793,
 -1.0855041948119515,
 -2.4391730972818793,
 -1.0855041948119515,
 0.6784481391835291,
 0.6784481391835291,
 -1.0855041948119515,
 -2.4391730972818793,
 2.2477949287303565,
 2.2341676744308216,
 -2.4391730972818793,
 -2.3552927359570717,
 -1.0855041948119515,
 -0.6354707252545295,
 -1.009295485539785,
 -1.0855041948119515,
 -0.6354707252545295,
 -1.009295485539785,
 2.7584122199646686,
 -1.009295485539785,
 2.7584122199646686,
 2.7584122199646686,
 -1.4657217976757075,
 2.2477949287303565,
 2.2477949287303565,
 -1.4657217976757075,
 -1.4657217976757078,
 -0.6354707252545295,
 2.7584122199646686,
 0.6784481391835291,
 2.2477949287303565,
 -2.3552927359570717,
 2.2341676744308216,
 2.2341676744308216,
 0.6784481391835291,
 -2.3552927359570717,
 2.2341676744308216,
 -1.4657217976757075,
 -1.009295485539785,
 -1.009295485539785,
 -1.009295485539785,
 -1.46572179767