In [1]:
import numpy as np

class WhacAMole:
    def __init__(self, n_moles=5, epsilon=0.1):
        self.n_moles = n_moles
        self.epsilon = epsilon
        self.q_true = np.random.randn(n_moles)  # Valores verdaderos de recompensa para cada topo
        self.q_estimates = np.zeros(n_moles)  # Estimaciones iniciales de las recompensas
        self.action_counts = np.zeros(n_moles)  # Conteo de veces que se ha elegido cada topo

    def choose_action(self):
        # Estrategia ε-Greedy
        if np.random.rand() < self.epsilon:
            return np.random.choice(self.n_moles)  # Exploración
        else:
            return np.argmax(self.q_estimates)  # Explotación

    def get_reward(self, action):
        # Recompensa obtenida es un valor aleatorio alrededor del valor verdadero
        return np.random.randn() + self.q_true[action]

    def update_estimates(self, action, reward):
        self.action_counts[action] += 1
        # Actualización incremental de la estimación del valor de acción
        self.q_estimates[action] += (reward - self.q_estimates[action]) / self.action_counts[action]

    def play(self, steps=1000):
        rewards = np.zeros(steps)
        for t in range(steps):
            action = self.choose_action()
            reward = self.get_reward(action)
            self.update_estimates(action, reward)
            rewards[t] = reward
        return rewards

# Ejecución del juego
game = WhacAMole()
rewards = game.play(steps=1000)

print("Estimaciones finales de las recompensas:", game.q_estimates)
print("Valores verdaderos de las recompensas:", game.q_true)


Estimaciones finales de las recompensas: [-0.21185846  1.06908306 -0.45094464 -1.24867455  0.26751951]
Valores verdaderos de las recompensas: [-0.5920272   1.05459843 -0.99168474 -1.42616414  0.24145076]
