In [9]:
import numpy as np
import matplotlib.pyplot as plt

# Clase que representa el entorno del problema del bandido (multi-armed bandit)
class BanditEnvironment:
   def __init__(self):
       # Inicialización de las probabilidades de recompensa reales para cada brazo
       self.true_rewards = [0.2, 0.8, 0.5, 0.3, 0.9]

   # Método que simula la ejecución de una acción (tirar de un brazo)
   def step(self, action):
       """Ejecuta acción y devuelve recompensa"""
       # Genera una recompensa binaria (1 o 0) basada en la probabilidad del brazo seleccionado
       reward = 1 if np.random.random() < self.true_rewards[action] else 0
       return reward

# Clase que implementa un agente con estrategia epsilon-greedy
class EpsilonGreedyAgent:
   def __init__(self, n_actions, epsilon=0.1, decay_rate=0.99):
       # Número de acciones posibles (brazos del bandido)
       self.n_actions = n_actions
       # Probabilidad inicial de exploración
       self.epsilon = epsilon
       # Tasa de decaimiento para epsilon
       self.decay_rate = decay_rate
       # Valores Q estimados para cada acción (inicializados a 0)
       self.q_values = np.zeros(n_actions)
       # Contador de cuántas veces se ha seleccionado cada acción
       self.action_counts = np.zeros(n_actions)

   # Método para seleccionar una acción según la estrategia epsilon-greedy
   def select_action(self):
       # Con probabilidad epsilon, selecciona una acción aleatoria (exploración)
       if np.random.random() < self.epsilon:
           return np.random.randint(self.n_actions)
       # Con probabilidad 1-epsilon, selecciona la mejor acción conocida (explotación)
       else:
           return np.argmax(self.q_values)

   # Método para actualizar la estimación del valor Q de una acción
   def update_q_value(self, action, reward):
       # Incrementa el contador de la acción seleccionada
       self.action_counts[action] += 1
       # Actualiza el valor Q usando un promedio incremental
       self.q_values[action] += (reward - self.q_values[action]) / self.action_counts[action]

   # Método para reducir gradualmente epsilon (menos exploración con el tiempo)
   def decay_epsilon(self):
       self.epsilon *= self.decay_rate

# Función que simula el problema del bandido con el agente epsilon-greedy
def simulate_bandit_problem():
   # Creación del entorno con las recompensas reales
   env = BanditEnvironment()
   # Creación del agente con 5 acciones y epsilon inicial de 0.3
   agent = EpsilonGreedyAgent(n_actions=5, epsilon=0.3)

   # Listas para almacenar el historial de recompensas y acciones
   rewards_history = []
   actions_history = []

   # Bucle principal de simulación (1000 pasos)
   for step in range(1000):
       # 1. El agente selecciona una acción
       action = agent.select_action()

       # 2. El entorno devuelve una recompensa para la acción
       reward = env.step(action)

       # 3. El agente actualiza sus estimaciones con la recompensa recibida
       agent.update_q_value(action, reward)
       # Reducción gradual de epsilon
       agent.decay_epsilon()

       # Almacenamiento del historial para análisis posterior
       rewards_history.append(reward)
       actions_history.append(action)

   return rewards_history, actions_history, agent.q_values

# Ejecución de la simulación y obtención de resultados
rewards, actions, final_q_values = simulate_bandit_problem()

# Impresión de resultados finales
print("Valores Q finales estimados:", final_q_values)
print("Valores verdaderos:", [0.2, 0.8, 0.5, 0.3, 0.9])
print("Recompensa promedio:", np.mean(rewards))

Valores Q finales estimados: [0.1875     0.8        0.77777778 0.25       0.90491118]
Valores verdaderos: [0.2, 0.8, 0.5, 0.3, 0.9]
Recompensa promedio: 0.886
