Estudiante: Andrés Felipe Flórez Olivera
Introducción a la Inteligencia Artificial - Semana 7 - Actividad 1

In [1]:
#Importacion de libreria random: Utilizada para generar números aleatorios, lo que permite al agente tomar decisiones aleatorias o explorar el entorno.
import random
#Impotacion de libreria numpy: numpy: Una biblioteca para realizar operaciones matemáticas complejas, especialmente útil para trabajar con arrays y matrices. Aquí se usa para manejar la tabla Q.
import numpy as np

class Environment:
  #__init__(self): Inicializa el entorno, estableciendo la posición del objetivo y reseteando el entorno para un nuevo episodio.
    def __init__(self):
        self.goal_position = 4  # Define el objetivo de manera más explícita
        self.reset()
  #reset(self): Reinicia el entorno al estado inicial, útil al comenzar un nuevo episodio.
    def reset(self):
        self.steps_left = 10
        self.board = [False] * 5
        self.board[self.goal_position] = True
  #is_done(self): Verifica si el entorno ha llegado a un estado terminal (por ejemplo, se han agotado los pasos disponibles).
    def is_done(self):
        return self.steps_left == 0
  #action(self, state):  Ejecuta una acción (avanzar o retroceder) y retorna si la acción resulta en alcanzar la posición objetivo. También decrementa el contador de pasos.
    def action(self, state):
        self.steps_left -= 1
        return self.board[state] if 0 <= state < len(self.board) else False

class Agent:
  #__init__(self): Inicializa el estado del agente.
    def __init__(self):
        self.reset()
  #reset(self): Reinicia el estado del agente a su posición inicial.
    def reset(self):
        self.state = 0
  # perform_action(self, action, env): Realiza una acción en el entorno y actualiza el estado del agente basado en la acción elegida.

    def perform_action(self, action, env):
        movement = {1: 1, 0: -1}.get(action, 0)  # Mapea la acción a un cambio de estado
        self.state = max(0, min(self.state + movement, env.goal_position))
        return env.action(self.state)
  #get_action_name(action): Método estático que traduce la acción numérica a una cadena de texto ("avanzar" o "retroceder") para facilitar la interpretación.
    @staticmethod
    def get_action_name(action):
        return "avanzar" if action == 1 else "retroceder"

class Learner:
  # __init__(self, agent, env, alpha, gamma, epsilon): Inicializa el aprendiz con referencias al agente y al entorno, junto con los parámetros de aprendizaje: tasa de aprendizaje (alpha), factor de descuento (gamma), y la tasa de exploración (epsilon).
    def __init__(self, agent, env, alpha=0.1, gamma=0.6, epsilon=0.1):
        self.agent = agent
        self.env = env
        self.alpha = alpha
        self.gamma = gamma
        self.epsilon = epsilon
        self.q_table = np.zeros((5, 2))  # 5 estados y 2 acciones
  # run_episode(self): Ejecuta un episodio completo de entrenamiento, donde el agente toma acciones ya sea exploratoriamente (aleatoriamente) o explotando su conocimiento actual (la acción con el mayor valor Q estimado). Actualiza la tabla Q basada en las recompensas obtenidas y las transiciones de estado.
    def run_episode(self):
        self.env.reset()
        self.agent.reset()
        step = 0
        while not self.env.is_done():
            step += 1
            current_state = self.agent.state
            action = random.choice([0, 1]) if random.uniform(0, 1) < self.epsilon else np.argmax(self.q_table[current_state])
            reward = self.agent.perform_action(action, self.env)
            next_state = self.agent.state
            self.q_table[current_state, action] = (1 - self.alpha) * self.q_table[current_state, action] + \
                                                  self.alpha * (reward + self.gamma * np.max(self.q_table[next_state]))
            print(f"Episodio: {step}, Estado actual: {current_state}, Acción: {self.agent.get_action_name(action)}, Nuevo estado: {next_state}")

#Orquestar procesamiento:
def main():
    episodes = 10
    env = Environment()
    agent = Agent()
    learner = Learner(agent, env)

    for episode in range(1, episodes + 1):
        print(f"\nEpisode {episode} iniciado")
        learner.run_episode()
        print(f"Episode {episode} completado")

main()



Episode 1 iniciado
Episodio: 1, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 2, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 3, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 4, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 5, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 6, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 7, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 8, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 9, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 10, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episode 1 completado

Episode 2 iniciado
Episodio: 1, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 2, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 3, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Episodio: 4, Estado actual: 0, Acción: retroceder, Nuevo estado: 0
