In [3]:
import random
import numpy as np

class Environment:
    def __init__(self):
        self.steps = 10
        self.board = [False] * 5
        self.board[4] = True  # El objetivo está en el último índice

    def reset(self):
        self.steps = 10
        self.board = [False] * 5
        self.board[4] = True

    def start(self):
        return 0

    def end(self):
        return len(self.board)

    def is_done(self):
        return self.steps == 0

    def action(self, state):
        if state < 0 or state >= len(self.board):
            return False
        self.steps -= 1
        return self.board[state]

class Agent:
    def __init__(self):
        self.state = 0
        self.actions = [0, 1]  # 0 para retroceder, 1 para avanzar

    def reset(self):
        self.state = 0

    def perform_action(self, action, env):
        if action == 1:
            self.state = min(self.state + 1, env.end() - 1)
        else:
            self.state = max(self.state - 1, env.start())
        return env.action(self.state)

    def get_action_name(self, action):
        return "avanzar" if action == 1 else "retroceder"

class Learner:
    def __init__(self, agent, env, alpha=0.1, gamma=0.6, epsilon=0.1):
        self.agent = agent
        self.env = env
        self.alpha = alpha
        self.gamma = gamma
        self.epsilon = epsilon
        self.table = np.zeros((env.end(), 2))

    def run(self):
        self.env.reset()
        self.agent.reset()
        done = False
        while not done:
            current_state = self.agent.state
            if random.uniform(0, 1) < self.epsilon:
                action = random.choice(self.agent.actions)
            else:
                action = np.argmax(self.table[current_state])
            reward = self.agent.perform_action(action, self.env)
            print(f"Estado actual: {current_state}, Acción: {self.agent.get_action_name(action)}, Nuevo estado: {self.agent.state}")
            done = self.env.is_done()
            next_state = self.agent.state
            old_value = self.table[current_state, action]
            next_max = np.max(self.table[next_state])
            new_value = (1 - self.alpha) * old_value + self.alpha * (reward + self.gamma * next_max)
            self.table[current_state, action] = new_value
        if self.env.board[self.agent.state]:
            print("El agente ha alcanzado el objetivo.")
        else:
            print("El agente no ha alcanzado el objetivo.")

def main():
    episodes = 10
    e = Environment()
    a = Agent()
    learner = Learner(a, e)
    for i in range(episodes):
        print(f"Episode: {i+1}")
        learner.run()

main()

Episode: 1
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
El agente no ha alcanzado el objetivo.
Episode: 2
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acción: retroceder, Nuevo estado: 0
Estado actual: 0, Acc