In [None]:
import random

# Clase que representa el entorno en el que se mueve el agente
class Environment:
    def __init__(self):
        # Inicializa el número de pasos permitidos y el tablero de juego
        self.steps = 10
        # Crea un tablero de longitud 5, inicializado con `False` y el objetivo en la última posición
        self.board = [False for _ in range(5)]
        self.board[4] = True  # Marca un objetivo en la posición 4

    def action(self, state) -> bool:
        # Disminuye el número de pasos restantes en 1
        self.steps -= 1
        # Imprime un mensaje si se han agotado los pasos y no se alcanzó el objetivo
        if self.is_done() and not self.board[state]:
            print("No se logró el objetivo")
        # Devuelve `True` si el estado actual tiene el objetivo, de lo contrario `False`
        return self.board[state]
    
    def is_done(self) -> bool:
        # Verifica si los pasos han llegado a cero (el episodio ha terminado)
        return self.steps == 0

    def reset(self):
        # Restablece el número de pasos a 10 al reiniciar el entorno
        self.steps = 10

# Clase que representa al agente que se mueve en el entorno
class Agent:
    def __init__(self):
        # Inicializa el estado del agente y la lista de posibles acciones (avanzar o retroceder)
        self.state = 0
        self.actions_list = [0, 1]  # 0 representa retroceder, 1 representa avanzar
    
    def forward(self, limit):
        # Incrementa el estado en 1, hasta el límite máximo permitido (bordes del tablero)
        self.state = min(self.state + 1, limit - 1)
    
    def back(self, low_limit):
        # Decrementa el estado en 1, hasta el límite mínimo permitido (borde del tablero)
        self.state = max(self.state - 1, low_limit)
    
    def actions(self, env: Environment):
        # Elige una acción aleatoria de la lista de acciones (0 o 1)
        action = random.choice(self.actions_list)
        if action:
            # Si la acción es 1, avanza en el tablero
            self.forward(len(env.board))
        else:
            # Si la acción es 0, retrocede en el tablero
            self.back(0)
        # Ejecuta la acción en el entorno y devuelve si ha encontrado el objetivo
        return env.action(self.state)

# Función principal que ejecuta el proceso de simulación de episodios
def main():
    episodes = 10  # Número de episodios a ejecutar
    a = Agent()  # Crea una instancia del agente
    e = Environment()  # Crea una instancia del entorno
    for i in range(episodes):
        print(f"Episodio: {i + 1}")
        count = 0  # Contador de éxitos
        while not e.is_done():
            # Ejecuta las acciones del agente en el entorno y cuenta los éxitos
            if a.actions(e):
                count += 1
        # Imprime el número de éxitos y fallos al final del episodio
        print(f"{count} éxito(s) - {episodes - count} fallo(s)")
        # Restablece el estado del agente y del entorno para el siguiente episodio
        a.state = 0
        e.reset()

# Llama a la función principal para iniciar la simulación
main()


Episodio: 1
No se logró el objetivo
0 éxito(s) - 10 fallo(s)
Episodio: 2
No se logró el objetivo
1 éxito(s) - 9 fallo(s)
Episodio: 3
2 éxito(s) - 8 fallo(s)
Episodio: 4
No se logró el objetivo
0 éxito(s) - 10 fallo(s)
Episodio: 5
No se logró el objetivo
0 éxito(s) - 10 fallo(s)
Episodio: 6
No se logró el objetivo
0 éxito(s) - 10 fallo(s)
Episodio: 7
No se logró el objetivo
0 éxito(s) - 10 fallo(s)
Episodio: 8
No se logró el objetivo
0 éxito(s) - 10 fallo(s)
Episodio: 9
2 éxito(s) - 8 fallo(s)
Episodio: 10
No se logró el objetivo
0 éxito(s) - 10 fallo(s)
