<a href="https://colab.research.google.com/github/jcmachicaocuf/codigos_CUF_LLM_NLP/blob/main/U2__Conceptos_Agente.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Concepto de Agente para Reinforcement Learning

In [1]:
import random

In [2]:
# Entorno: Tablero 1D
class Tablero:
    def __init__(self):
        self.state = random.randint(0, 3)  # El agente comienza en una casilla aleatoria (0 a 3)
        self.goal = 4  # La casilla 4 es el objetivo

    def move(self, action):
        # El agente se mueve en el tablero
        if action == "L":
            self.state = max(0, self.state - 1)  # No puede ir más allá de 0
        elif action == "R":
            self.state = min(4, self.state + 1)  # No puede ir más allá de 4

        # Recompensa: +1 si alcanza el objetivo, 0 en otro caso
        if self.state == self.goal:
            return 1  # Recompensa por alcanzar el objetivo
        else:
            return 0  # No hay recompensa en otros estados

In [3]:
# Agente RL
class Agente:
    def __init__(self, epsilon=0.5):
        self.q_table = {}  # Tabla de valores (state-action-value)
        self.epsilon = epsilon  # Parámetro de exploración
        self.actions = ["L", "R"]  # Posibles acciones

    def get_action(self, state):
        # Selección de acción: exploración vs explotación
        if random.random() < self.epsilon:  # Explorar (acción aleatoria)
            return random.choice(self.actions)
        else:  # Explotar (elegir la mejor acción según la tabla Q)
            return max(self.actions, key=lambda action: self.q_table.get((state, action), 0))

    def update_q_table(self, state, action, reward):
        # Actualizar la tabla Q con una fórmula simple
        self.q_table[(state, action)] = reward  # En este ejemplo, solo registra el último valor de recompensa

In [4]:
# Simulación
tablero = Tablero()
agente = Agente()

In [5]:
print("=== Inicio de la simulación ===")
for episodio in range(10):  # Ejecutar 10 episodios
    tablero.state = random.randint(0, 3)  # Reiniciar la posición del agente
    print(f"\nEpisodio {episodio + 1}: Inicio en la posición {tablero.state}")

    for paso in range(10):  # Limitar el número de pasos por episodio
        estado_actual = tablero.state
        accion = agente.get_action(estado_actual)  # Seleccionar acción
        recompensa = tablero.move(accion)  # Aplicar acción en el entorno

        # Mostrar lo que ocurre en este paso
        print(f"Paso {paso + 1}: Estado={estado_actual}, Acción={accion}, Recompensa={recompensa}, Nuevo Estado={tablero.state}")

        # Actualizar la tabla Q
        agente.update_q_table(estado_actual, accion, recompensa)

        # Terminar el episodio si alcanza el objetivo
        if recompensa == 1:
            print(f"¡El agente alcanzó el objetivo en el paso {paso + 1}!")
            break

=== Inicio de la simulación ===

Episodio 1: Inicio en la posición 1
Paso 1: Estado=1, Acción=R, Recompensa=0, Nuevo Estado=2
Paso 2: Estado=2, Acción=R, Recompensa=0, Nuevo Estado=3
Paso 3: Estado=3, Acción=R, Recompensa=1, Nuevo Estado=4
¡El agente alcanzó el objetivo en el paso 3!

Episodio 2: Inicio en la posición 2
Paso 1: Estado=2, Acción=R, Recompensa=0, Nuevo Estado=3
Paso 2: Estado=3, Acción=R, Recompensa=1, Nuevo Estado=4
¡El agente alcanzó el objetivo en el paso 2!

Episodio 3: Inicio en la posición 2
Paso 1: Estado=2, Acción=R, Recompensa=0, Nuevo Estado=3
Paso 2: Estado=3, Acción=L, Recompensa=0, Nuevo Estado=2
Paso 3: Estado=2, Acción=L, Recompensa=0, Nuevo Estado=1
Paso 4: Estado=1, Acción=L, Recompensa=0, Nuevo Estado=0
Paso 5: Estado=0, Acción=L, Recompensa=0, Nuevo Estado=0
Paso 6: Estado=0, Acción=R, Recompensa=0, Nuevo Estado=1
Paso 7: Estado=1, Acción=L, Recompensa=0, Nuevo Estado=0
Paso 8: Estado=0, Acción=R, Recompensa=0, Nuevo Estado=1
Paso 9: Estado=1, Acción=L

In [6]:
print("\n=== Tabla Q Final ===")
for key, value in sorted(agente.q_table.items()):
    print(f"Estado={key[0]}, Acción={key[1]}, Valor={value}")


=== Tabla Q Final ===
Estado=0, Acción=L, Valor=0
Estado=0, Acción=R, Valor=0
Estado=1, Acción=L, Valor=0
Estado=1, Acción=R, Valor=0
Estado=2, Acción=L, Valor=0
Estado=2, Acción=R, Valor=0
Estado=3, Acción=L, Valor=0
Estado=3, Acción=R, Valor=1
