## 1. Introducion

El Aprendizaje por Refuerzo (Reinforcement Learning) constituye una de las áreas más relevantes del campo del Aprendizaje Automático, al centrarse en la interacción entre un agente y su entorno mediante un proceso de toma de decisiones secuencial. A diferencia de los enfoques supervisados, donde el aprendizaje se basa en ejemplos con etiquetas, en  RL el conocimiento se adquiere a través de la experiencia directa: el agente ejecuta acciones, 
observa las consecuencias y ajusta su comportamiento para maximizar la recompensa acumulada. 
En este contexto, los entornos GridWorld proporcionan un escenario simplificado pero ilustrativo para estudiar los fundamentos del Reinforcement Learning. Estos entornos discretos permiten modelar conceptos de estado, acción y recompensa, así como analizar la evolución del aprendizaje mediante políticas y funciones de valor. El presente trabajo implementa un agente que interactúa dentro de un entorno laberinto de 8×7 celdas, en el cual debe aprender a alcanzar una meta optimizando su comportamiento mediante la definición de una función de recompensas y un conjunto de acciones posibles.

## 2. Propocito del agente

El propósito del agente consiste en aprender una política óptima que maximice la recompensa acumulada al desplazarse dentro del entorno laberinto. Desde un estado inicial (punto rojo), el agente puede ejecutar acciones que modifican su posición dentro de la  cuadrícula de 8×7 . El desafío consiste en descubrir, mediante exploración y aprendizaje, la secuencia de acciones (política) que maximiza la recompensa final.

## 3. Objetivo

El objetivo en este punto intermedio del desarrollo del proyecto es caracterizar los elementos que componen la solución del problema de navegación del agente en el entorno GridWorld. Esto implica definir los elementos del entorno de Reinforcement Learning: el conjunto de estados, las acciones posibles y la función de recompensa; 
siendo estos los que determinan el comportamiento del agente y la forma en que aprende su tarea: alcanzar la meta.

In [None]:
class GridWorld:
    def __init__(self, board:list[list[int]], dimensions:tuple[int, int]):
        
        self.nrows, self.ncols = dimensions        
        self.grid = [['.' for _ in range(self.ncols)] for _ in range(self.nrows)]
        self.state = (0, 6)  # Starting position
        self.width = self.ncols

    def get_current_state(self):
        return self.state



    def display(self):
        for row in self.grid:
            print(' '.join(row))

    def set_cell(self, x, y, value):
        if 0 <= x < self.width and 0 <= y < self.height:
            self.grid[y][x] = value
        else:
            raise ValueError("Coordinates out of bounds")