# Q-Learning en Machine Learning - Parte I (1)
Implementa la función `indice_a_estado`, que toma un índice lineal (número entero) y lo convierte de nuevo a una representación bidimensional (tupla) del estado actual en la cuadrícula. Esta función es la inversa de `estado_a_indice` que vimos en la lección.

In [3]:
def indice_a_estado(
        indice_lineal: int,
        ) -> tuple[int, int]:
    estado_0, estado_1 = divmod(indice_lineal, 5)
    return estado_0, estado_1


print(indice_a_estado(24))

(4, 4)


**NOTA PERSONAL:** Esta es la solución aceptada en Udemy, pero no me parece que el valor `5` en `divmod()` deba ser hardcoded. Lamentablemente, el ejercicio no pemite pasar un segundo argumento a la función. 😞

# Q-Learning en Machine Learning - Parte I (2)
Escribe una función `crear_entorno()` que inicialice el entorno con las condiciones dadas: **dimensiones de la cuadrícula, estado_inicial, estado_objetivo y obstáculos.**

1. Define una cuadrícula con dimensiones de 5x5. `dimensiones`

2. El punto de inicio está en la esquina superior izquierda (0,0). `estado_inicial`

3. El punto objetivo está en la esquina inferior derecha (4,4). `estado_objetivo`

4. Obstáculos distribuidos en: (1,1), (1,3), (2,3), (3,0). `obstaculos`

Asegurate que esta función devuelva todos los valores requeridos:

`dimensiones`, `estado_inicial`, `estado_objetivo`, `obstaculos`

In [None]:
from typing import TypeAlias


EnvironmentType: TypeAlias = tuple[
    tuple[int, int],
    tuple[int, int],
    tuple[int, int],
    list[tuple[int, int]]
]


def crear_entorno() -> EnvironmentType:
    dimensiones: tuple[int, int] = (5, 5)
    estado_inicial: tuple[int, int] = (0, 0)
    estado_objetivo: tuple[int, int] = (4, 4)
    obstaculos: list[tuple[int, int]] = [(1, 1), (1, 3), (2, 3), (3, 0)]
    return dimensiones, estado_inicial, estado_objetivo, obstaculos

# Q - Learning en Machine Learning - Parte II (1)

En este ejercicio, desarrollarás una función denominada `elegir_accion`, la cual selecciona una acción basada en la estrategia epsilon-greedy. Esta estrategia es fundamental en el aprendizaje por refuerzo para equilibrar entre la exploración (seleccionar acciones al azar) y la explotación (seleccionar la mejor acción conocida).

**Datos Iniciales:**

Se te proporcionan los siguientes componentes iniciales en Python:

- `epsilon`: Un valor flotante que representa la probabilidad de tomar una acción aleatoria. El valor es 0.1.

- `num_acciones`: Un entero que indica el número total de acciones posibles, que en este caso es 4.

- `Q`: Una matriz de ceros con dimensiones 25x4 que representa los valores estimados de cada acción en cada estado.

- `dimensiones`: Una tupla que indica las dimensiones de un espacio de estados estructurado en forma de cuadrícula (5x5).

**Funciones Proporcionadas:**

- `estado_a_indice(estado)`: Esta función convierte un estado, representado como una tupla de dos elementos (fila, columna), en un índice lineal para acceder a la matriz `Q`.

### Instrucciones:

1. Completa la función `elegir_accion`:

    - **Parámetro de entrada:** `estado`, una tupla que representa el estado actual en forma de (fila, columna).

    - **Valor de retorno:** Debe devolver un entero que representa el índice de la acción elegida.

    - **Comportamiento esperado:**

        - Con una probabilidad `epsilon`, la función debe elegir y retornar una acción de manera aleatoria.

        - Con una probabilidad `1 - epsilon`, la función debe retornar la acción que tiene el mayor valor en la matriz `Q` para el estado dado.

2. Utiliza la función `random.uniform(0, 1)` para generar un número aleatorio y compararlo con `epsilon` para decidir si se explora o se explota.

3. Utiliza `random.choice(range(num_acciones))` para seleccionar una acción aleatoria durante la fase de exploración.

4. Utiliza `np.argmax()` para seleccionar la acción con el mayor valor de `Q` durante la fase de explotación.

In [None]:
import random
import numpy as np


# Parámetros globales para la función elegir_accion
epsilon: float = 0.1
num_acciones: int = 4
Q: np.ndarray = np.zeros((25, num_acciones))  # Ejemplo de matriz Q
dimensiones: tuple[int, int] = (5, 5)

def estado_a_indice(estado: tuple[int, int]) -> int:
    # Convierte el estado en un índice para la matriz Q
    return estado[0] * dimensiones[1] + estado[1]

def elegir_accion(estado: tuple[int, int]) -> int:
    # Implementa la estrategia epsilon-greedy
    # Exploración: elige una acción aleatoria
    # Explotación: elige la mejor acción según la matriz Q
    numero_aleatorio: float = random.uniform(0, 1)
    accion_aleatoria: int = random.choice(range(num_acciones))
    mejor_accion: int = int(np.argmax(Q[estado_a_indice(estado)]))

    if numero_aleatorio < epsilon:
        return accion_aleatoria
    return mejor_accion

# Q - Learning en Machine Learning - Parte II (2)
Implementa una función llamada `aplicar_accion`. Esta función será parte de un sistema de navegación en un grid donde un agente puede moverse y encontrar un objetivo mientras evita obstáculos.

**Variables de Configuración:**

- `acciones`: Una lista de tuplas que representan las direcciones de movimiento posibles. Estas direcciones son: izquierda, abajo, derecha y arriba.

- `dimensiones`: Una tupla que define las dimensiones del grid (5x5).

- `obstaculos`: Una lista de tuplas que indica las posiciones de los obstáculos en el grid.

- `estado_objetivo`: Una tupla que señala la posición del objetivo en el grid.

```
acciones = [(0, -1), (1, 0), (0, 1), (-1, 0)]
dimensiones = (5, 5)
obstaculos = [(2, 2), (3, 3)]
estado_objetivo = (4, 4)
```

**Objetivo:**

Tu tarea es implementar la función `aplicar_accion` utilizando las variables de configuración proporcionadas. Debes asegurarte de que la función maneje correctamente los movimientos hacia los obstáculos, el movimiento fuera de los límites del grid, y la identificación cuando el agente alcanza el objetivo.

In [None]:
import numpy as np


# Variables de configuración
acciones = [(0, -1), (1, 0), (0, 1), (-1, 0)]  # Movimientos: izquierda, abajo, derecha, arriba
dimensiones = (5, 5)  # Dimensiones del grid
obstaculos = [(2, 2), (3, 3)]  # Posiciones de obstáculos
estado_objetivo = (4, 4)  # Posición del objetivo

def aplicar_accion(estado, accion_idx):
    """
    Aplica una acción basada en un índice de acción dado y actualiza el estado del agente en el grid.

    Parámetros:
    - estado (tuple): La posición actual del agente en el grid.
    - accion_idx (int): El índice de la acción a aplicar, que está basado en la lista 'acciones'.

    Retorna:
    - tuple: El nuevo estado del agente después de aplicar la acción.
    - int: La recompensa o penalización resultante de la acción.
    - bool: Un booleano que indica si el objetivo ha sido alcanzado.
    """
    puntos = 0
    terminado = False
    accion = acciones[accion_idx]
    nuevo_estado = (estado[0] + accion[0], estado[1] + accion[1])

    if (0 <= nuevo_estado[0] < dimensiones[0]) and (0 <= nuevo_estado[1] < dimensiones[1]):
        if nuevo_estado in obstaculos:
            puntos = -100
            return estado, puntos, terminado
        elif nuevo_estado == estado_objetivo:
            puntos = 100
            terminado = True
            return nuevo_estado, puntos, terminado
        else:
            puntos = -1
            return nuevo_estado, puntos, terminado
    else:
        puntos = -1
        return nuevo_estado, puntos, terminado