# Actividad


---
Por: Ángela Córdoba


---




In [1]:
import numpy as np
import random

### Ejercicio 1: Implementación de Q-Learning en un entorno de gridworld simple

In [3]:
# Definición del gridworld
gridworld = np.array([
    [-1, -1, -1, 1],
    [-1, -1, -1, -1],
    [-1, -1, -1, -1],
    [-1, -1, -1, -1],
])

# Definición de las acciones posibles: arriba, abajo, izquierda, derecha
acciones = [(-1, 0), (1, 0), (0, -1), (0, 1)]
num_acciones = len(acciones)

# Implementación de Q-Learning
# Se agrega la dimensión de las acciones al inicializar Q
Q = np.zeros((gridworld.shape[0], gridworld.shape[1], num_acciones))

# Hiperparámetros del algoritmo
gamma = 0.8
alpha = 0.1
num_episodios = 1000

for _ in range(num_episodios):
    estado = (0, 0)
    while estado != (0, 3):
        # Selecciona una acción basada en la política epsilon-greedy, aquí elegimos aleatoriamente
        accion = np.random.choice(range(len(acciones)))
        nueva_fila = estado[0] + acciones[accion][0] # Corrección: Se usa "accion" para indexar acciones
        nueva_col = estado[1] + acciones[accion][1] # Corrección: Se usa "accion" para indexar acciones

        # Verifica si el nuevo estado es válido
        if 0 <= nueva_fila < gridworld.shape[0] and 0 <= nueva_col < gridworld.shape[1]:
            recompensa = gridworld[nueva_fila, nueva_col]
            # Calcular el nuevo valor Q
            nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_col])
            # Actualiza el valor Q para el estado y acción actuales
            Q[estado[0], estado[1], accion] = (1 - alpha) * Q[estado[0], estado[1], accion] + alpha * nuevo_valor # Corrección: Indexación correcta de Q
            # Actualiza el estado
            estado = (nueva_fila, nueva_col)

print("Q-values después del entrenamiento:")
print(Q)

Q-values después del entrenamiento:
[[[ 0.   -1.    0.   -1.  ]
  [ 0.   -1.8  -1.   -0.2 ]
  [ 0.   -1.16 -1.    1.  ]
  [ 0.    0.    0.    0.  ]]

 [[-1.   -1.    0.   -1.8 ]
  [-1.   -1.8  -1.   -1.16]
  [-0.2  -1.8  -1.8  -0.2 ]
  [ 1.   -1.   -1.16  0.  ]]

 [[-1.   -1.    0.   -1.8 ]
  [-1.8  -1.   -1.   -1.8 ]
  [-1.16 -1.   -1.8  -1.  ]
  [-0.2  -1.   -1.8   0.  ]]

 [[-1.    0.    0.   -1.  ]
  [-1.8   0.   -1.   -1.  ]
  [-1.8   0.   -1.   -1.  ]
  [-1.    0.   -1.    0.  ]]]


### Ejercicio 2: Aplicación del Aprendizaje por Refuerzo en juegos

In [5]:
# Ejemplo: Implementación de Q-Learning para un juego simple
#Definición de las recompensas del juego (datos ficticios)
recompensa = {
    'ganar': 1,
    'perder': -1,
    'empatar': 0,
}

#Implementación de Q-Learning para el juego
Q={}

def q_learning_juego(estado_actual, accion, nuevo_estado, resultado):
    if (estado_actual, accion) not in Q:
        Q[(estado_actual, accion)] = np.zeros(len(acciones)) # Inicializa Q[(estado, accion)] si no existe
    if nuevo_estado not in Q:
       Q[nuevo_estado] = np.zeros(len(acciones))
    nuevo_valor = recompensa[resultado] + gamma * np.max(Q[nuevo_estado])
    Q[(estado_actual, accion)] = (1-alpha) * Q[(estado_actual, accion)] + alpha * nuevo_valor # Accede a Q usando (estado, accion) como clave

# Ejemplo de variables de entrada (deberían ser determinadas por la lógica del juego)
estado_actual = 'estado_inicial'
accion = 'abajo'
nuevo_estado = 'estado_siguiente'
resultado = 'ganar'  # Este valor podría ser 'ganar', 'perder', o 'empatar'

# Llamada a la función Q-Learning con las variables de ejemplo
q_learning_juego(estado_actual, accion, nuevo_estado, resultado)

# Q después del entrenamiento
print("Tabla Q-values después del entrenamiento:")
print(Q)

Tabla Q-values después del entrenamiento:
{('estado_inicial', 'abajo'): array([0.1, 0.1, 0.1, 0.1]), 'estado_siguiente': array([0., 0., 0., 0.])}


### Ejercicio 3: Aplicación del Aprendizaje por Refuerzo en robótica

In [10]:
import numpy as np

# Definición del entorno de navegación (una matriz con valores ficticios)
# 0 representa un espacio libre y -1 representa una barrera (obstáculo)
entorno = np.array([
    [0, 0, 0, 0, 0],
    [0, -1, -1, -1, 0],
    [0, 0, -1, 0, 0],
    [0, -1, -1, -1, 0],
    [0, 0, 0, 0, 0]
])

# Definición de las posibles acciones (movimientos) con sus respectivos cambios de coordenadas
# Cada acción corresponde a: (arriba, abajo, izquierda, derecha)
acciones = [(0, -1), (0, 1), (-1, 0), (1, 0)]

# Inicialización de la tabla Q con ceros
# Dimensiones: (filas del entorno, columnas del entorno, número de acciones posibles)
Q = np.zeros((entorno.shape[0], entorno.shape[1], len(acciones)))

# Parámetros de Q-Learning
gamma = 0.9  # Factor de descuento: cuánto valoramos las recompensas futuras
alpha = 0.1  # Tasa de aprendizaje: cuánto ajustamos los valores Q
num_episodes = 1000  # Número de episodios de entrenamiento

# Definición del estado objetivo o terminal (coordenadas del objetivo en la matriz)
estado_objetivo = (4, 4)

# Bucle principal de entrenamiento por episodios
for _ in range(num_episodes):
    estado = (0, 0)  # Estado inicial (posición de inicio)

    # Continuar hasta que se alcance el estado objetivo
    while estado != estado_objetivo:
        # Selecciona una acción al azar entre las posibles (exploración)
        accion = np.random.choice(range(len(acciones)))
        # Calcula las nuevas coordenadas después de realizar la acción
        nueva_fila = estado[0] + acciones[accion][0]
        nueva_col = estado[1] + acciones[accion][1]

        # Verifica si la nueva posición está dentro de los límites del entorno
        if 0 <= nueva_fila < entorno.shape[0] and 0 <= nueva_col < entorno.shape[1]:
            # Recompensa es el valor del entorno en la nueva posición
            recompensa = entorno[nueva_fila, nueva_col]

            # Calcula el nuevo valor de Q usando la fórmula de actualización de Q-Learning
            nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_col, :])

            # Actualiza el valor Q para el estado y acción actuales
            Q[estado[0], estado[1], accion] = (1 - alpha) * Q[estado[0], estado[1], accion] + alpha * nuevo_valor

            # Actualiza el estado actual al nuevo estado
            estado = (nueva_fila, nueva_col)

# Imprime la tabla de valores Q después del entrenamiento
print("Valores Q después del entrenamiento:")
print(Q)

Valores Q después del entrenamiento:
[[[ 0.  0.  0.  0.]
  [ 0.  0.  0. -1.]
  [ 0.  0.  0. -1.]
  [ 0.  0.  0. -1.]
  [ 0.  0.  0.  0.]]

 [[ 0. -1.  0.  0.]
  [ 0. -1.  0.  0.]
  [-1. -1.  0. -1.]
  [-1.  0.  0.  0.]
  [-1.  0.  0.  0.]]

 [[ 0.  0.  0.  0.]
  [ 0. -1. -1. -1.]
  [ 0.  0. -1. -1.]
  [-1.  0. -1. -1.]
  [ 0.  0.  0.  0.]]

 [[ 0. -1.  0.  0.]
  [ 0. -1.  0.  0.]
  [-1. -1. -1.  0.]
  [-1.  0.  0.  0.]
  [-1.  0.  0.  0.]]

 [[ 0.  0.  0.  0.]
  [ 0.  0. -1.  0.]
  [ 0.  0. -1.  0.]
  [ 0.  0. -1.  0.]
  [ 0.  0.  0.  0.]]]


### Ejercicio 4: Aplicación del Aprendizaje por Refuerzo en gestión de recursos

In [11]:
#Definición de los estados (niveles de inventario), acciones (órdenes de reabastecimiento) y recompensar (costos, ganancias, etc.)

estados = ['Bajo', 'Medio', 'Alto']
acciones = ['Reabastecer', 'No reabastecer']
recompensas = {
    ('Bajo', 'Reabastecer'): 50,
    ('Bajo', 'No reabastecer'): -10,
    ('Medio', 'Reabastecer'): 30,
    ('Medio', 'No reabastecer'): 0,
    ('Alto', 'Reabastecer'): 10,
    ('Alto', 'No reabastecer'): -20,
}

# Implementación de Q-Learning
Q = {}

gamma = 0.9 #Factor de descuento
alpha = 0.1 #Tasa de aprendizaje
num_episodes = 1000

for _ in range(num_episodes):
    estado_actual = np.random.choice(estados)
    while True:
        accion = np.random.choice(acciones)
        recompensa = recompensas[(estado_actual, accion)]

        if (estado_actual) not in Q:
            Q[estado_actual] = {}
        if accion not in Q[estado_actual]:
            Q[estado_actual][accion] = 0

        nuevo_estado = np.random.choice(estados)
        max_nuevo_estado = max(Q[nuevo_estado].values()) if nuevo_estado in Q else 0
        Q[estado_actual][accion] += alpha * (recompensa + gamma * max_nuevo_estado - Q[estado_actual][accion])
        estado_actual = nuevo_estado
        if recompensa == 50 or recompensa ==30 or recompensa == 10:
           break

print("Valores Q después del entrenamiento:")
print(Q)

Valores Q después del entrenamiento:
{'Medio': {'No reabastecer': 257.2778356426104, 'Reabastecer': 284.03890879781153}, 'Bajo': {'Reabastecer': 309.23694478081853, 'No reabastecer': 251.26408542712733}, 'Alto': {'Reabastecer': 265.6234249209327, 'No reabastecer': 239.8940397309074}}
