In [None]:
# 1: Implementación de Q-Learning en un entorno de gridworld simple
import numpy as np

# Definición del gridworld
gridworld = np.array([
  [-1, -1, -1, 1],
  [-1, -1, -1, -1],
  [-1, -1, -1, -1],
  [-1, -1, -1, -1]
])

# Define las acciones posibles: arriba, abajo, izquierda, derecha
actions = {
  'up': (-1, 0),
  'down': (1, 0),
  'left': (0, -1),
  'right': (0, 1)
}

# Implementación de Q-Learning
Q = np.zeros((gridworld.shape[0], gridworld.shape[1], len(actions))) # Initialize Q-table correctly

gamma = 0.8
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
  estado = (0, 0)
  while estado != (0, 3):
    action_key = np.random.choice(list(actions.keys())) # Choose a random action key
    action = actions[action_key] # Get the action tuple from the dictionary
    nueva_fila = estado[0] + action[0]
    nueva_columna = estado[1] + action[1]
    if 0 <= nueva_fila < gridworld.shape[0] and 0 <= nueva_columna < gridworld.shape[1]:
      recompensa = gridworld[nueva_fila, nueva_columna]
      nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_columna])
      action_index = list(actions.keys()).index(action_key) # Get the index of the action
      Q[estado[0], estado[1], action_index] = (1 - alpha) * Q[estado[0], estado[1], action_index] + alpha * nuevo_valor # Update Q-value for the estado-action pair
      estado = (nueva_fila, nueva_columna)

# Muestra la tabla Q-valor aprendida
print("Tabla Q-valor aprendida: ")
print(Q)

Tabla Q-valor aprendida: 
[[[ 0.   -1.    0.   -1.  ]
  [ 0.   -1.8  -1.   -0.2 ]
  [ 0.   -1.16 -1.    1.  ]
  [ 0.    0.    0.    0.  ]]

 [[-1.   -1.    0.   -1.8 ]
  [-1.   -1.8  -1.   -1.16]
  [-0.2  -1.8  -1.8  -0.2 ]
  [ 1.   -1.   -1.16  0.  ]]

 [[-1.   -1.    0.   -1.8 ]
  [-1.8  -1.   -1.   -1.8 ]
  [-1.16 -1.   -1.8  -1.  ]
  [-0.2  -1.   -1.8   0.  ]]

 [[-1.    0.    0.   -1.  ]
  [-1.8   0.   -1.   -1.  ]
  [-1.8   0.   -1.   -1.  ]
  [-1.    0.   -1.    0.  ]]]


In [1]:
# Ejercicio 2: Aplicación del Aprendizaje por Refuerzo en juegos
import numpy as np

# Definición de las recompensas
recompensas = {'ganar': 10, 'perder': -1, 'empatar': 0}

# Implementación de Q-Learning para el juego
Q = {}

def q_learning(estado_actual, accion, nuevo_estado, resultado):
  if (estado_actual, accion) not in Q:
    Q[(estado_actual, accion)] = np.zeros(len(acciones))
    if nuevo_estado not in Q:
      Q[nuevo_estado] = np.zeros(len(acciones))
      nuevo_valor = recompensas[resultado] + gamma * np.max(Q[nuevo_estado])
      Q[estado_actual][accion] = (1 - alpha) * Q[estado_actual][accion] + alpha * nuevo_valor

In [4]:
# Ejercicio 3: Aplicación del Aprendizaje por Refuerzo en robótica
import numpy as np

# Definición del entormo de navegación (datos ficticos)
entorno = np.array([
  [0, 0, 0, 0, 0],
  [0, -1, -1, -1, 0],
  [0, 0, -1, 0, 0],
  [0, -1, -1, -1, 0],
  [0, 0, 0, 0, 0]
])

# Definición de acciones posibles arriba, abajo, izquierda, derecha
acciones = {
  'up': (0, -1),
  'down': (0, 1),
  'left': (-1, 0),
  'right': (1, 0)
}

# Implementación de Q-Learning para el entorno de navegación
Q = np.zeros((entorno.shape[0], entorno.shape[1], len(acciones)))

gamma = 0.9
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
  estado = (0, 0)
  while True:
    # Choose a random action key instead of an index
    accion_key = np.random.choice(list(acciones.keys()))
    accion = acciones[accion_key] # Get the action tuple using the key
    nueva_fila = estado[0] + accion[0]
    nueva_columna = estado[1] + accion[1]
    if 0 <= nueva_fila < entorno.shape[0] and 0 <= nueva_columna < entorno.shape[1]:
      recompensa = entorno[nueva_fila, nueva_columna]
      nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_columna])
      # Get the index of the action to update the corresponding Q-value
      accion_index = list(acciones.keys()).index(accion_key)
      Q[estado[0], estado[1], accion_index] = (1 - alpha) * Q[estado[0], estado[1], accion_index] + alpha * nuevo_valor
      estado = (nueva_fila, nueva_columna)
      if recompensa == -1:
        break

  # Muestra la tabla Q-valor aprendida
print("Tabla Q-valor aprendida: ")
print(Q)

Tabla Q-valor aprendida: 
[[[ 0.          0.          0.          0.        ]
  [ 0.          0.          0.         -1.        ]
  [ 0.          0.          0.         -0.99999861]
  [ 0.          0.          0.         -0.99838269]
  [ 0.          0.          0.          0.        ]]

 [[ 0.         -1.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [-0.71757046  0.          0.          0.        ]]

 [[ 0.          0.          0.          0.        ]
  [ 0.         -0.96566316 -0.96566316 -0.97218716]
  [ 0.          0.          0.          0.        ]
  [-0.3439      0.         -0.19       -0.1       ]
  [ 0.          0.          0.          0.        ]]

 [[ 0.         -0.9953616   0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.  

In [7]:
# Ejercicio 4: Aplicación del Aprendizaje por Refuerzo en gestión de recursos

import numpy as np

# Definición de los estados (niveles de inventario), acciones (ordenes de reabastecimiento) y recompensas (costos, ganancias, etc.)
estados = ['bajo', 'medio', 'alto']
acciones = ['reabastecer', 'no_reabastecer']
recompensas = {
  ('bajo', 'reabastecer'): -50,
  ('bajo', 'no_reabastecer'): -10,
  ('medio', 'reabastecer'): 30,
  ('medio', 'no_reabastecer'): 0,
  ('alto', 'reabastecer'): 10,
  ('alto', 'no_reabastecer'): -20
}

# Implementación de Q-Learning
Q = {}

gamma = 0.9
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
  estado_actual = np.random.choice(estados)
  while True:
    accion = np.random.choice(acciones)
    recompensa = recompensas[(estado_actual, accion)]
    if (estado_actual, accion) not in Q:
      Q[estado_actual] = {}
    if accion not in Q[estado_actual]:
      Q[estado_actual][accion] = 0
      nuevo_estado = np.random.choice(estados)
      max_nuevo_estado = max(Q[nuevo_estado].values()) if nuevo_estado in Q else 0
      Q[estado_actual][accion] += alpha * (recompensa + gamma * max_nuevo_estado - Q[estado_actual][accion])
      estado_actual = nuevo_estado
      if recompensa == 50 or recompensa == 30 or recompensa ==10:
        break

# Muestra la tabla Q-valor aprendida
print("Tabla Q-valor aprendida: ")
print(Q)


Tabla Q-valor aprendida: 
{'medio': {'no_reabastecer': -0.4536493105770001}, 'bajo': {'no_reabastecer': -1.1593745594156737}, 'alto': {'reabastecer': 0.8956562896525894}}
