Implementación de Q-Learning en un entorno de Gridworld simple

In [4]:
import numpy as np

gridworld = np.array([
    [-1, -1, -1, 1],
    [-1, -1, -1, -1],
    [-1, -1, -1, -1],
    [-1, -1, -1, -1]
])

acciones = [(0, -1), (0, 1), (-1, 0), (1, 0),]

Q = np.zeros((gridworld.shape[0], gridworld.shape[1], len(acciones)))

gamma = 0.8
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
    estado = (0, 0)
    while estado != (0, 3):
        accion = np.random.choice(range(len(acciones)))
        nueva_fila = estado[0] + acciones[accion][0]
        nueva_columna = estado[1] + acciones[accion][1]
        if 0 <= nueva_fila < gridworld.shape[0] and 0 <= nueva_columna < gridworld.shape[1]:
          recompensa = gridworld[nueva_fila, nueva_columna]
          nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_columna])
          Q[estado[0], estado[1], accion] = (1 - alpha) * Q[estado[0], estado[1], accion] + alpha * nuevo_valor
          estado = (nueva_fila, nueva_columna)

print("Matriz Q final:")
print(Q)

Matriz Q final:
[[[ 0.   -1.    0.   -1.  ]
  [-1.   -0.2   0.   -1.8 ]
  [-1.    1.    0.   -1.16]
  [ 0.    0.    0.    0.  ]]

 [[ 0.   -1.8  -1.   -1.  ]
  [-1.   -1.16 -1.   -1.8 ]
  [-1.8  -0.2  -0.2  -1.8 ]
  [-1.16  0.    1.   -1.  ]]

 [[ 0.   -1.8  -1.   -1.  ]
  [-1.   -1.8  -1.8  -1.  ]
  [-1.8  -1.   -1.16 -1.  ]
  [-1.8   0.   -0.2  -1.  ]]

 [[ 0.   -1.   -1.    0.  ]
  [-1.   -1.   -1.8   0.  ]
  [-1.   -1.   -1.8   0.  ]
  [-1.    0.   -1.    0.  ]]]


Aplicación del Aprendizaje por Refuerzo en Juegos

In [5]:
import numpy as np

recompensas = {
    'ganar': 1,
    'perder': -1,
    'empatar': 0
}
Q = {}

def q_learning_juego(estado_actual, accion, nuevo_estado, resultado):
    if estado_actual not in Q:
      Q[estado_actual] = np.zeros(len(acciones))
    if nuevo_estado not in Q:
      Q[nuevo_estado] = np.zeros(len(acciones))
      nuevo_valor = recompensas[resultado] + gamma * np.max(Q[nuevo_estado])
      Q[estado_actual][accion] = (1 - alpha) * Q[estado_actual][accion] + alpha * nuevo_valor
      return Q[estado_actual][accion]

print("Matriz Q final:")
print(Q)

Matriz Q final:
{}


Aplicación del Aprendizaje por Refuerzo en robótica

In [10]:
import numpy as np

entorno = np.array([
    [0, 0, 0, 0, 0],
    [0, -1, -1, -1, 0],
    [0, 0, -1, 0, 0],
    [0, -1, -1, -1, 0],
    [0, 0, 0, 0, 0]
])

acciones = [(0, -1), (0, 1), (-1, 0), (1, 0)]

Q = np.zeros((entorno.shape[0], entorno.shape[1], len(acciones)))

gamma = 0.9
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
    estado = (0, 0)
    max_steps = 100
    paso = 0
    while paso < max_steps:
        accion = np.random.choice(range(len(acciones)))
        nueva_fila = estado[0] + acciones[accion][0]
        nueva_columna = estado[1] + acciones[accion][1]
        if 0 <= nueva_fila < entorno.shape[0] and 0 <= nueva_columna < entorno.shape[1]:
            recompensa = entorno[nueva_fila, nueva_columna]
            nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_columna])
            Q[estado[0], estado[1], accion] = (1 - alpha) * Q[estado[0], estado[1], accion] + alpha * nuevo_valor
            estado = (nueva_fila, nueva_columna)
        paso += 1

print("Matriz Q final:")
print(Q)


Matriz Q final:
[[[ 0.  0.  0.  0.]
  [ 0.  0.  0. -1.]
  [ 0.  0.  0. -1.]
  [ 0.  0.  0. -1.]
  [ 0.  0.  0.  0.]]

 [[ 0. -1.  0.  0.]
  [ 0. -1.  0.  0.]
  [-1. -1.  0. -1.]
  [-1.  0.  0.  0.]
  [-1.  0.  0.  0.]]

 [[ 0.  0.  0.  0.]
  [ 0. -1. -1. -1.]
  [ 0.  0. -1. -1.]
  [-1.  0. -1. -1.]
  [ 0.  0.  0.  0.]]

 [[ 0. -1.  0.  0.]
  [ 0. -1.  0.  0.]
  [-1. -1. -1.  0.]
  [-1.  0.  0.  0.]
  [-1.  0.  0.  0.]]

 [[ 0.  0.  0.  0.]
  [ 0.  0. -1.  0.]
  [ 0.  0. -1.  0.]
  [ 0.  0. -1.  0.]
  [ 0.  0.  0.  0.]]]


Aplicación del Aprendizaje por Refuerzo en gestión de recursos

In [12]:
import numpy as np

estados = ['Bajo', 'Medio', 'Alto']
acciones = ['Reabastecer', 'No reabastecer']

recompensas = {
    ('Bajo', 'Reabastecer'): 50,
    ('Bajo', 'No reabastecer'): -10,
    ('Medio', 'Reabastecer'): 30,
    ('Medio', 'No reabastecer'): 0,
    ('Alto', 'Reabastecer'): 10,
    ('Alto', 'No reabastecer'): -20,
}

Q = {}

gamma = 0.9
alpha = 0.1
num_episodes = 1000

for _ in range(num_episodes):
    estado_actual = np.random.choice(estados)
    while True:
        accion = np.random.choice(acciones)
        recompensa = recompensas[(estado_actual, accion)]
        if estado_actual not in Q:
            Q[estado_actual] = {}
        if accion not in Q[estado_actual]:
            Q[estado_actual][accion] = 0
        nuevo_estado = np.random.choice(estados)
        max_nuevo_estado = max(Q[nuevo_estado].values()) if nuevo_estado in Q else 0
        Q[estado_actual][accion] += alpha * (recompensa + gamma * max_nuevo_estado - Q[estado_actual][accion])
        estado_actual = nuevo_estado
        if recompensa == 50 or recompensa == 30 or recompensa == 10:
            break

print("Matriz Q final:")
print(Q)

Matriz Q final:
{'Bajo': {'No reabastecer': 240.30587031889615, 'Reabastecer': 308.2547185360419}, 'Alto': {'Reabastecer': 250.45480628389726, 'No reabastecer': 227.51887057992008}, 'Medio': {'Reabastecer': 283.08167911093983, 'No reabastecer': 250.9276912460795}}
