In [1]:
#Ejercicio 1: Implementación de Q-Learning en un entorno de gridworld simple

import numpy as np

#Definición del gridworld
gridworld = np.array([
    [-1, -1, -1, 1],
    [-1, -1, -1, -1],
    [-1, -1, -1, -1],
    [-1, -1, -1, -1],
])

#Definición de las acciones posibles: arriba, abajo, izquierda, derecha
acciones = {
    'abajo': (-1, 0),
    'arriba': (1, 0),
    'izquierda': (0, -1),
    'derecha': (0, 1),
}

# Mapeo de índices a acciones
indice_a_accion = list(acciones.keys())

# Implementación de Q-Learning
Q = np.zeros((gridworld.shape[0], gridworld.shape[1], len(acciones)))
gamma = 0.8
alpha = 0.1
num_episodios = 1000

for _ in range(num_episodios):
    estado = (0, 0)
    while estado != (0, 3):
        accion = np.random.choice(range(len(acciones)))
        nombre_accion = indice_a_accion[accion]
        nueva_fila = estado[0] + acciones[nombre_accion][0]
        nueva_col = estado[1] + acciones[nombre_accion][1]

        if 0 <= nueva_fila < gridworld.shape[0] and 0 <= nueva_col < gridworld.shape[1]:
            recompensa = gridworld[nueva_fila, nueva_col]
            nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_col])
            Q[estado[0], estado[1], accion] = (1-alpha) * Q[estado[0], estado[1], accion] + alpha * nuevo_valor
            estado = (nueva_fila, nueva_col)

print("Tabla Q-values después del entrenamiento:")
print(Q)

Tabla Q-values después del entrenamiento:
[[[ 0.   -1.    0.   -1.  ]
  [ 0.   -1.8  -1.   -0.2 ]
  [ 0.   -1.16 -1.    1.  ]
  [ 0.    0.    0.    0.  ]]

 [[-1.   -1.    0.   -1.8 ]
  [-1.   -1.8  -1.   -1.16]
  [-0.2  -1.8  -1.8  -0.2 ]
  [ 1.   -1.   -1.16  0.  ]]

 [[-1.   -1.    0.   -1.8 ]
  [-1.8  -1.   -1.   -1.8 ]
  [-1.16 -1.   -1.8  -1.  ]
  [-0.2  -1.   -1.8   0.  ]]

 [[-1.    0.    0.   -1.  ]
  [-1.8   0.   -1.   -1.  ]
  [-1.8   0.   -1.   -1.  ]
  [-1.    0.   -1.    0.  ]]]


In [2]:
#Ejecicio 2: Aplicación del Aprendizaje por refuerzo en juegos
# Ejemplo: Implementación de Q-Learning para juego simple

import numpy as np

#Definición de las recompensas del juego (datos ficticios)
recompensa = {
    'ganar': 1,
    'perder': -1,
    'empatar': 0,
}

#Definición de las acciones posibles: arriba, abajo, izquierda, derecha
acciones = {
    'abajo': (-1, 0),
    'arriba': (1, 0),
    'izquierda': (0, -1),
    'derecha': (0, 1),
}

#Implementación de Q-Learning para el juego
Q={}

def q_learning(estado_actual, accion, nuevo_estado, resultado):
    if (estado_actual, accion) not in Q:
        Q[(estado_actual, accion)] = np.zeros(len(acciones))
    if nuevo_estado not in Q:
       Q[nuevo_estado] = np.zeros(len(acciones))
       nuevo_valor = recompensa[resultado] + gamma * np.max(Q[nuevo_estado])
       Q[(estado_actual, accion)] = (1-alpha) * Q[(estado_actual, accion)] + alpha * nuevo_valor

# Ejemplo de variables de entrada (deberían ser determinadas por la lógica del juego)
estado_actual = 'estado_inicial'
accion = 'abajo'
nuevo_estado = 'estado_siguiente'
resultado = 'ganar'  # Este valor podría ser 'ganar', 'perder', o 'empatar'

# Llamada a la función Q-Learning con las variables de ejemplo
q_learning(estado_actual, accion, nuevo_estado, resultado)

# Muestra la tabla Q después del entrenamiento
print("Tabla Q-values después del entrenamiento:")
print(Q)


Tabla Q-values después del entrenamiento:
{('estado_inicial', 'abajo'): array([0.1, 0.1, 0.1, 0.1]), 'estado_siguiente': array([0., 0., 0., 0.])}


In [3]:
#Ejercico 3 Aplicación del aprendizaje por refuerzo en robótica

import numpy as np

#Definición del entorno de navegación (datos ficticios)

entorno = np.array([
        [0, 0, 0, 0, 0],
        [0,-1,-1,-1, 0],
        [0, 0,-1, 0, 0],
        [0,-1,-1,-1, 0],
        [0, 0, 0, 0, 0]
])

# Definición de acciones posibles (arriba, abajo, izquierda, derecha)
acciones = [(0, -1), (0,1), (-1,0), (1,0)]

#Implementaión de Q-Learning
Q = np.zeros ((entorno.shape[0], entorno.shape[1], len(acciones)))

gamma = 0.9 # Factor de descuento
alpha = 0.1 #Tasa de aprendizaje
num_episodes = 100

for _ in range(num_episodes):
    estado = (0,0)
    while True:
        accion = np.random.choice(range(len(acciones)))
        nueva_fila = estado[0] + acciones[accion][0]
        nueva_col = estado[1] + acciones [accion][1]
        if 0 <= nueva_fila < entorno.shape[0] and 0 <= nueva_col < entorno.shape[1]:
            recompensa = entorno[nueva_fila, nueva_col]
            nuevo_valor = recompensa + gamma * np.max(Q[nueva_fila, nueva_col])
            Q[estado[0], estado[1], accion] = (1-alpha) * Q[estado[0], estado[1], accion] + alpha * nuevo_valor
            estado = (nueva_fila, nueva_col)
            if recompensa == 1:
                break
            if recompensa == -1:
               break

print("Valores Q después del entrenamiento:")
print(Q)


Valores Q después del entrenamiento:
[[[ 0.          0.          0.          0.        ]
  [ 0.          0.          0.         -0.92023356]
  [ 0.          0.          0.         -0.81469798]
  [ 0.          0.          0.         -0.40951   ]
  [ 0.          0.          0.          0.        ]]

 [[ 0.         -0.9835768   0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [-0.271       0.          0.          0.        ]]

 [[ 0.          0.          0.          0.        ]
  [ 0.         -0.271      -0.271      -0.19      ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]]

 [[ 0.         -0.3439      0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.          0.          0.        ]
  [ 0.          0.   

In [4]:
#Ejercicio 4: Aplicación del aprendizaje por refuerzo en gestión de recursos

import numpy as np

#Definición de los estados (niveles de inventario), acciones
#(órdenes de reabastecimiento) y recompensar (costos, ganancias, etc.)

estados = ['Bajo', 'Medio', 'Alto']
acciones = ['Reabastecer', 'No reabastecer']
recompensas = {
    ('Bajo', 'Reabastecer'): 50,
    ('Bajo', 'No reabastecer'): -10,
    ('Medio', 'Reabastecer'): 30,
    ('Medio', 'No reabastecer'): 0,
    ('Alto', 'Reabastecer'): 10,
    ('Alto', 'No reabastecer'): -20,
}

# Implementación de Q-Learning
Q = {}
gamma = 0.9 #Factor de descuento
alpha = 0.1 #Tasa de aprendizaje
num_episodes = 1000

for _ in range(num_episodes):
    estado_actual = np.random.choice(estados)
    while True:
        accion = np.random.choice(acciones)
        recompensa = recompensas[(estado_actual, accion)]
        if (estado_actual) not in Q:
            Q[estado_actual] = {}
        if accion not in Q[estado_actual]:
            Q[estado_actual][accion] = 0
        nuevo_estado = np.random.choice(estados)
        max_nuevo_estado = max(Q[nuevo_estado].values()) if nuevo_estado in Q else 0
        Q[estado_actual][accion] += alpha * (recompensa + gamma * max_nuevo_estado - Q[estado_actual][accion])
        estado_actual = nuevo_estado
        if recompensa == 50 or recompensa ==30 or recompensa == 10:
           break

print("Valores Q después del entrenamiento:")
print(Q)


Valores Q después del entrenamiento:
{'Bajo': {'Reabastecer': 307.7689198825961, 'No reabastecer': 250.8355513369802}, 'Alto': {'No reabastecer': 233.72031059733524, 'Reabastecer': 261.7943331081374}, 'Medio': {'Reabastecer': 286.5367604079317, 'No reabastecer': 262.0394856676396}}
