La gestión de ausencias y licencias en una empresa es crucial para mantener la operación sin problemas. El sistema de recursos humanos se enfrenta al reto de decidir aprobar o rechazar solicitudes, buscando equilibrar la flexibilidad de los empleados con la necesidad de mantener una programación eficiente. Utilizando métodos como el Q-learning, el sistema puede aprender a tomar decisiones más efectivas, adaptándose a los cambios en el personal y mejorando la eficiencia operativa.

In [2]:
import numpy as np


Establece los parámetros clave del algoritmo Q-learning.

**alpha**: Tasa de aprendizaje, que determina cuánto se actualizan los valores Q en cada iteración.

**gamma**: Factor de descuento, que ajusta la importancia de las recompensas futuras en la actualización de los valores Q.

**epsilon**: Tasa de exploración, que controla la probabilidad de tomar una acción aleatoria en lugar de la mejor acción conocida.

In [3]:
alpha = 0.1  # Tasa de aprendizaje
gamma = 0.9  # Factor de descuento
epsilon = 0.1  # Tasa de exploración


Define una lista de estados posibles y acciones posibles. Estos son ficticios y simplificados para este ejemplo.



In [4]:
estados = ["Carga Baja", "Carga Media", "Carga Alta"]
acciones = ["Aprobar", "Rechazar"]


Inicializa la tabla Q con ceros. La tabla Q es donde se almacenan los valores que el agente utiliza para tomar decisiones.

In [5]:
Q = np.zeros((len(estados), len(acciones)))


Define una función ficticia para calcular la recompensa en función del estado y la acción. Es una función de recompensa simple para ilustrar el concepto.

In [6]:
def obtener_recompensa(estado, accion):
    if estado == "Carga Baja" and accion == "Aprobar":
        return 1
    elif estado == "Carga Alta" and accion == "Rechazar":
        return 1
    else:
        return -1


Define una función para que el agente seleccione una acción. Utiliza la política epsilon-greedy, donde hay una probabilidad epsilon de seleccionar una acción aleatoria y 1 - epsilon de seleccionar la mejor acción conocida.

In [7]:
def seleccionar_accion(estado):
    if np.random.rand() < epsilon:
        return np.random.choice(acciones)
    else:
        indice_accion_optima = np.argmax(Q[estados.index(estado)])
        return acciones[indice_accion_optima]


Implementa el proceso de entrenamiento del agente mediante iteraciones. En cada iteración, el agente selecciona acciones, aplica estas acciones en el entorno, observa recompensas y actualiza los valores Q utilizando la ecuación de Bellman.

In [8]:
epocas_entrenamiento = 1000

for _ in range(epocas_entrenamiento):
    estado_actual = np.random.choice(estados)

    while True:
        accion_seleccionada = seleccionar_accion(estado_actual)
        recompensa = obtener_recompensa(estado_actual, accion_seleccionada)
        nuevo_estado = np.random.choice(estados)

        Q[estados.index(estado_actual), acciones.index(accion_seleccionada)] += \
            alpha * (recompensa + gamma * np.max(Q[estados.index(nuevo_estado)]) - Q[estados.index(estado_actual), acciones.index(accion_seleccionada)])

        if nuevo_estado == "Carga Baja" or nuevo_estado == "Carga Alta":
            break

        estado_actual = nuevo_estado


Evalúa el agente utilizando la política aprendida después del entrenamiento. Imprime la acción óptima para cada estado según los valores Q aprendidos.

In [9]:
estado_actual = "Carga Media"

print("Política final del agente:")
for estado in estados:
    accion_optima = acciones[np.argmax(Q[estados.index(estado)])]
    print(f"Estado: {estado}, Acción Óptima: {accion_optima}")


Política final del agente:
Estado: Carga Baja, Acción Óptima: Aprobar
Estado: Carga Media, Acción Óptima: Aprobar
Estado: Carga Alta, Acción Óptima: Rechazar
