# **Tarea grupal #2**
Administración de datos

Carolina Salas y Kristhel Porras



---


# 1️⃣ Introducción

Este código implementa una red neuronal para predecir el número de ausencias de empleados utilizando un dataset de Recursos Humanos extrído de kaggle (Human Resources Data Set).

El dataset contiene información detallada sobre empleados, incluyendo:
- Datos demográficos (edad, género, estado civil).
- Historial laboral (fecha de contratación, terminación, departamento, puesto).
- Evaluaciones de desempeño y encuestas de satisfacción.
- Factores de productividad (proyectos especiales, días de retraso, participación en ferias de diversidad).

El objetivo principal es predecir cuántas ausencias tendrá un empleado basándose en estas características.
Para lograrlo, se siguen los siguientes pasos:
1. **Preprocesamiento de datos**: Normalización de variables numéricas, codificación de variables categóricas y manejo de valores nulos.
2. **Construcción de la red neuronal**: Arquitectura con capas densas y activaciones ReLU para capturar patrones complejos.
3. **Optimización de hiperparámetros**: Se usa GridSearchCV para encontrar la mejor combinación de hiperparámetros.
4. **Entrenamiento y evaluación**: Uso del optimizador Adam, evaluación con métricas como MSE y MAE, y visualización interactiva de los resultados.

Este modelo puede ayudar a Recursos Humanos a identificar patrones en las ausencias y desarrollar estrategias para mejorar la asistencia y retención de empleados.



---


#2️⃣ Fundamentos teóricos

<u>__Perceptrón simple :__</u>
<p style="text-align: justify;">
Es un modelo matemático que simula el funcionamiento de una única neurona biológica, por ende, es el tipo más básico de red neuronal y consta de dos partes principales: una capa de entrada y una capa de salida. La capa de entrada recibe los datos y los transmite sin hacer cálculos, mientras que la capa de salida toma esa información y produce una respuesta, como una decisión o clasificación. El perceptrón se utiliza para resolver problemas sencillos de clasificación, como identificar si algo pertenece a una categoría o no, y puede "aprender" de sus errores para mejorar las decisiones con el tiempo.</p>

![Perceptron](Perceptron.jpg)

Matemáticamente, se expresa como:

$$
y = f \left( \sum_{i=1}^{n} w_i x_i + b \right)
$$

donde:
- \( x_i \) son las entradas, representa los valores de las características.
- \( w_i \) son los pesos asociados a cada entrada,
- \( b \) es el sesgo, el ajuste adiconal para mejorar la clasificación.
- \( f \) es la función de activación,
- \( y \) es la salida.



<u>__Red neuronal multicapa (MLP - Multi-Layer Perceptron):__</u>
<p style="text-align: justify;">
Es una extensión del perceptrón simple y consta de múltiples capas de neuronas organizadas de manera secuencial: una capa de entrada, una o más capas ocultas y una capa de salida. Cada neurona en una capa está conectada a todas las neuronas de la capa siguiente, lo que permite un procesamiento de información más complejo y profundo.
La principal ventaja de las redes multicapa sobre el perceptrón simple es su capacidad para aproximar funciones no lineales complejas y resolver problemas que no son separados por una simple línea recta, lo que hace que sean útiles para tareas más avanzadas, como el reconocimiento de patrones o la predicción en datos complejos.
Las redes neuronales multicapa forman la base de muchas arquitecturas de aprendizaje profundo modernas y son entrenadas mediante el algoritmo de retropropagación.</p>

![Modelo de perceptrón multicapa](Modelo-de-perceptrón-multicapa.jpg)

Una red neuronal multicapa típicamente está compuesta por:

1. **Capa de entrada**: Recibe los datos de entrada
2. **Capas ocultas**: Una o más capas intermedias donde se realiza el procesamiento principal
3. **Capa de salida**: Produce el resultado final de la red

```
Entrada → [Capa Oculta 1] → [Capa Oculta 2] → ... → [Capa de Salida] → Salida
```

- ***Propagación hacia adelante***
  <p style="text-align: justify;">
  Es el proceso por el cual la información fluye desde la capa de entrada hasta la salida a través de las capas ocultas.En este proceso, cada neurona recibe información de la capa anterior, realiza un cálculo utilizando sus propios pesos y una función de activación, y luego envía el resultado a las neuronas de la siguiente capa. El objetivo de la propagación hacia adelante es transformar los datos de entrada en una salida final, que puede ser una clasificación, predicción o cualquier otro resultado dependiendo del problema que la red esté resolviendo. Este proceso es fundamental para que la red neuronal haga sus predicciones o decisiones. El cálculo de cada capa se realiza de la siguiente manera:</p>

$$
Z^{(l)} = W^{(l)} A^{(l-1)} + b^{(l)}
$$

$$
A^{(l)} = f(Z^{(l)})$$
donde:
   - \( l \) representa cada capa,
   - \( W^{(l)} \) son los pesos de la capa \( l \),
   - \( A^{(l-1)} \) son las activaciones de la capa anterior,
   - \( b^{(l)} \) es el vector de sesgos para la capa \( l \),
   - \( Z^{(l)} \) es la combinación lineal de las entradas,
   - \( A^{(l)} \) es la salida de la capa $l$ después de aplicar la función de activación

  <br>


- ***Funciones de activación***
  <p style="text-align: justify;">
  Las funciones de activación transforman la salida de una neurona antes de pasarla a la siguiente capa y sin la función de activación, la red solo podría aprender relaciones lineales muy simples, limitando su capacidad, pero gracias a la  función la red neuronal aprende patrones más complejos y realice tareas como clasificación o predicción.  Existen diferentes tipos de funciones de activación, como la sigmoide, ReLU o tanh, y cada una tiene propiedades que las hacen adecuadas para distintos tipos de problemas. Algunas de las funciones de activación más comunes son:</p>



  - **Sigmoide:**
     Transforma cualquier valor de entrada en un rango entre 0 y 1, lo que la hace útil para problemas de clasificación binaria. A menudo se usa en la salida de redes neuronales para representar probabilidades. Su derivada se usa para ajustar los pesos durante el proceso de retropropagación.
  $$ \sigma(x) = \frac{1}{1 + e^{-x}} $$
      Rango: (0, 1)
      Derivada: $\sigma'(x) = \sigma(x) \cdot (1 - \sigma(x))$

  - **ReLU (Rectified Linear Unit):**
 Asigna un valor de 0 para entradas negativas y deja los valores positivos sin cambios. Esta función es especialmente útil en redes profundas, ya que ayuda a mitigar el problema del desvanecimiento del gradiente.
  $$ f(x) = \max(0, x) $$

     Rango: [0, ∞)
     Derivada:
      $$\text{ReLU}'(x) =
      \begin{cases}
       1 & \text{si } x > 0 \\
       0 & \text{si } x \leq 0
      \end{cases}$$
  

  - **Tangente hiperbólica (tanh) :**
  Esta función es similar a la sigmoide, pero su rango es de -1 a 1, lo que permite representar tanto valores positivos como negativos y es útil cuando se necesita un enfoque simétrico para la activación de neuronas, y también ayuda a que la red sea más rápida y eficiente en el aprendizaje.
  $$ f(x) = \tanh(x) $$

     o
     $$ f(x) = \frac{e^x - e^{-x}}{e^x + e^{-z}}$$
     
     Rango: (-1, 1)
     Derivada: $\tanh'(x) = 1 - \tanh^2(x)$


  - **Softmax (para clasificación multiclase) :**
Se usa principalmente en la capa de salida de redes neuronales que abordan problemas de clasificación multiclase y convierte un vector de valores de entrada en probabilidades, donde la suma de todas las probabilidades es igual a 1, permitiendo clasificar un conjunto de entradas en una de varias clases posibles.
   $$\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}$$
       Donde $K$ es el número de clases.
<br>

- ***Cálculo del error***
  <p style="text-align: justify;">
  El error mide la diferencia entre la salida esperada (lo que debería haber producido la red) y la salida obtenida (lo que la red realmente produjo). Este error es fundamental para que el modelo aprenda, ya que indica qué tan cerca o lejos está de la respuesta correcta y cuanto mayor sea el error, mayor será la necesidad de ajustar los parámetros de la red. El objetivo del entrenamiento de una red neuronal es minimizar este error, lo que se logra mediante un proceso llamado retropropagación, donde los pesos de las neuronas se ajustan para que el modelo pueda predecir de manera más precisa en el futuro. Este cálculo es esencial para mejorar la precisión de las redes neuronales en tareas como clasificación, predicción y análisis de datos complejos. </p>

  Dependiendo del tipo de problema,se utilizan diferentes funciones de costo (loss functions):
  - **Error cuadrático medio (MSE, para regresión):**
     Se utiliza principalmente en regresión para predecir un valor numérico continuo y mide la diferencia entre los valores reales y las predicciones de la red neuronal. Calcula el promedio de los cuadrados de las diferencias entre las salidas predichas y las reales, penalizando más los errores grandes.
$$
E = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2
$$
donde:
     - \( y_i \) es el valor real,
     - \( \hat{y}_i \) es la predicción de la red,
     - \( m \) es el número total de muestras.
<br>

  - **Entropía Cruzada Binaria (para clasificación binaria):**
     Se utiliza en problemas de clasificación binaria, donde el objetivo es asignar una entrada a una de dos clases posibles y calcula la diferencia entre la probabilidad predicha de cada clase y la clase real, utilizando la probabilidad logarítmica para penalizar predicciones incorrectas. Se usa comúnmente con la función de activación sigmoide en la capa de salida.
$$J = -\frac{1}{m} \sum_{i=1}^{m} [y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i)]$$
donde:
     - \( y_i \) es la etiqueta real (0 o 1),
     - \( \hat{y}_i \) es la probabilidad predicha por la red.
<br>

  - **Entropía Cruzada Categórica (para clasificación multiclase):**
    Se emplea en clasificación multiclase, donde se tiene más de dos clases posibles y mide la diferencia entre las distribuciones de probabilidad de las predicciones de la red y las etiquetas reales, ayudando a la red a aprender a asignar correctamente las probabilidades a cada clase. Es comúnmente utilizada cuando la salida de la red utiliza la función de activación softmax.
$$J = -\frac{1}{m} \sum_{i=1}^{m} \sum_{j=1}^{K} y_{ij} \log(\hat{y}_{ij})$$
donde:
     - $K$ es el número de clases.

<br>

- ***Retropropagación***
  <p style="text-align: justify;">
  Es un algoritmo que se usa para mejorar las predicciones del modelo ajustando los pesos y sesgos de las neuronas, con el fin de minimizar el error en los resultados. El proceso comienza calculando el error en la salida de la red, luego se utiliza la regla de la cadena para propagar este error hacia atrás, desde la capa de salida hasta la capa de entrada y durante este proceso, se calculan los gradientes de la función de costo con respecto a los parámetros de la red, lo que permite hacer pequeños ajustes en los pesos y sesgos de manera eficiente. Este proceso se repite varias veces durante el entrenamiento para que la red neuronal aprenda de manera progresiva y mejore su capacidad de predicción.</p>

   ![Esquema-de-una-red-neuronal-artificial-de-retropropagacion](Retropropagación.png)

  En términos matemáticos, el error en la capa \( l \) se calcula como:
$$
\delta^{(l)} = \left( W^{(l+1)} \delta^{(l+1)} \right) \odot f'(Z^{(l)})$$
  donde:
    - \( \delta^{(l)} \) es el error en la capa \( l \),
    - \( f'(Z^{(l)}) \) es la derivada de la función de activación,
    - \( W^{(l+1)} \) es la matriz de pesos de la capa siguiente.

    <br>
    Este cálculo se realiza desde la capa de salida hacia las capas anteriores.

    Para la capa de salida ($l = L$):
$$\delta^{[L]} = \frac{\partial J}{\partial z^{[L]}} = \frac{\partial J}{\partial a^{[L]}} \cdot \frac{\partial a^{[L]}}{\partial z^{[L]}} = \frac{\partial J}{\partial a^{[L]}} \cdot g'^{[L]}(z^{[L]})$$

    Para las capas ocultas ($l < L$):
$$
\delta^{[l]} = (W^{[l+1]})^T \cdot \delta^{[l+1]} \odot g'^{[l]}(z^{[l]})$$
donde:
    - $\delta^{[l]}$ representa el error en la capa $l$
    -  $\odot$ es el producto elemento a elemento (Hadamard)
    - $g'^{[l]}$ es la derivada de la función de activación de la capa $l$

    <br>
    Una vez calculados los deltas, los gradientes se obtienen como:

$$\frac{\partial J}{\partial W^{[l]}} = \frac{1}{m} \delta^{[l]} \cdot (a^{[l-1]})^T$$
$$\frac{\partial J}{\partial b^{[l]}} = \frac{1}{m} \sum \delta^{[l]}$$


- ***Gradiente descendiente estocástico (Stochastic Gradient Descent, SGD)***
  El gradiente descendente es un método de optimización para minimizar la función de error ajustando los pesos en la dirección del gradiente negativo.En cada iteración, el algoritmo actualiza los parámetros de la red utilizando el gradiente calculado respecto a un solo ejemplo de entrenamiento. La fórmula general para actualizar los pesos y sesgos es:
$$W^{(l)} = W^{(l)} - \alpha \frac{\partial E}{\partial W^{(l)}}
$$
$$
b^{(l)} = b^{(l)} - \alpha \frac{\partial E}{\partial b^{(l)}}
$$   
  donde
    - \( \alpha \) es la tasa de aprendizaje.
    - \( \frac{\partial E}{\partial W^{(l)}} \) y \( \frac{\partial E}{\partial b^{(l)}} \) son los gradientes de los pesos y sesgos.


     Este proceso se repite iterativamente para cada ejemplo de entrenamiento, ajustando los parámetros de la red en pequeños pasos hacia la dirección que reduce el error.
     Por otro lado, el mini-batch gradient descent utiliza un subconjunto de ejemplos en cada iteración, lo que permite aprovechar las ventajas de la eficiencia computacional y la precisión de las actualizaciones en comparación con el uso de un solo ejemplo (SGD) y todo el conjunto de datos (gradiente descendente por lotes). En este caso, la actualización se realiza de la siguiente manera:
$$\theta = \theta - \alpha \nabla_\theta J(\theta; x^{(i:i+n)}, y^{(i:i+n)})$$
  donde
    - \( \theta \) son los parámetros de la red (pesos y sesgos),
    - \( \nabla_\theta J \) es el gradiente de la función de costo,
    - \( x^{(i:i+n)}\), y (\y^{(i:i+n)}\) es el subconjunto de ejemplos usados en cada iteración

  El objetivo de ambos métodos es ajustar los parámetros de la red para minimizar la función de costo, mejorando gradualmente la precisión del modelo.

- ***Actualización de pesos y sesgos***
Durante cada iteración, se ajustan los pesos y sesgos utilizando el algoritmo de gradiente descendente, que busca minimizar la función de error. La actualización se realiza de la siguiente manera:
$$
W^{(l)} = W^{(l)} - \alpha \delta^{(l)} A^{(l-1)}
$$
$$
b^{(l)} = b^{(l)} - \alpha \delta^{(l)}
$$
    Aquí,\(\alpha\) es la tasa de aprendizaje, \(\delta^{(l)}\) es el error calculado para la capa \( l \) y \(\ A^{(l-1)}\) es la activación de la capa anterior. Este proceso permite que la red aprenda patrones en los datos y ajuste sus parámetros para mejorar las predicciones.
    Una vez que los gradientes han sido calculados mediante la retropropagación, los pesos y sesgos se actualizan de acuerdo con los gradientes de la función de costo:
$$W^{[l]} = W^{[l]} - \alpha \frac{\partial J}{\partial W^{[l]}}$$
$$b^{[l]} = b^{[l]} - \alpha \frac{\partial J}{\partial b^{[l]}}$$
Para mejorar la eficiencia y la convergencia del gradiente descendente, se utilizan optimizadores avanzados como Momentum, Adam y RMSprop. Estos optimizadores ajustan el proceso de actualización para acelerar la convergencia y mejorar el rendimiento.
   - Momentum
     Utiliza una "aceleración" para suavizar las actualizaciones:
$$v_{dW^{[l]}} = \beta v_{dW^{[l]}} + (1-\beta) \frac{\partial J}{\partial W^{[l]}}$$
$$W^{[l]} = W^{[l]} - \alpha v_{dW^{[l]}}$$
Donde $\beta$ es el parámetro de momentum (típicamente 0.9).
   - Adam (Adaptive Moment Estimation)
     Combina los beneficios de Momentum y RMSprop, manteniendo un promedio de los gradientes y sus cuadrados:
$$v_{dW^{[l]}} = \beta_1 v_{dW^{[l]}} + (1-\beta_1) \frac{\partial J}{\partial W^{[l]}}$$
$$s_{dW^{[l]}} = \beta_2 s_{dW^{[l]}} + (1-\beta_2) \left(\frac{\partial J}{\partial W^{[l]}}\right)^2$$
     Con corrección de bias:
$$v_{dW^{[l]}}^{corrected} = \frac{v_{dW^{[l]}}}{1-\beta_1^t}$$
$$s_{dW^{[l]}}^{corrected} = \frac{s_{dW^{[l]}}}{1-\beta_2^t}$$
      Finalmente, la actualización se realiza como:
$$W^{[l]} = W^{[l]} - \alpha \frac{v_{dW^{[l]}}^{corrected}}{\sqrt{s_{dW^{[l]}}^{corrected}} + \epsilon}$$
      Donde $\beta_1$, $\beta_2$ son hiperparámetros (típicamente 0.9 y 0.999) y $\epsilon$ es un valor pequeño para evitar división por cero.



---


#3️⃣ Requerimientos - Librerías y dataset

In [2]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.metrics import mean_absolute_error, mean_squared_error
import seaborn as sns
!pip install optuna
import optuna

Collecting optuna
  Downloading optuna-4.2.1-py3-none-any.whl.metadata (17 kB)
Collecting alembic>=1.5.0 (from optuna)
  Downloading alembic-1.15.1-py3-none-any.whl.metadata (7.2 kB)
Collecting colorlog (from optuna)
  Downloading colorlog-6.9.0-py3-none-any.whl.metadata (10 kB)
Collecting Mako (from alembic>=1.5.0->optuna)
  Downloading Mako-1.3.9-py3-none-any.whl.metadata (2.9 kB)
Downloading optuna-4.2.1-py3-none-any.whl (383 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m383.6/383.6 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading alembic-1.15.1-py3-none-any.whl (231 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m231.8/231.8 kB[0m [31m17.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading colorlog-6.9.0-py3-none-any.whl (11 kB)
Downloading Mako-1.3.9-py3-none-any.whl (78 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m78.5/78.5 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: M

#Dataset
Fuente de origen: https://www.kaggle.com/datasets/rhuebner/human-resources-data-set

Las variables del dataset se encunetran explicadas en: https://rpubs.com/rhuebner/hrd_cb_v14. Sin embargo, por favor tomar en cuenta la siguiente tabla para asegurar mayor entendimiento de las varibales.

In [3]:
import pandas as pd
from IPython.display import display, Markdown

# Definir el diccionario de datos
data_dict = {
    "Atributo": [
        "Nombre del Empleado", "EmpID", "MarriedID", "MaritalStatusID", "EmpStatusID",
        "DeptID", "PerfScoreID", "FromDiversityJobFairID", "Salary", "Termd",
        "PositionID", "Position", "State", "Zip", "DOB", "Sex", "MaritalDesc",
        "CitizenDesc", "HispanicLatino", "RaceDesc", "DateofHire", "DateofTermination",
        "TermReason", "EmploymentStatus", "Department", "ManagerName", "ManagerID",
        "RecruitmentSource", "PerformanceScore", "EngagementSurvey", "EmpSatisfaction",
        "SpecialProjectsCount", "LastPerformanceReviewDate", "DaysLateLast30", "Absences"
    ],
    "Descripción": [
        "Nombre completo del empleado", "ID única del empleado", "¿Está casado? (1: Sí, 0: No)",
        "Código de estado civil", "Código de estado de empleo", "Código del departamento",
        "Código de desempeño", "¿Contratado en feria de diversidad? (1: Sí, 0: No)",
        "Salario anual en dólares", "¿Empleado despedido? (1: Sí, 0: No)", "Código de posición",
        "Título de la posición", "Estado donde reside", "Código postal", "Fecha de nacimiento",
        "Género (M: Masculino, F: Femenino)", "Estado civil (Soltero, Casado, etc.)",
        "Estado de ciudadanía", "¿Es hispano/latino? (Sí o No)", "Raza del empleado",
        "Fecha de contratación", "Fecha de despido (si aplica)", "Razón del despido",
        "Estado laboral (Ej. Activo)", "Departamento donde trabaja", "Nombre del jefe inmediato",
        "ID del gerente", "Fuente de contratación", "Puntuación de desempeño",
        "Resultado de la última encuesta de compromiso", "Satisfacción laboral (1-5)",
        "Número de proyectos especiales (últimos 6 meses)", "Fecha de la última evaluación de desempeño",
        "Veces que llegó tarde en los últimos 30 días", "Número de ausencias"
    ],
    "Tipo de Dato": [
        "Texto", "Texto", "Binario", "Entero", "Entero", "Entero", "Entero", "Binario",
        "Flotante", "Binario", "Entero", "Texto", "Texto", "Texto", "Fecha", "Texto",
        "Texto", "Texto", "Texto", "Texto", "Fecha", "Fecha", "Texto", "Texto",
        "Texto", "Texto", "Entero", "Texto", "Texto", "Flotante", "Entero",
        "Entero", "Fecha", "Entero", "Entero"
    ]
}

# Crear DataFrame
df = pd.DataFrame(data_dict)

# Mostrar la tabla en Markdown
display(Markdown(df.to_markdown(index=False)))

| Atributo                  | Descripción                                        | Tipo de Dato   |
|:--------------------------|:---------------------------------------------------|:---------------|
| Nombre del Empleado       | Nombre completo del empleado                       | Texto          |
| EmpID                     | ID única del empleado                              | Texto          |
| MarriedID                 | ¿Está casado? (1: Sí, 0: No)                       | Binario        |
| MaritalStatusID           | Código de estado civil                             | Entero         |
| EmpStatusID               | Código de estado de empleo                         | Entero         |
| DeptID                    | Código del departamento                            | Entero         |
| PerfScoreID               | Código de desempeño                                | Entero         |
| FromDiversityJobFairID    | ¿Contratado en feria de diversidad? (1: Sí, 0: No) | Binario        |
| Salary                    | Salario anual en dólares                           | Flotante       |
| Termd                     | ¿Empleado despedido? (1: Sí, 0: No)                | Binario        |
| PositionID                | Código de posición                                 | Entero         |
| Position                  | Título de la posición                              | Texto          |
| State                     | Estado donde reside                                | Texto          |
| Zip                       | Código postal                                      | Texto          |
| DOB                       | Fecha de nacimiento                                | Fecha          |
| Sex                       | Género (M: Masculino, F: Femenino)                 | Texto          |
| MaritalDesc               | Estado civil (Soltero, Casado, etc.)               | Texto          |
| CitizenDesc               | Estado de ciudadanía                               | Texto          |
| HispanicLatino            | ¿Es hispano/latino? (Sí o No)                      | Texto          |
| RaceDesc                  | Raza del empleado                                  | Texto          |
| DateofHire                | Fecha de contratación                              | Fecha          |
| DateofTermination         | Fecha de despido (si aplica)                       | Fecha          |
| TermReason                | Razón del despido                                  | Texto          |
| EmploymentStatus          | Estado laboral (Ej. Activo)                        | Texto          |
| Department                | Departamento donde trabaja                         | Texto          |
| ManagerName               | Nombre del jefe inmediato                          | Texto          |
| ManagerID                 | ID del gerente                                     | Entero         |
| RecruitmentSource         | Fuente de contratación                             | Texto          |
| PerformanceScore          | Puntuación de desempeño                            | Texto          |
| EngagementSurvey          | Resultado de la última encuesta de compromiso      | Flotante       |
| EmpSatisfaction           | Satisfacción laboral (1-5)                         | Entero         |
| SpecialProjectsCount      | Número de proyectos especiales (últimos 6 meses)   | Entero         |
| LastPerformanceReviewDate | Fecha de la última evaluación de desempeño         | Fecha          |
| DaysLateLast30            | Veces que llegó tarde en los últimos 30 días       | Entero         |
| Absences                  | Número de ausencias                                | Entero         |

#4️⃣ Código - Preparación de los datos

En esta parte primero, se limpian y estandarizan las variables, convirtiendo fechas a un formato uniforme y manejando valores nulos con la mediana para evitar sesgos. Luego, se transforman las variables categóricas en representaciones numéricas mediante One-Hot Encoding, permitiendo que el modelo las procese correctamente. Además, se normalizan las variables numéricas con StandardScaler para que todas tengan una escala comparable, evitando que algunas dominen sobre otras. Finalmente, se dividen los datos en conjuntos de entrenamiento y prueba, asegurando que el modelo pueda generalizar su aprendizaje a nuevos datos. Todo este proceso mejora la estabilidad del modelo y evita problemas como el sobreajuste o el sesgo en el entrenamiento

In [5]:
# Cargar dataset de Recursos Humanos (suponemos que tienes un CSV con datos históricos)
data = pd.read_csv("HRDataset_v14.csv")

# Inspección inicial del dataset
print(data.head())  # Muestra las primeras filas del dataset
print(data.info())  # Muestra información general del dataset
print(data.describe())  # Muestra estadísticas descriptivas de las columnas numéricas

              Employee_Name  EmpID  MarriedID  MaritalStatusID  GenderID  \
0       Adinolfi, Wilson  K  10026          0                0         1   
1  Ait Sidi, Karthikeyan     10084          1                1         1   
2         Akinkuolie, Sarah  10196          1                1         0   
3              Alagbe,Trina  10088          1                1         0   
4          Anderson, Carol   10069          0                2         0   

   EmpStatusID  DeptID  PerfScoreID  FromDiversityJobFairID  Salary  ...  \
0            1       5            4                       0   62506  ...   
1            5       3            3                       0  104437  ...   
2            5       5            3                       0   64955  ...   
3            1       5            3                       0   64991  ...   
4            5       5            3                       0   50825  ...   

      ManagerName  ManagerID RecruitmentSource PerformanceScore  \
0  Michael Albert  

In [6]:
# Mostrar valores nulos antes del preprocesamiento
print("Valores nulos antes del tratamiento:")
print(data.isnull().sum())  # Muestra la cantidad de valores nulos por columna

Valores nulos antes del tratamiento:
Employee_Name                   0
EmpID                           0
MarriedID                       0
MaritalStatusID                 0
GenderID                        0
EmpStatusID                     0
DeptID                          0
PerfScoreID                     0
FromDiversityJobFairID          0
Salary                          0
Termd                           0
PositionID                      0
Position                        0
State                           0
Zip                             0
DOB                             0
Sex                             0
MaritalDesc                     0
CitizenDesc                     0
HispanicLatino                  0
RaceDesc                        0
DateofHire                      0
DateofTermination             207
TermReason                      0
EmploymentStatus                0
Department                      0
ManagerName                     0
ManagerID                       8
Recruitment

In [7]:
# Conversión de fechas al mismo formato
date_columns = ['DOB', 'DateofHire', 'DateofTermination', 'LastPerformanceReview_Date']
for col in date_columns:
    data[col] = pd.to_datetime(data[col], errors='coerce')  # Convierte las columnas de fecha a formato datetime

# Manejo de valores nulos (rellenamos con la mediana para valores numéricos)
data.fillna({
    'Salary': data['Salary'].median(),
    'EngagementSurvey': data['EngagementSurvey'].median(),
    'EmpSatisfaction': data['EmpSatisfaction'].median(),
    'SpecialProjectsCount': data['SpecialProjectsCount'].median(),
    'DaysLateLast30': data['DaysLateLast30'].median(),
    'Absences': data['Absences'].median(),
    'ManagerID': data['ManagerID'].median()  # Se llena con la mediana para evitar NaN
}, inplace=True)

# Conversión de datos numéricos a enteros cuando corresponda
int_columns = ['EmpID', 'MarriedID', 'MaritalStatusID', 'GenderID', 'EmpStatusID', 'DeptID', 'PerfScoreID', 'FromDiversityJobFairID', 'Termd', 'PositionID', 'ManagerID', 'SpecialProjectsCount', 'DaysLateLast30', 'Absences']
for col in int_columns:
    data[col] = data[col].astype(int)  # Convierte las columnas seleccionadas a enteros

# Selección de características relevantes para predecir el número de ausencias
features = ['EmpStatusID', 'DeptID', 'PerfScoreID', 'Salary', 'EngagementSurvey', 'EmpSatisfaction', 'SpecialProjectsCount', 'DaysLateLast30']
target = 'Absences'

# Codificación de variables categóricas
encoder = OneHotEncoder(handle_unknown='ignore')
categorical_features = ['EmpStatusID', 'DeptID', 'PerfScoreID']
categorical_encoded = encoder.fit_transform(data[categorical_features]).toarray()  # Transforma variables categóricas en formato One-Hot

# Normalización de variables numéricas
scaler = StandardScaler()
numerical_features = ['Salary', 'EngagementSurvey', 'EmpSatisfaction', 'SpecialProjectsCount', 'DaysLateLast30']
numerical_scaled = scaler.fit_transform(data[numerical_features])  # Escala las variables numéricas

# Concatenación de datos preprocesados
X = np.hstack((categorical_encoded, numerical_scaled))  # Une las características codificadas y escaladas
y = data[target].values  # Define la variable objetivo

# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 80% entrenamiento, 20% prueba

  data[col] = pd.to_datetime(data[col], errors='coerce')  # Convierte las columnas de fecha a formato datetime


#5️⃣ Optimización de hiperparámetros e implementación de la red
Una nota importante es que a mayor cantidad de trials mayor es el tiempo que toma en correr el código.

Se creó la función de objective para optimizar los hiperparámetros de la red neuronal utilizando Optuna. En cada iteración, Optuna prueba diferentes valores de hiperparámetros para encontrar la mejor combinación en términos de pérdida de validación (val_loss).

Se eligen los siguientes rangos de hiperparámetros basándose en buenas prácticas y eficiencia computacional:

* **Tasa de aprendizaje (learning_rate):** Se selecciona entre 1e-4 y 1e-2 con suggest_float(log=True). Esto permite explorar valores en un rango logarítmico, dado que valores muy pequeños pueden hacer que el modelo aprenda demasiado lento, mientras que valores muy grandes pueden provocar oscilaciones en la optimización.
* **Tamaño de batch (batch_size):** Se eligen 32 o 64 porque estos valores representan un equilibrio entre estabilidad y eficiencia. Un batch pequeño (ej. 16) introduce más ruido en la actualización de pesos, mientras que un batch grande (ej. 128 o más) puede requerir más memoria sin mejorar el rendimiento significativamente.
* **Número de épocas (epochs):** Se varía entre 20 y 100 para encontrar un punto óptimo. Entrenar menos de 20 épocas puede no ser suficiente para capturar patrones, mientras que entrenar más de 100 podría no ser necesario, aumentando el tiempo de cómputo sin mejorar el rendimiento.

In [None]:
def objective(trial):
    learning_rate = trial.suggest_float('learning_rate', 1e-4, 1e-2)
    batch_size = trial.suggest_categorical('batch_size', [32, 64])
    epochs = trial.suggest_int('epochs', 20, 100)  # Reducido para menor tiempo de ejecución

    model = keras.Sequential([
        keras.layers.Dense(256, activation='relu', input_shape=(X_train.shape[1],)),
        keras.layers.Dense(128, activation='relu'),
        keras.layers.Dense(64, activation='relu'),
        keras.layers.Dense(1, activation='linear')
    ])

    model.compile(optimizer=keras.optimizers.Adam(learning_rate=learning_rate),
                  loss='mean_squared_error',
                  metrics=['mae'])

    early_stopping = keras.callbacks.EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

    history = model.fit(
        X_train, y_train,
        batch_size=batch_size,
        epochs=epochs,
        verbose=0,
        validation_split=0.2,
        callbacks=[early_stopping]
    )

    return min(history.history['val_loss'])

study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=5)  # Reducido a 5 pruebas para mayor velocidad

print("Mejores parámetros encontrados:", study.best_trial.params)

[I 2025-03-18 02:56:27,547] A new study created in memory with name: no-name-725b7bd7-3b81-4c53-a836-3352567aeb63
[I 2025-03-18 02:56:30,800] Trial 0 finished with value: 37.10557556152344 and parameters: {'learning_rate': 0.009174737137335971, 'batch_size': 64, 'epochs': 73}. Best is trial 0 with value: 37.10557556152344.
[I 2025-03-18 02:56:37,096] Trial 1 finished with value: 34.24565124511719 and parameters: {'learning_rate': 0.004122392489678778, 'batch_size': 64, 'epochs': 21}. Best is trial 1 with value: 34.24565124511719.
[I 2025-03-18 02:56:40,630] Trial 2 finished with value: 37.19048309326172 and parameters: {'learning_rate': 0.007997793184450009, 'batch_size': 32, 'epochs': 46}. Best is trial 1 with value: 34.24565124511719.
[I 2025-03-18 02:56:44,623] Trial 3 finished with value: 36.44232940673828 and parameters: {'learning_rate': 0.004611331130909129, 'batch_size': 64, 'epochs': 28}. Best is trial 1 with value: 34.24565124511719.
[I 2025-03-18 02:56:49,688] Trial 4 finish

Mejores parámetros encontrados: {'learning_rate': 0.004122392489678778, 'batch_size': 64, 'epochs': 21}


#6️⃣ Gráficas de resultado
Una vez determinados los mejores hiperparámetros, el modelo se entrena con una arquitectura de red neuronal densa que incluye tres capas ocultas con 256, 128 y 64 neuronas respectivamente, todas con activación ReLU. La capa de salida tiene activación lineal, adecuada para problemas de regresión. El modelo se compila con el optimizador Adam, que equilibra velocidad de convergencia y estabilidad en la actualización de los pesos.

Finalmente, se evalúa el rendimiento del modelo utilizando métricas como Mean Squared Error (MSE), Mean Absolute Error (MAE) y R² Score. Además, se generan varias visualizaciones interactivas en Plotly, cada una con un propósito específico:

* **Comparación entre valores reales y predichos (Gráfica de dispersión):** Permite visualizar qué tan alineadas están las predicciones con los valores reales. Si el modelo es preciso, los puntos deberían concentrarse a lo largo de la línea y = x, lo que indica predicciones cercanas a los valores reales.

* **Histograma de errores:** Muestra la distribución de los errores de predicción (y_real - y_predicho). Un histograma centrado en cero con una dispersión pequeña indica un modelo preciso. Si la distribución está sesgada o tiene valores extremos, podría indicar la presencia de errores sistemáticos o datos atípicos que el modelo no maneja bien.

* **Boxplot de errores:** Visualiza la distribución de los errores, resaltando la mediana y la presencia de valores atípicos. Si hay una gran cantidad de outliers o una dispersión muy alta, significa que el modelo tiene dificultades en ciertas regiones del conjunto de datos.

* **Curva de residuos (Residual Plot):** Representa los errores (residuos = y_real - y_predicho) en función de los valores predichos. Un buen modelo debe mostrar una distribución aleatoria de residuos, sin patrones evidentes. Si hay una tendencia en los residuos (ej. curva en forma de U o acumulación en un solo lado), puede indicar que el modelo no está capturando bien algunas relaciones en los datos.

* **Evolución de la pérdida (loss) durante el entrenamiento:** Muestra cómo la función de pérdida disminuye con cada época. Una convergencia estable indica que el modelo está aprendiendo de manera efectiva. Si la curva de validación (val_loss) comienza a aumentar mientras la de entrenamiento sigue disminuyendo, puede ser una señal de sobreajuste.

* **Evolución del error absoluto medio (MAE) durante el entrenamiento:** Similar a la curva de pérdida, muestra la evolución del Mean Absolute Error a lo largo de las épocas. Se utiliza para verificar si el modelo está mejorando de manera consistente y si hay una diferencia significativa entre los valores de entrenamiento y validación.

In [None]:
# Ejecutar la optimización con Optuna
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=5)  # Reducido para mayor velocidad

# Obtener los mejores hiperparámetros
best_params = study.best_trial.params
print("Mejores parámetros encontrados:", best_params)

# Entrenar el modelo con los mejores parámetros
final_model = keras.Sequential([
    keras.layers.Dense(256, activation='relu', input_shape=(X_train.shape[1],)),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(64, activation='relu'),
    keras.layers.Dense(1, activation='linear')
])

final_model.compile(optimizer=keras.optimizers.Adam(learning_rate=best_params['learning_rate']),
                    loss='mean_squared_error',
                    metrics=['mae'])

early_stopping = keras.callbacks.EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

history = final_model.fit(
    X_train, y_train,
    batch_size=best_params['batch_size'],
    epochs=best_params['epochs'],
    verbose=1,
    validation_split=0.2,
    callbacks=[early_stopping]
)

# Evaluación del modelo
y_pred = final_model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f'Mean Squared Error: {mse}')
print(f'Mean Absolute Error: {mae}')
print(f'R2 Score: {r2}')

import plotly.express as px

# Gráfica interactiva de predicciones reales vs. predichas
fig_pred = px.scatter(
    x=y_test, y=y_pred.flatten(),
    labels={'x': 'Valores Reales', 'y': 'Valores Predichos'},
    title='Valores Reales vs. Predichos',
    color_discrete_sequence=['#636EFA']  # Azul vibrante
)
fig_pred.update_traces(marker=dict(size=8, opacity=0.7, line=dict(width=1, color='black')))
fig_pred.show()

# Histograma de errores de predicción
errors = y_test - y_pred.flatten()
fig_error_hist = px.histogram(
    errors, nbins=20,
    title='Distribución de Errores de Predicción',
    labels={'x': 'Error de Predicción', 'y': 'Frecuencia'},
    color_discrete_sequence=['#EF553B']  # Rojo llamativo
)
fig_error_hist.update_traces(marker=dict(line=dict(width=1, color='black')))
fig_error_hist.show()

# Boxplot de los errores
fig_error_box = px.box(
    y=errors,
    title='Diagrama de Caja de Errores',
    labels={'y': 'Errores de Predicción'},
    color_discrete_sequence=['#00CC96']  # Verde llamativo
)
fig_error_box.update_traces(boxmean='sd')  # Muestra la media y desviación estándar
fig_error_box.show()

# Curva de residuos
fig_residuals = px.scatter(
    x=y_pred.flatten(), y=errors,
    labels={'x': 'Valores Predichos', 'y': 'Residuos'},
    title='Curva de Residuos',
    color_discrete_sequence=['#AB63FA']  # Morado vibrante
)
fig_residuals.update_traces(marker=dict(size=8, opacity=0.7, line=dict(width=1, color='black')))
fig_residuals.show()

# Curva de pérdida durante el entrenamiento
fig_loss = px.line(
    x=range(len(history.history['loss'])),
    y=[history.history['loss'], history.history['val_loss']],
    labels={'x': 'Épocas', 'y': 'Pérdida'},
    title='Pérdida vs. Épocas',
    color_discrete_sequence=['#FFA15A', '#19D3F3']  # Naranja y celeste
)
fig_loss.show()

# Curva de MAE durante el entrenamiento
fig_mae = px.line(
    x=range(len(history.history['mae'])),
    y=[history.history['mae'], history.history['val_mae']],
    labels={'x': 'Épocas', 'y': 'Error Absoluto Medio (MAE)'},
    title='MAE vs. Épocas',
    color_discrete_sequence=['#FF6692', '#636EFA']  # Rosado y azul
)
fig_mae.show()

[I 2025-03-18 03:29:30,091] A new study created in memory with name: no-name-5fcfd6fb-faf3-4792-a9f3-05d0ee78a4a3

Do not pass an `input_shape`/`input_dim` argument to a layer. When using Sequential models, prefer using an `Input(shape)` object as the first layer in the model instead.

[I 2025-03-18 03:29:33,995] Trial 0 finished with value: 35.447471618652344 and parameters: {'learning_rate': 0.006366644995144554, 'batch_size': 64, 'epochs': 64}. Best is trial 0 with value: 35.447471618652344.
[I 2025-03-18 03:29:37,896] Trial 1 finished with value: 37.238006591796875 and parameters: {'learning_rate': 0.006142635664920177, 'batch_size': 32, 'epochs': 43}. Best is trial 0 with value: 35.447471618652344.
[I 2025-03-18 03:29:42,473] Trial 2 finished with value: 35.83464050292969 and parameters: {'learning_rate': 0.006863632000367529, 'batch_size': 32, 'epochs': 32}. Best is trial 0 with value: 35.447471618652344.
[I 2025-03-18 03:29:47,757] Trial 3 finished with value: 38.15132522583008 

Mejores parámetros encontrados: {'learning_rate': 0.006366644995144554, 'batch_size': 64, 'epochs': 64}
Epoch 1/64
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 89ms/step - loss: 112.0602 - mae: 9.0064 - val_loss: 47.8083 - val_mae: 5.7718
Epoch 2/64
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 28ms/step - loss: 42.0121 - mae: 5.4071 - val_loss: 38.3319 - val_mae: 5.3069
Epoch 3/64
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step - loss: 36.9812 - mae: 5.2027 - val_loss: 42.3306 - val_mae: 5.5242
Epoch 4/64
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 28ms/step - loss: 41.3449 - mae: 5.3559 - val_loss: 36.4411 - val_mae: 5.4194
Epoch 5/64
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 26ms/step - loss: 37.2554 - mae: 5.1412 - val_loss: 39.5917 - val_mae: 5.5861
Epoch 6/64
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 26ms/step - loss: 33.5178 - mae: 4.9880 - val_loss: 42.6093 - val_m

#7️⃣ Reflexión Final del Equipo

### **Uso Inteligente de los Recursos Computacionales**
* La cantidad de **trials en Optuna** afecta directamente el **tiempo y los recursos computacionales**. En lugar de probar valores arbitrarios, es recomendable utilizar **Grid Search** o incluso **algoritmos genéticos** para encontrar configuraciones óptimas sin desperdiciar capacidad de cómputo.

### **Visualizaciones Interactivas Facilitan la Interpretación**
* Las gráficas interactivas permiten **comprender mejor los resultados** y detectar posibles problemas en el modelo. Herramientas como **Plotly** facilitan la identificación de patrones y errores de predicción.

### **El Overfitting es un Riesgo Constante**
* El uso de **EarlyStopping** fue clave para evitar el sobreajuste. Sin embargo, ajustar la arquitectura del modelo y la cantidad de datos de entrenamiento sigue siendo un desafío en redes neuronales.

### **Comprender las Métricas es Fundamental**
* Las métricas de rendimiento como **MSE, MAE y R² Score** son esenciales para evaluar la calidad del modelo. Entenderlas permite tomar mejores decisiones al ajustar hiperparámetros y mejorar la generalización del modelo.