# Proyecto Machine Learning: "Optimización del Rendimiento Laboral: Un Enfoque de Machine Learning en Recursos Humanos"

## Introducción
El proyecto tiene como objetivo emplear técnicas de Machine Learning en el ámbito de Recursos Humanos para optimizar el rendimiento laboral de los empleados. Se busca utilizar datos previamente analizados para crear un modelo predictivo que permita tomar decisiones más informadas y estratégicas en la gestión del talento humano.

En un entorno empresarial altamente competitivo, la eficiencia y el rendimiento de los empleados son cruciales para el éxito de una organización. Sin embargo, la gestión de recursos humanos a menudo se basa en decisiones subjetivas o enfoques tradicionales. Este proyecto busca transformar la gestión de Recursos Humanos utilizando el poder de los datos y el Machine Learning.

## Análisis Exploratorio de Datos (EDA)
- Se realizó un exhaustivo Análisis Exploratorio de Datos (EDA) para examinar las relaciones entre diversas variables, como la edad, la relación con los supervisores, la colaboración entre compañeros, etc.
- El EDA proporcionó información valiosa sobre qué factores pueden estar influyendo en el rendimiento de los empleados.
- Se identificaron y manejaron valores faltantes en los datos.
- Se convirtieron las variables categóricas en variables numéricas para su posterior uso en modelos de Machine Learning.

## Transformación de Datos
- Se realizaron transformaciones en los datos para prepararlos para el entrenamiento de modelos de Machine Learning.
- Se convirtió la columna 'sub_shift' en formato numérico.
- Se mapearon categorías a valores numéricos en las columnas 'sub_workstyle_h', 'sub_role' y 'event_weekday_name'.
- Se empleó un codificador de etiquetas para convertir la variable categórica 'sub_sex' en valores numéricos.

## Modelos de Machine Learning:

Los resultados de los diferentes modelos de regresión y regresión logística se presentan a continuación:

**Regresión Lineal:**
- Error Cuadrático Medio (MSE): 0.1258
- Error Absoluto Medio (MAE): 0.2613
- Coeficiente de Determinación (R^2): 0.1980

Los coeficientes del modelo de regresión lineal son:
- Coeficientes: [-1.05103798e-05, 3.12566071e-03, 5.41768576e-03, 7.16190395e-03, -2.14629962e-02, 2.22449086e-02, 8.01368864e-02, -8.95948871e-02, -2.03185662e-03, -2.83534859e-02, 4.67494360e-02, -5.55286924e-02, 1.29845804e-03, -6.89685823e-02, 4.67603424e-02]

**Regresión Logística:**
- Exactitud (Accuracy): 0.64
- Matriz de Confusión:
  ```
  [[    0 13841]
   [    0 24416]]
  ```
- Reporte de Clasificación:
  ```
              precision    recall  f1-score   support

       False       0.00      0.00      0.00     13841
        True       0.64      1.00      0.78     24416

    accuracy                           0.64     38257
   macro avg       0.32      0.50      0.39     38257
   weighted avg    0.41      0.64      0.50     38257
  ```

Los coeficientes del modelo de regresión logística son:
- Coeficientes: [5.94784095e-09, 3.48698709e-15, 4.91427764e-18, 1.39842446e-16, 6.18825598e-17, 4.84110959e-17, 4.77083454e-17, 4.16774422e-17, 4.66651504e-17, 4.13199834e-17, 4.88958234e-17, 3.82099824e-17, 4.32360676e-17, -9.85322453e-17, 3.32499977e-16]

**Árbol de Decisión:**
- Error Cuadrático Medio (MSE): 0.1259
- Error Absoluto Medio (MAE): 0.2613
- Coeficiente de Determinación (R^2): 0.1980

**Árbol de Decisión (con cross-validation):**
- Error Cuadrático Medio (MSE) promedio: 0.1262

Para el Árbol de Decisión, se aplicó validación cruzada con k-fold (k=5) y se calculó el promedio del Error Cuadrático Medio (MSE) en cada iteración.

**Árbol de Decisión (con hiperparámetros):**
- Mejores hiperparámetros: {'max_depth': 20, 'min_samples_leaf': 4, 'min_samples_split': 10}
- Error Absoluto Medio (MAE): 0.2614
- Error Cuadrático Medio (MSE): 0.1259
- Coeficiente de Determinación (R^2): 0.1988

Se realizó una búsqueda de cuadrícula para encontrar la mejor combinación de hiperparámetros.

**Random Forest:**
- Error Cuadrático Medio (MSE): 0.1258
- Error Absoluto Medio (MAE): 0.2613
- Coeficiente de Determinación (R^2): 0.1990

Se utilizó un modelo Random Forest para regresión con 100 estimadores.

**SVM (Support Vector Machine) - Regresión:**
- Error Cuadrático Medio (MSE): 0.1593
- Error Absoluto Medio (MAE): 0.2973

Se utilizó un modelo de SVM con kernel gaussiano (RBF).

**Ridge Regression:**
- Error Absoluto Medio (MAE): 0.2809
- Coeficiente de Determinación (R^2): 0.0999

Se aplicó la regularización Ridge con un valor de alfa igual a 1.0.

**Lasso Regression:**
- Error Cuadrático Medio (MSE): 0.1571
- Error Absoluto Medio (MAE): 0.3009
- Coeficiente de Determinación (R^2): -0.0000

Se aplicó la regularización Lasso con un valor de alfa igual a 1.0.

# Conclusiones:

1. **Regresión Lineal:** El modelo de regresión lineal tiene un coeficiente de determinación (R^2) de aproximadamente 0.1980, lo que significa que explica alrededor del 19.80% de la variabilidad en la variable objetivo. Sin embargo, este valor no es muy alto, lo que sugiere que la relación entre las características y la variable objetivo puede no ser completamente lineal.

2. **Regresión Logística:** El modelo de regresión logística tiene una exactitud (Accuracy) del 64%. Sin embargo, al observar la matriz de confusión y el reporte de clasificación, se nota que el modelo tiene un bajo rendimiento en la clasificación de la clase "False" (menor eficacia). Esto podría indicar un desequilibrio en los datos o la necesidad de un modelo diferente para abordar este problema.

3. **Árbol de Decisión:** El árbol de decisión sin regularización tiene un rendimiento similar al modelo de regresión lineal, con un R^2 de aproximadamente 0.1980. Sin embargo, al aplicar validación cruzada, el Error Cuadrático Medio (MSE) promedio es cercano a 0.1262, lo que indica una mejora en la generalización del modelo.

4. **Árbol de Decisión con Búsqueda de Hiperparámetros:** Al ajustar los hiperparámetros del árbol de decisión, se logra una ligera mejora en el R^2, que alcanza aproximadamente 0.1988. La búsqueda de cuadrícula ayuda a encontrar los mejores hiperparámetros para este modelo.

5. **Random Forest:** El modelo Random Forest tiene un rendimiento similar al árbol de decisión, con un R^2 de alrededor de 0.1990. Aunque no muestra una mejora significativa sobre el árbol de decisión en este conjunto de datos, puede ser más robusto y menos propenso al sobreajuste.

6. **SVM (Support Vector Machine) - Regresión:** El modelo SVM con kernel gaussiano (RBF) tiene un Error Cuadrático Medio (MSE) de aproximadamente 0.1593 y un Error Absoluto Medio (MAE) de aproximadamente 0.2973. Estos valores indican un rendimiento moderado en términos de predicción.

7. **Ridge Regression:** El modelo de regresión Ridge tiene un MAE de aproximadamente 0.2809 y un R^2 de aproximadamente 0.0999. Aunque la regularización ayuda a controlar el sobreajuste, el modelo aún muestra un rendimiento limitado en términos de explicar la variabilidad en la variable objetivo.

8. **Lasso Regression:** El modelo de regresión Lasso tiene un MSE de aproximadamente 0.1571 y un MAE de aproximadamente 0.3009. Aunque Lasso puede ser útil para la selección de características, en este caso, el rendimiento es limitado con un R^2 cercano a cero.


Si el principal interés es el **rendimiento predictivo simple**, es decir, obtener las mejores predicciones posibles en términos de reducir el **Error Cuadrático Medio (MSE)** o el **Error Absoluto Medio (MAE)**, entonces el modelo de **Random Forest** parece ser la elección más adecuada en función de los resultados presentados.

En los resultados, el modelo de Random Forest tiene uno de los valores más bajos de MSE y MAE en comparación con otros modelos. Esto sugiere que tiene la capacidad de realizar predicciones más precisas en tu conjunto de datos en comparación con los otros algoritmos probados.