## **Memoria**

# **Introducción**

En el actual panorama laboral global, la toma de decisiones informada sobre salarios es esencial tanto para empleadores como para empleados. La variabilidad en los salarios entre diferentes industrias, regiones y perfiles profesionales plantea desafíos significativos en la gestión de recursos humanos, y la comprensión de las tendencias salariales y las influencias es crucial para fomentar entornos laborales equitativos y para que los profesionales tomen decisiones fundamentadas.

Este proyecto se propone abordar esta problemática mediante el análisis de un conjunto de datos que proporciona información salarial detallada de diversas industrias y regiones. Al comprender las relaciones entre variables como la edad, género, nivel educativo, años de experiencia, entre otras, se pretende identificar patrones y tendencias que sirvan como base para la toma de decisiones.

**Objetivo:**

Este proyecto busca utilizar herramientas de Machine Learning para comprender, analizar y predecir patrones salariales, con el fin de influir positivamente en la toma de decisiones tanto de empleadores como de profesionales en el panorama laboral actual.

# **Dataset**

El dataset proviene de sitios web de empleo y encuestas reconocidas y proporciona una amplia recopilación de información salarial de diversas industrias y regiones en todo el mundo.

- Salary: Variable numérica US Dollar (TARGET)
- Age: Variable numérica
- Gender: Variable categórica
- Education Level: Variable numérica (0 : High School, 1 : Bachelor Degree, 2 : Master Degree, 3 : Phd)
- Job Title: Variable categórica
- Years of Experience: Variable numérica
- Country: Variable categórica
- Race: Variable categórica
- Senior: Variable numérica. Posición senior o no (binary)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# **Preprocesamiento de los datos**

Los datos del dataset Salary.csv están limpios. No contiene duplicaciones ni valores nulos.

Transformación de variables: 
Se han transformado las variables categóricas 'Job Title', 'Country', 'Gender' y 'Race' a variables numéricas. 
- Job title: Mapeo en base a la variable 'Salary', de menor a mayor.
- Country: Mapeo en base a la variable 'Salary', de menor a mayor.
- Race: Asignación de valores aleatorios.
- Gender: Mapeado a binario ('Male': 0, 'Female': 1).

![image.png](attachment:image.png)

La variable con mayor correlación con 'salario' es 'Years of Experience' (0,81)
La segunda más alta con 'Salario' es 'Age' (0,73)
La correlación más alta de la matriz es entre 'Age' y 'Years of Experience': 94%

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

'Age' y 'Years of Experience' tienen una alta correlación entre ellas, lo que podría llegar a provocar colinealidad. En este caso, se han hecho pruebas quitando la variable 'Age' (la que menor correlación lineal tiene con el salario entre las dos), y viendo que no había diferencia notable se han mantenido ambas variables.

La correlación entre 'Salary' y 'Country' y 'Race' es baja, pero teniendo en cuenta que no hay muchas variables y que tanto país como raza pueden servir para sacar conclusiones a las que no se podría llegar con las otras variables, se mantienen.

# **Modelado**

El modelo que se desarrolla en el proyecto consiste en la predicción de salarios en base a diferentes variables, por lo que los modelos probados están basados en la regresión lineal. 

**Modelos probados**:
- Regresión lineal
- Ridge
- Lasso
- Gradient Boosting
- Ada Boost
- Decission Tree
- SVR
- XG Boost Regressor
- Random Forest

**Mejores modelos**:
Tanto **Random Forest** como **XGBoost** muestran un rendimiento muy similar, con puntuaciones de R-squared altas y MSE bajas, lo que indica una capacidad sólida para predecir los datos. 


*Random Forest*
- Mean Squared Error (Random Forest): 81240428.136985
- R-squared (Random Forest): 0.9710163087690005
- Mean Absolute Error (Random Forest): 4169.5950028590305
- Pearson Correlation (Random Forest): 0.9854150714833849

*Modelo seleccionado: XGBR*
- Mean Squared Error (XGBoost): 72051784.08576588
- R-squared (XGBoost): 0.9742944896959034
- Mean Absolute Error (XGBoost): 4828.656434360397
- Pearson Correlation (XGBoost): 0.9870840991570619

# **Predicción y resultados finales**

**XGBR test1**
- Mean Squared Error (XGBoost): 86761783.70868415
- R-squared (XGBoost): 0.9691117627553942
- Mean Absolute Error (XGBoost): 4981.462563399869
- Pearson Correlation (XGBoost): 0.9844477019319562

Los resultados indican que el modelo XGBoost tiene un buen desempeño en la predicción de salarios en el conjunto de datos de prueba test1, mostrando una capacidad para predecir los salarios con un bajo error y una alta precisión en relación con los valores reales.

# **Conclusiones**

Se ha desarrollado un modelo de regresión basado en XGBoost que predice los salarios en función de varias características como edad, género, nivel educativo, años de experiencia, entre otros.
El modelo ha pasado por un proceso de entrenamiento utilizando datos históricos.
Se ha evaluado y validado utilizando métricas como R-cuadrado, error cuadrático medio y correlación de Pearson para asegurar su precisión.

El modelo ha demostrado una alta capacidad para predecir los salarios con precisión, lo que puede ser crucial para tomar decisiones empresariales relacionadas con la compensación de empleados.

Al predecir los salarios con mayor precisión, la empresa puede asignar mejor los recursos financieros y establecer políticas de remuneración más equitativas y competitivas.

Las predicciones precisas pueden respaldar la toma de decisiones estratégicas en términos de contratación, retención de empleados y planificación financiera.

![image.png](attachment:image.png)