# PROYECTO OPTIMIZACIÓN DEL TALENTO PARA ABC CORPORATION

Con el objetivo de reducir la rotación de empleados y mejorar la satisfacción en el trabajo, la empresa ABC Corporation nos han contratado para desarrollar un proyecto de análisis de datos. Nuestra misión es identificar factores clave que influyen en la satisfacción en el trabajo y, en última instancia, en la retención de empleados.

En este proyecto, presentaremos los resultados de nuestro análisis exploratorio de datos y analizaremos los resultados para proporcionar a ABC Corporation información valiosa que informe sus decisiones estratégicas.

La empresa se distingue por tener un equipo multidisciplinario que abarca expertos en UX/UI, marketing, analistas, científicos de datos y otros campos relevantes. Esta diversidad permite una sinergia única entre conocimientos técnicos especializados y perspectivas variadas, lo que les permite ofrecer soluciones personalizadas adaptadas a las necesidades individuales de cada cliente.

## ANÁLISIS EXPLORATORIO DE LOS DATOS: INFORME EDA

Las columnas que encontramos en el DataFrame del archivo "hr_raw_data.csv" son:

- age: Edad del empleado.

- attrition: Indica si el empleado dejó la empresa (Yes, No).

- businesstravel: Frecuencia de viajes laborales (travel_rarely, travel_frequently, non-travel).

- dailyrate: Tarifa diaria estimada para clientes, calculada en base al salario.

- department: Departamento en el que trabaja el empleado (Research & Development, Sales, Human Resources).

- distancefromhome: Distancia en millas o kilómetros desde el hogar al trabajo.

- education: Nivel educativo del empleado en escala numérica (1, 2, 3, 4, 5).

- educationfield: Campo de estudio académico del empleado (Human Resources, Life Sciences, Marketing, Medical, Technical Degree, Other).

- employeecount: Valor constante de "1", indicando un solo empleado por registro.

- employeenumber: Número de identificación del empleado.

- environmentsatisfaction: Nivel de satisfacción con el ambiente laboral (1, 2, 3, 4).

- gender: Género del empleado (male, female).

- hourlyrate: Tarifa por hora calculada.

- jobinvolvement: Nivel de compromiso del empleado en el trabajo (1, 2, 3, 4).

- joblevel: Nivel jerárquico del puesto del empleado (1, 2, 3, 4, 5).

- jobrole: Función o rol específico del empleado.

- jobsatisfaction: Satisfacción general en el puesto (1, 2, 3, 4).

- maritalstatus: Estado civil (Married, Divorced, Single).

- monthlyincome: Ingreso mensual estimado en base al salario anual.

- monthlyrate: Tarifa mensual estimada en función de la tarifa diaria.

- numcompaniesworked: Número de empresas previas en las que ha trabajado (0, 1, 2, 3, 4, 5, 6, 7, 8, 9).

- over18: Indica si el empleado tiene más de 18 años (Y).

- overtime: Indica si el empleado trabaja horas extras (Yes, No).

- percentsalaryhike: Incremento porcentual en el salario.

- performancerating: Evaluación de desempeño en una escala numérica (1, 2, 3, 4).

- relationshipsatisfaction: Satisfacción con relaciones interpersonales en el trabajo (1, 2, 3, 4).

- standardhours: Clasificación de jornada (Full Time, Part Time).

- stockoptionlevel: Nivel de opciones sobre acciones asignadas (0, 1, 2, 3).

- totalworkingyears: Años totales de experiencia laboral.

- trainingtimeslastyear: Número de sesiones de entrenamiento en el último año (0, 1, 2, 3, 4, 5, 6).

- worklifebalance: Nivel de balance entre vida personal y laboral (1, 2, 3, 4).

- yearsatcompany: Años en la empresa actual.

- yearsincurrentrole: Años en el rol actual.

- yearssincelastpromotion: Años desde la última promoción recibida.

- yearswithcurrmanager: Años trabajando con el mismo gerente.

- sameasmonthlyincome: Ingreso mensual estimado en base al salario anual.

- datebirth: Año de nacimiento del empleado.

- salary: Salario anual calculado para el empleado.

- roledepartament: Combinación de rol y departamento.

- numberchildren: Número de hijos del empleado (no está disponible en ningún caso).

- remotework: Indica si el empleado trabaja de forma remota (Yes, No).

## INFORME DE TRANSFORMACIÓN DE LOS DATOS

Incluye la limpieza de datos, la normalización, la conversión de tipos de datos y la aplicación de reglas empresariales específicas. Las transformaciones se han realizado mediante funciones de Python aplicados a los datos extraídos.

En los casos en los que hemos podido resolver qué eran los nulos, hemos procedido a su limpieza. 

Sin embargo, hay casos en los que ésto no ha sido posible y hemos preferido realizar una revisión más específica de esas columnas que se desarrollará en el Informe de Nulos.

In [None]:
# Importamos las librerias a utilizar
import pandas as pd
import numpy as np


# Configuración para poder visualizar todas las columnas del DataFrame
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)

In [2]:
df = pd.read_csv("hr_raw_data.csv", index_col=0)
df.head(2)

Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeecount,employeenumber,environmentsatisfaction,gender,hourlyrate,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,over18,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearsincurrentrole,yearssincelastpromotion,yearswithcurrmanager,sameasmonthlyincome,datebirth,salary,roledepartament,numberchildren,remotework
0,51,No,,2015.722222,,6,3,,1,1,1,0,,3,5,resEArch DIREcToR,3,,"16280,83$","42330,17$",7,Y,No,13,30,3,Full Time,0,,5,30,20,,15,15,"16280,83$",1972,"195370,00$",,,Yes
1,52,No,,2063.388889,,1,4,Life Sciences,1,2,3,0,,2,5,ManAGeR,3,,,"43331,17$",0,,,14,30,1,,1,340.0,5,30,33,,11,9,,1971,"199990,00$",,,1


In [3]:
print(f"El número de filas que tenemos es {df.shape[0]}, y el número de columnas es {df.shape[1]}")

El número de filas que tenemos es 1678, y el número de columnas es 41


Vamos a realizar la transformación columna por columna.

#### COLUMNA AGE: Edad del empleado

- Índice 0 
- Datos de tipo objeto cuando deberían ser integer
- Encontramos errores pues algunos valores aparecen expresados en palabras

In [4]:
# cambiamos los valores por numeros: 
df['age'] = df['age'].str.replace('forty-seven', '47')
df['age'] = df['age'].str.replace('fifty-eight', '58')
df['age'] = df['age'].str.replace('thirty-six', '36')
df['age'] = df['age'].str.replace('fifty-five', '55')
df['age'] = df['age'].str.replace('fifty-two', '52')
df['age'] = df['age'].str.replace('thirty-one', '31')
df['age'] = df['age'].str.replace('thirty', '30')
df['age'] = df['age'].str.replace('twenty-six', '26')
df['age'] = df['age'].str.replace('thirty-seven', '37')
df['age'] = df['age'].str.replace('thirty-two', '32')
df['age'] = df['age'].str.replace('twenty-four', '24')
df['age'] = df['age'].str.replace('30-seven', '37')
df['age'] = df['age'].str.replace('30-two', '32')

# por ultimo cambiamos el tipo:
df['age'] = df['age'].astype(int)

# comprobar los unicos
df['age'].unique()

array([51, 52, 42, 47, 46, 48, 59, 41, 56, 38, 55, 40, 58, 35, 45, 33, 36,
       34, 53, 43, 60, 32, 37, 49, 39, 50, 44, 30, 29, 31, 54, 57, 27, 28,
       26, 25, 24, 23, 22, 21, 20, 19, 18])

#### COLUMNA ATTRITION: Indica si el empleado dejó la empresa (Yes/No).

- Índice 1
- Datos de tipo objeto
- No encontramos errores ni nulos

In [5]:
df['attrition'].unique()

array(['No', 'Yes'], dtype=object)

#### COLUMNA BUSINESS TRAVEL: Frecuencia de viajes laborales (travel_rarely, travel_frequently, non-travel)

- Índice 2
- Datos de tipo objeto
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [6]:
df['businesstravel'].unique()

array([nan, 'travel_rarely', 'travel_frequently', 'non-travel'],
      dtype=object)

#### COLUMNA DAILY RATE: Tarifa diaria estimada para clientes, calculada en base al salario

- Índice 3
- Datos de tipo float (decimal) con muchos decimales. Por comodidad procedemos a su redondeo a 0.01
- No encontramos errores ni nulos

In [7]:
df['dailyrate'] = round(df['dailyrate'], 2)
df['dailyrate'].unique()

array([2015.72, 2063.39, 1984.25, 1771.4 , 1582.77, 1771.92, 1032.49,
        556.26, 1712.18, 1973.98, 2060.71, 1382.75, 1362.52, 2016.55,
       1861.37, 1985.7 , 1108.92, 1728.38,  639.79, 2047.5 ,  412.8 ,
       1077.87, 1657.4 ,  331.19, 1059.19, 1080.75,  635.76,  487.09,
        290.04,  476.15, 1749.74, 1063.32,  557.76,  608.94, 1119.96,
        610.17,  685.7 , 1441.66, 1374.29,  689.93,  488.53, 1431.24,
       1964.96, 1652.34,  991.82, 1187.54,  444.27, 1758.71,  522.79,
        380.92, 2047.71,  238.13,  592.94, 1075.29,  654.85,  242.25,
        316.95, 1288.65,  827.46, 1760.98,  922.69, 1988.38,  575.4 ,
        277.64,  763.8 ,  910.31,  369.26, 1834.34, 1879.12, 1400.8 ,
       1979.92, 1766.66, 1979.61, 1032.57,  824.16,  730.79,  487.29,
        351.52,  302.2 , 1241.29, 1591.67,  528.87,  992.44,  516.9 ,
       1963.72, 1073.02,  288.17,  585.41, 1980.64,  867.9 ,  345.43,
        547.75,  789.7 , 1321.46,  679.51,  259.9 , 1764.18, 1353.65,
        323.04,  458

#### COLUMNA DEPARTMENT: Departamento en el que trabaja el empleado (Research & Development, Sales, Human Resources).

- Índice 4
- Datos de tipo objeto (string) con espacios al inicio y fin del dato. Por normalización, pasamos los datos a minúsculas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [8]:
df['department'] = df['department'].str.lower().str.strip()
df['department'].unique()

array([nan, 'research & development', 'sales', 'human resources'],
      dtype=object)

#### COLUMNA DISTANCE FROM HOME: Distancia en millas o kilómetros desde el hogar al trabajo.

- Índice 5
- Datos de tipo integer con algunos datos en negativo
- No encontramos errores ni nulos

In [10]:
df['distancefromhome'] = df['distancefromhome'].astype(str) 
df['distancefromhome'] = df['distancefromhome'].str.replace('-','') 
df['distancefromhome'] = df['distancefromhome'].astype(int)
df['distancefromhome'].unique()

array([ 6,  1,  4,  2,  3, 22, 25,  9,  7, 23, 10, 12, 14, 13, 15,  8, 42,
       28, 37,  5, 16, 35, 26, 24, 29, 17, 21, 18, 30, 27, 20, 31, 39, 11,
       19, 33, 34, 46, 36, 45, 47, 32, 41, 49, 48, 38, 43, 40, 44])

### COLUMNA EDUCATION: Nivel educativo del empleado en escala numérica (1, 2, 3, 4, 5).

- Índice 6
- Datos de tipo integer
- No encontramos errores ni nulos

In [11]:
df['education'].unique()

array([3, 4, 2, 1, 5])

#### COLUMNA EDUCATION FIELD: Campo de estudio académico del empleado (Human Resources, Life Sciences, Marketing, Medical, Technical Degree, Other).

- Índice 7
- Datos de tipo objeto (string). Por normalización, pasamos los datos a minúsculas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [15]:
df['educationfield'] = df['educationfield'].str.lower()
df['educationfield'].unique()

array([nan, 'life sciences', 'technical degree', 'medical', 'other',
       'marketing', 'human resources'], dtype=object)

#### COLUMNA EMPLOYEE COUNT: Valor constante de "1", indicando un solo empleado por registro.

- Índice 8
- Datos de tipo integer
- No encontramos errores ni nulos
- Valoramos la eliminación de ésta columna por no dar información relevante

In [13]:
df['employeecount'].unique()

array([1])

#### COLUMNA EMPLOYEE NUMBER: Número de identificación del empleado.

- Índice 9
- Datos de tipo integer
- Encontramos 64 valores duplicados que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [14]:
df['employeenumber'].unique()

array([   1,    2,    3, ..., 1612, 1613, 1614], shape=(1614,))

#### COLUMNA ENVIRONMENT SATISFACTION: Nivel de satisfacción con el ambiente laboral (1, 2, 3, 4).

- Índice 10
- Datos de tipo integer
- Encontramos valores erróneos (entre 1 y 49 cuando deberían ser 1, 2, 3, 4)

#### COLUMNA GENDER: Género del empleado (male/female).

- Índice 11
- Datos de tipo integer. Al modificar los valores (0 y 1 por male y female) pasarán a ser datos tipo objeto (string)

#### COLUMNA HourlyRate: Tarifa por hora calculada.

- Índice 12
- Datos de tipo integer. Por normalización, pasamos los datos a minúsculas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos
- No encontramos errores ni nulos
- Valoramos la eliminación de ésta columna por no dar información relevante