# PROYECTO OPTIMIZACIÓN DEL TALENTO PARA ABC CORPORATION

Con el objetivo de reducir la rotación de empleados y mejorar la satisfacción en el trabajo, la empresa ABC Corporation nos han contratado para desarrollar un proyecto de análisis de datos. Nuestra misión es identificar factores clave que influyen en la satisfacción en el trabajo y, en última instancia, en la retención de empleados.

En este proyecto, presentaremos los resultados de nuestro análisis exploratorio de datos y analizaremos los resultados para proporcionar a ABC Corporation información valiosa que informe sus decisiones estratégicas.

La empresa se distingue por tener un equipo multidisciplinario que abarca expertos en UX/UI, marketing, analistas, científicos de datos y otros campos relevantes. Esta diversidad permite una sinergia única entre conocimientos técnicos especializados y perspectivas variadas, lo que les permite ofrecer soluciones personalizadas adaptadas a las necesidades individuales de cada cliente.

## ANÁLISIS EXPLORATORIO DE LOS DATOS: INFORME EDA

Las columnas que encontramos en el DataFrame del archivo "hr_raw_data.csv" son:

- age: Edad del empleado.

- attrition: Indica si el empleado dejó la empresa (Yes, No).

- businesstravel: Frecuencia de viajes laborales (travel_rarely, travel_frequently, non-travel).

- dailyrate: Tarifa diaria estimada para clientes, calculada en base al salario.

- department: Departamento en el que trabaja el empleado (Research & Development, Sales, Human Resources).

- distancefromhome: Distancia en millas o kilómetros desde el hogar al trabajo.

- education: Nivel educativo del empleado en escala numérica (1, 2, 3, 4, 5).

- educationfield: Campo de estudio académico del empleado (Human Resources, Life Sciences, Marketing, Medical, Technical Degree, Other).

- employeecount: Valor constante de "1", indicando un solo empleado por registro.

- employeenumber: Número de identificación del empleado.

- environmentsatisfaction: Nivel de satisfacción con el ambiente laboral (1, 2, 3, 4).

- gender: Género del empleado (male, female).

- hourlyrate: Tarifa por hora calculada.

- jobinvolvement: Nivel de compromiso del empleado en el trabajo (1, 2, 3, 4).

- joblevel: Nivel jerárquico del puesto del empleado (1, 2, 3, 4, 5).

- jobrole: Función o rol específico del empleado.

- jobsatisfaction: Satisfacción general en el puesto (1, 2, 3, 4).

- maritalstatus: Estado civil (Married, Divorced, Single).

- monthlyincome: Ingreso mensual estimado en base al salario anual.

- monthlyrate: Tarifa mensual estimada en función de la tarifa diaria.

- numcompaniesworked: Número de empresas previas en las que ha trabajado (0, 1, 2, 3, 4, 5, 6, 7, 8, 9).

- over18: Indica si el empleado tiene más de 18 años (Y).

- overtime: Indica si el empleado trabaja horas extras (Yes, No).

- percentsalaryhike: Incremento porcentual en el salario.

- performancerating: Evaluación de desempeño en una escala numérica (1, 2, 3, 4).

- relationshipsatisfaction: Satisfacción con relaciones interpersonales en el trabajo (1, 2, 3, 4).

- standardhours: Clasificación de jornada (Full Time, Part Time).

- stockoptionlevel: Nivel de opciones sobre acciones asignadas (0, 1, 2, 3).

- totalworkingyears: Años totales de experiencia laboral.

- trainingtimeslastyear: Número de sesiones de entrenamiento en el último año (0, 1, 2, 3, 4, 5, 6).

- worklifebalance: Nivel de balance entre vida personal y laboral (1, 2, 3, 4).

- yearsatcompany: Años en la empresa actual.

- yearsincurrentrole: Años en el rol actual.

- yearssincelastpromotion: Años desde la última promoción recibida.

- yearswithcurrmanager: Años trabajando con el mismo gerente.

- sameasmonthlyincome: Ingreso mensual estimado en base al salario anual.

- datebirth: Año de nacimiento del empleado.

- salary: Salario anual calculado para el empleado.

- roledepartment: Combinación de rol y departamento.

- numberchildren: Número de hijos del empleado (no está disponible en ningún caso).

- remotework: Indica si el empleado trabaja de forma remota (Yes, No).

## INFORME DE TRANSFORMACIÓN DE LOS DATOS

Incluye la limpieza de datos, la normalización, la conversión de tipos de datos y la aplicación de reglas empresariales específicas. Las transformaciones se han realizado mediante funciones de Python aplicados a los datos extraídos.

En los casos en los que hemos podido resolver qué eran los nulos, hemos procedido a su limpieza. 

Sin embargo, hay casos en los que ésto no ha sido posible y hemos preferido realizar una revisión más específica de esas columnas que se desarrollará en el Informe de Nulos.

In [1]:
# Importamos las librerias a utilizar
import pandas as pd
import numpy as np


# Configuración para poder visualizar todas las columnas del DataFrame
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)

In [2]:
df = pd.read_csv("hr_raw_data.csv", index_col=0)
df.head(2)

Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeecount,employeenumber,environmentsatisfaction,gender,hourlyrate,jobinvolvement,joblevel,jobrole,jobsatisfaction,maritalstatus,monthlyincome,monthlyrate,numcompaniesworked,over18,overtime,percentsalaryhike,performancerating,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearsincurrentrole,yearssincelastpromotion,yearswithcurrmanager,sameasmonthlyincome,datebirth,salary,roledepartament,numberchildren,remotework
0,51,No,,2015.722222,,6,3,,1,1,1,0,,3,5,resEArch DIREcToR,3,,"16280,83$","42330,17$",7,Y,No,13,30,3,Full Time,0,,5,30,20,,15,15,"16280,83$",1972,"195370,00$",,,Yes
1,52,No,,2063.388889,,1,4,Life Sciences,1,2,3,0,,2,5,ManAGeR,3,,,"43331,17$",0,,,14,30,1,,1,340.0,5,30,33,,11,9,,1971,"199990,00$",,,1


In [3]:
print(f"El número de filas que tenemos es {df.shape[0]}, y el número de columnas es {df.shape[1]}")

El número de filas que tenemos es 1678, y el número de columnas es 41


Vamos a realizar la transformación columna por columna.

#### COLUMNA AGE: Edad del empleado

- Índice 0 
- Datos de tipo objeto cuando deberían ser integer
- Encontramos errores pues algunos valores aparecen expresados en palabras

In [4]:
# cambiamos los valores por numeros: 
df['age'] = df['age'].str.replace('forty-seven', '47')
df['age'] = df['age'].str.replace('fifty-eight', '58')
df['age'] = df['age'].str.replace('thirty-six', '36')
df['age'] = df['age'].str.replace('fifty-five', '55')
df['age'] = df['age'].str.replace('fifty-two', '52')
df['age'] = df['age'].str.replace('thirty-one', '31')
df['age'] = df['age'].str.replace('thirty', '30')
df['age'] = df['age'].str.replace('twenty-six', '26')
df['age'] = df['age'].str.replace('thirty-seven', '37')
df['age'] = df['age'].str.replace('thirty-two', '32')
df['age'] = df['age'].str.replace('twenty-four', '24')
df['age'] = df['age'].str.replace('30-seven', '37')
df['age'] = df['age'].str.replace('30-two', '32')

# por ultimo cambiamos el tipo:
df['age'] = df['age'].astype(int)

# comprobar los unicos
df['age'].unique()

array([51, 52, 42, 47, 46, 48, 59, 41, 56, 38, 55, 40, 58, 35, 45, 33, 36,
       34, 53, 43, 60, 32, 37, 49, 39, 50, 44, 30, 29, 31, 54, 57, 27, 28,
       26, 25, 24, 23, 22, 21, 20, 19, 18])

#### COLUMNA ATTRITION: Indica si el empleado dejó la empresa (yes, no).

- Índice 1
- Datos de tipo objeto. Por normalización, pasamos los datos a minúsculas.
- No encontramos errores ni nulos

In [5]:
df['attrition'] = df['attrition'].str.lower()
df['attrition'].unique()

array(['no', 'yes'], dtype=object)

#### COLUMNA BUSINESS TRAVEL: Frecuencia de viajes laborales (travel_rarely, travel_frequently, non-travel)

- Índice 2
- Datos de tipo objeto
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [6]:
df['businesstravel'].unique()

array([nan, 'travel_rarely', 'travel_frequently', 'non-travel'],
      dtype=object)

#### COLUMNA DAILY RATE: Tarifa diaria estimada para clientes, calculada en base al salario

- Índice 3
- Datos de tipo float (decimal) con muchos decimales. Por comodidad procedemos a su redondeo a 0.01
- No encontramos errores ni nulos

In [7]:
df['dailyrate'] = round(df['dailyrate'], 2)
df['dailyrate'].sample(10)

976      356.16
999      556.26
1037     290.04
1371     232.97
21      1032.49
1293     433.02
414      556.26
974      556.26
425      556.26
1018     468.21
Name: dailyrate, dtype: float64

#### COLUMNA DEPARTMENT: Departamento en el que trabaja el empleado (research & development, sales, human resources).

- Índice 4
- Datos de tipo objeto (string) con espacios al inicio y fin del dato. Por normalización, pasamos los datos a minúsculas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [8]:
df['department'] = df['department'].str.lower().str.strip()
df['department'].unique()

array([nan, 'research & development', 'sales', 'human resources'],
      dtype=object)

#### COLUMNA DISTANCE FROM HOME: Distancia en millas o kilómetros desde el hogar al trabajo.

- Índice 5
- Datos de tipo integer con algunos datos en negativo
- No encontramos errores ni nulos

In [9]:
df['distancefromhome'] = df['distancefromhome'].astype(str) 
df['distancefromhome'] = df['distancefromhome'].str.replace('-','') 
df['distancefromhome'] = df['distancefromhome'].astype(int)
df['distancefromhome'].unique()

array([ 6,  1,  4,  2,  3, 22, 25,  9,  7, 23, 10, 12, 14, 13, 15,  8, 42,
       28, 37,  5, 16, 35, 26, 24, 29, 17, 21, 18, 30, 27, 20, 31, 39, 11,
       19, 33, 34, 46, 36, 45, 47, 32, 41, 49, 48, 38, 43, 40, 44])

### COLUMNA EDUCATION: Nivel educativo del empleado en escala numérica (1, 2, 3, 4, 5).

- Índice 6
- Datos de tipo integer
- No encontramos errores ni nulos

In [10]:
df['education'].unique()

array([3, 4, 2, 1, 5])

#### COLUMNA EDUCATION FIELD: Campo de estudio académico del empleado (human resources, life sciences, marketing, medical, technical degree, other).

- Índice 7
- Datos de tipo objeto (string). Por normalización, pasamos los datos a minúsculas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [11]:
df['educationfield'] = df['educationfield'].str.lower()
df['educationfield'].unique()

array([nan, 'life sciences', 'technical degree', 'medical', 'other',
       'marketing', 'human resources'], dtype=object)

#### COLUMNA EMPLOYEE COUNT: Valor constante de "1", indicando un solo empleado por registro.

- Índice 8
- Datos de tipo integer
- No encontramos errores ni nulos
- Valoramos la eliminación de ésta columna por no dar información relevante

In [12]:
df['employeecount'].unique()

array([1])

#### COLUMNA EMPLOYEE NUMBER: Número de identificación del empleado.

- Índice 9
- Datos de tipo integer
- Encontramos 64 valores duplicados que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [13]:
df['employeenumber'].unique()

array([   1,    2,    3, ..., 1612, 1613, 1614], shape=(1614,))

#### COLUMNA ENVIRONMENT SATISFACTION: Nivel de satisfacción con el ambiente laboral (1, 2, 3, 4).

- Índice 10
- Datos de tipo integer. Los pasamos a string para reemplazar con regex los valores que comiencen por 1 a 1, que comiencen por 2 a 2, los que comiencen por 3 a 3 y los que comiencen por 4 a 4, y los volvemos a convertir en integer.
- Encontramos valores erróneos (entre 1 y 49 cuando deberían ser 1, 2, 3, 4)

In [14]:
df["environmentsatisfaction"] = df["environmentsatisfaction"].astype(str)
df["environmentsatisfaction"] = df["environmentsatisfaction"].replace({r"^1": 1, r"^2": 2, r"^3": 3, r"^4": 4}, regex=True)
df["environmentsatisfaction"] = df["environmentsatisfaction"].astype(int)
df["environmentsatisfaction"].unique()

  df["environmentsatisfaction"] = df["environmentsatisfaction"].replace({r"^1": 1, r"^2": 2, r"^3": 3, r"^4": 4}, regex=True)


array([1, 3, 4, 2])

#### COLUMNA GENDER: Género del empleado (male, female).

- Índice 11
- Datos de tipo integer (aparece como 0, 1). Al modificar los valores (0 y 1 por male y female) pasarán a ser datos tipo objeto (string)

In [15]:
df["gender"] = df["gender"].replace({0: "male", 1: "female"})
df["gender"].unique()

array(['male', 'female'], dtype=object)

#### COLUMNA HOURLY RATE: Tarifa por hora calculada.

- Índice 12
- Datos de tipo float con muchos decimales. No se realizan cambios (redondeo) para permitir un cálculo más preciso a la hora de computar los valores nulos tanto de esta como de otras variables relacionadas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [18]:
df["hourlyrate"].sample(10)

1513     82.668651
867            NaN
614            NaN
540            NaN
876     246.748016
146     175.100198
669            NaN
723            NaN
197     247.580357
1437           NaN
Name: hourlyrate, dtype: float64

#### COLUMNA JOB INVOLVEMENT: Nivel de compromiso del empleado en el trabajo (1, 2, 3, 4).
- Índice 13
- Datos de tipo integer.
- No encontramos errores ni nulos

In [19]:
df["jobinvolvement"].unique()

array([3, 2, 4, 1])

#### COLUMNA JOB LEVEL: Nivel jerárquico del puesto del empleado (1, 2, 3, 4, 5).
- Índice 14
- Datos de tipo integer.
- No encontramos errores ni nulos

In [20]:
df["joblevel"].unique()

array([5, 4, 3, 2, 1])

#### COLUMNA JOB ROLE: Función o rol específico del empleado.
- Índice 15
- Datos de tipo objeto (string) con espacios al inicio y fin del dato. Por normalización, pasamos los datos a minúsculas.
- No encontramos otros errores ni nulos

In [21]:
df["jobrole"] = df["jobrole"].str.lower()
df["jobrole"] = df["jobrole"].str.strip()
df["jobrole"].unique()

array(['research director', 'manager', 'sales executive',
       'manufacturing director', 'research scientist',
       'healthcare representative', 'laboratory technician',
       'sales representative', 'human resources'], dtype=object)

#### COLUMNA JOB SATISFACTION: Satisfacción general en el puesto (1, 2, 3, 4).
- Índice 16
- Datos de tipo integer.
- No encontramos errores ni nulos.

In [22]:
df["jobsatisfaction"].unique()

array([3, 4, 1, 2])

#### COLUMNA MARITAL STATUS: Estado civil (married, divorced, single).
- Índice 17
- Datos de tipo objeto, con errores de escritura. Por normalización, pasamos los datos a minúsculas.
- Corregimos el error identificado en el valor "marreid".
- Encontramos valores nulos que no podemos resolver. Se revisarán en el Informe de Nulos.

In [23]:
df["maritalstatus"] = df["maritalstatus"].str.lower()
df["maritalstatus"] = df["maritalstatus"].str.replace("marreid", "married")
df["maritalstatus"].unique()

array([nan, 'married', 'divorced', 'single'], dtype=object)

#### COLUMNA MONTHLY INCOME: Ingreso mensual estimado en base al salario anual.
- Índice 18
- Datos numéicos de tipo string, con coma y dolar ($), cuando deberían ser float. No se realiza redondeo de los valores para permitir un cálculo más preciso a la hora de computar los valores nulos tanto de esta como de otras variables relacionadas.
- Encontramos valores nulos que no podemos resolver. Se revisarán en el Informe de Nulos.

In [24]:
df["monthlyincome"] = df["monthlyincome"].str.replace('$', '', regex=False)
df["monthlyincome"] = df["monthlyincome"].str.replace(',', '.', regex=False)
df['monthlyincome'] = df['monthlyincome'].astype(float)
df['monthlyincome'].sample(10)

661     8280.00
1280    4365.00
837     3274.17
223     5561.67
1566        NaN
443     4492.84
935     4492.84
518     8339.32
1641    2690.83
871     2342.59
Name: monthlyincome, dtype: float64

#### COLUMNA MONTHLY RATE: Tarifa mensual estimada en función de la tarifa diaria.
- Índice 19
- Datos numéicos de tipo string, con coma y dolar ($), cuando deberían ser float. No se realiza redondeo de los valores para permitir un cálculo más preciso a la hora de computar los valores nulos tanto de esta como de otras variables relacionadas.
- No encontramos nulos.

In [25]:
df["monthlyrate"] = df["monthlyrate"].str.replace('$', '', regex=False)
df["monthlyrate"] = df["monthlyrate"].str.replace(',', '.', regex=False)
df['monthlyrate'] = df['monthlyrate'].astype(float)
df['monthlyincome'].sample(10)

1259    2342.59
1025    3253.33
1174    2342.59
679     2342.59
911         NaN
1265        NaN
594     3525.00
1415    2241.67
372     8339.32
377         NaN
Name: monthlyincome, dtype: float64

#### COLUMNA NUM COMPANIES WORKED: Número de empresas previas en las que ha trabajado (0, 1, 2, 3, 4, 5, 6, 7, 8, 9).
- Índice 20
- Datos de tipo integer.
- No encontramos errores ni nulos.

In [26]:
df['numcompaniesworked'].unique()

array([7, 0, 1, 3, 2, 4, 8, 9, 5, 6])

#### COLUMNA OVER 18: Indica si el empleado tiene más de 18 años (y).
- Índice 21
- Datos de tipo objeto (string) y datos nulos. Por normalización, pasamos los datos a minúsculas.
- Comparamos con la columna 'age' que todas las filas son mayores de 18 años, por lo que eliminamos los nulos convirtiéndolos en 'y'
- Valoramos la eliminación de ésta columna por no dar información relevante

In [27]:
df['over18'] = df['over18'].fillna('Y').str.lower()
df['over18'].unique()

array(['y'], dtype=object)

#### COLUMNA OVER TIME: Indica si el empleado trabaja horas extras (yes, no).

- Índice 22
- Datos de tipo objeto (string). Por normalización, pasamos los datos a minúsculas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [28]:
df['overtime'] = df['overtime'].str.lower()
df['overtime'].unique()

array(['no', nan, 'yes'], dtype=object)

#### COLUMNA PERCENT SALARY HIKE: Incremento porcentual en el salario.
- Índice 23
- Datos de tipo integer.
- No encontramos errores ni nulos.

In [29]:
df['percentsalaryhike'].unique()

array([13, 14, 11, 19, 12, 25, 16, 17, 22, 23, 20, 15, 21, 24, 18])

#### COLUMNA PERFORMANCE RATING: Evaluación de desempeño en una escala numérica (1, 2, 3, 4).
- Índice 24
- Datos numéricos de tipo string, con comas, cuando deberían ser integer.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [30]:
df["performancerating"] = df["performancerating"].str.replace(",0", "")
df['performancerating'].unique()

array(['3', '4', nan], dtype=object)

#### COLUMNA RELATIONSHIP SATISFACTION: Satisfacción con relaciones interpersonales en el trabajo (1, 2, 3, 4).
- Índice 25
- Datos de tipo integer.
- No encontramos errores ni nulos.

In [31]:
df['relationshipsatisfaction'].unique()

array([3, 1, 4, 2])

#### COLUMNA STANDARD HOURS: Clasificación de jornada (full time, part time).
- Índice 26
- Datos de tipo object (string). Por normalización, pasamos los datos a minúsculas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [32]:
df['standardhours'] = df['standardhours'].str.lower()
df['standardhours'].unique()

array(['full time', nan, 'part time'], dtype=object)

#### COLUMNA STOCK OPTION LEVEL: Nivel de opciones sobre acciones asignadas (0, 1, 2, 3).
- Índice 27
- Datos de tipo integer.
- No encontramos errores ni nulos.

In [33]:
df['stockoptionlevel'].unique()

array([0, 1, 2, 3])

#### COLUMNA TOTAL WORKING YEARS: Años totales de experiencia laboral.
- Índice 28
- Datos numéricos de tipo string, con comas, cuando deberían ser integer.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [34]:
df["totalworkingyears"] = df["totalworkingyears"].str.replace(",0", "")
df['totalworkingyears'].unique()

array([nan, '34', '22', '28', '20', '21', '33', '40', '18', '25', '15',
       '17', '26', '16', '24', '14', '23', '27', '19', '11', '38', '37',
       '13', '12', '29', '10', '36', '35', '9', '31', '32', '8', '7',
       '30', '6', '5', '4', '3', '2', '1', '0'], dtype=object)

#### COLUMNA TRAINING TIMES LAST YEAR: Número de sesiones de entrenamiento en el último año (0, 1, 2, 3, 4, 5, 6).
- Índice 29
- Datos de tipo integer.
- No encontramos errores ni nulos.

In [35]:
df['trainingtimeslastyear'].unique()

array([5, 3, 2, 0, 1, 4, 6])

#### COLUMNA WORK LIFE BALANCE: Nivel de balance entre vida personal y laboral (1, 2, 3, 4).

- Índice 30
- Datos numéricos de tipo string, con comas, cuando deberían ser integer.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [36]:
df["worklifebalance"] = df["worklifebalance"].str.replace(",0", "")
df["worklifebalance"].unique()

array(['3', nan, '2', '4', '1'], dtype=object)

#### COLUMNA YEARS AT COMPANY: Años en la empresa actual.

- Índice 31
- Datos de tipo integer.
- No encontramos errores ni nulos

In [37]:
df["yearsatcompany"].unique()

array([20, 33, 22, 19, 21, 18, 24, 31, 26, 16, 23, 15, 17, 32, 14, 13, 25,
       12, 11, 37, 40, 36, 27, 29, 10,  9, 30,  8,  7, 34,  6,  5,  4,  2,
        3,  1,  0])

#### COLUMNA YEARS IN CURRENT ROLE: Años en el rol actual.

- Índice 32
- Datos numéricos de tipo string, con comas, cuando deberían ser integer.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [38]:
df["yearsincurrentrole"] = df["yearsincurrentrole"].str.replace(",0", "")
df["yearsincurrentrole"].unique()

array([nan, '13', '12', '11', '7', '6', '4', '3', '2', '1', '0'],
      dtype=object)

#### COLUMNA YEARS SINCE LAST PROMOTION: Años desde la última promoción recibida.

- Índice 33
- Datos de tipo integer.
- No encontramos errores ni nulos

In [39]:
df["yearssincelastpromotion"].unique()

array([15, 11,  5,  2,  4,  7,  0,  1, 13, 14,  8, 12,  3,  6, 10,  9])

#### COLUMNA YEARS WITH CURR MANAGER: Años trabajando con el mismo gerente.

- Índice 34
- Datos de tipo integer.
- No encontramos errores ni nulos

In [40]:
df["yearswithcurrmanager"].unique()

array([15,  9,  6,  8,  7, 11, 10, 12,  4,  0,  5, 17,  2, 14,  1, 13,  3,
       16])

#### COLUMNA SAME AS MONTHLY INCOME: Ingreso mensual estimado en base al salario anual.

- Índice 35
- Datos numéicos de tipo string, con coma y dolar ($), cuando deberían ser float.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos
- Valoramos la eliminación de ésta columna por no dar información relevante, es un duplicado de la comuna MONTHLY INCOME

In [41]:
df["sameasmonthlyincome"] = df["sameasmonthlyincome"].str.replace(",", ".").str.replace("$", "")
df["sameasmonthlyincome"]

0       16280.83
1            NaN
2            NaN
3       14307.50
4       12783.92
          ...   
1673     3949.17
1674    15943.72
1675         NaN
1676     8339.32
1677         NaN
Name: sameasmonthlyincome, Length: 1678, dtype: object

#### COLUMNA DATE BIRTH: Año de nacimiento del empleado.

- Índice 36
- Datos de tipo integer.
- No encontramos errores ni nulos

In [42]:
df["datebirth"].unique()

array([1972, 1971, 1981, 1976, 1977, 1975, 1964, 1982, 1967, 1985, 1968,
       1983, 1965, 1988, 1978, 1990, 1987, 1989, 1970, 1980, 1963, 1991,
       1986, 1974, 1984, 1973, 1979, 1993, 1994, 1992, 1969, 1966, 1996,
       1995, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005])

#### COLUMNA SALARY: Salario anual calculado para el empleado.

- Índice 37
- Datos numéicos de tipo string, con coma y dolar ($), cuando deberían ser float.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [43]:
df["salary"] = df["salary"].str.replace(",", ".").str.replace("$", "")
df["salary"]

0       195370.00
1       199990.00
2       192320.00
3       171690.00
4             NaN
          ...    
1673          NaN
1674    191324.62
1675     28111.13
1676    100071.84
1677     53914.11
Name: salary, Length: 1678, dtype: object

#### COLUMNA ROLE DEPARTMENT: Combinación de rol y departamento.

- Índice 38
- Datos de tipo objeto (string) con espacios al inicio y fin del dato. Por normalización, pasamos los datos a minúsculas.
- Encontramos valores nulos que por ahora no podemos resolver. Se revisarán en el Informe de Nulos

In [44]:
df["roledepartament"] = df["roledepartament"].str.lower().str.strip()
df["roledepartament"].unique()

array([nan, 'manager  -  research & development',
       'healthcare representative  -  research & development',
       'sales executive  -  sales',
       'laboratory technician  -  research & development',
       'manufacturing director  -  research & development',
       'research scientist  -  research & development',
       'research director  -  research & development',
       'human resources  -  human resources', 'manager  -  sales',
       'sales representative  -  sales', 'manager  -  human resources'],
      dtype=object)

#### COLUMNA NUMBER CHILDREN: Número de hijos del empleado.

- Índice 39
- No hay datos, todo son nulos
- Valoramos la eliminación de ésta columna por no dar información relevante.

In [45]:
df["numberchildren"].unique()

array([nan])

#### COLUMNA REMOTE WORK: Indica si el empleado trabaja de forma remota (yes, no).

- Índice 40
- Datos de tipo string. Por normalización, pasamos los datos a minúsculas.
- Los valores erróneos ('Yes', '1', 'False', '0', 'True') los cambiamos a ('yes' o 'no')
- No encontramos nulos

In [47]:
df["remotework"] = df["remotework"].str.replace("1", "yes").str.replace("True", "yes").str.replace("0", "no").str.replace("False", "no").str.lower()
df["remotework"].unique()

array(['yes', 'no'], dtype=object)

In [48]:
df.to_csv("datos_limpios.csv")