## **PROYECTO MÓDULO 3: Optimización de Talento**

### **FASE 2: limpieza**

TIPS: 

- Eliminar info redundante, duplicados, eliminar columnas con demasiados nulos

- Homegeneizar columnas: cambiar nombre (todas a minúscula, con guion bajo, etc.)

- Poner el tipo de dato correcto a cada columna

- Limpieza o reemplazo de caracteres

- Creación de columnas nuevas, normalmente basadas en otras

- Gestión de nulos: Para pasar nulos a % de nulos: (df_final.isnull().sum() / df_final.shape[0]) * 100

In [31]:
#Importar librería
import pandas as pd
import numpy as np 


In [2]:
#Configuración de la visualización del DataFrame
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [3]:
#Lectura del CSV y transformación a DataFrame (df)
df=pd.read_csv("HR RAW DATA.csv", index_col =0)

In [4]:
# Diccionario para cambiar el nombre de las columnas a castellano y normalizar

nuevas_columnas = {
    "Age": "edad",
    "Attrition": "desvinculado",
    "BusinessTravel": "frecuencia_viaje",
    "DailyRate": "tarifa_diaria",
    "Department": "departamento",
    "DistanceFromHome": "distancia_domicilio",
    "Education": "nivel_estudios",
    "EducationField": "campo_estudios",
    "employeecount": "employeecount",
    "employeenumber": "numero_empleado",
    "EnvironmentSatisfaction": "nivel_satisfaccion_global",
    "Gender": "genero",
    "HourlyRate": "tarifa_hora",
    "JobInvolvement": "nivel_compromiso",
    "JobLevel": "categoria",
    "JobRole": "puesto",
    "JobSatisfaction": "nivel_satisfaccion_trabajo",
    "MaritalStatus": "estado_civil",
    "MonthlyIncome": "ingreso_mensual",
    "MonthlyRate": "tarifa_mensual",
    "NUMCOMPANIESWORKED": "trabajos_anteriores",
    "Over18": "over18",
    "OverTime": "horas_extras",
    "PercentSalaryHike": "%_incremento_salarial",
    "PerformanceRating": "evaluacion_desempeño",
    "RelationshipSatisfaction": "nivel_satisfaccion_relaciones",
    "StandardHours": "tipo_jornada",
    "StockOptionLevel": "acceso_acciones_empresa",
    "TOTALWORKINGYEARS": "años_en_activo",
    "TrainingTimesLastYear": "formaciones_ultimo_año",
    "WORKLIFEBALANCE": "nivel_satisfaccion_conciliacion",
    "YearsAtCompany": "antigüedad_empresa",
    "YearsInCurrentRole": "años_puesto_actual",
    "YearsSinceLastPromotion": "años_ultimo_ascenso",
    "YEARSWITHCURRMANAGER": "años_mismo_responsable",
    "SameAsMonthlyIncome": "recibe_mismo_salario",
    "DateBirth": "año_nacimiento",
    "Salary": "salario",
    "RoleDepartament": "rol_y_departamento",
    "NUMBERCHILDREN": "hijos",
    "RemoteWork": "teletrabajo"
}

In [5]:
# Aplica diccionario para cambiar el nombre de las columnas

df.rename(columns = nuevas_columnas, inplace = True)

In [6]:
# Ordena las columnas de forma más lógica

df = df[[
    "numero_empleado",
    "desvinculado",
    "genero",
    "edad",
    "año_nacimiento",
    "estado_civil",
    "nivel_estudios",
    "campo_estudios",
    "frecuencia_viaje",
    "distancia_domicilio",
    "teletrabajo",
    "tipo_jornada",
    "formaciones_ultimo_año",
    "trabajos_anteriores",
    "años_en_activo",
    "antigüedad_empresa",
    "años_ultimo_ascenso",
    "años_mismo_responsable",
    "años_puesto_actual",
    "departamento",
    "rol_y_departamento",
    "categoria",
    "puesto",
    "horas_extras",
    "evaluacion_desempeño",
    "tarifa_hora",
    "tarifa_diaria",
    "tarifa_mensual",
    "ingreso_mensual",
    "%_incremento_salarial",
    "recibe_mismo_salario",
    "acceso_acciones_empresa",
    "nivel_compromiso",
    "nivel_satisfaccion_global",
    "nivel_satisfaccion_trabajo",
    "nivel_satisfaccion_relaciones",
    "nivel_satisfaccion_conciliacion",
    "employeecount",
    "over18",
    "salario",
    "hijos"
]]

##### **Eliminamos 7 columnas:**

- employeecount: tiene el mismo valor para todas las filas 

- Over18: tiene muchos valores faltantes  

- YearsInCurrentRole: tiene muchos valores faltantes y no se relaciona con el resto de columnas

- SameAsMonthlyIncome: equivale a MonthlyIncome

- Salary: tiene el mismo valor para todas las filas  

- RoleDepartament: tiene muchos valores faltantes, se relaciona con la columna Department pero no aporta información adicional

- NUMBERCHILDREN: está vacía

In [7]:
# Elimina columnas identificadas como innecesarias

df.drop(["employeecount","over18","salario","hijos", "años_puesto_actual", "rol_y_departamento", "recibe_mismo_salario"], axis = 1, inplace = True)

##### **Cambiamos el tipo de dato y modificamos los caracteres alfanuméricos de algunas columnas:**

###### **LETRA A NÚMERO:**

In [8]:
# Localizamos los valores en letra para generar diccionario a número
df["edad"].sort_values(ascending=False)

1198      twenty-six
1325     twenty-four
1584      thirty-two
1293      thirty-two
216       thirty-six
1226    thirty-seven
426       thirty-one
593           thirty
31       forty-seven
411        fifty-two
357       fifty-five
79       fifty-eight
1423              60
399               60
198               60
38                60
930               60
668               59
1206              59
405               59
727               59
1227              59
821               59
609               59
1265              59
6                 59
852               59
1459              58
1473              58
690               58
228               58
1258              58
166               58
152               58
1340              58
1336              58
1130              58
16                58
81                58
1348              58
1024              58
1298              57
883               57
157               57
677               57
1524              57
566               56
563          

In [9]:
# Creamos un diccionario para pasar las edades en letra a número

numeros_en_letras = {
    'fifty-eight': 58,
    'fifty-five': 55,
    'fifty-two': 52,
    'forty-seven': 47,
    'thirty': 30,
    'thirty-one': 31,
    'thirty-seven': 37,
    'thirty-six': 36,
    'thirty-two': 32,
    'twenty-four': 24,
    'twenty-six': 26
}

In [10]:
# Aplicamos el diccionario a la columna "edad" del df

df["edad"] = df["edad"].replace(numeros_en_letras)

###### **QUITAR SÍMBOLOS Y PASAR A FLOAT:**

In [11]:
# Lista con las columnas a aplicar e iteración para aplicar a cada una. 
# Son tipo object

lista_float = ['tarifa_diaria', 'ingreso_mensual']

# Generamos función para quitar errores de puntuación y cambiar a float

def pasar_a_float (columna):
        try: 
                return float(columna.replace("$", "").replace(".", "").replace(",", ".").strip())
        except: 
               return np.nan
   

In [12]:
# Iteramos la función sobre la lista con las columnas a pasar de object a float

for i in lista_float:
    df[i] = df[i].apply(pasar_a_float)

In [13]:
# Comprobamos que el resultado es correcto

df[lista_float].dtypes

tarifa_diaria      float64
ingreso_mensual    float64
dtype: object

###### **LETRA A NULO:**

In [14]:
#Cambiamos los 84 "Not Available" por nulos para poder gestionarlos como tal y cambiar la columna a numérica. 
 
df['tarifa_hora']=df['tarifa_hora'].replace("Not Available", None)
df['tarifa_hora']=df['tarifa_hora'].astype(float)
df['tarifa_hora'].isnull().sum()

84

In [15]:
# Comprobamos que el cambio se ha realizado correctamente

df['tarifa_hora'].dtype

dtype('float64')

###### **NEGATIVOS A POSITIVOS:**

In [16]:
# Pasamos los números a positivo usando el valor absoluto de la columna "distancia_domicilio".
#  A continuación lo cambiamos a float, pasamos el dato de millas a km y redondeamos a 2 decimales. 

df["distancia_domicilio"] = ((df["distancia_domicilio"].abs().astype(float))*1.60934).round(2)

In [17]:
# Segunda opción para pasar a positivo antes de recordar que teníamos opción de sacar el valor absoluto

df.loc[df['distancia_domicilio'] < 0, 'distancia_domicilio'] = df.loc[df['distancia_domicilio'] < 0, 'distancia_domicilio'] * -1
df['distancia_domicilio']= df['distancia_domicilio'].astype(float)
df['distancia_domicilio']= df['distancia_domicilio']*1.60934
df['distancia_domicilio'] = df['distancia_domicilio'].round(2)

In [18]:
# Comprobamos que el cambio se ha realizado correctamente

df['distancia_domicilio'].dtype

dtype('float64')

###### **MAYÚSCULAS A MINÚSCULAS:**

In [19]:
# Pasamos 2 columnas con contenido de texto mezclado a minúsculas

lista_minusculas= ['departamento','puesto']
for i in lista_minusculas:
    df[i] = df[i].str.lower().str.strip()

df[lista_minusculas]

Unnamed: 0,departamento,puesto
0,,research director
1,,manager
2,research & development,manager
3,,research director
4,,sales executive
5,research & development,manager
6,,sales executive
7,,sales executive
8,,manager
9,,research director


###### **OBJECT A INT:**

In [20]:
# Estas columnas están en tipo object y las necesitamos numéricas: 

lista_int = ['años_en_activo', 'evaluacion_desempeño', 'nivel_satisfaccion_conciliacion', 'numero_empleado']

# Creamos esta función para pasar las columnas a int sustituyendo el ,0

def pasar_a_int(valor):
    try:
        if isinstance(valor, str):
            valor = valor.replace(",0", "")
        return int(float(valor))  # por si viene como '3,0' o 3.0
    except:
        return np.nan

In [21]:
# Iteramos por la lista para aplicar la función: 

for col in lista_int:
    df[col] = df[col].apply(pasar_a_int).astype("Int64")

In [22]:
# Comprobamos el resultado

df[lista_int]

Unnamed: 0,años_en_activo,evaluacion_desempeño,nivel_satisfaccion_conciliacion,numero_empleado
0,,3.0,3.0,162.0
1,34.0,3.0,3.0,259.0
2,22.0,3.0,,319.0
3,,3.0,,
4,,3.0,3.0,
5,,3.0,3.0,1900.0
6,28.0,3.0,2.0,81.0
7,20.0,4.0,3.0,387.0
8,22.0,3.0,3.0,
9,21.0,3.0,4.0,999.0


In [23]:
df[lista_int].dtypes

años_en_activo                     Int64
evaluacion_desempeño               Int64
nivel_satisfaccion_conciliacion    Int64
numero_empleado                    Int64
dtype: object

###### **NÚMERO A LETRA:**

In [24]:
# Cambiar columna Género sustituyendo el 0 y 1 por hombre y mujer:
 
diccionario_genero = {0:'male', 1:'female'}
df['genero'] = df['genero'].astype(object).map(diccionario_genero)
df['genero'] 

0         male
1         male
2         male
3       female
4       female
5       female
6       female
7         male
8       female
9         male
10      female
11        male
12      female
13      female
14        male
15      female
16        male
17      female
18        male
19      female
20        male
21      female
22      female
23      female
24        male
25      female
26      female
27      female
28        male
29        male
30      female
31        male
32      female
33        male
34      female
35      female
36      female
37        male
38      female
39        male
40      female
41        male
42        male
43      female
44      female
45        male
46      female
47        male
48      female
49      female
50      female
51      female
52        male
53      female
54        male
55        male
56      female
57      female
58      female
59        male
60        male
61      female
62        male
63        male
64        male
65        male
66      fe

###### **HOMOGENEIZAR TEXTO:**

In [25]:
#Cambiar la columna de Estado civil para normalizar datos: 

df['estado_civil'] = df['estado_civil'].str.lower().str.replace('marreid','married')
df['estado_civil'].sample(50)

326          NaN
190          NaN
273          NaN
289     divorced
450       single
1077      single
1039         NaN
57           NaN
1068         NaN
519      married
861      married
688          NaN
343          NaN
164      married
226       single
1101         NaN
479       single
803          NaN
33        single
224          NaN
513          NaN
35      divorced
1361      single
263      married
38       married
1286         NaN
974          NaN
137      married
1155     married
1492         NaN
776      married
741     divorced
675       single
572          NaN
1142    divorced
684      married
879          NaN
831      married
786          NaN
249          NaN
6            NaN
596       single
967       single
840     divorced
1263     married
747          NaN
848       single
457          NaN
1582         NaN
1612    divorced
Name: estado_civil, dtype: object

In [26]:
#Cambiar columna teletrabajo de forma que solo queden los valores yes y no: 

diccionario_teletrabajo= {'0':'no', '1':'yes','False':'no','True':'yes','Yes':'yes'}
df['teletrabajo']=df['teletrabajo'].map(diccionario_teletrabajo)
df['teletrabajo']

0       yes
1       yes
2       yes
3        no
4        no
5       yes
6       yes
7        no
8       yes
9        no
10       no
11       no
12      yes
13       no
14      yes
15       no
16       no
17       no
18       no
19      yes
20       no
21      yes
22      yes
23       no
24      yes
25       no
26      yes
27       no
28      yes
29      yes
30      yes
31      yes
32      yes
33       no
34      yes
35      yes
36      yes
37      yes
38      yes
39       no
40       no
41      yes
42       no
43      yes
44       no
45      yes
46      yes
47      yes
48      yes
49      yes
50       no
51      yes
52       no
53      yes
54      yes
55      yes
56      yes
57       no
58      yes
59      yes
60      yes
61       no
62      yes
63       no
64       no
65      yes
66      yes
67      yes
68      yes
69      yes
70      yes
71       no
72      yes
73      yes
74      yes
75      yes
76       no
77      yes
78      yes
79      yes
80       no
81      yes
82      yes
83  

In [32]:
#Cambiar columna tipo de jornada sustituyendo 80 por part time: 

df['tipo_jornada']=df['tipo_jornada'].str.replace('80,0','part time')
df['tipo_jornada']

0             NaN
1             NaN
2             NaN
3             NaN
4             NaN
5             NaN
6             NaN
7             NaN
8             NaN
9             NaN
10            NaN
11            NaN
12            NaN
13            NaN
14            NaN
15            NaN
16            NaN
17            NaN
18            NaN
19            NaN
20            NaN
21            NaN
22            NaN
23      part time
24            NaN
25      part time
26            NaN
27            NaN
28            NaN
29            NaN
30            NaN
31            NaN
32            NaN
33      part time
34            NaN
35            NaN
36            NaN
37            NaN
38            NaN
39      part time
40      part time
41            NaN
42            NaN
43      part time
44            NaN
45            NaN
46            NaN
47      part time
48      part time
49      part time
50            NaN
51      part time
52            NaN
53            NaN
54            NaN
55      pa

###### **ELIMINAR ERRATAS EN NÚMEROS:**

In [28]:
# Cambiar columna nivel_satisfaccion_global para quedarnos con la decena en los valores superiores a 10:

df.loc[df['nivel_satisfaccion_global'] > 9, 'nivel_satisfaccion_global'] = df['nivel_satisfaccion_global'] // 10

In [29]:
# Comprobamos el resultado: 

df['nivel_satisfaccion_global'].max()

4

In [30]:
# GUARDAR CAMBIOS TRAS LIMPIEZA.
# Guardamos el df en un nuevo fichero csv para salvar las modificaciones realizadas

df.to_csv("HR_RAW_v2.csv")