# SET UP DATA

In [1]:
import pandas as pd                 # For dataframe handling
import numpy as np                  # For matrix and list computations
import matplotlib.pyplot as plt     # For advanced graphse
import seaborn as sns  # For hi level, Pandas oriented, graphics
import scipy.stats as stats  # For statistical inference 
from pandas.api.types import CategoricalDtype

In [2]:
# loading the dataset to pandas DataFrame
url = 'https://raw.githubusercontent.com/aloa04/tfm/main/data/DATASET_HUTJ.csv'
ds = pd.read_csv(url,sep=';', decimal=',', encoding='latin-1')
ds

Unnamed: 0,NM_ORGANIZATIONESP,STD_N_HR_TYPEESP,Año,AñoMes,STD_ID_PERSON,STD_N_GENDERESP,Núm. Periodo,SSP_ID_CONT_INTERN,SSP_NM_CONT_INESP,Fecha Inicio,...,STD_N_WL_TYPEESP,STD_WORK_LOCESP,CSP_N_COLECTIVO,STD_DT_BIRTH,Edad,RangoEdad,Nacionalidad,SSP_ID_MINUSVALIA,Nombre de la minusvalia : Span,Activos
0,Hospital de TORREJON,Empleado,2018,201801,1000148,Mujer,2,189,INDEFINIDO TP COMPL TRANSF DE TEMPO,03/05/2010,...,Atención Especializada,HospitalA,Estructura,17/04/1982,41,41-50,Española,-2,Sin Valor,1
1,Hospital de TORREJON,Empleado,2018,201801,1001312,Varón,2,100,ORDINARIO INDEFINIDO TP COMPLETO,04/11/2010,...,Atención Especializada,HospitalA,Estructura,15/08/1966,57,Más de 50,Española,-2,Sin Valor,1
2,Hospital de TORREJON,Empleado,2018,201801,1002094,Varón,2,100,ORDINARIO INDEFINIDO TP COMPLETO,16/05/2011,...,Atención Especializada,HospitalA,Estructura,20/02/1983,40,25-40,Española,-2,Sin Valor,1
3,Hospital de TORREJON,Empleado,2018,201801,1002518,Mujer,2,189,INDEFINIDO TP COMPL TRANSF DE TEMPO,03/10/2011,...,Atención Especializada,HospitalA,Estructura,12/10/1983,40,25-40,Española,-2,Sin Valor,1
4,Hospital de TORREJON,Empleado,2018,201801,1003521,Varón,2,100,ORDINARIO INDEFINIDO TP COMPLETO,27/06/2011,...,Atención Especializada,HospitalA,Estructura,09/07/1966,57,Más de 50,Española,-2,Sin Valor,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
61104,Hospital de TORREJON,Empleado,2022,202207,1030771,Mujer,1,402R,EVENTUAL (REFUERZO),05/07/2022,...,Atención Especializada,HospitalA,Refuerzos,23/07/1990,33,25-40,Española,-2,Sin Valor,1
61105,Hospital de TORREJON,Empleado,2022,202207,1030772,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,...,Atención Especializada,HospitalA,Refuerzos,22/10/1995,28,25-40,Española,-2,Sin Valor,1
61106,Hospital de TORREJON,Empleado,2022,202207,1030777,Varón,1,402V,EVENTUAL (SUST. VACACIONES),06/07/2022,...,Atención Especializada,HospitalA,Sustituciones,16/06/1981,42,41-50,Española,-2,Sin Valor,1
61107,Hospital de TORREJON,Empleado,2022,202207,1030782,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,...,Atención Especializada,HospitalA,Refuerzos,22/05/1976,47,41-50,Española,-2,Sin Valor,1


## Data Transformation

In [3]:
ds.columns


Index(['NM_ORGANIZATIONESP', 'STD_N_HR_TYPEESP', 'Año', 'AñoMes',
       'STD_ID_PERSON', 'STD_N_GENDERESP', 'Núm. Periodo',
       'SSP_ID_CONT_INTERN', 'SSP_NM_CONT_INESP', 'Fecha Inicio',
       'Fecha_Inicio_contra', 'Fecha_Fin_contra', 'SSP_NO_DEFINIDO',
       'CSP_N_AG_CATEGOR', 'CSP_NM_CATEGORESP', 'STD_N_WU_TYPEESP',
       'STD_N_WL_TYPEESP', 'STD_WORK_LOCESP', 'CSP_N_COLECTIVO',
       'STD_DT_BIRTH', 'Edad', 'RangoEdad', 'Nacionalidad',
       'SSP_ID_MINUSVALIA', 'Nombre de la minusvalia : Span', 'Activos'],
      dtype='object')

In [5]:
ds = ds.rename(columns={'Año':'Anyo', 'AñoMes':'AnyoMes', 'Núm. Periodo':'Num_Periodo'})

In [6]:
ds = ds.drop(ds[ds["STD_N_GENDERESP"]=='Valor no dado de alta en maestro'].index)

In [7]:
ds

Unnamed: 0,NM_ORGANIZATIONESP,STD_N_HR_TYPEESP,Anyo,AnyoMes,STD_ID_PERSON,STD_N_GENDERESP,Num_Periodo,SSP_ID_CONT_INTERN,SSP_NM_CONT_INESP,Fecha Inicio,...,STD_N_WL_TYPEESP,STD_WORK_LOCESP,CSP_N_COLECTIVO,STD_DT_BIRTH,Edad,RangoEdad,Nacionalidad,SSP_ID_MINUSVALIA,Nombre de la minusvalia : Span,Activos
0,Hospital de TORREJON,Empleado,2018,201801,1000148,Mujer,2,189,INDEFINIDO TP COMPL TRANSF DE TEMPO,03/05/2010,...,Atención Especializada,HospitalA,Estructura,17/04/1982,41,41-50,Española,-2,Sin Valor,1
1,Hospital de TORREJON,Empleado,2018,201801,1001312,Varón,2,100,ORDINARIO INDEFINIDO TP COMPLETO,04/11/2010,...,Atención Especializada,HospitalA,Estructura,15/08/1966,57,Más de 50,Española,-2,Sin Valor,1
2,Hospital de TORREJON,Empleado,2018,201801,1002094,Varón,2,100,ORDINARIO INDEFINIDO TP COMPLETO,16/05/2011,...,Atención Especializada,HospitalA,Estructura,20/02/1983,40,25-40,Española,-2,Sin Valor,1
3,Hospital de TORREJON,Empleado,2018,201801,1002518,Mujer,2,189,INDEFINIDO TP COMPL TRANSF DE TEMPO,03/10/2011,...,Atención Especializada,HospitalA,Estructura,12/10/1983,40,25-40,Española,-2,Sin Valor,1
4,Hospital de TORREJON,Empleado,2018,201801,1003521,Varón,2,100,ORDINARIO INDEFINIDO TP COMPLETO,27/06/2011,...,Atención Especializada,HospitalA,Estructura,09/07/1966,57,Más de 50,Española,-2,Sin Valor,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
61104,Hospital de TORREJON,Empleado,2022,202207,1030771,Mujer,1,402R,EVENTUAL (REFUERZO),05/07/2022,...,Atención Especializada,HospitalA,Refuerzos,23/07/1990,33,25-40,Española,-2,Sin Valor,1
61105,Hospital de TORREJON,Empleado,2022,202207,1030772,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,...,Atención Especializada,HospitalA,Refuerzos,22/10/1995,28,25-40,Española,-2,Sin Valor,1
61106,Hospital de TORREJON,Empleado,2022,202207,1030777,Varón,1,402V,EVENTUAL (SUST. VACACIONES),06/07/2022,...,Atención Especializada,HospitalA,Sustituciones,16/06/1981,42,41-50,Española,-2,Sin Valor,1
61107,Hospital de TORREJON,Empleado,2022,202207,1030782,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,...,Atención Especializada,HospitalA,Refuerzos,22/05/1976,47,41-50,Española,-2,Sin Valor,1


# Algoritmo de limpieza

In [8]:
ds.sort_values("STD_ID_PERSON", inplace = True)
ds

Unnamed: 0,NM_ORGANIZATIONESP,STD_N_HR_TYPEESP,Anyo,AnyoMes,STD_ID_PERSON,STD_N_GENDERESP,Num_Periodo,SSP_ID_CONT_INTERN,SSP_NM_CONT_INESP,Fecha Inicio,...,STD_N_WL_TYPEESP,STD_WORK_LOCESP,CSP_N_COLECTIVO,STD_DT_BIRTH,Edad,RangoEdad,Nacionalidad,SSP_ID_MINUSVALIA,Nombre de la minusvalia : Span,Activos
46392,Hospital de TORREJON,Empleado,2021,202108,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
45145,Hospital de TORREJON,Empleado,2021,202107,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
17339,Hospital de TORREJON,Empleado,2019,201908,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
41541,Hospital de TORREJON,Empleado,2021,202104,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
18496,Hospital de TORREJON,Empleado,2019,201909,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
61104,Hospital de TORREJON,Empleado,2022,202207,1030771,Mujer,1,402R,EVENTUAL (REFUERZO),05/07/2022,...,Atención Especializada,HospitalA,Refuerzos,23/07/1990,33,25-40,Española,-2,Sin Valor,1
61105,Hospital de TORREJON,Empleado,2022,202207,1030772,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,...,Atención Especializada,HospitalA,Refuerzos,22/10/1995,28,25-40,Española,-2,Sin Valor,1
61106,Hospital de TORREJON,Empleado,2022,202207,1030777,Varón,1,402V,EVENTUAL (SUST. VACACIONES),06/07/2022,...,Atención Especializada,HospitalA,Sustituciones,16/06/1981,42,41-50,Española,-2,Sin Valor,1
61107,Hospital de TORREJON,Empleado,2022,202207,1030782,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,...,Atención Especializada,HospitalA,Refuerzos,22/05/1976,47,41-50,Española,-2,Sin Valor,1


In [9]:
ds = ds.drop(columns="AnyoMes")
ds = ds.drop(columns="Anyo")

ds

Unnamed: 0,NM_ORGANIZATIONESP,STD_N_HR_TYPEESP,STD_ID_PERSON,STD_N_GENDERESP,Num_Periodo,SSP_ID_CONT_INTERN,SSP_NM_CONT_INESP,Fecha Inicio,Fecha_Inicio_contra,Fecha_Fin_contra,...,STD_N_WL_TYPEESP,STD_WORK_LOCESP,CSP_N_COLECTIVO,STD_DT_BIRTH,Edad,RangoEdad,Nacionalidad,SSP_ID_MINUSVALIA,Nombre de la minusvalia : Span,Activos
46392,Hospital de TORREJON,Empleado,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,01/07/2019,31/10/2021,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
45145,Hospital de TORREJON,Empleado,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,01/07/2019,31/10/2021,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
17339,Hospital de TORREJON,Empleado,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,01/07/2019,31/10/2021,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
41541,Hospital de TORREJON,Empleado,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,01/07/2019,31/10/2021,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
18496,Hospital de TORREJON,Empleado,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,01/07/2019,31/10/2021,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
61104,Hospital de TORREJON,Empleado,1030771,Mujer,1,402R,EVENTUAL (REFUERZO),05/07/2022,05/07/2022,30/09/2022,...,Atención Especializada,HospitalA,Refuerzos,23/07/1990,33,25-40,Española,-2,Sin Valor,1
61105,Hospital de TORREJON,Empleado,1030772,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,08/07/2022,31/08/2022,...,Atención Especializada,HospitalA,Refuerzos,22/10/1995,28,25-40,Española,-2,Sin Valor,1
61106,Hospital de TORREJON,Empleado,1030777,Varón,1,402V,EVENTUAL (SUST. VACACIONES),06/07/2022,06/07/2022,30/09/2022,...,Atención Especializada,HospitalA,Sustituciones,16/06/1981,42,41-50,Española,-2,Sin Valor,1
61107,Hospital de TORREJON,Empleado,1030782,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,08/07/2022,31/08/2022,...,Atención Especializada,HospitalA,Refuerzos,22/05/1976,47,41-50,Española,-2,Sin Valor,1


In [10]:
ds = ds.drop_duplicates()
ds

Unnamed: 0,NM_ORGANIZATIONESP,STD_N_HR_TYPEESP,STD_ID_PERSON,STD_N_GENDERESP,Num_Periodo,SSP_ID_CONT_INTERN,SSP_NM_CONT_INESP,Fecha Inicio,Fecha_Inicio_contra,Fecha_Fin_contra,...,STD_N_WL_TYPEESP,STD_WORK_LOCESP,CSP_N_COLECTIVO,STD_DT_BIRTH,Edad,RangoEdad,Nacionalidad,SSP_ID_MINUSVALIA,Nombre de la minusvalia : Span,Activos
46392,Hospital de TORREJON,Empleado,1000016,Mujer,2,200,ORDINARIO A TIEMPO PARCIAL INDEFINI,01/07/2019,01/07/2019,31/10/2021,...,Atención Especializada,HospitalA,Estructura,01/10/1984,39,25-40,Española,-2,Sin Valor,1
37842,Hospital de TORREJON,Empleado,1000026,Mujer,1,100,ORDINARIO INDEFINIDO TP COMPLETO,01/01/2019,01/01/2019,01/01/4000,...,Atención Especializada,HospitalA,Estructura,22/11/1982,41,41-50,Española,-2,Sin Valor,1
52498,Hospital de TORREJON,Empleado,1000107,Varón,2,100,ORDINARIO INDEFINIDO TP COMPLETO,01/01/2019,01/01/2019,01/01/4000,...,Atención Especializada,HospitalA,Estructura,04/12/1972,51,Más de 50,Española,-2,Sin Valor,1
31631,Hospital de TORREJON,Empleado,1000125,Mujer,1,100,ORDINARIO INDEFINIDO TP COMPLETO,01/02/2020,01/02/2020,11/08/2020,...,Atención Especializada,HospitalA,Estructura,29/01/1985,38,25-40,Española,-2,Sin Valor,1
25444,Hospital de TORREJON,Empleado,1000146,Mujer,1,402R,EVENTUAL (REFUERZO),03/03/2020,03/03/2020,04/03/2020,...,Atención Especializada,HospitalA,Refuerzos,26/06/1974,49,41-50,Española,-2,Sin Valor,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
61104,Hospital de TORREJON,Empleado,1030771,Mujer,1,402R,EVENTUAL (REFUERZO),05/07/2022,05/07/2022,30/09/2022,...,Atención Especializada,HospitalA,Refuerzos,23/07/1990,33,25-40,Española,-2,Sin Valor,1
61105,Hospital de TORREJON,Empleado,1030772,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,08/07/2022,31/08/2022,...,Atención Especializada,HospitalA,Refuerzos,22/10/1995,28,25-40,Española,-2,Sin Valor,1
61106,Hospital de TORREJON,Empleado,1030777,Varón,1,402V,EVENTUAL (SUST. VACACIONES),06/07/2022,06/07/2022,30/09/2022,...,Atención Especializada,HospitalA,Sustituciones,16/06/1981,42,41-50,Española,-2,Sin Valor,1
61107,Hospital de TORREJON,Empleado,1030782,Mujer,1,402R,EVENTUAL (REFUERZO),08/07/2022,08/07/2022,31/08/2022,...,Atención Especializada,HospitalA,Refuerzos,22/05/1976,47,41-50,Española,-2,Sin Valor,1


In [13]:
import os
os.chdir(r'C:\Users\Chemagdlc\Desktop\tfm\notebooks')
os.getcwd()
ds.to_csv('dslf.csv', index=False)