# Limpieza de datos

In [1]:
import pandas as pd

In [24]:
df = pd.read_pickle("../data/interim/df_tipoDato.pkl")

## Restricciones de unicidad

---

### Registros duplicados

In [56]:
print(f"Número de registros completos (i.e. respecto a todas las variables) duplicados: {df[df.duplicated()].shape[0]}")

Número de registros completos (i.e. respecto a todas las variables) duplicados: 0


### Identificadores duplicados

Por razones de ordamiento conveniente de las observaciones basadas en la variable `id_operario`, convertiremos el tipo de dato de esta variable a `int64`.

In [36]:
df['id_operario'] = df['id_operario'].astype('int64')

Unnamed: 0,id_operario,rendimiento,campania,trabajo_horas,estudio,jabas_al,jabas_cc,jabas_cp,jabas_js,jabas_mg,...,bancarizado,distancia_hogar_fundo,ingresos,bono,bono_otros,region,asistentes,edad_mediana,hijos_mediana,trabajo_dias_asistente
5,31,10.666667,20,15.00,SECUNDARIA COMPLETA,141.12,0.0,0.0,0.0,0.00,...,1.0,13.341589,281.99,0.00,16.13,Ica,3,35.0,0.0,
6,31,90.567786,19,5.00,SECUNDARIA COMPLETA,31.22,0.0,0.0,0.0,0.00,...,1.0,13.341589,0.00,0.00,0.00,Ica,2,30.5,0.0,
7,34,3.625000,20,24.00,PRIMARIA COMPLETA,0.00,0.0,0.0,0.0,156.92,...,1.0,4.795824,108.53,48.39,0.00,Ica,1,44.0,0.0,3328.0
8,34,93.022267,19,225.00,PRIMARIA COMPLETA,517.51,0.0,0.0,0.0,431.93,...,1.0,4.795824,1117.77,282.91,31.36,Ica,5,33.0,0.0,
14,89,62.081967,20,61.00,SECUNDARIA COMPLETA,0.00,0.0,0.0,0.0,0.00,...,1.0,21.594208,233.08,162.57,0.00,Ica,4,33.0,0.5,934.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8426,78034,72.328767,19,36.50,PRIMARIA COMPLETA,0.00,0.0,0.0,0.0,0.00,...,0.0,4.795824,151.08,101.24,0.00,Ica,1,41.0,0.0,1123.0
8665,85311,114.826087,20,23.00,PRIMARIA COMPLETA,326.19,0.0,0.0,0.0,0.00,...,1.0,1004.964336,104.01,222.18,0.00,Ica,1,37.0,0.0,4408.0
20319,85311,117.485714,20,8.75,PRIMARIA COMPLETA,0.00,0.0,0.0,0.0,0.00,...,1.0,137.445423,39.50,0.00,0.00,Piura,3,23.0,1.0,365.0
8666,85313,113.027778,20,36.00,PRIMARIA COMPLETA,597.68,0.0,0.0,0.0,0.00,...,1.0,4.795824,18.08,579.60,0.00,Ica,2,35.5,0.0,3122.5


In [65]:
# Encuentra y cuenta los duplicados en la variable 'id_operario'
duplicados = df.duplicated('id_operario').sum()

# Imprime el número de duplicados en la variable 'id_operario'
print(f'Considerando sólo la variable "id_operario", se presentan {duplicados} duplicados.')

Considerando sólo la variable "id_operario", se presentan 3766 duplicados.


In [66]:
# Encuentra y cuenta los duplicados en las variables 'region' y 'id_operario'
duplicados = df.duplicated(['region','id_operario']).sum()

# Imprime el número de duplicados en la variable 'id_operario'
print(f'Considerando sólo la variable "region" y "id_operario", se presentan {duplicados} duplicados.')

Considerando sólo la variable "region" y "id_operario", se presentan 3710 duplicados.


In [67]:
# Encuentra y cuenta los duplicados en las variables 'region' y 'id_operario'
duplicados = df.duplicated(['campania','id_operario']).sum()

# Imprime el número de duplicados en la variable 'id_operario'
print(f'Considerando las variables "campania" y "id_operario", se presentan {duplicados} duplicados.')

Considerando sólo la variable "campania" y "id_operario", se presentan 34 duplicados.


In [68]:
# Encuentra y cuenta los duplicados en las variables 'campania', 'region' y 'id_operario'
duplicados = df.duplicated(['campania','region','id_operario']).sum()

# Imprime el número de duplicados en la variable 'id_operario'
print(f'Considerando las variables "campania", "region" y "id_operario", se presentan {duplicados} duplicados.')

Considerando las variables "campania", "region" y "id_operario", se presentan 0 duplicados.


# Conclusiones

* La segmentación debe realizar para cada combinación de categorías de las variables `campania` (2019, 2020) y `region` (Ica, Piura). Así se debe realizar 4 segmentaciones. Las razones son:
  * No se podría obtener una segmentación de operarios de Ica con información de operarios de Piura, o visceversa. Las características de los operarios de acuerdo a la región son distintas.
* La segmentación podría realizar sin considerar el año de la campaña. Asumiendo que aunque el mismo operario trabaje en ambos años, representa operarios distintos. Así se debe realizar 2 segmentaciones, una para cada región.