# UNLP Machine Learning - TP1
---------------------------------------
* **Autores:** 
    - Emiliano Bohorquez
    - Brayan A. Condori Luque
* **Objetivo:** Este notebook prepara los datos extraidos del [sitio web](https://ignaciomsarmiento.github.io/GEIH2018_sample/).
---------------------------------------

**Fecha de Creación:** 2024-11-18

**Fecha de Actualización:** 2024-11-24

In [1]:
# Importamos las librerias
import pandas as pd
pd.set_option('display.float_format', '{:.2f}'.format)

import os

In [2]:
# Definimos las rutas de los archivos
DATASET_RAW = "../stores/raw_geih_data.csv"
DATASET_CLEAN = "../stores/clean_geih_data.csv"

In [3]:
# 1. Abrimos la base de datos
df = pd.read_csv(DATASET_RAW, sep=",")
df

Unnamed: 0,directorio,secuencia_p,orden,clase,dominio,mes,estrato1,sex,age,p6050,...,y_viaticos_m,y_accidentes_m,y_salarysec_m,y_inglab_m_ha,y_ganancianeta_m,y_ganancianetaagro_m,y_gananciaindep_m,y_gananciaindep_m_hu,y_total_m,y_total_m_ha
0,4514331,1,2,1,BOGOTA,1,2,0,29,2,...,,,,,,,,,,
1,4514331,1,1,1,BOGOTA,1,2,1,36,1,...,,,,8404.3203125,,,,,1620833.25,8404.3203125
2,4514332,1,4,1,BOGOTA,1,2,1,4,3,...,,,,,,,,,,
3,4514332,1,3,1,BOGOTA,1,2,1,7,3,...,,,,,,,,,,
4,4514332,1,1,1,BOGOTA,1,2,0,32,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32181,4804454,1,2,1,BOGOTA,12,2,0,24,2,...,,,,3345.5556640625,,,,,1003666.6875,3345.5556640625
32182,4804455,1,1,1,BOGOTA,12,3,0,36,1,...,5e+05,,,25958.333984375,,,,,6675000,25958.333984375
32183,4804455,1,2,1,BOGOTA,12,3,1,41,2,...,,,,,,,,,,
32184,4804455,1,3,1,BOGOTA,12,3,1,8,3,...,,,,,,,,,,


Segun las indicaciones de la consigna. Mantenemos las observaciones bajo los siguientes siguientes criterios:
* Individuos con una edad igual o superior a los 18 años.
* Evitar NAs que distorsionen los procedimientos.
* Individuos que tienen ingresos laborales mayores a cero.

In [4]:
# 2. Limpiamos la base de datos

# Transformamos a variable númerica
df['age'] = pd.to_numeric(df['age'], errors='coerce').fillna(0).astype(int)

# Filtramos por edad
df_18 = df[df['age']>= 18]

# Filtramos por ingreso positivo
df_18 = df_18[df_18['y_salary_m_hu'] != 0]

# Transformo el tipo de variable. Comenzamos por una selección de las mismas
variables = ['estrato1','sex','age', 'formal','fweight','maxeduclevel','y_salary_m_hu', 'y_inglab_m',
            'p6585s1', 'p6585s2', 'p6585s3', 'p6585s4']

for v in variables:
    df_18[v] = df_18[v].astype(float)

# Reseteamos el índice
df_18.reset_index(drop=True, inplace=True)

In [5]:
# El dataset resultante queda de la siguiente manera
print(f"El dataset cuenta con un total de {df_18.shape[0]} observaciones")

df_18

El dataset cuenta con un total de 24568 observaciones


Unnamed: 0,directorio,secuencia_p,orden,clase,dominio,mes,estrato1,sex,age,p6050,...,y_viaticos_m,y_accidentes_m,y_salarysec_m,y_inglab_m_ha,y_ganancianeta_m,y_ganancianetaagro_m,y_gananciaindep_m,y_gananciaindep_m_hu,y_total_m,y_total_m_ha
0,4514331,1,2,1,BOGOTA,1,2.00,0.00,29.00,2,...,,,,,,,,,,
1,4514331,1,1,1,BOGOTA,1,2.00,1.00,36.00,1,...,,,,8404.3203125,,,,,1620833.25,8404.3203125
2,4514332,1,1,1,BOGOTA,1,2.00,0.00,32.00,1,...,,,,,,,,,,
3,4514332,1,2,1,BOGOTA,1,2.00,1.00,35.00,2,...,,,,,,,,,,
4,4514333,1,4,1,BOGOTA,1,2.00,1.00,18.00,3,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24563,4804453,1,9,1,BOGOTA,12,3.00,1.00,23.00,4,...,,,,,2e+05,,2e+05,9333.3330078125,2e+05,9333.3330078125
24564,4804454,1,1,1,BOGOTA,12,2.00,1.00,27.00,1,...,,,,4453.359375,,,,,916119.6875,4453.359375
24565,4804454,1,2,1,BOGOTA,12,2.00,0.00,24.00,2,...,,,,3345.5556640625,,,,,1003666.6875,3345.5556640625
24566,4804455,1,1,1,BOGOTA,12,3.00,0.00,36.00,1,...,5e+05,,,25958.333984375,,,,,6675000,25958.333984375


In [6]:
#3. Realizamos una selección de var

df_18 = df_18[['directorio', 'secuencia_p', 'orden', 'formal','estrato1', 'sex', 'age','fweight', 'maxeduclevel',
              'y_salary_m_hu','y_total_m', 'p6585s1', 'p6585s2', 'p6585s3', 'p6585s4']]

# Transformamos las variables subsidios en dicotómicas. Primero, quitamos los que respondieron no saber:
subsidios = ['p6585s1', 'p6585s2', 'p6585s3', 'p6585s4']
for s in subsidios:
    df_18 = df_18[df_18[s] != 9.0]

# Ahora reemplazamos los que responden que no por 0 y los que sí por 1:
for s in subsidios:
    df_18[s] = df_18[s].apply(lambda x: 1 if x == 1 else 0)
df_18

# Filtramos por aquellos que no respondieron su nivel educativo
df_18 = df_18[df_18['maxeduclevel'] != 0.0]


# Por último, eliminamos los NaN:

df_18.dropna(how="any", inplace=True)

# El dataset resultante queda de la siguiente manera
print(f"El dataset cuenta con un total de {df_18.shape[0]} observaciones")

df_18

El dataset cuenta con un total de 9844 observaciones


Unnamed: 0,directorio,secuencia_p,orden,formal,estrato1,sex,age,fweight,maxeduclevel,y_salary_m_hu,y_total_m,p6585s1,p6585s2,p6585s3,p6585s4
1,4514331,1,1,1.00,2.00,1.00,36.00,255.00,6.00,6740.74,1620833.25,1,0,1,0
6,4514333,1,1,1.00,2.00,1.00,51.00,194.00,7.00,5833.33,1378973.375,0,1,0,0
9,4514334,1,1,1.00,2.00,1.00,45.00,243.00,4.00,3073.82,883357,0,1,0,0
11,4514335,1,1,0.00,2.00,1.00,61.00,230.00,3.00,4083.33,7e+05,0,0,0,0
16,4514338,1,2,1.00,2.00,0.00,35.00,342.00,7.00,8263.89,1941500.125,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
24560,4804453,1,6,1.00,3.00,1.00,24.00,233.00,7.00,5045.83,1088000,0,1,0,0
24562,4804453,1,8,1.00,3.00,0.00,50.00,233.00,6.00,4310.30,1146544.375,0,1,0,0
24564,4804454,1,1,1.00,2.00,1.00,27.00,387.00,6.00,3797.70,916119.6875,0,1,1,0
24565,4804454,1,2,1.00,2.00,0.00,24.00,387.00,6.00,3000.00,1003666.6875,0,0,1,0


In [7]:
#  Missing
missing_values = df_18.isnull().sum()
missing_values

directorio       0
secuencia_p      0
orden            0
formal           0
estrato1         0
sex              0
age              0
fweight          0
maxeduclevel     0
y_salary_m_hu    0
y_total_m        0
p6585s1          0
p6585s2          0
p6585s3          0
p6585s4          0
dtype: int64

In [8]:
# 4. Guardamos el dataframe en un archivo CSV
df_18.to_csv(DATASET_CLEAN, index=False)