# Ejercicio 🏡

## 📍 Objetivo
<br>Realizar la preparación de datos de la Encuesta anual de hogares realizada en todo el territorio de la Ciudad de Buenos Aires, Argentina en el 2019.
<br>Prácticamente vas a acondicionar el dataset para que te quede listo para buscar correlaciones o entrenar algún modelo de Machine Learning.

El dataset proviene del Open Data del Gobierno de Buenos Aires: [Encuesta anual de hogares 2019](https://data.buenosaires.gob.ar/dataset/encuesta-anual-hogares)

---
## 📍 Consigna 1
**_1) Cargamos los datos_**
- Carguen el dataset:
```
  data = pd.read_csv("encuesta-anual-hogares-2019.csv", sep=',')
```
**_2) Inspección inicial_**
- Eliminen las columnas `id` y `hijos_nacidos_vivos`

**_3) Discretización_**
- Para las siguientes columnas discreticen por igual frecuencia e igual rango.
    <br>`ingresos_familiares` con q=8
    <br>`ingreso_per_capita_familiar` con q=10

- En algunas situaciones hay ciertos elementos que se repiten al momento de discretizar, una forma de eliminar duplicados es con el argumento `duplicates='drop'`.
    <br><br>Para las siguientes columnas `ingreso_total_lab` y `ingreso_total_no_lab` consideren:
    ```
    data['ingreso_total_lab'] = pd.qcut(data['ingreso_total_lab'], q=10, duplicates='drop')
    data['ingreso_total_no_lab'] = pd.qcut(data['ingreso_total_no_lab'], q=4, duplicates='drop')
    ```

- Para la columna `edad` discreticen usando igual distancia con `bins=5`.

**_4) Preparación de datos_**
- Cambien el tipo de dato a `str` de las siguientes columnas: `comuna` y `nhogar`.
  <br>_¿Por qué hacemos esto?_ Para estas columnas el número es simplemente una connotación, para representar una comuna por ejemplo pero no hay una relación numérica entre ellos.

- _¿Qué esperas como valor en la columna `años_escolaridad`?_ Número enteros pero no siempre es así, cada entidad o empresa tiene diferentes formas de rellenar una encuesta.
    <br>Evalua lo siguiente: `data['años_escolaridad'].unique()`, vas a poder ver los valores únicos en la columna. Donde destacamos que todos son `object/string`.

- Reemplazar `Ningun año de escolaridad aprobado` por un '0'.
<br>Efectivamente por '0' y no 0, porque esta columna maneja datos tipo `object/string`.
    ```
    data['años_escolaridad'] = data['años_escolaridad'].replace('Ningun año de escolaridad aprobado', '0')
    ```

- Vamos a convertir los tipos de datos de la columna anterior `años_escolaridad` a enteros.
    <br>De manera intuitiva podríamos hacer:
    ```
    data['años_escolaridad'] = data['años_escolaridad'].astype("Int32")
    ```
    PEROOOOOOO marca un error, ¿cierto?
    
    Posiblemente muchas veces les pase que cuando hagan una _cast_ (conversión de un tipo de dato a otro) pueden llegar a tener conflictos si esa columna tienen _NaN_. Para este caso si queremos convertir los valores de la columna `años_escolaridad` de _string_ a _int_, hay que hacer un paso intermedio que es pasarlo a _float_.
    ```
    data['años_escolaridad'] = data['años_escolaridad'].astype(float).astype("Int32")
    ```

- Discreticen para la columna `años_escolaridad` por igual frecuencia e igual rango con un `q=5`

- No necesariamente siempre hay que rellenar los `NaN` en todas las columnas, porque quizás esa cantidad de `NaN` no es tan representativa para nuestro análisis. Así que podes eliminarlo para todo el dataframe o para ciertas columnas.
    ```
    # Eliminar filas que contengan NaN
    data = data.dropna(subset=['situacion_conyugal', 'sector_educativo', 'lugar_nacimiento', 'afiliacion_salud'])
    ```
- Después de eliminar filas, podes resetear el índice para que mantenga la secuencia:
    ```
    data = data.reset_index(drop=True)
    ```

- Rellenar los datos faltantes para la columna `años_escolaridad`. Primero añadan la categoría `desconocido` y luego hacen un rellenado de los datos faltantes con `desconocido`.

- Rellenar los datos faltantes para la columna `nivel_max_educativo` con `value=desconocido`

In [None]:
!pip install funpymodeling

In [1]:
import pandas as pd
from funpymodeling.exploratory import freq_tbl, status

In [None]:
!pip install -U gdown

# Descargar todo el contenido de la carpeta compartida
!gdown --folder "https://drive.google.com/drive/folders/1gARv-63rYN3_IcpYj0hfAjVUKcW5TVFE"


In [None]:
!gdown --id 1IWVNIVT1feXTfBDq2S9CdWeIrGN7AUj1 -O encuesta-anual-hogares-2019.csv

data = pd.read_csv("encuesta-anual-hogares-2019.csv", sep=',')


In [4]:
data

Unnamed: 0,id,nhogar,miembro,comuna,dominio,edad,sexo,parentesco_jefe,situacion_conyugal,num_miembro_padre,...,ingreso_per_capita_familiar,estado_educativo,sector_educativo,nivel_actual,nivel_max_educativo,años_escolaridad,lugar_nacimiento,afiliacion_salud,hijos_nacidos_vivos,cantidad_hijos_nac_vivos
0,1,1,1,5,Resto de la Ciudad,18,Mujer,Jefe,Soltero/a,Padre no vive en el hogar,...,9000,Asiste,Estatal/publico,Universitario,Otras escuelas especiales,12,PBA excepto GBA,Solo obra social,No,No corresponde
1,1,1,2,5,Resto de la Ciudad,18,Mujer,Otro no familiar,Soltero/a,Padre no vive en el hogar,...,9000,Asiste,Estatal/publico,Universitario,Otras escuelas especiales,12,Otra provincia,Solo plan de medicina prepaga por contratación...,No,No corresponde
2,2,1,1,2,Resto de la Ciudad,18,Varon,Jefe,Soltero/a,Padre no vive en el hogar,...,33333,Asiste,Privado religioso,Universitario,Otras escuelas especiales,12,CABA,Solo plan de medicina prepaga por contratación...,,No corresponde
3,2,1,2,2,Resto de la Ciudad,50,Mujer,Padre/Madre/Suegro/a,Viudo/a,No corresponde,...,33333,No asiste pero asistió,No corresponde,No corresponde,Secundario/medio comun,17,CABA,Solo prepaga o mutual via OS,Si,2
4,2,1,3,2,Resto de la Ciudad,17,Varon,Otro familiar,Soltero/a,Padre no vive en el hogar,...,33333,Asiste,Privado religioso,Secundario/medio comun,EGB (1° a 9° año),10,CABA,Solo plan de medicina prepaga por contratación...,,No corresponde
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14314,5794,1,1,10,Resto de la Ciudad,99,Varon,Jefe,Casado/a,No corresponde,...,14250,No asiste pero asistió,No corresponde,No corresponde,Sala de 5,5,Pais no limitrofe,Solo obra social,,No corresponde
14315,5794,1,2,10,Resto de la Ciudad,78,Mujer,Otro familiar,Soltero/a,No corresponde,...,14250,No asiste pero asistió,No corresponde,No corresponde,EGB (1° a 9° año),9,Partido GBA,Solo obra social,No,No corresponde
14316,5794,1,3,10,Resto de la Ciudad,60,Mujer,Hijo/a - Hijastro/a,Separado/a de unión o matrimonio,No corresponde,...,14250,No asiste pero asistió,No corresponde,No corresponde,Primario especial,12,CABA,Solo obra social,Si,2
14317,5794,1,4,10,Resto de la Ciudad,92,Mujer,Conyugue o pareja,Casado/a,No corresponde,...,14250,No asiste pero asistió,No corresponde,No corresponde,Primario comun,7,CABA,Solo obra social,Si,1


## 2) Inspección inicial

In [5]:
# Eliminamos las columnas id y hijos_nacidos_vivos
data = data.drop(columns=['id', 'hijos_nacidos_vivos'])


In [6]:
status(data)

Unnamed: 0,variable,q_nan,p_nan,q_zeros,p_zeros,unique,type
0,nhogar,0,0.0,0,0.0,7,int64
1,miembro,0,0.0,0,0.0,19,int64
2,comuna,0,0.0,0,0.0,15,int64
3,dominio,0,0.0,0,0.0,2,object
4,edad,0,0.0,128,0.008939,101,int64
5,sexo,0,0.0,0,0.0,2,object
6,parentesco_jefe,0,0.0,0,0.0,9,object
7,situacion_conyugal,1,7e-05,0,0.0,7,object
8,num_miembro_padre,0,0.0,0,0.0,9,object
9,num_miembro_madre,0,0.0,0,0.0,11,object


## 3) Discretización
- Para las siguientes columnas discreticen por igual frecuencia e igual rango.
    <br>`ingresos_familiares` con q=8
    <br>`ingreso_per_capita_familiar` con q=10

In [7]:
data2=data.copy()

In [8]:
data2['ingresos_familiares']=pd.qcut(data2['ingresos_familiares'], q=8)
data2['ingreso_per_capita_familiar']=pd.qcut(data2['ingreso_per_capita_familiar'], q=10)

In [9]:
data2[['ingresos_familiares','ingreso_per_capita_familiar']]

Unnamed: 0,ingresos_familiares,ingreso_per_capita_familiar
0,"(-0.001, 20800.0]","(8700.0, 12000.0]"
1,"(-0.001, 20800.0]","(8700.0, 12000.0]"
2,"(90000.0, 124000.0]","(30000.0, 38300.0]"
3,"(90000.0, 124000.0]","(30000.0, 38300.0]"
4,"(90000.0, 124000.0]","(30000.0, 38300.0]"
...,...,...
14314,"(54000.0, 70000.0]","(12000.0, 15016.0]"
14315,"(54000.0, 70000.0]","(12000.0, 15016.0]"
14316,"(54000.0, 70000.0]","(12000.0, 15016.0]"
14317,"(54000.0, 70000.0]","(12000.0, 15016.0]"


- En algunas situaciones hay ciertos elementos que se repiten al momento de discretizar, una forma de eliminar duplicados es con el argumento `duplicates='drop'`.
    <br><br>Para las siguientes columnas `ingreso_total_lab` y `ingreso_total_no_lab` consideren:
   


In [10]:
data2['ingreso_total_lab'] = pd.qcut(data2['ingreso_total_lab'], q=10, duplicates='drop')
data2['ingreso_total_no_lab'] = pd.qcut(data['ingreso_total_no_lab'], q=4, duplicates='drop')

In [11]:
data2[['ingreso_total_lab','ingreso_total_no_lab']]

Unnamed: 0,ingreso_total_lab,ingreso_total_no_lab
0,"(-0.001, 2500.0]","(4000.0, 500000.0]"
1,"(-0.001, 2500.0]","(4000.0, 500000.0]"
2,"(-0.001, 2500.0]","(-0.001, 4000.0]"
3,"(56000.0, 1000000.0]","(4000.0, 500000.0]"
4,"(-0.001, 2500.0]","(-0.001, 4000.0]"
...,...,...
14314,"(-0.001, 2500.0]","(4000.0, 500000.0]"
14315,"(-0.001, 2500.0]","(4000.0, 500000.0]"
14316,"(-0.001, 2500.0]","(4000.0, 500000.0]"
14317,"(-0.001, 2500.0]","(4000.0, 500000.0]"


- Para la columna `edad` discreticen usando igual distancia con `bins=5`.

In [12]:
data2['edad']=pd.cut(data2['edad'],bins=5)

In [13]:
data2['edad']

Unnamed: 0,edad
0,"(-0.1, 20.0]"
1,"(-0.1, 20.0]"
2,"(-0.1, 20.0]"
3,"(40.0, 60.0]"
4,"(-0.1, 20.0]"
...,...
14314,"(80.0, 100.0]"
14315,"(60.0, 80.0]"
14316,"(40.0, 60.0]"
14317,"(80.0, 100.0]"


## 4) Preparación de datos

- Cambien el tipo de dato a `str` de las siguientes columnas: `comuna` y `nhogar`.
  <br>_¿Por qué hacemos esto?_ Para estas columnas el número es simplemente una connotación, para representar una comuna por ejemplo pero no hay una relación numérica entre ellos.


In [14]:
status(data2)

Unnamed: 0,variable,q_nan,p_nan,q_zeros,p_zeros,unique,type
0,nhogar,0,0.0,0,0.0,7,int64
1,miembro,0,0.0,0,0.0,19,int64
2,comuna,0,0.0,0,0.0,15,int64
3,dominio,0,0.0,0,0.0,2,object
4,edad,0,0.0,0,0.0,5,category
5,sexo,0,0.0,0,0.0,2,object
6,parentesco_jefe,0,0.0,0,0.0,9,object
7,situacion_conyugal,1,7e-05,0,0.0,7,object
8,num_miembro_padre,0,0.0,0,0.0,9,object
9,num_miembro_madre,0,0.0,0,0.0,11,object


In [15]:
data2['comuna'] = data2['comuna'].astype(str)
data2['nhogar'] = data2['nhogar'].astype(str)

In [16]:
status(data2)

Unnamed: 0,variable,q_nan,p_nan,q_zeros,p_zeros,unique,type
0,nhogar,0,0.0,0,0.0,7,object
1,miembro,0,0.0,0,0.0,19,int64
2,comuna,0,0.0,0,0.0,15,object
3,dominio,0,0.0,0,0.0,2,object
4,edad,0,0.0,0,0.0,5,category
5,sexo,0,0.0,0,0.0,2,object
6,parentesco_jefe,0,0.0,0,0.0,9,object
7,situacion_conyugal,1,7e-05,0,0.0,7,object
8,num_miembro_padre,0,0.0,0,0.0,9,object
9,num_miembro_madre,0,0.0,0,0.0,11,object


- _¿Qué esperas como valor en la columna `años_escolaridad`?_ Número enteros pero no siempre es así, cada entidad o empresa tiene diferentes formas de rellenar una encuesta.
    <br>Evalua lo siguiente: `data['años_escolaridad'].unique()`, vas a poder ver los valores únicos en la columna. Donde destacamos que todos son `object/string`.


In [17]:
data2['años_escolaridad'].unique()

array(['12', '17', '10', '8', 'Ningun año de escolaridad aprobado', '11',
       '9', '13', '7', '16', '14', '15', '5', '6', '2', '19', '4', '1',
       '3', '18', nan], dtype=object)

- Reemplazar `Ningun año de escolaridad aprobado` por un '0'.
<br>Efectivamente por '0' y no 0, porque esta columna maneja datos tipo `object/string`.
    ```
    data['años_escolaridad'] = data['años_escolaridad'].replace('Ningun año de escolaridad aprobado', '0')
    ```

In [18]:
data2['años_escolaridad'] = data2['años_escolaridad'].replace('Ningun año de escolaridad aprobado', '0')

- Vamos a convertir los tipos de datos de la columna anterior `años_escolaridad` a enteros.
    <br>De manera intuitiva podríamos hacer:
    ```
    data['años_escolaridad'] = data['años_escolaridad'].astype("Int32")
    ```
    PEROOOOOOO marca un error, ¿cierto?
    
    Posiblemente muchas veces les pase que cuando hagan una _cast_ (conversión de un tipo de dato a otro) pueden llegar a tener conflictos si esa columna tienen _NaN_. Para este caso si queremos convertir los valores de la columna `años_escolaridad` de _string_ a _int_, hay que hacer un paso intermedio que es pasarlo a _float_.
    ```
    data['años_escolaridad'] = data['años_escolaridad'].astype(float).astype("Int32")
    ```


In [19]:
data2['años_escolaridad'] = data2['años_escolaridad'].astype("Int32")

In [20]:
data2['años_escolaridad'].unique()

<IntegerArray>
[12, 17, 10, 8, 0, 11, 9, 13, 7, 16, 14, 15, 5, 6, 2, 19, 4, 1, 3, 18, <NA>]
Length: 21, dtype: Int32

- Discreticen para la columna `años_escolaridad` por igual frecuencia e igual rango con un `q=5`



In [21]:
data2['años_escolaridad']=pd.qcut(data2['años_escolaridad'], q=5)

- No necesariamente siempre hay que rellenar los `NaN` en todas las columnas, porque quizás esa cantidad de `NaN` no es tan representativa para nuestro análisis. Así que podes eliminarlo para todo el dataframe o para ciertas columnas.
    ```
    # Eliminar filas que contengan NaN
    data = data.dropna(subset=['situacion_conyugal', 'sector_educativo', 'lugar_nacimiento', 'afiliacion_salud'])
    ```

In [22]:
# Eliminar filas que contengan NaN
data2 = data2.dropna(subset=['situacion_conyugal', 'sector_educativo', 'lugar_nacimiento', 'afiliacion_salud'])

- Después de eliminar filas, podes resetear el índice para que mantenga la secuencia:
    ```
    data = data.reset_index(drop=True)
    ```

In [23]:
data2 = data2.reset_index(drop=True)

- Rellenar los datos faltantes para la columna `años_escolaridad`. Primero añadan la categoría `desconocido` y luego hacen un rellenado de los datos faltantes con `desconocido`.

In [24]:
data2['años_escolaridad'] = (
    data2['años_escolaridad']
    .astype('category')
    .cat.add_categories(['desconocido'])
    .fillna('desconocido')
)

- Rellenar los datos faltantes para la columna `nivel_max_educativo` con `value=desconocido`

In [25]:
data2['nivel_max_educativo']=data2['nivel_max_educativo'].fillna(value="desconocido")

##Comparación con Respuesta Esperada 1

In [26]:
status(data2)

Unnamed: 0,variable,q_nan,p_nan,q_zeros,p_zeros,unique,type
0,nhogar,0,0.0,0,0.0,7,object
1,miembro,0,0.0,0,0.0,19,int64
2,comuna,0,0.0,0,0.0,15,object
3,dominio,0,0.0,0,0.0,2,object
4,edad,0,0.0,0,0.0,5,category
5,sexo,0,0.0,0,0.0,2,object
6,parentesco_jefe,0,0.0,0,0.0,9,object
7,situacion_conyugal,0,0.0,0,0.0,7,object
8,num_miembro_padre,0,0.0,0,0.0,9,object
9,num_miembro_madre,0,0.0,0,0.0,11,object


## 📍 Consigna 2

**_5) One hot encoding_**

- Hagan `data_ohe = pd.get_dummies(data)`

In [27]:
data_ohe = pd.get_dummies(data2)

In [28]:
data_ohe.head()

Unnamed: 0,miembro,ingresos_totales,nhogar_1,nhogar_2,nhogar_3,nhogar_4,nhogar_5,nhogar_6,nhogar_7,comuna_1,...,cantidad_hijos_nac_vivos_15,cantidad_hijos_nac_vivos_2,cantidad_hijos_nac_vivos_3,cantidad_hijos_nac_vivos_4,cantidad_hijos_nac_vivos_5,cantidad_hijos_nac_vivos_6,cantidad_hijos_nac_vivos_7,cantidad_hijos_nac_vivos_8,cantidad_hijos_nac_vivos_9,cantidad_hijos_nac_vivos_No corresponde
0,1,6000,True,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True
1,2,12000,True,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True
2,1,0,True,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True
3,2,100000,True,False,False,False,False,False,False,False,...,False,True,False,False,False,False,False,False,False,False
4,3,0,True,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,True


In [29]:
data_ohe.columns

Index(['miembro', 'ingresos_totales', 'nhogar_1', 'nhogar_2', 'nhogar_3',
       'nhogar_4', 'nhogar_5', 'nhogar_6', 'nhogar_7', 'comuna_1',
       ...
       'cantidad_hijos_nac_vivos_15', 'cantidad_hijos_nac_vivos_2',
       'cantidad_hijos_nac_vivos_3', 'cantidad_hijos_nac_vivos_4',
       'cantidad_hijos_nac_vivos_5', 'cantidad_hijos_nac_vivos_6',
       'cantidad_hijos_nac_vivos_7', 'cantidad_hijos_nac_vivos_8',
       'cantidad_hijos_nac_vivos_9',
       'cantidad_hijos_nac_vivos_No corresponde'],
      dtype='object', length=179)

- Guardar `data_ohe` en un archivo pickle como vimos en clase con el nombre `categories_ohe.pickle`.

In [30]:
import pickle

with open('categories_ohe.pickle', 'wb') as handle:
    pickle.dump(data_ohe.columns, handle, protocol=pickle.HIGHEST_PROTOCOL)

- Carguen el dataset `new_data = pd.read_csv("new_data.csv", sep=',')`

In [None]:
!gdown --id 1rJcEV0YP-nTRmxziBB9417F-dIKdFCl2 -O new_data.csv
new_data= pd.read_csv("new_data.csv", sep=',')

- A `new_data` hagan un reindex con las columnas que guardaron el archivo pickle y para los valores `NaN` rellenenlos con un `0`.

In [32]:
with open('categories_ohe.pickle', 'rb') as handle:
    ohe_tr = pickle.load(handle)

In [33]:
ohe_tr

Index(['miembro', 'ingresos_totales', 'nhogar_1', 'nhogar_2', 'nhogar_3',
       'nhogar_4', 'nhogar_5', 'nhogar_6', 'nhogar_7', 'comuna_1',
       ...
       'cantidad_hijos_nac_vivos_15', 'cantidad_hijos_nac_vivos_2',
       'cantidad_hijos_nac_vivos_3', 'cantidad_hijos_nac_vivos_4',
       'cantidad_hijos_nac_vivos_5', 'cantidad_hijos_nac_vivos_6',
       'cantidad_hijos_nac_vivos_7', 'cantidad_hijos_nac_vivos_8',
       'cantidad_hijos_nac_vivos_9',
       'cantidad_hijos_nac_vivos_No corresponde'],
      dtype='object', length=179)

In [34]:
d_tr_ohe_2 = pd.get_dummies(new_data).reindex(columns = ohe_tr).fillna("0")

##Comparación Respuesta Esperada 2

In [35]:
d_tr_ohe_2

Unnamed: 0,miembro,ingresos_totales,nhogar_1,nhogar_2,nhogar_3,nhogar_4,nhogar_5,nhogar_6,nhogar_7,comuna_1,...,cantidad_hijos_nac_vivos_15,cantidad_hijos_nac_vivos_2,cantidad_hijos_nac_vivos_3,cantidad_hijos_nac_vivos_4,cantidad_hijos_nac_vivos_5,cantidad_hijos_nac_vivos_6,cantidad_hijos_nac_vivos_7,cantidad_hijos_nac_vivos_8,cantidad_hijos_nac_vivos_9,cantidad_hijos_nac_vivos_No corresponde
0,1,4000,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,True
1,1,22000,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,True
2,1,25000,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,True
3,2,30000,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,True
4,1,20000,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,True


## 📍 Consigna 3

Cargar su notebook y datasets a un repositorio público personal y compartirlo por Discord.
<br>Consideren usar git lfs para los dataset con extensión csv.