<center>
<h4>Diplomatura en CDAAyA 2019 - FaMAF - UNC</h4>
<h1>Predicción del Nivel de Pobreza de Hogares en Costa Rica</h1>
<h3>Exploración y Curación</h3>
</center>
</left>
<h4>Sofía Luján</h4>
<h4>Mariano Ramirez</h4>
</left>

### Introducción

En la siguiente notebook, se presentará la consigna a seguir para el segundo práctico de la materia Exploración y Curación. El objetivo consiste en identificar e implementar los pasos necesarios para la limpieza de la base de datos de pobreza en hogares de Costa Rica, así como también analizar cruces de datos con mayor profundidad y validando el sentido lógico. Para ello, comenzaremos con las importaciones pertinentes.

### Importaciones

In [None]:
# Importación de las librerías necesarias
import numpy as np
import pandas as pd
# Puede que nos sirvan también
import matplotlib as mpl
mpl.get_cachedir()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns


In [None]:
pd.set_option('display.max_columns', 150)
pd.set_option('display.max_rows', 150)
pd.set_option('max_colwidth', 151)

## Consigna para Curación y Exploración del Dataset

### I. Rutina de Curación

Inicialmente, con el objetivo de preparar los datos que alimentarán futuros modelos de aprendizaje automático (ML), se propone seguir la siguiente __[checklist](https://dimewiki.worldbank.org/wiki/Checklist:_Data_Cleaning)__ para la limpieza de los datos de nuestro proyecto. Esta _checklist_ es la misma que utilizaron en el primer práctico de la materia y nos será de utilidad como guía para curar el dataset. A modo de ayuda, **en esta notebook encontrarán una especie de template** que sigue la _checklist_ y que deberán ir completando.

**Cada decisión tomada deberá quedar registrada de manera explícita y clara.** Luego de pasar por todos los puntos de la _checklist_ propuesta, deberán almacenar en un nuevo archivo los datos resultantes. Adicionalmente, deben tener en cuenta que las acciones de limpieza que realicen sobre este dataset también deberán ser implementadas sobre el dataset de test (que, por el momento, no ha sido disponibilizado).

A los fines de realizar este práctico, se utilizará el dataset original, pero descartando todas aquellas columnas que se hayan calculado en base a features preexistentes, ya que éstas están relacionadas a decisiones que adoptaremos más adelante, como por ejemplo, sobre si es necesario crear nuevas features y si incluirlas o no. Recuerden que la ciencia de datos es un **proceso circular, continuo y no lineal**. Es decir, si los datos requieren de mayor procesamiento para satisfacer las necesidades de algoritmos de ML (cualesquiera de ellos), vamos a volver a la etapa inicial para, por ejemplo, crear nuevas features, tomar decisiones diferentes sobre valores faltantes o valores atípicos (outliers), descartar features, entre otras.

### II. Análisis en Profundidad del Contenido

Una vez aplicada la _Checklist_, lo que vamos a hacer es profundizar aún más el análisis y tomar decisiones que se consideren pertinentes, si es que no lo han hecho aún en el desarrollo del primer apartado. Por supuesto, se deberán registrar todas las decisiones que tomen al respecto.

Al finalizar con el práctico, las preguntas listadas a continuación deberán quedar respondidas, mientras que si ya lo hicieron durante el desarrollo de la ´checklist´, el objetivo es que se replanteen las decisiones tomadas al respecto:

1. Hay tres features que, por su descripción, deberían ser numéricas: `dependency`, `edjefe` y `edjefa`. Sin embargo, el tipo de dato de estos campos es 'Objeto'. Obtener los valores únicos, analizar por qué no son numéricos y decidir cómo se transformarán a numéricos, teniendo en cuenta su significado.

2. Comparar los campos `tamhog` y `hhsize`. ¿Qué información nos da cada una? ¿Qué deberíamos hacer al respecto? ¿Qué diferencia hay con el campo `r4t3`?

3. ¿Qué ocurre con las rentas (`v2a1`) outliers? ¿Son razonables? ¿Mantenemos o descartamos estos registros?

4. ¿Para qué casos de las variables TipoVivienda (`tipovivi`) no existe renta? ¿Es un si y solo si? Es decir, por ejemplo, si son propietarios, nunca hay valor en el campo renta, mientras que si no lo son, siempre hay valor. En caso de que esto no sea así, ¿es razonable? ¿Qué decisión tomarían al respecto?

5. ¿Qué decidieron respecto a los valores faltantes de la renta? Una **propuesta que podría considerarse interesante** es completar tales valores faltantes con el **costo de oportunidad** de los propietarios de ese hogar. Es decir, ese hogar está dejando de percibir una renta igual a $x$ por estar habitando esa vivienda. Por lo tanto, ese costo de oportunidad puede estimarse de acuerdo al valor de la renta de viviendas similares, en base a múltiples criterios, como por ejemplo: zona, región, tipo de construcción, acceso a servicios y todas las características que ustedes consideren pertinentes. Esto quedará a su criterio. ¿Cuál es el único feature que no deberíamos usar para obtener el costo de oportunidad y por qué?

6. ¿Qué datos se repiten para `idhogar` y cuáles no? ¿Tiene sentido?

7. Si contamos la cantidad de individuos entrevistados por hogar, ¿coincide con el tamaño del hogar? ¿Y coincide con la suma de las variables que indican cantidad de personas? ¿Qué se puede hacer en los casos en que no?

8. Considerando los campos `rooms` y `bedrooms`, debería haber al menos tantos ambientes como habitaciones o bien más. Comprobar si esto es así efectivamente. Si no lo fuera, ¿puede ser un error de carga? ¿Cómo lo solucionarían?

9. ¿Todos los `idhogar` tienen jefa o jefe de hogar? (`parentesco1` == 1) Si esto no ocurre, ¿qué harían con los hogares que no tienen?

Esta lista es extensa e intenta abarcar todas las posibles irregularidades en los datos, pero puede no ser exhaustiva. **Cualquier análisis adicional de consistencia que deseen agregar porque lo consideran pertinente, será bienvenido y valorado.**

### Entregables

El entregable de este práctico consiste en esta misma Notebook, pero con la _checklist_ realizada y el análisis de contenido completo, explicando las decisiones tomadas en cada etapa. Además, deberán elaborar un script que contenga una función para curar nuevos datos con la misma estructura. Finalmente, deberán actualizar la metadata.

# Resolución

## I. Rutina de Curación

### 1. Importación de Datos

#### 1.1. Verificación de Inexistencia de Problemas en la Importación

Para comenzar, importamos los datos que vamos a procesar:

In [None]:
# Cargamos el Dataset original en una variable
# url = 'https://github.com/jbergamasco/DiploDatos2019/raw/master/ProyectoPobrezaCostaRica/DatasetPobCR_Train.txt'
url_data = 'https://github.com/jbergamasco/DiploDatos2019/raw/master/ProyectoPobrezaCostaRica/DatasetPobCR_Train.csv'
ds = pd.read_csv(url_data)
ds.head()

In [None]:
# Cargamos el Dataset Fields en una variable, para tener la información de cada campo
url_fields_info = 'https://raw.githubusercontent.com/solujan/DiploDatos2019/master/ProyectoPobrezaCostaRica/Dataset%20Fields.csv'
_data_fields = pd.read_csv(url_fields_info, sep=';')
_data_fields

Recuerden que la variable `Target` constituye nuestro objetivo de predicción. Es la etiqueta de los datos de acuerdo al nivel de pobreza del hogar que habitan, según la siguiente escala o clases:

1 = pobreza extrema<br>
2 = pobreza moderada<br>
3 = hogares vulnerables<br>
4 = hogares no vulnerables<br>

In [None]:
# Eliminamos columnas que son features calculadas en base a otros features
_calc_feat = ds.loc[:,'SQBescolari':'agesq'].columns
print('Columnas eliminadas: ', _calc_feat.values)
ds.drop(columns = _calc_feat, inplace = True)

Tomamos una muestra aleatoria para ver valores más dispersos.

In [None]:
# Fijar seed para asegurar reproducibilidad
np.random.seed(0)
ds.sample(10)


Veamos los tipos de datos que tenemos

In [None]:
cat = len(ds.select_dtypes(include=['object']).columns)
num = len(ds.select_dtypes(include=['int64','float64']).columns)
print('Total Features: ', cat, 'objetos', '+',
      num, 'numerical', '=', cat+num, 'features')

Verificamos los tipos de datos objeto, el porque estan hay y que tipo de datos deberian ser.

Lo primero que notamos es que la edjefe, edjefa y dependency. 

*  Segun la descrićión de las columnas dependency, es un campo calculado, y no deberia tener valores como yes o no.

*   edjefe y edjefa, que son el nivel de educación del jefe y de la jefa, tienen mezcla de valores numericos, y no numericos como "no" y "yes"

Considero que se deben descartar y volver a ser calculadas despues de manera adecuada. 


In [None]:
print(ds.edjefe.unique())
print(ds.edjefa.unique())
print(ds.dependency.unique())
print(ds.select_dtypes(include=['object']).describe())

In [None]:
ds[["Id","idhogar", "dependency","age","edjefe", "edjefa", "parentesco1", "escolari"]].head(10)

In [None]:
#Elimino aoarte de edjefe, edjega y dependency. meaneduc ya que tambien es una variable calculada. 
ds.drop(columns =["edjefe", "edjefa", "dependency", "meaneduc"], inplace = True)
cat = len(ds.select_dtypes(include=['object']).columns)
num = len(ds.select_dtypes(include=['int64','float64']).columns)
print('Total Features: ', cat, 'objetos', '+',
      num, 'numerical', '=', cat+num, 'features')

Y veamos el resumen de los datos

In [None]:
ds.describe(include='all')

### 1.2. Asegurar la Existencia de IDs o Claves Únicas

El siguiente paso implica chequear que no existen datos duplicados y que las claves, si existen, son únicas.

Claves únicas son id hogar y id individuo.

Como Pandas acepta valores duplicados en los índices también debemos verificar ahí

In [None]:
ds[ds.index.duplicated()]

#### Verificación de unicidad de id individuo

In [None]:
ds['Id'].nunique() == ds['Id'].count()

### 1.3. Despersonalizar Datos y Guardarlos en un Nuevo Archivo

En este caso, no es necesario despersonalizar ningún dato, dado que los mismos ya se encuentran despersonalizados.

### 1.4. Nunca Modificar los Datos Crudos u Originales

Al finalizar la limpieza, deberán guardar el dataset resultante, para asegurarse de no modificar los datos originales.

## 2. Pasos de Limpieza Necesarios

### 2.1. Etiquetas de Variables/Columnas y Problemas de Codificación/Encoding

Antes que nada, verificar el encoding de la fuente de datos, leyendo en crudo los primeros 100000 caracteres, por ejemplo:

In [None]:
import chardet

In [None]:
import requests
rawdata = requests.get(url_data)
result = chardet.detect(rawdata.content[:100000])
result

Analizar los nombres de columnas, utilizando por ejemplo `ds.columns.str.extract(r'^(\w+)$')`.

In [None]:
ds.columns.values

Las variables tiene no tienen problemas de enconding.

### 2.2. Tratamiento de Valores Faltantes

Para analizar los valores faltantes, primero deberán saber cuántos existen por campo y cuánto representan del total:

In [None]:
valores_faltantes = pd.DataFrame([ds.isnull().sum(),
                                  ds.isnull().sum()/len(ds)]).transpose().rename(
    columns = {0:'Cantidad_NaN',1:'Porcentaje_Nan_s_Total'})

valores_faltantes.loc[valores_faltantes['Cantidad_NaN']>0].style.format({'Porcentaje_Nan_s_Total':"{:.2%}"})

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['v2a1','v18q1','rez_esc'])]

#### v2a1:	Monthly rent payment

In [None]:
ds[ds['tipovivi1']==1]['v2a1'].unique()

In [None]:
ds[ds['tipovivi2']==1]['v2a1'].unique()

In [None]:
ds[ds['tipovivi3']==1]['v2a1'].unique()

In [None]:
ds[ds['tipovivi4']==1]['v2a1'].unique()

In [None]:
ds[ds['tipovivi5']==1]['v2a1'].unique()

Se observa que solo los tipo vivienda 2 y 3 tienen renta. Los tipo vivienda 2 son aquellos que son propietarios pero pagan una cuota, y los tipo 3 son los que pagan un alquiler. Más adelante se analizará la forma de completar los datos faltantes de esta variable.

#### v18q1: number of tablets household owns

el v18q1 es la cantidad de tablets que hay en el hogar. v18q indica si el individuo posee una tablet (puede tener mas de una). Si se cuenta la cantidad de personas que tienen tablet en el hogar (sum), y se compara con la cantidad informada (v18q1) de tablet, encontramos 3 situaciones:
1. Caso 1: la cantidad informada es menor a la cantidad calculada (varios miembros de un hogar se atribuyen el dominio de la tablet). Total: 2061
2. Caso 2: la cantidad informada es mayor a la calculada (un individuo posea mas de una tablet). Total: 18
3. Caso 3: la cantidad informada es igual a la calculada (lo esperado). Total:  83



In [None]:
#todos los datos de v18q que es si el individuo posee una tablet no son nulos. 
filtered_ds = ds[ds.v18q.isnull()][['Id', 'idhogar','v18q','v18q1']]
print(filtered_ds.shape)

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['v18q','v18q1'])]

In [None]:
hogares_list = ds.idhogar.unique()
filtered_ds = ds[ds.idhogar.duplicated(keep=False)].sort_values(by='idhogar')[['Id', 'idhogar','v18q','v18q1']]
calculated_ds = filtered_ds.groupby(['idhogar'])['v18q'].sum().reset_index(name='sum')
total_ds = pd.merge(filtered_ds, calculated_ds, left_on='idhogar', right_on='idhogar')

print("Caso 1: ",str(total_ds[total_ds['v18q1']<total_ds['sum']].count()['Id']))
print("Caso 2: ",str(total_ds[total_ds['v18q1']>total_ds['sum']].count()['Id']))
print("Caso 3: ",str(total_ds[total_ds['v18q1']==total_ds['sum']].count()['Id']))



Tratamiento de valores faltantes: 

Descartaría la variable por las siguientes razones:
* Hay más casos tipo 1, es decir que la cantidad de tablets por hogar es menor a la suma de la cantidad de personas que dicen tener tablets en el hogar. Esto nos da pensar dos cosas: 
** La tablet tiene más de un dueño, es decir que varios individuos se atribuyen el dominio del objeto e incide en la variable v18q, pero no en el v18q1.
** Existen más tablets en el hogar, esto incide en v18q1 pero no en v18q.
* Casos 2, son aquellos que nos permiten decir que el individuo puede llegar a tener más de una tablet. Esto se refleja en cambios en el valor de v18q1, pero no en v18q que solo nos informa si el individuo posee o no una tablet.

En ambos casos casos encontramos inconsistencia en los datos proporcionados, por lo cual se descarta la variable v18q1.
Podria ser interesante incorporar una variable que nos indique la cantidad de individuos que dicen poseer una tablet en un hogar, ya que basados en el estudio anterior, la variable v18q tiene fuerte correlación con la variable target.


#### rez_esc year behind school



In [None]:

ds['rez_esc'].count()


In [None]:
ds[ds['rez_esc'].isna()]['Id'].count()

In [None]:
ds['rez_esc'].describe()

In [None]:
f, ax = plt.subplots(figsize=(8, 6))
fig = sns.boxplot(x='rez_esc', y='escolari', data=ds)

In [None]:

ds.plot(x='age', y='rez_esc')


In [None]:
ds[(ds['age']>17)&(ds.rez_esc.notnull())][['age','rez_esc']]

In [None]:
count_repitencia = ds[(ds['age']<17)&(ds.rez_esc.notnull())][['rez_esc','Target']].groupby('Target')['rez_esc'].count()
young_1 = ds[(ds['age']<17)&(ds.Target == 1)]['Id'].count()
young_2 = ds[(ds['age']<17)&(ds.Target == 2)]['Id'].count()
young_3 = ds[(ds['age']<17)&(ds.Target == 3)]['Id'].count()
young_4 = ds[(ds['age']<17)&(ds.Target == 4)]['Id'].count()
print("Porcentaje de repitencia de jóvenes menores de 17 en hogares de extrema pobreza: ",count_repitencia[1]/young_1*100)
print("Porcentaje de repitencia de jóvenes menores de 17 en hogares de pobreza moderada: ",count_repitencia[2]/young_2*100)
print("Porcentaje de repitencia de jóvenes menores de 17 en hogares vulnerables: ",count_repitencia[3]/young_3*100)
print("Porcentaje de repitencia de jóvenes menores de 17 en hogares no vulnerables: ",count_repitencia[4]/young_4*100)

Tratamiento de valores faltantes: 

Este campo es la cantidad de años de atraso de educación tiene el individuo. En el último gráfico observamos que los valores no nulos están concentrados en los individuos menores a 17 años. Por lo tanto no sería un indicador de analfabetismo de los jefes de hogar sino que indica el grado de repitencia de los individuos menores a 17 años. Podriamos suponer que el nivel de repitencia es una cuestión de clase social, pero el nivel de repitencia en las distintas clases sociales es de alrededor de 60%.

Creo es esta variable puede ser descartada debido a que nuestro análisis está enfocado en los jefes de hogar. Sabemos que los jefes de hogar tiene una edad mayor a 17 años, por lo que no forma parte de nuesto de objeto de estudio.
<p>
<span style="border: 4px solid #52A5D8;background-color: #E87079;padding: 12px">Conclusión: eliminar variable rez_esc</span>
</p>



In [None]:
ds = ds.drop(columns=['rez_esc'])

### 2.3. Codificación de Variables Categóricas

Aplica?
No aplica, ya que las variables categóricas ya están codificadas.

### 2.4. No Cambiar los Nombres de las Variables de la Fuente de Origen

### 2.5. Verificación de Consistencia de Datos

Este es el paso más analítico, en donde se deben aplicar reglas de integridad.

#### Verificación de tamviv, tamhog, r4t3 y hhzise

Lo primero que verificamos son que tamhog y hhzise son exactamente iguales. No es necesario tener ambos almacenados. 

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['tamhog','hhsize','r4t3','tamviv','hogar_total'])]

¿Es el tamhog igual que el hhsize?  **Si**


In [None]:
print(ds[ds.tamhog != ds.hhsize].shape)

In [None]:
ds = ds.drop(columns=['hhsize'])

¿Hay viviendas donde estos valores son diferentes tamviv y r4t3? **Si**

Numero de personas viviendo en la casa

Total de personas en la casa

Para mi este caso se puede dar en los casos donde haya más de un hogar en una vivienda. 

In [None]:
print(ds[ds.tamviv != ds.r4t3].shape)
ds[ds.tamviv != ds.r4t3][["idhogar", 'r4t3','tamviv']].head()

¿Hay vivviendas donde estos valores son diferentes tamhog y r4t3? **SI**

Numero de persona viviendo en la casa

Total de personas en la casa

In [None]:
print(ds[ds.tamhog != ds.r4t3].shape)
ds[ds.tamhog != ds.r4t3][["Id", "idhogar",'tamhog', 'r4t3','tamviv']].head()

De estos analisis de integridad lo primero que notamos es que el tamhog, r4t3, tamviv. No son datos fiables y que poseen errores.


Opino que lo mejor seria deshacernos de las filas que no tengan integridad con estos datos o recalcular estos datos en base al numero real de personas que tenemos.

#### Consistencia de integridad de variables r4m3, r4h3, r4t3, r4m2, r4m1, r4m3, r4h2, r4h1 y r4h3

##### Verificación de integridad entre r4m3 + r4h3 = r4t3

Verificamos que la variable r4t3 es la suma de las variables r4m3 y r4h3. Por lo que r4t3 va a ser elimada.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['r4m3','r4h3','r4t3'])]

In [None]:
total_person_household = ds[['r4m3','r4h3','r4t3']]
total_person_household['r4m3_r4h3'] = total_person_household['r4m3']+total_person_household['r4h3']
print("La variable r4t3 es la suma de r4m3 y r4h3: ",total_person_household[total_person_household.r4t3!=total_person_household.r4m3_r4h3].shape[0]==0)

##### Verificación de integridad entre r4m2+ r4m1 = r4m3
Se verifica que la variable r4m3 es la suma de r4m1 y r4m2.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['r4m1','r4m2','r4m3'])]

In [None]:
total_female_household = ds[['r4m1','r4m2','r4m3']]
total_female_household['suma'] = total_female_household[['r4m1','r4m2']].sum(axis=1)

print("La variable r4m3 es la suma de r4m1 y r4m2: ",total_female_household[total_female_household.r4m3!=total_female_household.suma].shape[0]==0)

##### Verificación de integridad entre r4h2+ r4h1 = r4h3
Se verifica que la variable r4h3 es la suma de r4h1 y r4h2.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['r4h1','r4h2','r4h3'])]

In [None]:
total_male_household = ds[['r4h1','r4h2','r4h3']]
total_male_household['suma'] = total_male_household[['r4h1','r4h2']].sum(axis=1)

print("La variable r4h3 es la suma de r4h1 y r4h2: ",total_male_household[total_male_household.r4h3!=total_male_household.suma].shape[0]==0)

##### Verificación de integridad entre r4t1	= r4h1 + r4m1
Se verifica que la variable r4h3 es la suma de r4h1 y r4h2.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['r4t1','r4h1','r4m1'])]

In [None]:
r4 = ds[['r4t1','r4h1','r4m1']]
r4['suma'] = r4[['r4h1','r4m1']].sum(axis=1)

print("La variable r4t1 es la suma de r4h1 y r4m1: ",r4[r4.r4t1!=r4.suma].shape[0]==0)

##### Verificación de integridad entre r4t2	= r4h2 + r4m2
Se verifica que la variable r4t2 es la suma de r4h2 y r4m2.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['r4t2','r4h2','r4m2'])]

In [None]:
r4 = ds[['r4t2','r4h2','r4m2']]
r4['suma'] = r4[['r4h2','r4m2']].sum(axis=1)

print("La variable r4t2 es la suma de r4h2 y r4m2: ",r4[r4.r4t2!=r4.suma].shape[0]==0)

##### Conclusión: 
* r4h1 + r4h2 = r4h3
* r4m1 + r4m2 = r4m3
* r4h3 + r4m3 = r4t3
* r4h1 + r4m1 = r4t1
* r4h2 + r4m2 = r4t2
* r4t1 + r4t2 = r4t3

  
<p style="background-color: #FFFF00">Las variables r4t3, r4m3 y r4h3 son dependientes r4h1, r4h2, r4m1 y r4m2. Por lo que las variables r4t2, r4t2,r4t3, r4m3 y r4h3 serán eliminadas.</p>

In [None]:
ds = ds.drop(columns=['r4t1','r4t2','r4t3', 'r4m3','r4h3'])

In [None]:
ds.head()

#### Consistencia de variables hogar_nin, hogar_adul, hogar_mayor y hogar_total

##### Verificación de integridad entre 'hogar_nin', 'hogar_adul',  'hogar_mayor' == 'hogar_total'

Verificamos que la variable hogar_total es igual a la suma de hogar_nin + hogar_adul + hogar_mayor. Encontramos 2028 casos en que esto no se cumple.


In [None]:
_data_fields[_data_fields['Variable_name'].isin(['hogar_nin', 'hogar_adul', 'hogar_mayor','hogar_total'])]

In [None]:
hogar = ds[['hogar_nin', 'hogar_adul', 'hogar_mayor', 'hogar_total']]
hogar['suma'] = hogar[['hogar_nin', 'hogar_adul', 'hogar_mayor']].sum(axis=1)
hogar[hogar.hogar_total!=hogar.suma].count()

##### Verificación de integridad entre 'hogar_nin', 'hogar_adul',== 'hogar_total'

Verificamos que la variable hogar_total es igual a la suma de hogar_nin + hogar_adul. Por lo que se puede mantener las variables hogar_nin y hogar_adult, y se descarta la variable hogar_total.

In [None]:
hogar = ds[['hogar_nin', 'hogar_adul', 'hogar_mayor', 'hogar_total']]
hogar['suma'] = hogar[['hogar_nin', 'hogar_adul']].sum(axis=1)
hogar[hogar.hogar_total!=hogar.suma].shape[0]

<p style="background-color: #FFFF00">Se descarta la variable hogar_total.</p>

In [None]:
ds = ds.drop(columns=['hogar_total'])

#### Consistencia de las variables paredblolad, paredzocalo, paredpreb, pareddes, paredmad, paredzinc, paredfibras y paredother

##### Verificación que al menos uno de las variable pared haya sido elegido por individuo
* paredblolad
* paredzocalo
* paredpreb
* pareddes
* paredmad
* paredzinc
* paredfibras
* paredother

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['paredblolad','paredzocalo','paredpreb','pareddes','paredmad','paredzinc','paredfibras','paredother'])]

In [None]:
ds.loc[ds[['paredblolad','paredzocalo','paredpreb','pareddes','paredmad','paredzinc','paredfibras','paredother']].sum(axis=1)==False]['Id'].count()

##### Verificación que todos los integrantes de la familia tengan el mismo material de la pared asignado 

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
pared_ds = ds[['idhogar','paredblolad','paredzocalo','paredpreb','pareddes','paredmad','paredzinc','paredfibras','paredother']]
id = idhogar_list.apply(lambda x: x if pared_ds[pared_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))

#### Consistencia de las variables pisomoscer, pisocemento, pisoother, pisonatur, pisonotiene y pisomadera

##### Verificación variable tipo de piso.
* pisomoscer
* pisocemento
* pisoother
* pisonatur
* pisonotiene
* pisomadera
           


In [None]:
_data_fields[_data_fields['Variable_name'].isin(['pisomoscer','pisocemento','pisoother','pisonatur','pisonotiene','pisomadera'])]

In [None]:
ds.loc[ds[['pisomoscer','pisocemento','pisoother','pisonatur','pisonotiene','pisomadera']].sum(axis=1)==False]['Id'].count()

#####  Verificación que todos los integrantes de la familia tengan el mismo material del piso asignado

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
pared_ds = ds[['idhogar','pisomoscer','pisocemento','pisoother','pisonatur','pisonotiene','pisomadera']]
id = idhogar_list.apply(lambda x: x if pared_ds[pared_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))


#### Consistencia de las variables techozinc, techoentrepiso, techocane y techootro

##### Verificación variable tipo de techo.
Se encontraron 66 casos en el individuo no tiene asigando un material para el techo. 

* techozinc
* techoentrepiso
* techocane
* techootro

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['techozinc','techoentrepiso','techocane','techootro','cielorazo', 'etecho1', 'etecho2', 'etecho3'])]

In [None]:
# Totalindividuos
ds.loc[ds[['techozinc','techoentrepiso','techocane','techootro']].sum(axis=1)==False][['Id','techozinc','techoentrepiso','techocane','techootro']]

Se observa que son familias de todas las clases. El estado del techo para dichas familias es malo exeptuando una familia que es regular. 
La falta de este valor se puede deber a un problema de dataentry ya que en caso de no existir la opción que se ajuste más a la característica del hogar se podría haber elegido la opción techo otro. 

Se incluye el cielo razo para observar si hubo algún tipo de confusión y se seleccionó dicha opción como material del techo, pero tampoco tiene un valor asignado para estas familias.

In [None]:
ds.loc[ds[['techozinc','techoentrepiso','techocane','techootro','cielorazo']].sum(axis=1)==False][['Target','tamhog','idhogar', 'etecho1', 'etecho2', 'etecho3','techozinc','techoentrepiso','techocane','techootro','cielorazo']].head()

#####  Verificación que todos los integrantes de la familia tengan el mismo material del techo asignado

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
techo_ds = ds[['idhogar','techozinc','techoentrepiso','techocane','techootro']]
id = idhogar_list.apply(lambda x: x if techo_ds[techo_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin campo techo: ",len(id[id.notnull()]))



<span style="border: 4px solid #52A5D8;background-color: #E87079;padding: 12px">66 personas pertenecientes a 19 familias cuyo material del techo no tiene asignado ningún valor</span>

#### Consistencia de las variables abastaguadentro, abastaguafuera y abastaguano

 ##### Verificación variable abastecimiento de agua.

* abastaguadentro
* abastaguafuera
* abastaguano


In [None]:
_data_fields[_data_fields['Variable_name'].isin(['abastaguadentro','abastaguafuera','abastaguano'])]

In [None]:
ds.loc[ds[['abastaguadentro','abastaguafuera','abastaguano']].sum(axis=1)==False]['Id'].count()

#####  Verificación que todos los integrantes de la familia tengan el mismo abastecimiento de agua

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
agua_ds = ds[['idhogar','abastaguadentro','abastaguafuera','abastaguano']]
id = idhogar_list.apply(lambda x: x if agua_ds[agua_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))



#### Consistencia de las variables public, planpri, noelec y coopele

 ##### Verificación variable abastecimiento de electricidad.

* public
* planpri
* noelec
* coopele
 

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['public','planpri','noelec','coopele'])]

In [None]:
# Totalindividuos
ds.loc[ds[['public','planpri','noelec','coopele']].sum(axis=1)==False]['Id'].count()

In [None]:
# Total de familias sin electricidad
len(ds.loc[ds[['public','planpri','noelec','coopele']].sum(axis=1)==False]['idhogar'].unique())

In [None]:
ds.loc[ds[['public','planpri','noelec','coopele']].sum(axis=1)==False][['Target','tamhog','idhogar','public','planpri','noelec','coopele']]

#####  Verificación que todos los integrantes de la familia tengan asignados mismo proveedor de electricidad

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
elect_ds = ds[['idhogar','public','planpri','noelec','coopele']]
id = idhogar_list.apply(lambda x: x if elect_ds[elect_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))


<span style="border: 4px solid #52A5D8;background-color: #E87079;padding: 12px">Hay 4 familias sin proveedor de electricidad asignado.</span>

#### Consistencia de las variables sanitario1, sanitario2, sanitario3, sanitario5 y sanitario6

 Hace referencia a las características del baño en la vivienda.

* sanitario1: no hay baño en la vivienda
* sanitario2: baño conectado a alcantarillado o pozo de agua.
* sanitario3: baño conectado al tanque séptico.
* sanitario5: baño conectado a agujero negro o letrina.
* sanitario6: baño conectado a otro sistema
 

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['sanitario1', 'sanitario2', 'sanitario3', 'sanitario5','sanitario6'])]

In [None]:
# Total individuos sin ninguna variable sanitario seleccionada.
ds.loc[ds[['sanitario1', 'sanitario2', 'sanitario3', 'sanitario5','sanitario6']].sum(axis=1)==False]['Id'].count()

#####  Verificación que todos los integrantes de la familia tengan asignados mismo variable sanitario elegida.

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
elect_ds = ds[['idhogar','sanitario1', 'sanitario2', 'sanitario3', 'sanitario5','sanitario6']]
id = idhogar_list.apply(lambda x: x if elect_ds[elect_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))


#### Consistencia de las variables energcocinar1, energcocinar2, energcocinar3 y  energcocinar4 

 Hace referencia a la fuente de energía para cocinar en la vivienda.

* energcocinar1: no hay cocina
* energcocinar2: principal fuente de energía para cocinar es la electricidad.
* energcocinar3: principal fuente de energía para cocinar es el gas.
* energcocinar4: principal fuente de energía para cocinar es carbón o leña.

 

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['energcocinar1', 'energcocinar2', 'energcocinar3', 'energcocinar4'])]

In [None]:
# Total individuos sin ninguna variable energía en cocina seleccionada.
ds.loc[ds[['energcocinar1', 'energcocinar2', 'energcocinar3', 'energcocinar4']].sum(axis=1)==False]['Id'].count()

#####  Verificación que todos los integrantes de la familia tengan asignados mismo fuente de energía para cocinar en la vivienda

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
elect_ds = ds[['idhogar','energcocinar1', 'energcocinar2', 'energcocinar3', 'energcocinar4']]
id = idhogar_list.apply(lambda x: x if elect_ds[elect_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))


#### Consistencia de las variables  elimbasu1, elimbasu2, elimbasu3, elimbasu4, elimbasu5 y  elimbasu6.

 Hace referencia a la forma de eliminación de la basura en la vivienda:

* elimbasu1: la eliminación de residuos se realiza en camión cisterna.
* elimbasu2: la eliminación de residuos se realiza en hueco o la entierran 
* elimbasu3: la eliminación de residuos se realiza mediante la quema.
* elimbasu4: la eliminación de residuos se realiza en espacios desocupados
* elimbasu5: la eliminación de residuos se realiza en el rio, arroyo o mar.
* elimbasu6: la eliminación de residuos se realiza en otro.
 

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['elimbasu1', 'elimbasu2', 'elimbasu3', 'elimbasu4', 'elimbasu5','elimbasu6'])]

In [None]:
# Total individuos sin ninguna variable eliminación basura seleccionada.
ds.loc[ds[['elimbasu1', 'elimbasu2', 'elimbasu3', 'elimbasu4', 'elimbasu5','elimbasu6']].sum(axis=1)==False]['Id'].count()

#####  Verificación que todos los integrantes de la familia tengan asignados mismo tipo de eliminación de basura.

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
elect_ds = ds[['idhogar','elimbasu1', 'elimbasu2', 'elimbasu3', 'elimbasu4', 'elimbasu5','elimbasu6']]
id = idhogar_list.apply(lambda x: x if elect_ds[elect_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))


#### Consistencia de las variables epared1, epared2 y epared3

 Hace referencia al estado de la pared:

* epared1: el estado de la pared es malo.
* epared2: el estado de la pared es regular.
* epared3: el estado de la pared es bueno.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['epared1', 'epared2','epared3'])]

In [None]:
# Total individuos sin ninguna variable estado pared seleccionada.
ds.loc[ds[['epared1', 'epared2','epared3']].sum(axis=1)==False]['Id'].count()

#####  Verificación que todos los integrantes de la familia tengan asignados mismo tipo de eliminación de basura.

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
elect_ds = ds[['idhogar','epared1', 'epared2','epared3']]
id = idhogar_list.apply(lambda x: x if elect_ds[elect_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))


#### Consistencia de las variables  etecho1, etecho2 y etecho3

 Hace referencia al estado de la pared:

* etecho1: el estado del techo es malo.
* etecho2: el estado del techo es regular.
* etecho3: el estado del techo es bueno.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['etecho1', 'etecho2', 'etecho3'])]

In [None]:
# Total individuos sin ninguna variable estado pared seleccionada.
ds.loc[ds[['etecho1', 'etecho2', 'etecho3']].sum(axis=1)==False]['Id'].count()

#####  Verificación que todos los integrantes de la familia tengan asignados mismo tipo de eliminación de basura.

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
elect_ds = ds[['idhogar','etecho1', 'etecho2', 'etecho3']]
id = idhogar_list.apply(lambda x: x if elect_ds[elect_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))


#### Consistencia de las variables  eviv1, eviv2 y eviv3

 Hace referencia al estado de la piso:

* eviv1: el estado del piso es malo.
* eviv2: el estado del piso es regular.
* eviv3: el estado del piso es bueno.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['eviv1', 'eviv2','eviv3'])]

In [None]:
# Total individuos sin ninguna variable estado piso seleccionada.
ds.loc[ds[['eviv1', 'eviv2','eviv3']].sum(axis=1)==False]['Id'].count()

#####  Verificación que todos los integrantes de la familia tengan asignados mismo estado del piso 

In [None]:
idhogar_list = pd.Series(ds['idhogar'].unique())
elect_ds = ds[['idhogar','eviv1', 'eviv2','eviv3']]
id = idhogar_list.apply(lambda x: x if elect_ds[elect_ds.idhogar==x].all().value_counts()[True]!=2 else None)
print("Cantidad de familias sin caracteristicas comunes: ",len(id[id.notnull()]))


#### Consistencia de las variables   estadocivil1, estadocivil2, estadocivil3, estadocivil4, estadocivil5, estadocivil6 y estadocivil7

 Hace referencia estado cívil de la persona:

* estadocivil1: persona menor a 10 años
* estadocivil2: unión libre o acoplada
* estadocivil3: casado/a
* estadocivil4: divorcio/a
* estadocivil5: separado/a
* estadocivil6: viudo/a
* estadocivil7: soltero/a

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['estadocivil1', 'estadocivil2', 'estadocivil3', 'estadocivil4','estadocivil5','estadocivil6','estadocivil7'])]

In [None]:
# Total individuos sin ninguna variable estado piso seleccionada.
ds.loc[ds[['estadocivil1', 'estadocivil2', 'estadocivil3', 'estadocivil4','estadocivil5','estadocivil6','estadocivil7']].sum(axis=1)==False]['Id'].count()

#### Consistencia de las variables parentesco1, parentesco2, parentesco3, parentesco4, parentesco5, parentesco6, parentesco7, parentesco8, parentesco9, parentesco10, parentesco11 y parentesco12

 Hace referencia estado cívil de la persona:

* parentesco1: si es jefe de hogar
* parentesco2: si es esposo/compañero
* parentesco3: hijo/a
* parentesco4: hijastro/a
* parentesco5: nuero/a
* parentesco6: nieto/a
* parentesco7: madre/padre
* parentesco8: suegro/a
* parentesco9: hermano/a
* parentesco10: cuñado/a
* parentesco11: otro miembro familiar
* parentesco12: no es miembro de familia.

In [None]:
_data_fields[_data_fields['Variable_name'].isin(['parentesco1', 'parentesco2', 'parentesco3', 'parentesco4', 'parentesco5', 'parentesco6', 'parentesco7', 'parentesco8', 'parentesco9', 'parentesco10', 'parentesco11','parentesco12'])]

In [None]:
# Total individuos sin ninguna variable parentesco seleccionada.
ds.loc[ds[['parentesco1', 'parentesco2', 'parentesco3', 'parentesco4', 'parentesco5', 'parentesco6', 'parentesco7', 'parentesco8', 'parentesco9', 'parentesco10', 'parentesco11','parentesco12']].sum(axis=1)==False]['Id'].count()

In [None]:
_data_fields


#### Verificación de idhogar y parentesco

¿Todas las casas tienen un jefe de hogar? ¿Alguna casa tiene más de un jefe de hogar?

In [None]:
print(ds.drop_duplicates(subset=['idhogar']).drop_duplicates(subset ="idhogar").shape[0])
print(ds[ds.parentesco1==1].shape[0])

In [None]:
hogares = ds[["parentesco1", "idhogar"]].groupby(['idhogar']).sum()
hogares[hogares.parentesco1 != 1]

Se observan 15 familias sin jefe de hogar.
Problemente en la selección de datos para train los grupos familiares hayan quedado divididos, por lo tanto tenemos hogares sin jefe de hogar.
Por esta razón se eliminarán las personas que pertenezcan a hogares sin jefe de hogar.

In [None]:
#ds[ds.idhogar in hogares.index]
array_hogares = hogares[hogares.parentesco1 != 1].index.values
#ds.idhogar in list(array_hogares)

ds = ds[ds.idhogar.isin(list(array_hogares)) == False]
print(ds.shape)

#### Verificación de tamhog es la suma de los individuos con mismo idhogar

In [None]:
ds.shape

In [None]:
filtered_idhogar = ds[ds.idhogar.duplicated(keep=False)].sort_values(by='idhogar')[['Id', 'idhogar','parentesco1', 'Target','tamhog','tamviv']]
filtered_idhogar['MiembrosFlia'] = filtered_idhogar.groupby(['idhogar'])['Id'].transform(len)

filtered_idhogar[filtered_idhogar.MiembrosFlia != filtered_idhogar.tamhog].sort_values(by='idhogar')[['Id', 'idhogar','parentesco1', 'Target','tamhog','MiembrosFlia','tamviv']]


In [None]:
filtered_idhogar[filtered_idhogar.MiembrosFlia != filtered_idhogar.tamhog].sort_values(by='idhogar')[['Id', 'idhogar','parentesco1', 'Target','tamhog','MiembrosFlia','tamviv']]['idhogar'].unique().shape[0]

Hay un total de 10 familias cuyo tamaño de hogar es distinto a la suma de los familiares que tienen mismo id de hogar.

#### Verificación de tipovivi


¿Para qué casos de las variables TipoVivienda (tipovivi) no existe renta? ¿Es un si y solo si? Es decir, por ejemplo, si son propietarios, nunca hay valor en el campo renta, mientras que si no lo son, siempre hay valor. En caso de que esto no sea así, ¿es razonable? ¿Qué decisión tomarían al respecto?

In [None]:
print("Vivienda tipo 1", ds[ds['tipovivi1']==1]['v2a1'].unique())
print("Vivienda tipo 4",ds[ds['tipovivi4']==1]['v2a1'].unique())
print("Vivienda tipo 5",ds[ds['tipovivi5']==1]['v2a1'].unique())

print("Vivienda tipo 2",ds[ds['tipovivi2']==1]['v2a1'].unique())
print("Vivienda tipo 3",ds[ds['tipovivi3']==1]['v2a1'].unique())

Se observa que solo los tipo vivienda 2 y 3 tienen renta. Los tipo vivienda 2 son aquellos que son propietarios pero pagan una cuota, y los tipo 3 son los que pagan un alquiler.

Lo cual es bastante logico ya que al ser dueños de la casa, estar en situación precaria o ser prestada es bastante probable que no paguen ningun monto en el alquiler

### 2.6. Identificar y Documentar Valores Atípicos/Outliers

Calcular estadísticos.

In [None]:
sns.distplot(ds[ds.v2a1 > 0].v2a1)

In [None]:
v2a1_max = ds.v2a1.std() * 3 + ds.v2a1.mean()
# ds = ds[ds.v2a1 < v2a1_max]
print(ds[ (ds.v2a1 < v2a1_max) | (ds.v2a1.isnull())].shape[0])
print(ds.shape[0])
print(ds[ (ds.v2a1 < v2a1_max) | (ds.v2a1.isnull())].shape[0] / ds.shape[0] - 1)
ds = ds[ (ds.v2a1 < v2a1_max) | (ds.v2a1.isnull())]

In [None]:
sns.distplot(ds[ds.v2a1 > 0].v2a1)

### 2.7. Evaluar Cómo Comprimir los Datos Para su Almacenamiento Más Eficiente

In [None]:
!pip install fastparquet tables pyarrow numpy==1.15.4

import os
def get_save_load(df, fmt):
    save = getattr(df, f'to_{fmt}')
    load = getattr(pd, f'read_{fmt}')
    return save, load
def size_of(filename, unit=1024**2):
    return round(os.stat(filename).st_size / unit, 2)

In [None]:
formats = [
    ('hdf', {'key': 'data', 'format': 'table'}),
    ('pickle',),
    ('pickle',{"compression":"bz2"}),
    ('pickle',{"compression":"gzip"}),
    ('msgpack',),
    ('csv',),
    ('json',)
]


for case in formats:
  fmt, params = case if len(case) == 2 else (case[0], {})
  save, load = get_save_load(ds, fmt)
  filename = f'pobreza_costa_rica_step_bench_test.{fmt}'
  save(filename, **params)
  print(fmt, size_of(filename)) 

### 2.8. Guardar el Set de Datos con un Nombre Informativo

In [None]:
ds.to_csv('pobreza_costa_rica_step2.csv')

## 3. Pasos de Limpieza Deseables

### 3.1. Ordenar Variables/Columnas

### 3.2. Quitar Variables/Columnas Irrelevantes

Tenemos alguna en este caso?

In [None]:
ds

### 3.3. Renombrar Variables de Grillas

Esto se puede hacer de manera transparente a través de un diccionario.
Sugiero darles nombres más informativos a algunas columnas, como por ejemplo la de Renta Mensual y las de lugares. Como ayuda, sigue el diccionario de las columnas `lugar` con su nuevo nombre haciendo referencia directa a la región:

In [None]:
# lugar1 =1 region Central
# lugar2 =1 region Chorotega
# lugar3 =1 region Pacífico central
# lugar4 =1 region Brunca
# lugar5 =1 region Huetar Atlántica
# lugar6 =1 region Huetar Norte

_col_dict = {
  'area1':'zona_urbana',
  'area2':'zona_rural', 
  'v2a1': 'monthly_rent',
  'lugar1': 'region_central',
  'lugar2': 'region_chorotega',
  'lugar3': 'region_pacifico_central',
  'lugar4': 'region_brunca',
  'lugar5': 'region_huetar_atlantica',
  'lugar6': 'region_huetar_norte'}
ds.rename(columns=_col_dict, inplace=True)
ds.head()

### 3.4. Categorizar Variables que Contengan “Otros”

### 3.5. Agregar Metadata a los Datos

Cuando y como fueron obtenidos, limpieza realizada, decisiones implementadas, asunciones, etc.

## II. Análisis en Profundidad del Contenido

In [None]:
ds = pd.read_csv(url_data)

### 1. Features Tipo Objetos

Primero nos quedamos con las features cuyo tipo es 'Objeto'.

In [None]:
# Observamos los campos que tienen tipo 'Objeto'
ds.dtypes[ds.dtypes == 'object']

`Id` e `idhogar`, qué son?

In [None]:
# Observamos los valores posibles del campo "Dependency"
_dep_arr = ds['dependency'].unique()
_dep_arr.sort()
_dep_arr[::-1]

In [None]:
# Observamos los valores posibles del campo "Edjefe"
_arr = ds['edjefe'].unique()
_arr.sort()
_arr[::-1]

In [None]:
# Analizamos el significado del campo "Edjefe"
_data_fields[_data_fields['Variable_name'] == 'edjefe']

In [None]:
# Observamos los valores posibles del campo "Edjefa"
_arr = ds['edjefa'].unique()
_arr.sort()
_arr[::-1]

### 2. Campos `tamhog` y `hhsize`

In [None]:
# Tenemos dos campos iguales!!
ds['tamhog'].equals(ds['hhsize'])

### 3. Renta Mensual: Outliers

In [None]:
ds_filtered =  ds[ds['parentesco1']==1]
ds_filtered['idhogar'].count()

In [None]:
plt.figure(figsize=(30,15))

plt.subplot2grid((2,3),(0,0))
sns.distplot(ds_filtered[(ds_filtered['area1']==1)&(ds_filtered['Target']==1)]['v2a1'].dropna(), bins=10 ,label='Extrema Pobreza', hist=False)
sns.distplot(ds_filtered[(ds_filtered['area1']==1)&(ds_filtered['Target']==2)]['v2a1'].dropna(), bins=10 ,label='Pobreza Moderada', hist=False)
sns.distplot(ds_filtered[(ds_filtered['area1']==1)&(ds_filtered['Target']==3)]['v2a1'].dropna(), bins=10 ,label='Hogares Vulnerables', hist=False)
sns.distplot(ds_filtered[(ds_filtered['area1']==1)&(ds_filtered['Target']==4)]['v2a1'].dropna(), bins=10 ,label='Hogares No Vulnerables', hist=False)
plt.title('Distribucion de frecuencia de renta de jefes\n de hogar en zona urbana de acuerdo al nivel de pobreza')
plt.legend()
plt.ylim(0, 0.00002)

sns.despine()

plt.subplot2grid((2,3),(1,0))
sns.distplot(ds_filtered[(ds_filtered['area2']==1)&(ds_filtered['Target']==1)]['v2a1'].dropna(), bins=10 ,label='Extrema Pobreza', hist=False)
sns.distplot(ds_filtered[(ds_filtered['area2']==1)&(ds_filtered['Target']==2)]['v2a1'].dropna(), bins=10 ,label='Pobreza Moderada', hist=False)
sns.distplot(ds_filtered[(ds_filtered['area2']==1)&(ds_filtered['Target']==3)]['v2a1'].dropna(), bins=10 ,label='Hogares Vulnerables', hist=False)
sns.distplot(ds_filtered[(ds_filtered['area2']==1)&(ds_filtered['Target']==4)]['v2a1'].dropna(), bins=10 ,label='Hogares No Vulnerables', hist=False)
plt.title('Distribucion de frecuencia de la renta de jefes\n de hogar en zona rural de acuerdo al nivel de pobreza')
plt.legend()
plt.ylim(0, 0.00002)

sns.despine()

In [None]:
plt.figure(figsize=(8,4))
sns.boxplot(data=ds_filtered, x='Target', y='v2a1')
plt.ylabel('Alquiler mensual')
plt.xlabel('Clase')
plt.xticks(rotation=45)
plt.ylim(0, 1200000)
plt.title("Boxplot de la renta de los hogares \n dependiendo el nivel de pobreza")
sns.despine()

In [None]:
renta_outlier = ds_filtered[ds_filtered['v2a1']>500000].sort_values('v2a1',ascending =False)
print("Cantidad de outliers: ",renta_outlier['v2a1'].count())
print("Cantidad de outliers correspondientes a Target 4: ",renta_outlier[renta_outlier['Target']==4]['v2a1'].count())

# Verificación de las características de los hogares mas extremos
renta_outlier.sort_values('v2a1',ascending =False)[:3]

renta_outlier.sort_values('v2a1',ascending =False)[:3][['v2a1','rooms','tamviv','escolari','paredblolad','pisomoscer','techozinc','cielorazo','epared3','etecho3','eviv3','hogar_total','bedrooms','tipovivi2','lugar1',	'lugar2','area1','Target']]


In [None]:
renta_outlier.sort_values('v2a1',ascending =False)[:3]

Se observa que la renta de los 3 hogares más extremos tienen características similares:
* Ubicadas en zona urbana
* 2 corresponden a región Central y la otra a región Chorotega
* Gran cantidad de habitaciones
* La pared es de bloque o ladrillo
* Piso de cerámico
* Techo de zinc
* Cielo razo.
* El techo, las paredes y el piso están en buen estado.
* Los jefes de hogar de dichas viviendas tiene educación superior.
* Las tres corresponden a propietarios con cuotas por pagar.

Podriamos considerar que no son outlier, pero primero estudiaremos las siguientes 27 hogares para verificar si tienen similares caracteristicas y decidir si eliminar dichos casos


In [None]:
renta_outlier.sort_values('v2a1',ascending =False)[3:30][['v2a1','rooms','tamviv','escolari','paredblolad','pisomoscer','techozinc','cielorazo','epared3','etecho3','eviv3','hogar_total','bedrooms','tipovivi2','tipovivi3','lugar1','area1','Target']].head()

Llama la atención que la mayoría de los hogares se situan en región central y en zona urbana.

Si nos basamos en el monto estimado que se informa en https://preciosmundi.com/costa-rica/precio-vivienda-salarios
entonces  estos outliers (expresada en moneda local) no podría ser considerada como valores atipicos.

In [None]:
ds_filtered_out = ds_filtered[np.abs(ds_filtered.v2a1-ds_filtered.v2a1.mean()) <= (3*ds_filtered.v2a1.std())]

plt.figure(figsize=(8,4))
sns.boxplot(data=ds_filtered_out, x='Target', y='v2a1')
plt.ylabel('Alquiler mensual')
plt.xlabel('Clase')
plt.xticks(rotation=45)
plt.ylim(0, 1200000)
plt.title("Boxplot de la renta de los hogares \n dependiendo el nivel de pobreza")
sns.despine()

### 4. Renta Mensual y Tipo de Vivienda

In [None]:
ds_filtered =  _ds[_ds['parentesco1']==1]

print("Cantidad de hogares con tipo vivienda 1: ", ds_filtered[ds_filtered['tipovivi1']==1]['v2a1'].count())
print("Cantidad de hogares con tipo vivienda 2: ", ds_filtered[ds_filtered['tipovivi2']==1]['v2a1'].count())
print("Cantidad de hogares con tipo vivienda 3: ", ds_filtered[ds_filtered['tipovivi3']==1]['v2a1'].count())
print("Cantidad de hogares con tipo vivienda 4: ", ds_filtered[ds_filtered['tipovivi4']==1]['v2a1'].count())
print("Cantidad de hogares con tipo vivienda 5: ", ds_filtered[ds_filtered['tipovivi5']==1]['v2a1'].count())

print("Total: ",_ds[_ds['parentesco1']==1].shape[0])


Los únicos que tienen el campo renta distinto de nulo son aquellos que tienen tipo vivienda 2 y 3. Y corresponden a aquellos que alquilan o son propietarios con cuota adeudada. 

### 5. Renta Mensual: Valores Faltantes

El tratamiento de los faltantes se realizará calculando el costo oportunidad de la vivienda teniendo en cuenta las siguientes variables:
* Region
* zona
* rooms 
* bedrooms
* estado de la pared, piso y techo

Teniendo en cuenta el registro al cual se le quiere registrar la renta, se buscarán aquellas viviendas que tengan las mismas características, y se calculará la media de la renta de las mismas.

In [None]:
ds_paid_rent = ds[(ds.monthly_rent > 0) & (ds.parentesco1==1)]
ds_paid_rent.shape[0]

In [None]:
variables = [
    {"columns":["region_central", "region_chorotega", "region_pacifico_central", "region_brunca", "region_huetar_atlantica", "region_huetar_norte"]},
    {"columns":["zona_urbana", "zona_rural"]},
    {"columns":["eviv1", "eviv2", "eviv3"]},
    {"columns":["etecho1", "etecho2", "etecho3"]},
    {"columns":["epared1", "epared2", "epared3"]},
    {"name":"rooms"},
]

def get_value(input, columns):
    filter_data = {}
    for col in columns:
        if "columns" in col:
            for df_column in col["columns"]:
                if input[df_column] == 1:
                    filter_data[df_column] = 1
        elif "name" in col:
            filter_data[col["name"]] = input[col["name"]]
    return filter_data
few_information  
def get_costo_de_oportunidad(input):
    filter_data = {}
    if input.monthly_rent > 0:
        return input.monthly_rent
    for n in range(len(variables)):
        filter_data = None
        if n==0:
            filter_data = get_value(input, variables)
        elif n > 0:
            filter_data = get_value(input, variables[:-n])
        filtered_ds = ds_paid_rent.loc[(ds_paid_rent[list(filter_data)] == pd.Series(filter_data)).all(axis=1)]
        if filtered_ds.shape[0] > 0:
            if len(filter_data) == 3:
                print(input)
            print(filter_data)
            return filtered_ds.monthly_rent.mean()


#serie = ds[:1]
#print(get_costo_de_oportunidad(serie))
#(serie.region_central==1)[0]
get_costo_de_oportunidad(ds.iloc[2])

ds['newcolumn'] = ds.apply(lambda x: get_costo_de_oportunidad(x), axis=1)
#ds[(ds["region_central"]==1)&(ds["zona_urbana"]==1)].describe()

In [None]:
filter_data = {'region_huetar_norte': 1, 'zona_rural': 1, 'eviv2': 1, 'etecho2': 1,}
ds_paid_rent.loc[(ds_paid_rent[list(filter_data)] == pd.Series(filter_data)).all(axis=1)]


In [None]:
sns.distplot(ds.newcolumn)

### 6. Datos Únicos por `idhogar`

### 7. Individuos por Hogar

#### Verificación de tamhog es la suma de los individuos con mismo idhogar

In [None]:
ds.shape

In [None]:
filtered_idhogar = ds[ds.idhogar.duplicated(keep=False)].sort_values(by='idhogar')[['Id', 'idhogar','parentesco1', 'Target','tamhog','tamviv']]
filtered_idhogar['MiembrosFlia'] = filtered_idhogar.groupby(['idhogar'])['Id'].transform(len)

filtered_idhogar[filtered_idhogar.MiembrosFlia != filtered_idhogar.tamhog].sort_values(by='idhogar')[['Id', 'idhogar','parentesco1', 'Target','tamhog','MiembrosFlia','tamviv']]


In [None]:
filtered_idhogar[filtered_idhogar.MiembrosFlia != filtered_idhogar.tamhog].sort_values(by='idhogar')[['Id', 'idhogar','parentesco1', 'Target','tamhog','MiembrosFlia','tamviv']]['idhogar'].unique().shape[0]

Hay un total de 10 familias cuyo tamaño de hogar es distinto a la suma de los familiares que tienen mismo id de hogar. Puede que las personas no hayan sido entrevistadas y por eso no aparecen en el dataset.

### 8. `rooms` y `bedrooms`

Hay misma cantidad de habitaciones que de dormitorios?

In [None]:
ds['rooms'].equals(ds['bedrooms'])

Hay mayor cantidad de dormitorios que de habitaciones?

In [None]:
ds[ds['rooms']<ds['bedrooms']][['rooms', 'bedrooms']].shape[0]

### 9. Jef@s de Hogar por `idhogar`

¿Todas las casas tienen un jefe de hogar? 

In [None]:
print(ds.drop_duplicates(subset=['idhogar']).drop_duplicates(subset ="idhogar").shape[0])
print(ds[ds.parentesco1==1].shape[0])

In [None]:
hogares = ds[["parentesco1", "idhogar"]].groupby(['idhogar']).sum()
hogares[hogares.parentesco1 != 1]

Se observan 15 familias sin jefe de hogar.
Problemente en la selección de datos para train los grupos familiares hayan quedado divididos, por lo tanto tenemos hogares sin jefe de hogar.
Por esta razón se eliminarán las personas que pertenezcan a hogares sin jefe de hogar.

¿Alguna casa tiene más de un jefe de hogar?
Ningún hogar tiene más de un jefe de hogar

In [None]:
hogares = ds[["parentesco1", "idhogar"]].groupby(['idhogar']).sum()
hogares[hogares.parentesco1 > 1].shape[0]

### 10. Adicional

##### Actualizacón de metadata

In [None]:
_data_fields


In [None]:
dropped_fields =['SQBescolari','SQBage','SQBhogar_total','SQBedjefe','SQBhogar_nin','SQBovercrowding','SQBdependency','SQBmeaned','agesq',"edjefe", "edjefa", "dependency", "meaneduc",'r4t1','r4t2','r4t3', 'r4m3','r4h3','hogar_total','hhsize','rez_esc']
updated_data_fields = _data_fields[~_data_fields.Variable_name.isin(dropped_fields)]

In [None]:
_col_dict = {
  'area1':'zona_urbana',
  'area2':'zona_rural', 
  'v2a1': 'monthly_rent',
  'lugar1': 'region_central',
  'lugar2': 'region_chorotega',
  'lugar3': 'region_pacifico_central',
  'lugar4': 'region_brunca',
  'lugar5': 'region_huetar_atlantica',
  'lugar6': 'region_huetar_norte'}
updated_data_fields['Variable_name'] = updated_data_fields['Variable_name'].replace(_col_dict)


In [None]:
updated_data_fields

In [None]:
formats = [
    ('csv',)
]
from datetime import date
today = date.today()

updated_data_fields.to_csv(r'dataset_fields'+today.strftime("%d%m%Y")+'.csv', index=None, sep=';', mode='a')
