## Entendimiento y preparación de datos C8
### Notebook 1

#### Tesis Visualización de datos
Benjamin Reyes - Pablo Pastrana

In [1]:
# Carga de librerías a utilizar

# Librería para comandos del sistema
import os

# Librerías para manejo de datos
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.api as sm 
import joblib

# Librerías de aprendizaje automático.

# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para construir un modelo con el algoritmo de regresión lineal
from sklearn.linear_model import LinearRegression
# Para determinar el rendimiento del modelo con las métricas MSE, MAE y R2
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Para sacar un reporte estadístico que podemos usar para determinar las importancia de las variables explicativas.
import statsmodels.api as sm 

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import Perceptron
from sklearn.pipeline import Pipeline

## 1. Entendimiento de los datos

### 1.1 Carga de datos

In [2]:
# Se cargan los datos

data_c8= pd.read_csv('./data/ENUT_C8.csv', sep=',', encoding = 'utf-8')
data_c1= pd.read_csv('./data/ENUT_C1.csv', sep=',', encoding = 'utf-8')

### 1.2 Visualización de los datos

In [3]:
# Cantidad de datos y número de variables C8
data_c8.shape

(126753, 399)

In [4]:
# Cantidad de datos y número de variables C1
data_c1.shape

(49051, 15)

In [5]:
# Visualizamos los primeros datos
data_c1.head()


Unnamed: 0,DIRECTORIO,P424,P4030S1,P4030S1A1,P4030S5,P4030S3,P4030S4,P4030S4A1,P4030S6,P4030S2,MES_REF,DIA_REF,CLASE,REGION,F_EXP_VIV
0,3,2,1,4.0,1,1,1,3.0,1,1,9,5,1,2,239.88322
1,7,1,1,2.0,1,1,1,3.0,1,1,9,6,2,2,274.641682
2,11,2,1,2.0,1,1,1,2.0,1,1,9,4,2,2,478.663999
3,14,1,1,1.0,1,1,2,,2,1,9,6,1,1,124.680583
4,17,1,1,2.0,1,1,1,3.0,1,1,9,6,1,1,184.09837


In [6]:
#Se observa que la variable directorio es única, lo que muestra que representa un hogar.
data_c1['DIRECTORIO']. nunique()

49051

In [27]:
#Se visualiza las primeras 5 columnas de ENUT C8
data_c8.head()

Unnamed: 0,DIRECTORIO,SECUENCIA_P,ORDEN,P1144S1,P1144S1A1,P1144S1A2,P1144S2,P1144S2A1,P1144S2A2,P1144S3,...,P1120S7,P1120S8,P1183S1,P1183S2,P1183S3,P1183S4,P1183S5,P1183S6,P1183S7,F_EXP
0,3,1,1,1.0,8.0,0.0,1.0,1.0,0.0,1.0,...,2,2,2.0,2.0,1.0,1.0,2.0,2.0,2.0,239.88322
1,3,1,2,1.0,7.0,0.0,1.0,1.0,0.0,1.0,...,2,2,2.0,2.0,2.0,1.0,2.0,2.0,2.0,239.88322
2,7,1,1,1.0,8.0,30.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682
3,7,1,2,1.0,9.0,30.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682
4,7,1,3,1.0,9.0,0.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682


### 1.3 Normalización C8

In [15]:
#Se promedian los datos por directorio C8
data_c8_norm = data_c8.groupby('DIRECTORIO')[data_c8.columns[1::1]].mean().reset_index()
data_c8_norm.head()

Unnamed: 0,DIRECTORIO,SECUENCIA_P,ORDEN,P1144S1,P1144S1A1,P1144S1A2,P1144S2,P1144S2A1,P1144S2A2,P1144S3,...,P1120S7,P1120S8,P1183S1,P1183S2,P1183S3,P1183S4,P1183S5,P1183S6,P1183S7,F_EXP
0,3,1.0,1.5,1.0,7.5,0.0,1.0,1.0,0.0,1.0,...,2.0,2.0,2.0,2.0,1.5,1.0,2.0,2.0,2.0,239.88322
1,7,1.0,2.0,1.0,8.666667,20.0,1.0,1.0,0.0,1.0,...,2.0,2.0,,,,,,,,274.641682
2,11,1.0,2.0,1.0,8.666667,0.0,1.0,1.0,0.0,1.0,...,2.0,2.0,,,,,,,,478.663999
3,14,1.0,1.0,1.0,9.0,0.0,1.0,1.0,30.0,1.0,...,2.0,2.0,,,,,,,,124.680583
4,17,1.0,1.0,1.0,0.0,10.0,1.0,0.0,50.0,1.0,...,2.0,2.0,,,,,,,,184.09837


In [16]:
#Se verifica el número de DIRECTORIO para verificar que sean únicos como C1
data_c8_norm['DIRECTORIO'].nunique()

49051

### 1.4 Horas de sueño por hogar y datos C1


In [25]:
#Se calculan las horas de sueño promedio por hogar
data_c8_sueno=data_c8_norm[['DIRECTORIO','P1144S1A1','P1144S1A2']].copy()
data_c8_sueno['Horas_de_sueno']=data_c8_sueno['P1144S1A1']+(data_c8_sueno['P1144S1A2']/60)
data_c8_sueno.head()

Unnamed: 0,DIRECTORIO,P1144S1A1,P1144S1A2,Horas_de_sueno
0,3,7.5,0.0,7.5
1,7,8.666667,20.0,9.0
2,11,8.666667,0.0,8.666667
3,14,9.0,0.0,9.0
4,17,0.0,10.0,0.166667


In [35]:
#Promedio de sueño de los encuestados
data_c8_sueno['Horas_de_sueno'].mean()

7.924929444969375

In [36]:
#Unión C8 y C1
data_c8_sueno=pd.merge(data_c8_sueno, data_c1, on='DIRECTORIO', suffixes=('_C8', '_C1'))
data_c8_sueno.head()

Unnamed: 0,DIRECTORIO,P1144S1A1,P1144S1A2,Horas_de_sueno,P424_x,P4030S1_x,P4030S1A1_x,P4030S5_x,P4030S3_x,P4030S4_x,...,P4030S3,P4030S4,P4030S4A1,P4030S6,P4030S2,MES_REF,DIA_REF,CLASE,REGION,F_EXP_VIV
0,3,7.5,0.0,7.5,2,1,4.0,1,1,1,...,1,1,3.0,1,1,9,5,1,2,239.88322
1,7,8.666667,20.0,9.0,1,1,2.0,1,1,1,...,1,1,3.0,1,1,9,6,2,2,274.641682
2,11,8.666667,0.0,8.666667,2,1,2.0,1,1,1,...,1,1,2.0,1,1,9,4,2,2,478.663999
3,14,9.0,0.0,9.0,1,1,1.0,1,1,2,...,1,2,,2,1,9,6,1,1,124.680583
4,17,0.0,10.0,0.166667,1,1,2.0,1,1,1,...,1,1,3.0,1,1,9,6,1,1,184.09837


In [45]:
#Horas de sueño por estrato
promedio_horas_de_sueno_estrato = data_c8_sueno.groupby('P4030S1A1')['Horas_de_sueno'].mean().reset_index()
promedio_horas_de_sueno_estrato

Unnamed: 0,P4030S1A1,Horas_de_sueno
0,1.0,8.122175
1,2.0,7.905358
2,3.0,7.701978
3,4.0,7.620778
4,5.0,7.737424
5,6.0,7.689884
6,8.0,8.829199
7,9.0,8.376179
