## Entendimiento y preparación de datos C1 y C8
### Notebook 1

#### Tesis Análisis, predicción y visualización de datos
Benjamin Reyes - Pablo Pastrana

In [2]:
# Carga de librerías a utilizar

# Librería para comandos del sistema
import os

# Librerías para manejo de datos
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

import statsmodels.api as sm 
import joblib

# Librerías de aprendizaje automático.

# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para construir un modelo con el algoritmo de regresión lineal
from sklearn.linear_model import LinearRegression
# Para determinar el rendimiento del modelo con las métricas MSE, MAE y R2
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Para sacar un reporte estadístico que podemos usar para determinar las importancia de las variables explicativas.
import statsmodels.api as sm 

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import Perceptron
from sklearn.pipeline import Pipeline

## 1. Entendimiento de los datos

### 1.1 Carga de datos

In [3]:
# Se cargan los datasets

data_c1 = pd.read_csv('./data/ENUT_C1.csv', sep=',', encoding = 'utf-8')
data_c3 = pd.read_csv('./data/ENUT_C3.csv', sep=',', encoding = 'utf-8')
data_c8 = pd.read_csv('./data/ENUT_C8.csv', sep=',', encoding = 'utf-8')


### 1.2 Visualización de los datos

In [4]:
# Cantidad de datos y número de variables C1
data_c1.shape

(49051, 15)

In [5]:
# Cantidad de datos y número de variables C3
data_c3.shape

(147579, 40)

In [6]:
# Cantidad de datos y número de variables C8
data_c8.shape

(126753, 399)

In [7]:
# Se visualiza las primeras 5 columnas de ENUT C1
data_c1.head()


Unnamed: 0,DIRECTORIO,P424,P4030S1,P4030S1A1,P4030S5,P4030S3,P4030S4,P4030S4A1,P4030S6,P4030S2,MES_REF,DIA_REF,CLASE,REGION,F_EXP_VIV
0,3,2,1,4.0,1,1,1,3.0,1,1,9,5,1,2,239.88322
1,7,1,1,2.0,1,1,1,3.0,1,1,9,6,2,2,274.641682
2,11,2,1,2.0,1,1,1,2.0,1,1,9,4,2,2,478.663999
3,14,1,1,1.0,1,1,2,,2,1,9,6,1,1,124.680583
4,17,1,1,2.0,1,1,1,3.0,1,1,9,6,1,1,184.09837


In [8]:
# Se visualiza las primeras 5 columnas de ENUT C3
data_c3.head()


Unnamed: 0,DIRECTORIO,SECUENCIA_P,ORDEN,P6040,P6020,P425,P1174,P1174S,P1174S1A,P1174S2A,...,P1181S,P1181S1A,P1181S2A,P1181S3A,P1182,P1182S,P1182S1A,P1182S2A,P1182S3A,F_EXP
0,3,1,1,76,1,1,1.0,1.0,2.0,,...,,,,,,,,,,239.88322
1,3,1,2,69,2,2,,,,,...,,,,,,,,,,239.88322
2,7,1,1,56,2,1,2.0,,,,...,,,,,2.0,,,,,274.641682
3,7,1,2,22,1,3,,,,,...,,,,,,,,,,274.641682
4,7,1,3,31,1,3,,,,,...,,,,,,,,,,274.641682


In [9]:
# Se visualiza las primeras 5 columnas de ENUT C8
data_c8.head()

Unnamed: 0,DIRECTORIO,SECUENCIA_P,ORDEN,P1144S1,P1144S1A1,P1144S1A2,P1144S2,P1144S2A1,P1144S2A2,P1144S3,...,P1120S7,P1120S8,P1183S1,P1183S2,P1183S3,P1183S4,P1183S5,P1183S6,P1183S7,F_EXP
0,3,1,1,1.0,8.0,0.0,1.0,1.0,0.0,1.0,...,2,2,2.0,2.0,1.0,1.0,2.0,2.0,2.0,239.88322
1,3,1,2,1.0,7.0,0.0,1.0,1.0,0.0,1.0,...,2,2,2.0,2.0,2.0,1.0,2.0,2.0,2.0,239.88322
2,7,1,1,1.0,8.0,30.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682
3,7,1,2,1.0,9.0,30.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682
4,7,1,3,1.0,9.0,0.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682


In [10]:
# Se obtiene el número de valores únicos en la columna DIRECTORIO en C1
data_c1['DIRECTORIO'].nunique()

49051

In [11]:
# Se obtiene el número de valores únicos en la columna DIRECTORIO en C1
data_c3['DIRECTORIO'].nunique()

49051

In [12]:
# Se obtiene el número de valores únicos en la columna DIRECTORIO en C8
data_c8['DIRECTORIO'].nunique()

49051

Observamos que todos los datasets tienen la misma cantidad de valores únicos en la columna DIRECTORIO, lo que rectifica que este es el número de ID único y, por lo tanto, será la variable con la que podemos juntar las tablas.

## 2. Entendimiento de las variables a utilizar

Lo primero que hacemos es sustituir los valores de referencia asignados a las columnas y las variables por nombres más comprensibles. 

In [13]:
# Cambio de nombre de las columnas para C1

data_c1.columns = pd.read_csv('./data/Nombres_columnas_C1.csv', sep=';', encoding = 'utf-8').columns
data_c1.head()

Unnamed: 0,id,tipoVivienda,energiaElectrica,estratoTarifa,acueducto,alcantarillado,recoleccionBasuras,diasSemana,Internet,gasNatural,mes,dia,urbanoORural,region,factorExpansion
0,3,2,1,4.0,1,1,1,3.0,1,1,9,5,1,2,239.88322
1,7,1,1,2.0,1,1,1,3.0,1,1,9,6,2,2,274.641682
2,11,2,1,2.0,1,1,1,2.0,1,1,9,4,2,2,478.663999
3,14,1,1,1.0,1,1,2,,2,1,9,6,1,1,124.680583
4,17,1,1,2.0,1,1,1,3.0,1,1,9,6,1,1,184.09837


In [14]:
# Cambio de nombre de las columnas para C3

data_c3.columns = pd.read_csv('./data/Nombres_columnas_C3.csv', sep=';', encoding = 'utf-8').columns
data_c3.head()

Unnamed: 0,id,secuenciaP,orden,edad,sexo,parentescoJefatura,comparteJefatura,cuantas,numOrden,numOrden.1,...,cuantasPersonas.1,numOrden.10,numOrden.11,numOrden.12,decisionesVenta,cuantasPersonas.2,numOrden.13,numOrden.14,numOrden.15,factorExpansion
0,3,1,1,76,1,1,1.0,1.0,2.0,,...,,,,,,,,,,239.88322
1,3,1,2,69,2,2,,,,,...,,,,,,,,,,239.88322
2,7,1,1,56,2,1,2.0,,,,...,,,,,2.0,,,,,274.641682
3,7,1,2,22,1,3,,,,,...,,,,,,,,,,274.641682
4,7,1,3,31,1,3,,,,,...,,,,,,,,,,274.641682


In [29]:
# Cambio de nombre de las columnas para C8

data_c8.columns = pd.read_csv('./data/Nombres_columnas_C8.csv', sep=';', encoding = 'utf-8').columns
data_c8.head()

Unnamed: 0,id,secuenciaP,orden,dormir,horas,minutos,comer,horas.1,minutos.1,arreglarse,...,estaEnParo,otraSituacion,quienDecideSiUstedDebeTenerEmpleoPago,quienDecideSiSuParejaDebeTenerEmpleoPago,quienDecideSiUstedPuedeSerAmigoDeAlguien,quienDecideSiUstedPuedeCambiarSuAparienciaPersonal,quienDecideSiHogarPidePrestamos,quienDecideRealizarInversionesFinancierasHogar,quienTomaDecisionesDeGrandesGastosHogar,factorExpansion
0,3,1,1,1.0,8.0,0.0,1.0,1.0,0.0,1.0,...,2,2,2.0,2.0,1.0,1.0,2.0,2.0,2.0,239.88322
1,3,1,2,1.0,7.0,0.0,1.0,1.0,0.0,1.0,...,2,2,2.0,2.0,2.0,1.0,2.0,2.0,2.0,239.88322
2,7,1,1,1.0,8.0,30.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682
3,7,1,2,1.0,9.0,30.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682
4,7,1,3,1.0,9.0,0.0,1.0,1.0,0.0,1.0,...,2,2,,,,,,,,274.641682


In [19]:
# Función para sustituir los nombres de referencia por los nombres de las variables

variables_c1 = pd.read_csv('./data/Nombres_Variables_C1.csv', sep=',', encoding = 'utf-8')
variables_c3 = pd.read_csv('./data/Nombres_Variables_C3.csv', sep=',', encoding = 'utf-8')

def update_df_with_labels(df, mapping_df):
    # Itera sobre el mapa buscando "_valor"
    for col in mapping_df.columns:
        if '_valor' in col:
            # saca el nombre de la columna sin '_valor'
            original_col = col.replace('_valor', '')
            # revisa si la columna existe en el df original
            if original_col in df.columns:
                # Crea un mapa con el codigo numerico
                # Abandona valores NA
                mapping_series = mapping_df.dropna(subset=[original_col, col]).set_index(original_col)[col]
                mapping_dict = mapping_series.to_dict()
                # Actualiza el df en base al mapa
                df[original_col] = df[original_col].map(mapping_dict).fillna(df[original_col])
    return df

In [20]:
# Cambio de nombre de los valores para C1 usando la función update_df_with_labels

data_c1 = update_df_with_labels(data_c1, variables_c1)

data_c1.head()

Unnamed: 0,id,tipoVivienda,energiaElectrica,estratoTarifa,acueducto,alcantarillado,recoleccionBasuras,diasSemana,Internet,gasNatural,mes,dia,urbanoORural,region,factorExpansion
0,3.0,apartamento,si,4.0,si,si,si,3.0,si,si,9.0,5.0,urbano,central,239.88322
1,7.0,casa,si,2.0,si,si,si,3.0,si,si,9.0,6.0,rural,central,274.641682
2,11.0,apartamento,si,2.0,si,si,si,2.0,si,si,9.0,4.0,rural,central,478.663999
3,14.0,casa,si,1.0,si,si,no,,no,si,9.0,6.0,urbano,caribe,124.680583
4,17.0,casa,si,2.0,si,si,si,3.0,si,si,9.0,6.0,urbano,caribe,184.09837


In [21]:
# Cambio de nombre de los valores para C3 usando la función update_df_with_labels

data_c3 = update_df_with_labels(data_c3, variables_c3)

data_c3.head()

Unnamed: 0,id,secuenciaP,orden,edad,sexo,parentescoJefatura,comparteJefatura,cuantas,numOrden,numOrden.1,...,cuantasPersonas.1,numOrden.10,numOrden.11,numOrden.12,decisionesVenta,cuantasPersonas.2,numOrden.13,numOrden.14,numOrden.15,factorExpansion
0,3.0,1.0,1.0,76.0,hombre,jefe/a del hogar,si,1.0,2.0,,...,,,,,,,,,,239.88322
1,3.0,1.0,2.0,69.0,mujer,esposo/a o companero/a,,,,,...,,,,,,,,,,239.88322
2,7.0,1.0,1.0,56.0,mujer,jefe/a del hogar,no,,,,...,,,,,no,,,,,274.641682
3,7.0,1.0,2.0,22.0,hombre,"hijo/a, hijastro/a",,,,,...,,,,,,,,,,274.641682
4,7.0,1.0,3.0,31.0,hombre,"hijo/a, hijastro/a",,,,,...,,,,,,,,,,274.641682


In [1]:
# Cambio de nombre de los valores para C8 usando la función update_df_with_labels

data_c8 = update_df_with_labels(data_c8, variables_c8)

data_c8.head()

NameError: name 'update_df_with_labels' is not defined

## 3 Normalización

In [None]:
#Se promedian los datos por directorio C8
data_c8_norm = data_c8.groupby('DIRECTORIO')[data_c8.columns[1::1]].mean().reset_index()
data_c8_norm.head()

Unnamed: 0,DIRECTORIO,SECUENCIA_P,ORDEN,P1144S1,P1144S1A1,P1144S1A2,P1144S2,P1144S2A1,P1144S2A2,P1144S3,...,P1120S7,P1120S8,P1183S1,P1183S2,P1183S3,P1183S4,P1183S5,P1183S6,P1183S7,F_EXP
0,3,1.0,1.5,1.0,7.5,0.0,1.0,1.0,0.0,1.0,...,2.0,2.0,2.0,2.0,1.5,1.0,2.0,2.0,2.0,239.88322
1,7,1.0,2.0,1.0,8.666667,20.0,1.0,1.0,0.0,1.0,...,2.0,2.0,,,,,,,,274.641682
2,11,1.0,2.0,1.0,8.666667,0.0,1.0,1.0,0.0,1.0,...,2.0,2.0,,,,,,,,478.663999
3,14,1.0,1.0,1.0,9.0,0.0,1.0,1.0,30.0,1.0,...,2.0,2.0,,,,,,,,124.680583
4,17,1.0,1.0,1.0,0.0,10.0,1.0,0.0,50.0,1.0,...,2.0,2.0,,,,,,,,184.09837


In [None]:
#Se verifica el número de DIRECTORIO para verificar que sean únicos como C1
data_c8_norm['DIRECTORIO'].nunique()

49051

### 1.4 Horas de sueño por hogar y datos C1


In [None]:
#Se calculan las horas de sueño promedio por hogar
data_c8_sueno=data_c8_norm[['DIRECTORIO','P1144S1A1','P1144S1A2']].copy()
data_c8_sueno['Horas_de_sueno']=data_c8_sueno['P1144S1A1']+(data_c8_sueno['P1144S1A2']/60)
data_c8_sueno.head()

Unnamed: 0,DIRECTORIO,P1144S1A1,P1144S1A2,Horas_de_sueno
0,3,7.5,0.0,7.5
1,7,8.666667,20.0,9.0
2,11,8.666667,0.0,8.666667
3,14,9.0,0.0,9.0
4,17,0.0,10.0,0.166667


In [None]:
#Promedio de sueño de los encuestados
data_c8_sueno['Horas_de_sueno'].mean()

7.924929444969396

In [None]:
#Unión C8 y C1
data_c8_sueno=pd.merge(data_c8_sueno, data_c1, on='DIRECTORIO', suffixes=('_C8', '_C1'))
data_c8_sueno.head()

Unnamed: 0,DIRECTORIO,P1144S1A1,P1144S1A2,Horas_de_sueno,P424,P4030S1,P4030S1A1,P4030S5,P4030S3,P4030S4,P4030S4A1,P4030S6,P4030S2,MES_REF,DIA_REF,CLASE,REGION,F_EXP_VIV
0,3,7.5,0.0,7.5,2,1,4.0,1,1,1,3.0,1,1,9,5,1,2,239.88322
1,7,8.666667,20.0,9.0,1,1,2.0,1,1,1,3.0,1,1,9,6,2,2,274.641682
2,11,8.666667,0.0,8.666667,2,1,2.0,1,1,1,2.0,1,1,9,4,2,2,478.663999
3,14,9.0,0.0,9.0,1,1,1.0,1,1,2,,2,1,9,6,1,1,124.680583
4,17,0.0,10.0,0.166667,1,1,2.0,1,1,1,3.0,1,1,9,6,1,1,184.09837


In [None]:
#Horas de sueño por estrato y región
mapa_regiones = {
    1: 'Caribe',
    2: 'Central',
    3: 'Oriental',
    4: 'Pacífica',
    5: 'Bogotá',
    6: 'San Andrés'
}

data_c8_sueno['REGION'] = data_c8_sueno['REGION'].replace(mapa_regiones)

promedio_horas_de_sueno_estrato = data_c8_sueno.groupby(['P4030S1A1', 'REGION'])['Horas_de_sueno'].mean().reset_index()
promedio_horas_de_sueno_estrato

Unnamed: 0,P4030S1A1,REGION,Horas_de_sueno
0,1.0,Bogotá,7.530609
1,1.0,Caribe,8.253009
2,1.0,Central,8.215945
3,1.0,Oriental,8.019015
4,1.0,Pacífica,7.957619
5,1.0,San Andrés,8.180414
6,2.0,Bogotá,7.443597
7,2.0,Caribe,8.210869
8,2.0,Central,8.150146
9,2.0,Oriental,7.845804


In [None]:
#Pareja region/estrato que mas y menos duermen
mas_sueno = promedio_horas_de_sueno_estrato[promedio_horas_de_sueno_estrato['Horas_de_sueno'] == promedio_horas_de_sueno_estrato['Horas_de_sueno'].max()]
menos_sueno = promedio_horas_de_sueno_estrato[promedio_horas_de_sueno_estrato['Horas_de_sueno'] == promedio_horas_de_sueno_estrato['Horas_de_sueno'].min()]

print("Estrato/región que más duermen:")
print(mas_sueno[['P4030S1A1', 'REGION']])

print("Estrato/región que menos duermen:")
print(menos_sueno[['P4030S1A1', 'REGION']])

Estrato/región que más duermen:
    P4030S1A1    REGION
40        8.0  Pacífica
Estrato/región que menos duermen:
    P4030S1A1  REGION
30        6.0  Bogotá


In [22]:
# Probando cositas

# Mirar en C1 qué porcentage de la gente es rural
data_c1['urbanoORural'].value_counts(normalize=True)

urbano    0.798394
rural     0.201606
Name: urbanoORural, dtype: float64

In [23]:
# Mirar en C3 qué porcentage de la gente se considera campesina

data_c3['campesino'].value_counts(normalize=True)

no                     0.672819
si                     0.322883
no sabe, no informa    0.004298
Name: campesino, dtype: float64

In [25]:
# Mirar en C8 cuánto se demora la gente en arreglarse

data_c8['trabajosComunitariosSinPago'].value_counts(normalize=True)

2    0.997026
1    0.002974
Name: trabajosComunitariosSinPago, dtype: float64

In [26]:
data_c8['oficiosComunidadSinPago'].value_counts(normalize=True)

1.0    1.0
Name: oficiosComunidadSinPago, dtype: float64

In [36]:
# Calcular las horas invertidas en conversar

c8_conversar = data_c8[['id', 'conversarHoras', 'conversarMinutos']].copy()
c8_conversar['tiempoTotal'] = c8_conversar['conversarHoras'] + (c8_conversar['conversarMinutos']/60)
c8_conversar['tiempoTotal'].value_counts(normalize=True)


2.000000    0.289479
1.000000    0.267985
3.000000    0.120842
0.500000    0.084713
1.500000    0.047080
              ...   
2.216667    0.000013
0.700000    0.000013
5.833333    0.000013
1.983333    0.000013
1.266667    0.000013
Name: tiempoTotal, Length: 130, dtype: float64