# Exploring CENSO dataset

In [6]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os

In [9]:
os.chdir(os.path.join(os.getcwd(), "..", "src"))

## Inputs

In [41]:
department = "Antioquia"

## Paths

In [39]:
data_path = os.path.join(os.getcwd(), "..", "data")
censo_data = os.path.join(data_path, "censo")

dict_paths_departments = {}
for name in os.listdir(censo_data):
    if os.path.isdir(os.path.join(censo_data, name)):
        dict_paths_departments[name[3:]] = os.path.join(censo_data, name, name + "_CSV")

## Samples

In [45]:
current_dict_files = {}
for file in os.listdir(dict_paths_departments[department]):
    if "VIV" in file:
        current_dict_files["VIV"] = os.path.join(dict_paths_departments[department],file)
    elif "HOG" in file:
        current_dict_files["HOG"] = os.path.join(dict_paths_departments[department],file)
    elif "PER" in file:
        current_dict_files["PER"] = os.path.join(dict_paths_departments[department],file)
    elif "FALL" in file:
        current_dict_files["FALL"] = os.path.join(dict_paths_departments[department],file)
    elif "MGN" in file:
        current_dict_files["MGN"] = os.path.join(dict_paths_departments[department],file)

In [46]:
current_dict_files

{'VIV': '/Users/camilovelasquez/Desktop/Documents/Camilo/Udacity/censo_covid_colombia/src/../data/censo/05_Antioquia/05_Antioquia_CSV/CNPV2018_1VIV_A2_05.CSV',
 'HOG': '/Users/camilovelasquez/Desktop/Documents/Camilo/Udacity/censo_covid_colombia/src/../data/censo/05_Antioquia/05_Antioquia_CSV/CNPV2018_2HOG_A2_05.CSV',
 'PER': '/Users/camilovelasquez/Desktop/Documents/Camilo/Udacity/censo_covid_colombia/src/../data/censo/05_Antioquia/05_Antioquia_CSV/CNPV2018_5PER_A2_05.CSV',
 'FALL': '/Users/camilovelasquez/Desktop/Documents/Camilo/Udacity/censo_covid_colombia/src/../data/censo/05_Antioquia/05_Antioquia_CSV/CNPV2018_3FALL_A2_05.CSV',
 'MGN': '/Users/camilovelasquez/Desktop/Documents/Camilo/Udacity/censo_covid_colombia/src/../data/censo/05_Antioquia/05_Antioquia_CSV/CNPV2018_MGN_A2_05.CSV'}

### VIVIENDA
**Columns:**
- **'TIPO_REG':** Tipo de registro
- **'U_DPTO':** Departamento
- **'U_MPIO':** Municipio
- **'UA_CLASE':** Clase
    - 1_Cabecera Municipal
    - 2_Centro Poblado
    - 3_Rural Disperso
    - 4_Resto Rural (2 y 3 )
- **'U_EDIFICA':** Número de orden de la edificación
- **'COD_ENCUESTAS':** Código encuesta
- **'U_VIVIENDA':** Numero de orden de la Vivienda
- **'UVA_ESTATER':** Vivienda en una territorialidad étnica
- **'UVA1_TIPOTER':** Tipo de territorialidad étnica
- **'UVA2_CODTER':** Código de territorialidad étnica
- **'UVA_ESTA_AREAPROT':** Vivienda en un área protegida
- **'UVA1_COD_AREAPROT':** Codigo area protegida
- **'UVA_USO_UNIDAD':** Uso de la unidad
    - 1 Vivienda
    - 2 Mixto (Espacio independiente y separado que combina vivienda con otro uso no residencial)
    - 3 Unidad NO Residencial (Espacio independiente y separado con uso <> vivienda)
    - 4 Lugar Especial de Alojamiento - LEA
- **'V_TIPO_VIV':** Tipo de vivienda
    - 1 Casa
    - 2 Apartamento
    - 3 Tipo cuarto
    - 4 Vivienda tradicional Indigena
    - 5 Vivienda tradicional Etnica (Afrocolombiana, Isleña, Rrom)
    - 6 Otro (contenedor, carpa, embarcacion, vagon, cueva, refugio natural, etc.)
- **'V_CON_OCUP':** Condicion de ocupacion
    - 1 Ocupada con personas presentes
    - 2 Ocupada con todas las personas ausentes
    - 3 Vivienda temporal (para vacaciones, trabajo etc.)
    - 4 Desocupada
- **'V_TOT_HOG':** Total de hogares en la vivienda
    - 0.Nro_Hogar 00
    - 1.Nro_Hogar 01
    - 2.Nro_Hogar 02
    - ...
    - 25.Nro_Hogar 25
- **'V_MAT_PARED':** Material predominante en paredes exteriores
    - 1 Bloque, ladrillo, piedra, madera pulida
    - 2 Concreto vaciado
    - 3 Material prefabricado
    - 4 Guadua
    - 5 Tapia pisada, bahareque, adobe
    - 6 Madera burda, tabla, tablon
    - 7 Caña, esterilla, otros vegetales
    - 8 Materiales de deshecho (Zinc, tela, carton, latas, plasticos, otros)
    - 9 No tiene paredes
- **'V_MAT_PISO':** Material predominante en los pisos
    - 1 Marmol, parque, madera pulida y lacada
    - 2 Baldosa, vinilo, tableta, ladrillo, laminado
    - 3 Alfombra
    - 4 Cemento, gravilla
    - 5 Madera burda, tabla, tablon, otro vegetal
    - 6 Tierra, arena, barro
- **'VA_EE':** Cuenta con servicio de energía eléctrica
    - 1 Si
    - 2 No
- **'VA1_ESTRATO':** Estrato de la vivienda (según servicio de energía)
    - 0 Sin Estrato
    - 1 Estrato 1
    - 2 Estrato 2
    - 3 Estrato 3
    - 4 Estrato 4
    - 5 Estrato 5
    - 6 Estrato 6
    - 9 No sabe el estrato
- **'VB_ACU':** Cuenta con servicio de acueducto
    - 1 Si
    - 2 No
- **'VC_ALC':** Cuenta con servicio de alcantarillado
    - 1 Si
    - 2 No
- **'VD_GAS':** Cuenta con servicio de gas natural conectado a red pública
    - 1 Si
    - 2 No
    - 9 No informa
- **'VE_RECBAS':** Cuenta con servicio de recolección de basura
    - 1 Si
    - 2 No
    - 9 No informa
- **'VE1_QSEM':** Cuántas veces por semana (recolección basura)
    - 1 1 Vez
    - 2 2 Veces
    - 3 3 Veces
    - 4 4 Veces
    - 5 5 Veces
    - 6 6 Veces
    - 7 7 Veces
    - 8 Mayor periodicidad
    - 9 No Sabe
    - No aplica
- **'VF_INTERNET':** Cuenta con servicio de internet (fijo o móvil)
    - 1 Si
    - 2 No
- **'V_TIPO_SERSA':** Tipo de servicio sanitario (inodoro)
    - 1 Inodoro conectado al alcantarillado?
    - 2 Inodoro conectado a pozo septico?
    - 3 Inodoro sin conexion?
    - 4 Letrina?
    - 5 Inodoro con descarga directa a fuentes de agua (bajamar)?
    - 6 esta vivienda No tiene servicio sanitario?
- **'L_TIPO_INST':** LEA_Tipo de institución o establecimiento
    - 1 Centro penitenciario
    - 2 Institucion de proteccion e internado preventivo para niños, niñas y adolescentes
    - 3 Centro de proteccion y atencion al adulto mayor
    - 4 Convento, seminario, monasterio u otras instituciones similiares
    - 5 Sede educativa con Poblacion interna
    - 6 Cuartel, guarnicion militar (Ejercito, Armada y Fuerza AErea)
    - 7 Comando de policIa, estacion de policIa
    - 8 Campamento de trabajo
    - 9 Casa de lenocinio o prostIbulo
    - 10 Albergue de desplazados
    - 11 Hogar de paz
    - 12 Centro de rehabilitacion funcional
    - 13 Casa de paso indigena
    - No Aplica
- **'L_EXISTEHOG':** LEA_Existencia de hogar
    - 1 Si
    - 2 No
    - 9 No Informa
    - No Aplica
- **'L_TOT_PERL':** LEA_Total de residentes (no pertenecen a hogares)

In [47]:
df_viv = pd.read_csv(current_dict_files["VIV"])

In [52]:
df_viv.isnull().sum()

TIPO_REG                   0
U_DPTO                     0
U_MPIO                     0
UA_CLASE                   0
U_EDIFICA                  0
COD_ENCUESTAS              0
U_VIVIENDA                 0
UVA_ESTATER                0
UVA1_TIPOTER         2316994
UVA2_CODTER          2316994
UVA_ESTA_AREAPROT          0
UVA1_COD_AREAPROT    2302918
UVA_USO_UNIDAD             0
V_TIPO_VIV              1794
V_CON_OCUP              1794
V_TOT_HOG             390497
V_MAT_PARED           390497
V_MAT_PISO            390497
VA_EE                 390497
VA1_ESTRATO           413694
VB_ACU                390497
VC_ALC                390497
VD_GAS                390497
VE_RECBAS             390497
VE1_QSEM              603315
VF_INTERNET           390497
V_TIPO_SERSA          390497
L_TIPO_INST          2322286
L_EXISTEHOG          2322286
L_TOT_PERL           2322286
dtype: int64

In [53]:
df_viv.shape

(2324080, 30)

### HOGAR
**Columns:**
- **'TIPO_REG':** Tipo de registro
- **'U_DPTO':** Departamento
- **'U_MPIO':** Municipio
- **'UA_CLASE':** Clase
    - 1_Cabecera Municipal
    - 2_Centro Poblado
    - 3_Rural Disperso
    - 4_Resto Rural (2 y 3 )
- **'COD_ENCUESTAS':** Codigo Encuesta
- **'U_VIVIENDA':** Numero roden de la vivienda
- **'H_NROHOG':** Número de hogar en la vivienda
    - 0.Nro_Hogar 00
    - 1.Nro_Hogar 01
    - 2.Nro_Hogar 02
    - ...
    - 25.Nro_Hogar 25
- **'H_NRO_CUARTOS':** Número de cuartos en total
    - 1 1 cuartos
    - 2 2 cuartos
    - 3 3 cuartos
    - 4 4 cuartos
    - 5 5 cuartos
    - 6 6 cuartos
    - 7 7 cuartos
    - 8 8 cuartos
    - 9 9 cuartos
    - 10 10 cuartos
    - 11 11 cuartos
    - 12 12 cuartos
    - 13 13 cuartos
    - 14 14 cuartos
    - 15 15 cuartos
    - 16 16 cuartos
    - 17 17 cuartos
    - 18 18 cuartos
    - 19 19 cuartos
    - 20 20 cuartos
    - 99 No informa
- **'H_NRO_DORMIT':** Número de cuartos para dormir
    - 1 1 cuartos
    - 2 2 cuartos
    - 3 3 cuartos
    - 4 4 cuartos
    - 5 5 cuartos
    - 6 6 cuartos
    - 7 7 cuartos
    - 8 8 cuartos
    - 9 9 cuartos
    - 10 10 cuartos
    - 11 11 cuartos
    - 12 12 cuartos
    - 13 13 cuartos
    - 14 14 cuartos
    - 15 15 cuartos
    - 16 16 cuartos
    - 17 17 cuartos
    - 18 18 cuartos
    - 19 19 cuartos
    - 20 20 cuartos
    - 99 No informa
- **'H_DONDE_PREPALIM':** Lugar donde preparan los alimentos
    - 1 En un cuarto usado solo para cocinar?
    - 2 En un cuarto usado también para dormir?
    - 3 En una sala-comedor con lavaplatos?
    - 4 En una sala-comedor sin lavaplatos?
    - 5 En un patio, corredor, enramada o al aire libre?
    - 6 No preparan alimentos en la vivienda?
    - 9 No informa
- **'H_AGUA_COCIN':** Fuente de agua para preparar los alimentos
    - 1 Acueducto público?
    - 2 Acueducto veredal?
    - 3 Red de distribución comunitaria?
    - 4 Pozo con bomba?
    - 5 Pozo sin bomba, aljibe, jaguey o barreno?
    - 6 Agua lluvia?
    - 7 RÍo, quebrada, manantial, nacimiento?
    - 8 Pila pública?
    - 9 Carrotanque?
    - 10 Aguatero?
    - 11 Agua embotellada o en bolsa?
    - 12 no preparan alimentos
    - 99 No informa
- **'HA_NRO_FALL':** Total fallecidos en el hogar (2017)
    - 0 00 Personas
    - 1 01 Persona
    - 2 02 Personas
    - 3 03 Personas
    - 4 04 Personas
    - 5 05 Personas
    - 6 06 Personas
    - 7 07 Personas
    - 8 08 Personas
    - 9 09 Personas
    - 10 10 Personas
    - 11 11 Personas
    - 12 12 Personas
    - 13 13 Personas
    - 14 14 Personas
    - 15 15 Personas
    - 16 16 Personas
    - 17 17 Personas
    - 18 18 Personas
    - 19 19 Personas
    - 20 20 Personas
- **'HA_TOT_PER':** Total personas en el hogar
    - 1 01 Persona
    - 2 02 Personas
    - 3 03 Personas
    - 4 04 Personas
    - 5 05 Personas
    - 6 06 Personas
    - 7 07 Personas
    - 8 08 Personas
    - 9 09 Personas
    - 10 10 Personas
    - 11 11 Personas
    - 12 12 Personas
    - 13 13 Personas
    - 14 14 Personas
    - 15 15 Personas
    - 16 16 Personas
    - 17 17 Personas
    - 18 18 Personas
    - 19 19 Personas
    - 20 20 Personas
    - 21 21 Personas
    - 22 22 Personas
    - 23 23 Personas
    - 24 24 Personas
    - 25 25 Personas
    - 26 26 Personas
    - 27 27 Personas
    - 28 28 Personas
    - 29 29 Personas
    - 30 30 Personas
    - 31 31 Personas
    - 32 32 Personas
    - 33 33 Personas
    - 34 34 Personas
    - 35 35 Personas
    - 36 36 Personas
    - 37 37 Personas
    - 38 38 Personas
    - 39 39 Personas
    - 40 40 Personas

In [54]:
df_hog = pd.read_csv(current_dict_files["HOG"])

In [57]:
df_hog.isnull().sum()

TIPO_REG                  0
U_DPTO                    0
U_MPIO                    0
UA_CLASE                  0
COD_ENCUESTAS             0
U_VIVIENDA                0
H_NROHOG               1794
H_NRO_CUARTOS          1794
H_NRO_DORMIT           1794
H_DONDE_PREPALIM       1794
H_AGUA_COCIN          17469
HA_NRO_FALL         1955762
HA_TOT_PER             1794
dtype: int64

In [58]:
df_hog.shape

(1985360, 13)

### HOGAR
**Columns:**
- **'TIPO_REG':** Tipo de registro
- **'U_DPTO':** Departamento
- **'U_MPIO':** Municipio
- **'UA_CLASE':** Clase
    - 1_Cabecera Municipal
    - 2_Centro Poblado
    - 3_Rural Disperso
    - 4_Resto Rural (2 y 3 )
- **'COD_ENCUESTAS':** Codigo Encuesta
- **'U_VIVIENDA':** Numero roden de la vivienda
- **'H_NROHOG':** Número de hogar en la vivienda
    - 0.Nro_Hogar 00
    - 1.Nro_Hogar 01
    - 2.Nro_Hogar 02
    - ...
    - 25.Nro_Hogar 25
- **'H_NRO_CUARTOS':** Número de cuartos en total
    - 1 1 cuartos
    - 2 2 cuartos
    - 3 3 cuartos
    - 4 4 cuartos
    - 5 5 cuartos
    - 6 6 cuartos
    - 7 7 cuartos
    - 8 8 cuartos
    - 9 9 cuartos
    - 10 10 cuartos
    - 11 11 cuartos
    - 12 12 cuartos
    - 13 13 cuartos
    - 14 14 cuartos
    - 15 15 cuartos
    - 16 16 cuartos
    - 17 17 cuartos
    - 18 18 cuartos
    - 19 19 cuartos
    - 20 20 cuartos
    - 99 No informa
- **'H_NRO_DORMIT':** Número de cuartos para dormir
    - 1 1 cuartos
    - 2 2 cuartos
    - 3 3 cuartos
    - 4 4 cuartos
    - 5 5 cuartos
    - 6 6 cuartos
    - 7 7 cuartos
    - 8 8 cuartos
    - 9 9 cuartos
    - 10 10 cuartos
    - 11 11 cuartos
    - 12 12 cuartos
    - 13 13 cuartos
    - 14 14 cuartos
    - 15 15 cuartos
    - 16 16 cuartos
    - 17 17 cuartos
    - 18 18 cuartos
    - 19 19 cuartos
    - 20 20 cuartos
    - 99 No informa
- **'H_DONDE_PREPALIM':** Lugar donde preparan los alimentos
    - 1 En un cuarto usado solo para cocinar?
    - 2 En un cuarto usado también para dormir?
    - 3 En una sala-comedor con lavaplatos?
    - 4 En una sala-comedor sin lavaplatos?
    - 5 En un patio, corredor, enramada o al aire libre?
    - 6 No preparan alimentos en la vivienda?
    - 9 No informa
- **'H_AGUA_COCIN':** Fuente de agua para preparar los alimentos
    - 1 Acueducto público?
    - 2 Acueducto veredal?
    - 3 Red de distribución comunitaria?
    - 4 Pozo con bomba?
    - 5 Pozo sin bomba, aljibe, jaguey o barreno?
    - 6 Agua lluvia?
    - 7 RÍo, quebrada, manantial, nacimiento?
    - 8 Pila pública?
    - 9 Carrotanque?
    - 10 Aguatero?
    - 11 Agua embotellada o en bolsa?
    - 12 no preparan alimentos
    - 99 No informa
- **'HA_NRO_FALL':** Total fallecidos en el hogar (2017)
    - 0 00 Personas
    - 1 01 Persona
    - 2 02 Personas
    - 3 03 Personas
    - 4 04 Personas
    - 5 05 Personas
    - 6 06 Personas
    - 7 07 Personas
    - 8 08 Personas
    - 9 09 Personas
    - 10 10 Personas
    - 11 11 Personas
    - 12 12 Personas
    - 13 13 Personas
    - 14 14 Personas
    - 15 15 Personas
    - 16 16 Personas
    - 17 17 Personas
    - 18 18 Personas
    - 19 19 Personas
    - 20 20 Personas
- **'HA_TOT_PER':** Total personas en el hogar
    - 1 01 Persona
    - 2 02 Personas
    - 3 03 Personas
    - 4 04 Personas
    - 5 05 Personas
    - 6 06 Personas
    - 7 07 Personas
    - 8 08 Personas
    - 9 09 Personas
    - 10 10 Personas
    - 11 11 Personas
    - 12 12 Personas
    - 13 13 Personas
    - 14 14 Personas
    - 15 15 Personas
    - 16 16 Personas
    - 17 17 Personas
    - 18 18 Personas
    - 19 19 Personas
    - 20 20 Personas
    - 21 21 Personas
    - 22 22 Personas
    - 23 23 Personas
    - 24 24 Personas
    - 25 25 Personas
    - 26 26 Personas
    - 27 27 Personas
    - 28 28 Personas
    - 29 29 Personas
    - 30 30 Personas
    - 31 31 Personas
    - 32 32 Personas
    - 33 33 Personas
    - 34 34 Personas
    - 35 35 Personas
    - 36 36 Personas
    - 37 37 Personas
    - 38 38 Personas
    - 39 39 Personas
    - 40 40 Personas

In [54]:
df_hog = pd.read_csv(current_dict_files["HOG"])

In [57]:
df_hog.isnull().sum()

TIPO_REG                  0
U_DPTO                    0
U_MPIO                    0
UA_CLASE                  0
COD_ENCUESTAS             0
U_VIVIENDA                0
H_NROHOG               1794
H_NRO_CUARTOS          1794
H_NRO_DORMIT           1794
H_DONDE_PREPALIM       1794
H_AGUA_COCIN          17469
HA_NRO_FALL         1955762
HA_TOT_PER             1794
dtype: int64

In [58]:
df_hog.shape

(1985360, 13)