### Extracción y Carga Raw Data Censo Vivienda
#### Diciembre 2020
##### Rodrigo Riveros

Utilizamos entorno con
- Python 3
- Pandas
- xlrd
- feather (pip install feather-format)


http://www.censo2017.cl/descargue-aqui-resultados-de-comunas/

In [1]:
# Importamos librerias de trabajo
import pandas as pd
import feather

In [2]:
#definimos directorio de rawdata
rawdata = '../data/raw/'

# #definimos directorio de data intermedia
interimdata = '../data/interim/'

# #definimos directorio de data externa
external = '../data/external/'


In [3]:
# Cargamos rawdata de excel Resumen
xlsx = pd.ExcelFile(rawdata + 'Cantidad-de-Viviendas-por-Tipo.xlsx')

In [4]:
# Transformamos hojas del excel en df
# nos saltamos la primera fila y cargamos solo las columnas desde la B a la L
rawcenso = pd.read_excel(xlsx, 'COMUNAS', skiprows=range(0,1), usecols="B:L",skipfooter=1)


In [5]:
rawcenso.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 348 entries, 0 to 347
Data columns (total 11 columns):
 #   Column                                                                           Non-Null Count  Dtype  
---  ------                                                                           --------------  -----  
 0   ORDEN                                                                            347 non-null    float64
 1   NOMBRE REGIÓN                                                                    347 non-null    object 
 2   Código Región                                                                    347 non-null    object 
 3   NOMBRE PROVINCIA                                                                 347 non-null    object 
 4   Código Provincia                                                                 347 non-null    object 
 5   NOMBRE COMUNA                                                                    347 non-null    object 
 6   Código Com

In [6]:
# arreglamos los espacios en los nombres de columnas
rawcenso.columns = [c.replace(' ', '_') for c in rawcenso.columns]
rawcenso.columns = [c.replace("\n", '') for c in rawcenso.columns]
rawcenso.columns = [c.replace("(", '-') for c in rawcenso.columns]
rawcenso.columns = [c.replace(")", '') for c in rawcenso.columns]

In [7]:
rawcenso.head(5).T

Unnamed: 0,0,1,2,3,4
ORDEN,0,1,2,3,4
NOMBRE_REGIÓN,PAÍS,ARICA Y PARINACOTA,ARICA Y PARINACOTA,ARICA Y PARINACOTA,ARICA Y PARINACOTA
Código_Región,PAÍS,15,15,15,15
NOMBRE_PROVINCIA,PAÍS,ARICA,ARICA,PARINACOTA,PARINACOTA
Código_Provincia,PAÍS,151,151,152,152
NOMBRE_COMUNA,PAÍS,ARICA,CAMARONES,PUTRE,GENERAL LAGOS
Código_Comuna,PAÍS,15101,15102,15201,15202
Viviendas_Particulares_Ocupadas_con_Moradores_Presentes,5.50844e+06,62129,431,540,218
Viviendas_Particulares_Ocupadas_con_Moradores_Ausentes,282893,4574,96,197,90
"Viviendas_Particulares_Desocupadas_-en_Venta,_para_arriendo,_Abandonada_u_otro",377710,4045,158,143,162


In [8]:
rawcenso.tail(5)

Unnamed: 0,ORDEN,NOMBRE_REGIÓN,Código_Región,NOMBRE_PROVINCIA,Código_Provincia,NOMBRE_COMUNA,Código_Comuna,Viviendas_Particulares_Ocupadas_con_Moradores_Presentes,Viviendas_Particulares_Ocupadas_con_Moradores_Ausentes,"Viviendas_Particulares_Desocupadas_-en_Venta,_para_arriendo,_Abandonada_u_otro",Viviendas_Particulares_Desocupadas-de_Temporada
343,343.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12.0,TIERRA DEL FUEGO,123.0,PRIMAVERA,12302.0,190.0,47.0,62.0,100.0
344,344.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12.0,TIERRA DEL FUEGO,123.0,TIMAUKEL,12303.0,87.0,9.0,34.0,76.0
345,345.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12.0,ÚLTIMA ESPERANZA,124.0,NATALES,12401.0,7274.0,754.0,900.0,331.0
346,346.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12.0,ÚLTIMA ESPERANZA,124.0,TORRES DEL PAINE,12402.0,127.0,16.0,7.0,38.0
347,,,,,,,,,,,


In [9]:
# revisamos Region
print('Region: ',rawcenso.Código_Región.unique(),'\n')

Region:  ['PAÍS' 15 1 2 3 4 5 13 6 7 8 9 14 10 11 12 nan] 



In [10]:
# eliminamos las filas agregadas de pais
indices = rawcenso[rawcenso["Código_Región"] == "PAÍS"].index
rawcenso.drop(indices , inplace=True)

In [11]:
rawcenso.dropna(inplace=True)

In [12]:
# revisamos NOMBRE_REGIÓN
print('NOMBRE_REGIÓN: ',rawcenso.NOMBRE_REGIÓN.unique(),'\n')

NOMBRE_REGIÓN:  ['ARICA Y PARINACOTA' 'TARAPACÁ' 'ANTOFAGASTA' 'ATACAMA' 'COQUIMBO'
 'VALPARAÍSO' 'METROPOLITANA DE SANTIAGO'
 'LIBERTADOR GENERAL BERNARDO O’HIGGINS' 'MAULE' 'BIOBÍO' 'LA ARAUCANÍA'
 'LOS RÍOS' 'LOS LAGOS' 'AYSÉN DEL GENERAL CARLOS IBÁÑEZ DEL CAMPO'
 'MAGALLANES Y DE LA ANTÁRTICA CHILENA'] 



In [13]:
# reindexamos la tabla
rawcenso.reset_index(drop=True, inplace=True)

In [14]:
# Guardamos data intermedia en formato binario
rawcenso.to_feather(interimdata + '200CensoVivienda.ftr')

In [15]:
# Cargamos data desde binario
rawcenso = pd.read_feather(interimdata + '200CensoVivienda.ftr', columns=None, use_threads=True);

In [16]:
rawcenso.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 346 entries, 0 to 345
Data columns (total 11 columns):
 #   Column                                                                          Non-Null Count  Dtype  
---  ------                                                                          --------------  -----  
 0   ORDEN                                                                           346 non-null    float64
 1   NOMBRE_REGIÓN                                                                   346 non-null    object 
 2   Código_Región                                                                   346 non-null    int64  
 3   NOMBRE_PROVINCIA                                                                346 non-null    object 
 4   Código_Provincia                                                                346 non-null    int64  
 5   NOMBRE_COMUNA                                                                   346 non-null    object 
 6   Código_Comuna     

In [17]:
# converting 'Viviendas_Particulares_Ocupadas_con_Moradores_Presentes' from float to int 
rawcenso['Viviendas_Particulares_Ocupadas_con_Moradores_Presentes'] = rawcenso['Viviendas_Particulares_Ocupadas_con_Moradores_Presentes'].astype(int) 

In [18]:
# converting 'Viviendas_Particulares_Ocupadas_con_Moradores_Ausentes' from float to int 
rawcenso['Viviendas_Particulares_Ocupadas_con_Moradores_Ausentes'] = rawcenso['Viviendas_Particulares_Ocupadas_con_Moradores_Ausentes'].astype(int) 

In [19]:
# converting 'Viviendas_Particulares_Desocupadas_-en_Venta,_para_arriendo,_Abandonada_u_otro' from float to int 
rawcenso['Viviendas_Particulares_Desocupadas_-en_Venta,_para_arriendo,_Abandonada_u_otro'] = rawcenso['Viviendas_Particulares_Desocupadas_-en_Venta,_para_arriendo,_Abandonada_u_otro'].astype(int) 

In [20]:
# converting 'Viviendas_Particulares_Desocupadas-de_Temporada' from float to int 
rawcenso['Viviendas_Particulares_Desocupadas-de_Temporada'] = rawcenso['Viviendas_Particulares_Desocupadas-de_Temporada'].astype(int) 

In [21]:
rawcenso.head(3)

Unnamed: 0,ORDEN,NOMBRE_REGIÓN,Código_Región,NOMBRE_PROVINCIA,Código_Provincia,NOMBRE_COMUNA,Código_Comuna,Viviendas_Particulares_Ocupadas_con_Moradores_Presentes,Viviendas_Particulares_Ocupadas_con_Moradores_Ausentes,"Viviendas_Particulares_Desocupadas_-en_Venta,_para_arriendo,_Abandonada_u_otro",Viviendas_Particulares_Desocupadas-de_Temporada
0,1.0,ARICA Y PARINACOTA,15,ARICA,151,ARICA,15101,62129,4574,4045,1666
1,2.0,ARICA Y PARINACOTA,15,ARICA,151,CAMARONES,15102,431,96,158,242
2,3.0,ARICA Y PARINACOTA,15,PARINACOTA,152,PUTRE,15201,540,197,143,995


In [22]:
rawcenso.tail(5)

Unnamed: 0,ORDEN,NOMBRE_REGIÓN,Código_Región,NOMBRE_PROVINCIA,Código_Provincia,NOMBRE_COMUNA,Código_Comuna,Viviendas_Particulares_Ocupadas_con_Moradores_Presentes,Viviendas_Particulares_Ocupadas_con_Moradores_Ausentes,"Viviendas_Particulares_Desocupadas_-en_Venta,_para_arriendo,_Abandonada_u_otro",Viviendas_Particulares_Desocupadas-de_Temporada
341,342.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12,TIERRA DEL FUEGO,123,PORVENIR,12301,2097,57,462,511
342,343.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12,TIERRA DEL FUEGO,123,PRIMAVERA,12302,190,47,62,100
343,344.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12,TIERRA DEL FUEGO,123,TIMAUKEL,12303,87,9,34,76
344,345.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12,ÚLTIMA ESPERANZA,124,NATALES,12401,7274,754,900,331
345,346.0,MAGALLANES Y DE LA ANTÁRTICA CHILENA,12,ÚLTIMA ESPERANZA,124,TORRES DEL PAINE,12402,127,16,7,38


In [23]:
rawcenso.describe()

Unnamed: 0,ORDEN,Código_Región,Código_Provincia,Código_Comuna,Viviendas_Particulares_Ocupadas_con_Moradores_Presentes,Viviendas_Particulares_Ocupadas_con_Moradores_Ausentes,"Viviendas_Particulares_Desocupadas_-en_Venta,_para_arriendo,_Abandonada_u_otro",Viviendas_Particulares_Desocupadas-de_Temporada
count,346.0,346.0,346.0,346.0,346.0,346.0,346.0,346.0
mean,173.5,8.312139,85.569364,8563.156069,15920.349711,817.609827,1091.647399,917.598266
std,100.02583,3.382945,33.551122,3356.540795,24599.485308,1487.118903,1558.01166,1864.854955
min,1.0,1.0,11.0,1101.0,8.0,0.0,1.0,0.0
25%,87.25,6.0,61.0,6109.25,3060.75,133.75,301.0,184.25
50%,173.5,8.0,83.0,8313.5,6204.5,295.0,546.0,351.0
75%,259.75,11.0,111.75,11176.25,15760.25,757.0,1106.75,745.75
max,346.0,15.0,152.0,15202.0,163947.0,15816.0,12142.0,14529.0
