# Limpieza del dataset Censo de Poblacion y Vivienda 2010

## 1. Introduccion
El Censo de Población y vivienda contiene el siguiente parámetro para la PCCS:
    
ID|Descripcion
--|-----------
P0309|Total de viviendas

## 2. Descarga de datos

In [1]:
# Librerias utilizadas
import pandas as pd
import sys
import urllib
import os
import zipfile
import csv
import pprint
import re

In [2]:
# Configuracion del sistema
print('Python {} on {}'.format(sys.version, sys.platform))
print('Pandas version: {}'.format(pd.__version__))
import platform; print('Running on {} {}'.format(platform.system(), platform.release()))

Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:25:24) [MSC v.1900 64 bit (AMD64)] on win32
Pandas version: 0.20.1
Running on Windows 8.1


Existen tres maneras de descargar la información:

1. **Datos para la República Mexicana**, con la ventaja de que es un solo archivo con variables procesadas y con la desventaja de que su nivel de desagregación es estatal.

2. **Principales resultados por AGEB**, con la ventaja de que cuentan con desagregacion a nivel AGEB (Que puede agregarse a nivel Localidad, municipal y estatal) y con las desventajas de que la información está fragmentada en muchos archivos pues hay un archivo por estado, y que la informacion tiene una gran complejidad por el nivel de detalle con el que cuenta lo que también la hace más pesada.

3. **Principales resultados por LOCALIDAD**, con la ventaja de que cuentan con desagregacion a nivel localidad (Que puede agregarse a nivel municipal y estatal) y con la desventaja de que la información está fragmentada en muchos archivos pues hay un archivo por estado.

Se descargarán los datos por localidad (3)

In [3]:
# LIGAS PARA DESCARGA DE ARCHIVOS
# Las ligas para descarga tienen una raiz URL común que cambia 
# dependiendo del indicador y estado que se busque descargar 

raiz = r'http://www.beta.inegi.org.mx/contenidos/proyectos/ccpv/2010/microdatos/iter/'
links = {
    '01' : raiz+'01_aguascalientes_2010_iter_zip.zip',
    '02' : raiz+'02_baja_california_2010_iter_zip.zip',
    '03' : raiz+'03_baja_california_sur_2010_iter_zip.zip',
    '04' : raiz+'04_campeche_2010_iter_zip.zip',
    '05' : raiz +'05_coahuila_2010_iter_zip.zip',
    '06' : raiz +'06_colima_2010_iter_zip.zip',
    '07' : raiz +'07_chiapas_2010_iter_zip.zip',
    '08' : raiz +'08_chihuahua_2010_iter_zip.zip',
    '09' : raiz +'09_distrito_federal_2010_iter_zip.zip',
    '10' : raiz +'10_durango_2010_iter_zip.zip',
    '11' : raiz +'11_guanajuato_2010_iter_zip.zip',
    '12' : raiz +'12_guerrero_2010_iter_zip.zip',
    '13' : raiz +'13_hidalgo_2010_iter_zip.zip',
    '14' : raiz +'14_jalisco_2010_iter_zip.zip',
    '15' : raiz +'15_mexico_2010_iter_zip.zip',
    '16' : raiz +'16_michoacan_2010_iter_zip.zip',
    '17' : raiz +'17_morelos_2010_iter_zip.zip',
    '18' : raiz +'18_nayarit_2010_iter_zip.zip',
    '19' : raiz +'19_nuevo_leon_2010_iter_zip.zip',
    '20' : raiz +'20_oaxaca_2010_iter_zip.zip',
    '21' : raiz +'21_puebla_2010_iter_zip.zip',
    '22' : raiz +'22_queretaro_2010_iter_zip.zip',
    '23' : raiz +'23_quintana_roo_2010_iter_zip.zip',
    '24' : raiz +'24_san_luis_potosi_2010_iter_zip.zip',
    '25' : raiz +'25_sinaloa_2010_iter_zip.zip',
    '26' : raiz +'26_sonora_2010_iter_zip.zip',
    '27' : raiz +'27_tabasco_2010_iter_zip.zip',
    '28' : raiz +'28_tamaulipas_2010_iter_zip.zip',
    '29' : raiz +'29_tlaxcala_2010_iter_zip.zip',
    '30' : raiz +'30_veracruz_2010_iter_zip.zip',
    '31' : raiz +'31_yucatan_2010_iter_zip.zip',
    '32' : raiz +'32_zacatecas_2010_iter_zip.zip'
}

Key : CVE_EDO, val = Archivo

In [4]:
# Descarga de archivos a carpeta local
destino = r'D:\PCCS\00_RawData\01_CSV\CPV2010'
archivos = {}   # Diccionario para guardar memoria de descarga
for CVE_EDO, archivo in links.items():
    archivo_local = destino + r'\{}.zip'.format(CVE_EDO)
    if os.path.isfile(archivo_local):
        print('Ya existe el archivo: {}'.format(archivo_local))
        archivos[CVE_EDO] = archivo_local
    else:
        print('Descargando {} ... ... ... ... ... '.format(archivo_local))
        urllib.request.urlretrieve(archivo, archivo_local) #
        archivos[CVE_EDO] = archivo_local
        print('se descargó {}'.format(archivo_local))

Descargando D:\PCCS\00_RawData\01_CSV\CPV2010\01.zip ... ... ... ... ... 
se descargó D:\PCCS\00_RawData\01_CSV\CPV2010\01.zip
Descargando D:\PCCS\00_RawData\01_CSV\CPV2010\02.zip ... ... ... ... ... 
se descargó D:\PCCS\00_RawData\01_CSV\CPV2010\02.zip
Descargando D:\PCCS\00_RawData\01_CSV\CPV2010\03.zip ... ... ... ... ... 
se descargó D:\PCCS\00_RawData\01_CSV\CPV2010\03.zip
Descargando D:\PCCS\00_RawData\01_CSV\CPV2010\04.zip ... ... ... ... ... 
se descargó D:\PCCS\00_RawData\01_CSV\CPV2010\04.zip
Descargando D:\PCCS\00_RawData\01_CSV\CPV2010\05.zip ... ... ... ... ... 
se descargó D:\PCCS\00_RawData\01_CSV\CPV2010\05.zip
Descargando D:\PCCS\00_RawData\01_CSV\CPV2010\06.zip ... ... ... ... ... 
se descargó D:\PCCS\00_RawData\01_CSV\CPV2010\06.zip
Descargando D:\PCCS\00_RawData\01_CSV\CPV2010\07.zip ... ... ... ... ... 
se descargó D:\PCCS\00_RawData\01_CSV\CPV2010\07.zip
Descargando D:\PCCS\00_RawData\01_CSV\CPV2010\08.zip ... ... ... ... ... 
se descargó D:\PCCS\00_RawData\01_CSV

In [5]:
archivos

{'01': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\01.zip',
 '02': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\02.zip',
 '03': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\03.zip',
 '04': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\04.zip',
 '05': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\05.zip',
 '06': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\06.zip',
 '07': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\07.zip',
 '08': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\08.zip',
 '09': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\09.zip',
 '10': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\10.zip',
 '11': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\11.zip',
 '12': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\12.zip',
 '13': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\13.zip',
 '14': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\14.zip',
 '15': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\15.zip',
 '16': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\16.zip',
 '17': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\17.zip',
 '18': 'D:\\PCCS\\00_RawData\\01_CSV\\CPV2010\\1

Se guardó un diccionario con k: CVE_EDO y v: Archivo comprimido local
Ahora hay que descomprimir los archivos

In [6]:
# Descompresión de archivos de m_parametro
unzipped = {}
for CVE_EDO, comprimido in archivos.items():
    target = destino + '\\' + CVE_EDO
    if os.path.isfile(target):
        print('Ya existe el archivo: {}'.format(target))
        unzipped[CVE_EDO] = target
    else:
        print('Descomprimiendo {} ... ... ... ... ... '.format(target))
        descomprimir = zipfile.ZipFile(comprimido, 'r')
        descomprimir.extractall(target)
        descomprimir.close
        unzipped[CVE_EDO] = target

Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\01 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\02 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\03 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\04 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\05 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\06 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\07 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\08 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\09 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\10 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\11 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\12 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_CSV\CPV2010\13 ... ... ... ... ... 
Descomprimiendo D:\PCCS\00_RawData\01_

In [11]:
for CVE_EDO, path in unzipped.items():
    print(CVE_EDO)
    x = 0
    for file in os.listdir(path):
        print(r'[{}]\\{}'.format(x, file))
        x += 1

01
[0]\\ITER_01DBF10
[1]\\ITER_01XLS10
02
[0]\\ITER_02DBF10
[1]\\ITER_02XLS10
03
[0]\\ITER_03DBF10
[1]\\ITER_03XLS10
04
[0]\\ITER_04DBF10
[1]\\ITER_04XLS10
05
[0]\\ITER_05DBF10
[1]\\ITER_05XLS10
06
[0]\\ITER_06DBF10
[1]\\ITER_06XLS10
07
[0]\\ITER_07DBF10
[1]\\ITER_07XLS10
08
[0]\\ITER_08DBF10
[1]\\ITER_08XLS10
09
[0]\\ITER_09DBF10
[1]\\ITER_09XLS10
10
[0]\\ITER_10DBF10
[1]\\ITER_10XLS10
11
[0]\\ITER_11DBF10
[1]\\ITER_11XLS10
12
[0]\\ITER_12DBF10
[1]\\ITER_12XLS10
13
[0]\\ITER_13DBF10
[1]\\ITER_13XLS10
14
[0]\\ITER_14DBF10
[1]\\ITER_14XLS10
15
[0]\\ITER_15DBF10
[1]\\ITER_15XLS10
16
[0]\\ITER_16DBF10
[1]\\ITER_16XLS10
17
[0]\\ITER_17DBF10
[1]\\ITER_17XLS10
18
[0]\\ITER_18DBF10
[1]\\ITER_18XLS10
19
[0]\\ITER_19DBF10
[1]\\ITER_19XLS10
20
[0]\\ITER_20DBF10
[1]\\ITER_20XLS10
21
[0]\\ITER_21DBF10
[1]\\ITER_21XLS10
22
[0]\\ITER_22DBF10
[1]\\ITER_22XLS10
23
[0]\\ITER_23DBF10
[1]\\ITER_23XLS10
24
[0]\\ITER_24DBF10
[1]\\ITER_24XLS10
25
[0]\\ITER_25DBF10
[1]\\ITER_25XLS10
26
[0]\\ITER_26DBF10
[1]\

Cada directorio tiene 2 carpetas, una con un archivo DBF y otra con un xls. Vamos a utilizar el xls.

In [13]:
xlsfiles = {}
for CVE_EDO, path in unzipped.items():
    print(CVE_EDO)
    xlsname = os.listdir(path)[1]
    xlspath = path+'\\'+xlsname+'\\'+xlsname+'.xls'
    xlsfiles[CVE_EDO] = xlspath
    print('{}\n'.format(xlspath))

01
D:\PCCS\00_RawData\01_CSV\CPV2010\01\ITER_01XLS10\ITER_01XLS10.xls

02
D:\PCCS\00_RawData\01_CSV\CPV2010\02\ITER_02XLS10\ITER_02XLS10.xls

03
D:\PCCS\00_RawData\01_CSV\CPV2010\03\ITER_03XLS10\ITER_03XLS10.xls

04
D:\PCCS\00_RawData\01_CSV\CPV2010\04\ITER_04XLS10\ITER_04XLS10.xls

05
D:\PCCS\00_RawData\01_CSV\CPV2010\05\ITER_05XLS10\ITER_05XLS10.xls

06
D:\PCCS\00_RawData\01_CSV\CPV2010\06\ITER_06XLS10\ITER_06XLS10.xls

07
D:\PCCS\00_RawData\01_CSV\CPV2010\07\ITER_07XLS10\ITER_07XLS10.xls

08
D:\PCCS\00_RawData\01_CSV\CPV2010\08\ITER_08XLS10\ITER_08XLS10.xls

09
D:\PCCS\00_RawData\01_CSV\CPV2010\09\ITER_09XLS10\ITER_09XLS10.xls

10
D:\PCCS\00_RawData\01_CSV\CPV2010\10\ITER_10XLS10\ITER_10XLS10.xls

11
D:\PCCS\00_RawData\01_CSV\CPV2010\11\ITER_11XLS10\ITER_11XLS10.xls

12
D:\PCCS\00_RawData\01_CSV\CPV2010\12\ITER_12XLS10\ITER_12XLS10.xls

13
D:\PCCS\00_RawData\01_CSV\CPV2010\13\ITER_13XLS10\ITER_13XLS10.xls

14
D:\PCCS\00_RawData\01_CSV\CPV2010\14\ITER_14XLS10\ITER_14XLS10.xls

15
D:\

## 3. Estandarizacion del dataset

In [29]:
# Funcion para extraer datos de hoja tipo
# La funcion espera los siguientes valores:
# --- entidad: [str] clave geoestadistica de entidad de 2 digitos
# --- ruta: [str] ruta al archivo de excel que contiene la información

def cargahoja(ruta):
    # Abre el archivo de excel
    raw_data = pd.read_excel(ruta, sheetname='Hoja1', dtype={
        'ENTIDAD':'str',
        'MUN':'str',
        'LOC':'str',
    }).dropna()

    # Crea la columna CVE_MUN 
    raw_data['CVE_MUN'] = raw_data['ENTIDAD'].map(str) + raw_data['MUN']

    # Excluye los renglones que tienen infomracion de resumen
    raw_data = raw_data[raw_data['MUN'] != '000']
    
    # Borra columnas con informacion irrelevante o duplicada
    del (raw_data['ENTIDAD'])
    del (raw_data['MUN'])
    del (raw_data['NOM_ENT'])
    raw_data.set_index('CVE_MUN', inplace=True)
    
    return raw_data

Correr funcion sobre todos los archivos para importar los datos

In [32]:
dataframes = {}
for CVE_EDO, ruta in xlsfiles.items():
    print('procesando {} desde {}'.format(CVE_EDO, ruta))
    dataframes[CVE_EDO] = cargahoja(ruta)

procesando 01 desde D:\PCCS\00_RawData\01_CSV\CPV2010\01\ITER_01XLS10\ITER_01XLS10.xls
procesando 02 desde D:\PCCS\00_RawData\01_CSV\CPV2010\02\ITER_02XLS10\ITER_02XLS10.xls
procesando 03 desde D:\PCCS\00_RawData\01_CSV\CPV2010\03\ITER_03XLS10\ITER_03XLS10.xls
procesando 04 desde D:\PCCS\00_RawData\01_CSV\CPV2010\04\ITER_04XLS10\ITER_04XLS10.xls
procesando 05 desde D:\PCCS\00_RawData\01_CSV\CPV2010\05\ITER_05XLS10\ITER_05XLS10.xls
procesando 06 desde D:\PCCS\00_RawData\01_CSV\CPV2010\06\ITER_06XLS10\ITER_06XLS10.xls
procesando 07 desde D:\PCCS\00_RawData\01_CSV\CPV2010\07\ITER_07XLS10\ITER_07XLS10.xls
procesando 08 desde D:\PCCS\00_RawData\01_CSV\CPV2010\08\ITER_08XLS10\ITER_08XLS10.xls
procesando 09 desde D:\PCCS\00_RawData\01_CSV\CPV2010\09\ITER_09XLS10\ITER_09XLS10.xls
procesando 10 desde D:\PCCS\00_RawData\01_CSV\CPV2010\10\ITER_10XLS10\ITER_10XLS10.xls
procesando 11 desde D:\PCCS\00_RawData\01_CSV\CPV2010\11\ITER_11XLS10\ITER_11XLS10.xls
procesando 12 desde D:\PCCS\00_RawData\01_C

Los datos fueron guardados como diccionario de Python, es necesario convertirlos en un DataFrame unico antes de hacer la limpieza final.

In [None]:
censo2010 = pd.DataFrame()
for CVE_EDO, dataframe in dataframes.items():
    censo2010 = censo2010.append(dataframe)

In [27]:
raw_data.head(1)

Unnamed: 0,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,LONGITUD,LATITUD,ALTITUD,POBTOT,...,VPH_RADIO,VPH_TV,VPH_REFRI,VPH_LAVAD,VPH_AUTOM,VPH_PC,VPH_TELEF,VPH_CEL,VPH_INTER,TAM_LOC
4,4,Campeche,1,Calkiní,1,Calkiní,900302.0,202216.0,20.0,14934,...,2489,3319,2845,2604,1149,1133,757,2490,539,7.0


In [20]:
cargahoja(xlsfiles['04']).head()

TypeError: ufunc 'add' did not contain a loop with signature matching types dtype('<U21') dtype('<U21') dtype('<U21')