# Limpieza de dataset de la Encuesta Intercensal 2015
Para la construcción de indicadores de la Plataforma de Conocimiento de Ciudades Sustentables se han considerado los siguientes datos disponibles desde la Encuesta Intercensal del INEGI:

ID |Descripción
---|:----------
P0101|Porcentaje de viviendas con agua entubada
P0102|Porcentaje de viviendas que cuentan con descarga a una red de alcantarillado.
P0402|Viviendas que aprovechan energía solar
P0403|Viviendas con drenaje
P0404|Viviendas con piso de tierra
P0603|Viviendas particulares habitadas con calentador de agua (boiler)
P0611|Viviendas que utilizan leña o carbón para cocinar
P0612|Viviendas que utilizan leña o carbón para cocinar, que disponen de estufa o fogón con chimenea
P0613|Viviendas habitadas que utilizan gas para cocinar
P1004|Forma de eliminación de residuos
P1010|Porcentaje de viviendas  de reutilización de residuos
P1011|Porcentaje de viviendas que separan sus residuos en orgánicos e inorgánicos

En este documento se describen los pasos llevados a cabo para estandarizar los datos disponibles desde la encuesta intercensal y utilizarlos para la construcción de parámetros. Las limpieza se realiza utilizando Python 3.

## Definiciones

**PCCS** : Plataforma de Conocimiento de Ciudades Sustentables

**Dataset** : Conjunto de datos que tratan acerca de un tema, usualmente ordenados para facilitar su lectura por un ser humano, 
que por lo general requieren ser procesados para facilitar su lectura por sistemas informáticos. 

**Dataframe** : Estructura bidimensional de datos, estructurada en filas que contienen casos y columnas que contienen variables.

## Proceso de Minería de Datos

In [8]:
# Librerias utilizadas
import pandas as pd
import sys
import urllib
import os

module_path = r'D:\PCCS\01_Dmine\Scripts'
if module_path not in sys.path:
    sys.path.append(module_path)
from SUN.asignar_sun import asignar_sun
from SUN_integridad.SUN_integridad import SUN_integridad
from SUN.CargaSunPrincipal import getsun

In [4]:
# Configuracion del sistema
print('Python {} on {}'.format(sys.version, sys.platform))
print('Pandas version: {}'.format(pd.__version__))
import platform; print('Running on {} {}'.format(platform.system(), platform.release()))

Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:25:24) [MSC v.1900 64 bit (AMD64)] on win32
Pandas version: 0.20.1
Running on Windows 8.1


La descarga de datos se realiza desde el sitio Beta de INEGI. Los datos de la Encuesta Intercensal 2015 se encuentran en http://www.beta.inegi.org.mx/proyectos/enchogares/especiales/intercensal/

Existen tres maneras de descargar la información:

1. **Datos para la República Mexicana**, con la ventaja de que es un solo archivo con variables procesadas y con la desventaja de que su nivel de desagregación es estatal.
2. **Datos estatales**, con la ventaja de que cuentan con desagregacion a nivel municipal con variables interpretadas y con la desventaja de que la información está fragmentada en muchos archivos pues hay un archivo por variable por estado.
3. **Microdatos**, con la ventaja de que contienen toda la información del Proyecto en pocos archivos y con la desventaja de que tienen que interpretarse antes de obtener valores útiles para la PCCS.

La manera más conveniente es descargar los datos estatales, pues la primera no entregaría datos relevantes para la construccion de indicadores de la PCCS y la segunda requeriría dedicar una gran cantidad de tiempo y esfuerzo para recrear la interpretacion realizada por INEGI. 
Todos los indicadores que se utilizarán para la construccion de la PCCS se encuentran en la encuesta de Vivienda, por lo que únicamente se descargará el paquete de datos de esta encuesta

In [34]:
# LIGAS PARA DESCARGA DE ARCHIVOS
# Las ligas para descarga tienen una raiz URL común que cambia 
# dependiendo del indicador y estado que se busque descargar 
url = r'http://www.beta.inegi.org.mx/contenidos/Proyectos/enchogares/especiales/intercensal/2015/tabulados/'
indicador = r'14_vivienda_'
raiz = url+indicador
links = {
    '01' : raiz+'ags.xls',
    '02' : raiz+'bc.xls',
    '03' : raiz+'bcs.xls',
    '04' : raiz+'cam.xls',
    '05' : raiz+'coah.xls',
    '06' : raiz+'col.xls',
    '07' : raiz+'chis.xls',
    '08' : raiz+'chih.xls',
    '09' : raiz+'cdmx.xls',
    '10' : raiz+'dgo.xls',
    '11' : raiz+'gto.xls',
    '12' : raiz+'gro.xls',
    '13' : raiz+'hgo.xls',
    '14' : raiz+'jal.xls',
    '15' : raiz+'mex.xls',
    '16' : raiz+'mich.xls',
    '17' : raiz+'mor.xls',
    '18' : raiz+'nay.xls',
    '19' : raiz+'nl.xls',
    '20' : raiz+'oax.xls',
    '21' : raiz+'pue.xls',
    '22' : raiz+'qro.xls',
    '23' : raiz+'qroo.xls',
    '24' : raiz+'slp.xls',
    '25' : raiz+'sin.xls',
    '26' : raiz+'son.xls',
    '27' : raiz+'tab.xls',
    '28' : raiz+'tamps.xlsz',
    '29' : raiz+'tlax.xls',
    '30' : raiz+'ver.xls',
    '31' : raiz+'yuc.xls',
    '32' : raiz+'zac.xls'
}

In [33]:
raiz+r'zac.xls'

'http://www.beta.inegi.org.mx/contenidos/Proyectos/enchogares/especiales/intercensal/2015/tabulados/14_vivienda_zac.xls'

Las ligas quedan almacenadas en un diccionario de python en el que "key" = Clave Geoestadística Estatal; y value = liga para descarga. Por ejemplo, '09' es la clave geoestadística para la Ciudad de México. Si al diccionario links le solicitamos el valor de la key '09', nos regresa la liga para descargar los indicadores de vivienda de la Ciudad de México, como se muestra a continuación:

In [35]:
print(links['09'])

http://www.beta.inegi.org.mx/contenidos/Proyectos/enchogares/especiales/intercensal/2015/tabulados/14_vivienda_cdmx.xls


Con el diccionario de ligas ya es posible descargar los archivos en una carpeta local para poder procesarlos.

In [36]:
# Descarga de archivos a carpeta local
destino = r'D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda'
archivos = {}   # Diccionario para guardar memoria de descarga
for k,v in links.items():
    archivo_local = destino + r'\{}.xls'.format(k)
    if os.path.isfile(archivo_local):
        print('Ya existe el archivo: {}'.format(archivo_local))
        archivos[k] = archivo_local
    else:
        print('Descargando {} ... ... ... ... ... '.format(archivo_local))
        urllib.request.urlretrieve(v, archivo_local) #
        archivos[k] = archivo_local
        print('se descargó {}'.format(archivo_local))

Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\01.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\02.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\03.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\04.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\05.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\06.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\07.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\08.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\09.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivienda\10.xls
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\Intercensal2015\estatal\14. Vivi

Cada archivo tiene la misma estructura y contiene los datos de vivienda de 2015 levantados en la encuesta intercensal. La primera hoja, 'Índice', incluye un listado de las hojas y datos que contiene cada libro. Este índice se tomará como referencia para la minería de datos:

In [32]:
pd.options.display.max_colwidth = 150
df = pd.read_excel(archivos['01'],
              sheetname = 'Índice',
              skiprows = 6,
              usecols = ['Tabulado', 'Título'],
              dtype = {'Tabulado' : 'str'},
              ).set_index('Tabulado')
df

Unnamed: 0_level_0,Título
Tabulado,Unnamed: 1_level_1
1,Estimadores de las viviendas particulares habitadas y su distribución porcentual según clase de vivienda particular por municipio
2,Estimadores de las viviendas particulares habitadas y su distribución porcentual según material en pisos por municipio
3,Estimadores de las viviendas particulares habitadas y su distribución porcentual según resistencia de los materiales en techos por municipio
4,Estimadores de las viviendas particulares habitadas y su distribución porcentual según resistencia de los materiales en paredes por municipio
5,Estimadores de las viviendas particulares habitadas y su distribución porcentual según número de cuartos por municipio
6,Estimadores de las viviendas particulares habitadas y su distribución porcentual según número de dormitorios por municipio
7,Estimadores de las viviendas particulares habitadas en las que sus ocupantes cocinan y su distribución porcentual según lugar de la vivienda o pre...
8,Estimadores de las viviendas particulares habitadas y su distribución porcentual según combustible utilizado para cocinar por municipio
9,Estimadores de las viviendas particulares habitadas en las que sus ocupantes utilizan leña o carbón para cocinar y su distribución porcentual segú...
10,Estimadores de las viviendas particulares habitadas y su distribución porcentual según tenencia por municipio


La columna 'Tabulado' contiene el nombre de la hoja, mientras que 'Titulo' describe los datos de la misma. Para la construcción de parámetros de la PCCS se utilizarán las siguientes hojas:

HOJA | PARAMETRO | DESCRIPCION
----|----------|:-----------
25|P0101|Porcentaje de viviendas con agua entubada
26|P0102|Porcentaje de viviendas que cuentan con descarga a una red de alcantarillado.
26|P0403|Viviendas con drenaje
02|P0404|Viviendas con piso de tierra
23|P0603|Viviendas particulares habitadas con calentador de agua (boiler)
08|P0611|Viviendas que utilizan leña o carbón para cocinar
09|P0612|Viviendas que utilizan leña o carbón para cocinar, que disponen de estufa o fogón con chimenea
08|P0613|Viviendas habitadas que utilizan gas para cocinar
19|P1004|Forma de eliminación de residuos
21|P1010|Porcentaje de viviendas  de reutilización de residuos
20|P1011|Porcentaje de viviendas que separan sus residuos en orgánicos e inorgánicos

Los siguientes parámetros se pueden obtener desde otras fuentes, pero se incluirán en esta minería por encontrarse también disponibles para 2015 en este dataset.

HOJA  | PARAMETRO  | DESCRIPCION
----  | ---------- | :-----------
23 | P0604 | Viviendas particulares habitadas con calentador solar | 
23 | P0605 | Viviendas particulares habitadas con panel fotovoltaico	| 

## Creacion de Datasets estándar
A partir de las hojas identificadas y asociadas con parámetros, es necesario crear un dataframe