# Estandarizacion de datos de los Anuarios Geoestadísticos de INEGI 2017

## 1. Introduccion
Parámetros que salen de esta fuente:

ID |Descripción
---|:----------
P0610|Ventas de electricidad
P0701|Longitud total de la red de carreteras del municipio (excluyendo las autopistas)

In [1]:
descripciones = {
    'P0610': 'Ventas de electricidad',
    'P0701': 'Longitud total de la red de carreteras del municipio (excluyendo las autopistas)'
}

In [2]:
# Librerias utilizadas
import pandas as pd
import sys
import urllib
import os
import csv
import zipfile

In [3]:
# Configuracion del sistema
print('Python {} on {}'.format(sys.version, sys.platform))
print('Pandas version: {}'.format(pd.__version__))
import platform; print('Running on {} {}'.format(platform.system(), platform.release()))

Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:25:24) [MSC v.1900 64 bit (AMD64)] on win32
Pandas version: 0.20.1
Running on Windows 8.1


## 2. Descarga de datos
Cada entidad cuenta con una página que presenta sus respectivos anuarios geoestadísticos. La manera más rápida de obtener las ligas de los anuarios es entrar a la biblioteca de INEGI (http://www.beta.inegi.org.mx/app/publicaciones/) y buscar la palabra "Anuario" en el campo de búsqueda.

CVE_EDO |Nombre|URL
---|:---|:----------
01|Aguascalientes|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092078
02|Baja California|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094874
03|Baja California Sur|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094881
04|Campeche|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825095109
05|Coahuila de Zaragoza|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825095406
06|Colima|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092061
07|Chiapas|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094836
08|Chihuahua|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092139
09|Ciudad de México|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094683
10|Durango|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092115
11|Guanajuato|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092146
12|Guerrero|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094690
13|Hidalgo|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825095093
14|Jalisco|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092085
15|México|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094706
16|Michoacán de Ocampo|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092092
17|Morelos|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094713
18|Nayarit|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092054
19|Nuevo León|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094911
20|Oaxaca|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094843
21|Puebla|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094973
22|Querétaro|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092108
23|Quintana Roo|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825095130
24|San Luis Potosí|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092122
25|Sinaloa|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094898
26|Sonora|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094904
27|Tabasco|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825095123
28|Tamaulipas|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094928
29|Tlaxcala|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825096212
30|Veracruz de Ignacio de la Llave|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825094980
31|Yucatán|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825095116
32|Zacatecas|http://www.beta.inegi.org.mx/app/biblioteca/ficha.html?upc=702825092047

Dentro de cada página, se incluye una liga directa para descargar un archivo comprimido con las tablas de datos de cada anuario geoestadítico. La lista links contiene estas URL y se utilizará para sistematizar la descarga de datos.

In [7]:
raiz = 'http://internet.contenidos.inegi.org.mx/contenidos/Productos/prod_serv/contenidos/espanol/bvinegi/productos/nueva_estruc/anuarios_2017/'
# El diccionario tiene como llave la CVE_EDO y dirige hacia la liga de descarga del archivo zip con las tablas del 
# Anuario Geoestadístico de cada estado
links = {
    '01': raiz + '702825092078.zip',
    '02': raiz + '702825094874.zip',
    '03': raiz + '702825094881.zip',
    '04': raiz + '702825095109.zip',
    '05': raiz + '702825095406.zip',
    '06': raiz + '702825092061.zip',
    '07': raiz + '702825094836.zip',
    '08': raiz + '702825092139.zip',
    '09': raiz + '702825094683.zip',
    '10': raiz + '702825092115.zip',
    '11': raiz + '702825092146.zip',
    '12': raiz + '702825094690.zip',
    '13': raiz + '702825095093.zip',
    '14': raiz + '702825092085.zip',
    '15': raiz + '702825094706.zip',
    '16': raiz + '702825092092.zip',
    '17': raiz + '702825094713.zip',
    '18': raiz + '702825092054.zip',
    '19': raiz + '702825094911.zip',
    '20': raiz + '702825094843.zip',
    '21': raiz + '702825094973.zip',
    '22': raiz + '702825092108.zip',
    '23': raiz + '702825095130.zip',
    '24': raiz + '702825092122.zip',
    '25': raiz + '702825094898.zip',
    '26': raiz + '702825094904.zip',
    '27': raiz + '702825095123.zip',
    '28': raiz + '702825094928.zip',
    '29': raiz + '702825096212.zip',
    '30': raiz + '702825094980.zip',
    '31': raiz + '702825095116.zip',
    '32': raiz + '702825092047.zip'
}

In [8]:
# Descarga de archivos a carpeta local
destino = r'D:\PCCS\00_RawData\01_CSV\AGEO\2017'
archivos = {}   # Diccionario para guardar memoria de descarga
for k,v in links.items():
    archivo_local = destino + r'\{}.zip'.format(k)
    if os.path.isfile(archivo_local):
        print('Ya existe el archivo: {}'.format(archivo_local))
        archivos[k] = archivo_local
    else:
        print('Descargando {} ... ... ... ... ... '.format(archivo_local))
        urllib.request.urlretrieve(v, archivo_local) #
        archivos[k] = archivo_local
        print('se descargó {}'.format(archivo_local))

Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\01.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\02.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\03.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\04.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\05.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\06.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\07.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\08.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\09.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\10.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\11.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\12.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\13.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\14.zip
Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\AGEO\2017\15.zip
Ya existe el archivo: D:\

In [9]:
# Descompresión de archivos de estado
unzipped = {}
for estado, comprimido in archivos.items():
    target = destino + '\\' + estado
    if os.path.isdir(target):
        print('Ya existe el directorio: {}'.format(target))
        unzipped[estado] = target
    else:
        print('Descomprimiendo {} ... ... ... ... ... '.format(target))
        descomprimir = zipfile.ZipFile(comprimido, 'r')
        descomprimir.extractall(target)
        descomprimir.close
        unzipped[estado] = target
        

Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\01
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\02
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\03
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\04
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\05
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\06
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\07
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\08
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\09
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\10
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\11
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\12
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\13
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\14
Ya existe el directorio: D:\PCCS\00_RawData\01_CSV\AGEO\2017\15
Ya existe el directorio: D:\PCCS\00_RawD

### Extraccion de indices
Conocer la información que contiene cada hoja del índice geoestadístico puede ser muy valioso y es necesario para hacer una función que itere adecuadamente por los archivos de todos los estados, debido a que los anuarios geoestadísticos de cada estado tienen ligeras variaciones que impiden una iteración directa.

In [10]:
unzipped

{'01': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\01',
 '02': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\02',
 '03': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\03',
 '04': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\04',
 '05': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\05',
 '06': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\06',
 '07': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\07',
 '08': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\08',
 '09': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\09',
 '10': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\10',
 '11': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\11',
 '12': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\12',
 '13': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\13',
 '14': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\14',
 '15': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\15',
 '16': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\16',
 '17': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\17',
 '18': 'D:\\PCCS\\00_RawData\\01_CSV\\AGEO\\2017\\18',
 '19': 'D:

In [11]:
# Extraer indices
indices = {}
for estado, ruta in unzipped.items():
    for file in os.listdir(ruta):
        if file.endswith('.xls'):
            path = ruta + '\\' + file
            indice = pd.read_excel(path, sheetname='Índice', skiprows = 1)   # Primera lectura al indice para sacar columnas
            dtypes = list(indice)
            tempdic = {}
            for i in dtypes:
                tempdic[i] = 'str'
            indice = pd.read_excel(path, 
                                   sheetname='Índice', 
                                   skiprows = 1,
                                   dtype = tempdic).dropna(how = 'all')   # Segunda lectura al indice ya con dtypes
            name = list(indice)[0]           # Guarda el nombre del indice
            cols = []
            for i in range(len(list(indice))):
                cols.append('col{}'.format(i))    # Crea nombres estandar de columna
            indice.columns = cols                 # Asigna nombres de columna
            indice['indice'] = name
            indice['file'] = file
            if estado not in indices.keys():      # Crea un diccionario para cada estado, si no existe
                indices[estado] = {}
            indices[estado][name] = indice
            print('Procesado {} |||NOMBRE:||| {}; [{}]'.format(file, name, len(cols)))     # Imprime los resultados del proceso

Procesado Ags. 1 Aspectos geográficos.xls |||NOMBRE:||| 1. Aspectos geográficos; [9]
Procesado Ags. 10 Trabajo.xls |||NOMBRE:||| 10. Trabajo; [3]
Procesado Ags. 11 Información económica agregada.xls |||NOMBRE:||| 11. Información económica agregada; [3]
Procesado Ags. 12 Agricultura.xls |||NOMBRE:||| 12. Agricultura; [3]
Procesado Ags. 13 Ganadería.xls |||NOMBRE:||| 13. Ganadería; [3]
Procesado Ags. 14 Aprovechamiento forestal.xls |||NOMBRE:||| 14. Aprovechamiento forestal; [3]
Procesado Ags. 15 Pesca.xls |||NOMBRE:||| 15. Pesca; [3]
Procesado Ags. 16 Minería.xls |||NOMBRE:||| 16. Minería; [3]
Procesado Ags. 17 Industria manufacturera.xls |||NOMBRE:||| 17. Industria manufacturera; [3]
Procesado Ags. 18 Construcción.xls |||NOMBRE:||| 18. Construcción; [3]
Procesado Ags. 19 Electricidad.xls |||NOMBRE:||| 19. Electricidad; [3]
Procesado Ags. 2 Medio ambiente.xls |||NOMBRE:||| 2. Medio ambiente; [3]
Procesado Ags. 20 Comercio.xls |||NOMBRE:||| 20. Comercio; [3]
Procesado Ags. 21 Turismo.xls

Procesado Coah. 2 Medio ambiente.xls |||NOMBRE:||| 2. Medio ambiente; [3]
Procesado Coah. 20 Comercio.xls |||NOMBRE:||| 20. Comercio; [3]
Procesado Coah. 21 Turismo.xls |||NOMBRE:||| 21. Turismo; [3]
Procesado Coah. 22 Transportes y comunicaciones.xls |||NOMBRE:||| 22. Transportes y comunicaciones; [3]
Procesado Coah. 23 Indicadores financieros.xls |||NOMBRE:||| 23. Indicadores financieros; [3]
Procesado Coah. 24 Finanzas públicas.xls |||NOMBRE:||| 24. Finanzas públicas; [3]
Procesado Coah. 25 Sector externo.xls |||NOMBRE:||| 25. Sector externo; [3]
Procesado Coah. 3 Población.xls |||NOMBRE:||| 3. Población; [3]
Procesado Coah. 4 Vivienda y urbanización.xls |||NOMBRE:||| 4. Vivienda y urbanización; [3]
Procesado Coah. 5 Salud.xls |||NOMBRE:||| 5. Salud; [3]
Procesado Coah. 6 Educación, ciencia y tecnología.xls |||NOMBRE:||| 6. Educación, ciencia y tecnología; [3]
Procesado Coah. 7 Cultura y deporte.xls |||NOMBRE:||| 7. Cultura y deporte; [3]
Procesado Coah. 8 Gobierno.xls |||NOMBRE:|||

Procesado CDMX. 5 Salud.xls |||NOMBRE:||| 5. Salud; [3]
Procesado CDMX. 6 Educación, ciencia y tecnología.xls |||NOMBRE:||| 6. Educación, ciencia y tecnología; [3]
Procesado CDMX. 7 Cultura y deporte.xls |||NOMBRE:||| 7. Cultura y deporte; [3]
Procesado CDMX. 8 Gobierno.xls |||NOMBRE:||| 8. Gobierno; [3]
Procesado CDMX. 9 Seguridad y justicia.xls |||NOMBRE:||| 9. Seguridad y justicia; [3]
Procesado Dgo. 1 Aspectos geográficos.xls |||NOMBRE:||| 1. Aspectos geográficos; [9]
Procesado Dgo. 10 Trabajo.xls |||NOMBRE:||| 10. Trabajo; [3]
Procesado Dgo. 11 Información económica agregada.xls |||NOMBRE:||| 11. Información económica agregada; [3]
Procesado Dgo. 12 Agricultura.xls |||NOMBRE:||| 12. Agricultura; [3]
Procesado Dgo. 13 Ganadería.xls |||NOMBRE:||| 13. Ganadería; [3]
Procesado Dgo. 14 Aprovechamiento forestal.xls |||NOMBRE:||| 14. Aprovechamiento forestal; [3]
Procesado Dgo. 15 Pesca.xls |||NOMBRE:||| 15. Pesca; [3]
Procesado Dgo. 16 Minería.xls |||NOMBRE:||| 16. Minería; [3]
Procesad

Procesado Jal. 14 Aprovechamiento forestal.xls |||NOMBRE:||| 14. Aprovechamiento forestal; [3]
Procesado Jal. 15 Pesca.xls |||NOMBRE:||| 15. Pesca; [3]
Procesado Jal. 16 Minería.xls |||NOMBRE:||| 16. Minería; [3]
Procesado Jal. 17 Industria manufacturera.xls |||NOMBRE:||| 17. Industria manufacturera; [3]
Procesado Jal. 18 Construcción.xls |||NOMBRE:||| 18. Construcción; [3]
Procesado Jal. 19 Electricidad.xls |||NOMBRE:||| 19. Electricidad; [3]
Procesado Jal. 2 Medio ambiente.xls |||NOMBRE:||| 2. Medio ambiente; [3]
Procesado Jal. 20 Comercio.xls |||NOMBRE:||| 20. Comercio; [3]
Procesado Jal. 21 Turismo.xls |||NOMBRE:||| 21. Turismo; [3]
Procesado Jal. 22 Transportes y comunicaciones.xls |||NOMBRE:||| 22. Transportes y comunicaciones; [3]
Procesado Jal. 23 Indicadores financieros.xls |||NOMBRE:||| 23. Indicadores financieros; [3]
Procesado Jal. 24 Finanzas públicas.xls |||NOMBRE:||| 24. Finanzas públicas; [3]
Procesado Jal. 25 Sector externo.xls |||NOMBRE:||| 25. Sector externo; [3]
Pro

Procesado Nay. 22 Transportes y comunicaciones.xls |||NOMBRE:||| 22. Transportes y comunicaciones; [3]
Procesado Nay. 23 Indicadores financieros.xls |||NOMBRE:||| 23. Indicadores financieros; [3]
Procesado Nay. 24 Finanzas públicas.xls |||NOMBRE:||| 24. Finanzas públicas; [3]
Procesado Nay. 25 Sector externo.xls |||NOMBRE:||| 25. Sector externo; [3]
Procesado Nay. 3 Población.xls |||NOMBRE:||| 3. Población; [3]
Procesado Nay. 4 Vivienda y urbanización.xls |||NOMBRE:||| 4. Vivienda y urbanización; [3]
Procesado Nay. 5 Salud.xls |||NOMBRE:||| 5. Salud; [3]
Procesado Nay. 6 Educación, ciencia y tecnología.xls |||NOMBRE:||| 6. Educación, ciencia y tecnología; [3]
Procesado Nay. 7 Cultura y deporte.xls |||NOMBRE:||| 7. Cultura y deporte; [3]
Procesado Nay. 8 Gobierno.xls |||NOMBRE:||| 8. Gobierno; [3]
Procesado Nay. 9 Seguridad y justicia.xls |||NOMBRE:||| 9. Seguridad y justicia; [3]
Procesado Nl. 1 Aspectos geográficos.xls |||NOMBRE:||| 1. Aspectos geográficos; [9]
Procesado Nl. 10 Trabaj

Procesado Qro. 7 Cultura y deporte.xls |||NOMBRE:||| 7. Cultura y deporte; [3]
Procesado Qro. 8 Gobierno.xls |||NOMBRE:||| 8. Gobierno; [3]
Procesado Qro. 9 Seguridad y justicia.xls |||NOMBRE:||| 9. Seguridad y justicia; [3]
Procesado Qroo. 1 Aspectos geográficos.xls |||NOMBRE:||| 1. Aspectos geográficos; [9]
Procesado Qroo. 10 Trabajo.xls |||NOMBRE:||| 10. Trabajo; [3]
Procesado Qroo. 11 Información económica agregada.xls |||NOMBRE:||| 11. Información económica agregada; [3]
Procesado Qroo. 12 Agricultura.xls |||NOMBRE:||| 12. Agricultura; [3]
Procesado Qroo. 13 Ganadería.xls |||NOMBRE:||| 13. Ganadería; [3]
Procesado Qroo. 14 Aprovechamiento forestal.xls |||NOMBRE:||| 14. Aprovechamiento forestal; [3]
Procesado Qroo. 15 Pesca.xls |||NOMBRE:||| 15. Pesca; [3]
Procesado Qroo. 16 Minería.xls |||NOMBRE:||| 16. Minería; [3]
Procesado Qroo. 17 Industria manufacturera.xls |||NOMBRE:||| 17. Industria manufacturera; [3]
Procesado Qroo. 18 Construcción.xls |||NOMBRE:||| 18. Construcción; [3]
P

Procesado Tab. 17 Industria manufacturera.xls |||NOMBRE:||| 17. Industria manufacturera; [3]
Procesado Tab. 18 Construcción.xls |||NOMBRE:||| 18. Construcción; [3]
Procesado Tab. 19 Electricidad.xls |||NOMBRE:||| 19. Electricidad; [3]
Procesado Tab. 2 Medio ambiente.xls |||NOMBRE:||| 2. Medio ambiente; [3]
Procesado Tab. 20 Comercio.xls |||NOMBRE:||| 20. Comercio; [3]
Procesado Tab. 21 Turismo.xls |||NOMBRE:||| 21. Turismo; [3]
Procesado Tab. 22 Transportes y comunicaciones.xls |||NOMBRE:||| 22. Transportes y comunicaciones; [3]
Procesado Tab. 23 Indicadores financieros.xls |||NOMBRE:||| 23. Indicadores financieros; [3]
Procesado Tab. 24 Finanzas públicas.xls |||NOMBRE:||| 24. Finanzas públicas; [3]
Procesado Tab. 25 Indicadores de los Objetivos de Desarrollo del Milenio.xls |||NOMBRE:||| 25. Sector externo; [3]
Procesado Tab. 3 Población.xls |||NOMBRE:||| 3. Población; [3]
Procesado Tab. 4 Vivienda y urbanización.xls |||NOMBRE:||| 4. Vivienda y urbanización; [3]
Procesado Tab. 5 Salud

Procesado Yuc. 22 Transportes y comunicaciones.xls |||NOMBRE:||| 22. Transportes y comunicaciones; [3]
Procesado Yuc. 23 Indicadores financieros.xls |||NOMBRE:||| 23. Indicadores financieros; [3]
Procesado Yuc. 24 Finanzas públicas.xls |||NOMBRE:||| 24. Finanzas públicas; [3]
Procesado Yuc. 25 Sector externo.xls |||NOMBRE:||| 25. Sector externo; [3]
Procesado Yuc. 3 Población.xls |||NOMBRE:||| 3. Población; [3]
Procesado Yuc. 4 Vivienda y urbanización.xls |||NOMBRE:||| 4. Vivienda y urbanización; [3]
Procesado Yuc. 5 Salud.xls |||NOMBRE:||| 5. Salud; [3]
Procesado Yuc. 6 Educación, ciencia y tecnología.xls |||NOMBRE:||| 6. Educación, ciencia y tecnología; [3]
Procesado Yuc. 7 Cultura y deporte.xls |||NOMBRE:||| 7. Cultura y deporte; [3]
Procesado Yuc. 8 Gobierno.xls |||NOMBRE:||| 8. Gobierno; [3]
Procesado Yuc. 9 Seguridad y justicia.xls |||NOMBRE:||| 9. Seguridad y justicia; [3]
Procesado Zac. 1 Aspectos geográficos.xls |||NOMBRE:||| 1. Aspectos geográficos; [9]
Procesado Zac. 10 Trab

In [12]:
# Reordenar los dataframes por tipo
indices_2 = {}
for estado in indices.keys():
    for indice in indices[estado].keys():
        if indice not in indices_2.keys():
            indices_2[indice] = {}
        indices_2[indice][estado] = indices[estado][indice]

In [13]:
# Convertir indices en archivos unicos.
finalindexes = {}
for i in indices_2.keys():
    print(i)
    frameslist = []
    for estado in indices_2[i].keys():
        frame = indices_2[i][estado]
        frame['estado'] = estado
        frameslist.append(frame)
    fullindex = pd.concat(frameslist)
    finalindexes[i] = fullindex
    print('Hecho: {}\n'.format(i))

1. Aspectos geográficos
Hecho: 1. Aspectos geográficos

10. Trabajo
Hecho: 10. Trabajo

11. Información económica agregada
Hecho: 11. Información económica agregada

12. Agricultura
Hecho: 12. Agricultura

13. Ganadería
Hecho: 13. Ganadería

14. Aprovechamiento forestal
Hecho: 14. Aprovechamiento forestal

15. Pesca
Hecho: 15. Pesca

16. Minería
Hecho: 16. Minería

17. Industria manufacturera
Hecho: 17. Industria manufacturera

18. Construcción
Hecho: 18. Construcción

19. Electricidad
Hecho: 19. Electricidad

2. Medio ambiente
Hecho: 2. Medio ambiente

20. Comercio
Hecho: 20. Comercio

21. Turismo
Hecho: 21. Turismo

22. Transportes y comunicaciones
Hecho: 22. Transportes y comunicaciones

23. Indicadores financieros
Hecho: 23. Indicadores financieros

24. Finanzas públicas
Hecho: 24. Finanzas públicas

25. Sector externo
Hecho: 25. Sector externo

3. Población
Hecho: 3. Población

4. Vivienda y urbanización
Hecho: 4. Vivienda y urbanización

5. Salud
Hecho: 5. Salud

6. Educación, ci

In [110]:
# Escribir archivos xlsx
path = r'D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices'
for indice in finalindexes.keys():
    file = path+'\\'+indice+'.xlsx'
    writer = pd.ExcelWriter(file)
    finalindexes[indice].to_excel(writer, sheet_name = 'Indice')
    writer.save()
    print('[{}] lineas - archivo {}'.format(len(finalindexes[indice]), file))

[1852] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\1. Aspectos geográficos.xlsx
[3343] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\10. Trabajo.xlsx
[896] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\11. Información económica agregada.xlsx
[540] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\12. Agricultura.xlsx
[1164] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\13. Ganadería.xlsx
[966] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\14. Aprovechamiento forestal.xlsx
[269] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\15. Pesca.xlsx
[275] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\16. Minería.xlsx
[169] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\17. Industria manufacturera.xlsx
[593] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\18. Construcción.xlsx
[822] lineas - archivo D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\19. Electrici

Los índices obtenidos de esta manera recibirán una limpieza manual desde Excel.

### Estandarizacion de datos para Parámetros.

**P0610 Ventas de electricidad**
Debido a la falta de estructura de los índices de parámetros de electricidad, tuvieron que ser estandarizados manualmente en excel. Con los índices estandarizados ya es posible generar un iterador 

In [17]:
# Importar dataset de índices
f_indice = r'D:\PCCS\01_Dmine\Datasets\AGEO\2017\indices\Limpios\Electricidad.xlsx'
ds_indices = pd.read_excel(f_indice, dtype={'Numeral':'str', 'estado':'str'}).set_index('estado')
ds_indices.head()

Unnamed: 0_level_0,Numeral,Titulo,indice,file,Date,Units
estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
9,17.1,"Centrales generadoras, unidades de generación,...",17. Electricidad,CDMX. 17 Electricidad.xls,2016,
9,17.2,"Usuarios, volumen y valor de las ventas de ene...",17. Electricidad,CDMX. 17 Electricidad.xls,2016,
9,17.3,Usuarios de energía eléctrica por delegación s...,17. Electricidad,CDMX. 17 Electricidad.xls,Al 31 de diciembre de 2016,
9,17.4,Volumen de las ventas de energía eléctrica por...,17. Electricidad,CDMX. 17 Electricidad.xls,2016,(Megawatts-hora)
9,17.5,Valor de las ventas de energía eléctrica por d...,17. Electricidad,CDMX. 17 Electricidad.xls,Al 31 de diciembre de 2016,(Miles de pesos)


Seleccionar renglones correspondientes a volumen de ventas de energía en MW/h

In [28]:
# Dataframe con índice de hojas sobre el tema "Ventas de electricidad"
ventaselec = ds_indices[ds_indices['Units'] == '(Megawatts-hora)']
ventaselec.head()

Unnamed: 0_level_0,Numeral,Titulo,indice,file,Date,Units
estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
9,17.4,Volumen de las ventas de energía eléctrica por...,17. Electricidad,CDMX. 17 Electricidad.xls,2016,(Megawatts-hora)
1,19.3,Volumen de las ventas de energía eléctrica por...,19. Electricidad,Ags. 19 Electricidad.xls,2016,(Megawatts-hora)
2,19.4,Volumen de las ventas de energía eléctrica por...,19. Electricidad,Bc. 19 Electricidad.xls,2016,(Megawatts-hora)
3,19.4,Volumen de las ventas de energía eléctrica por...,19. Electricidad,Bcs. 19 Electricidad.xls,2016,(Megawatts-hora)
4,19.4,Volumen de las ventas de energía eléctrica por...,19. Electricidad,Cam. 19 Electricidad.xls,2016,(Megawatts-hora)


In [29]:
len(ventaselec)

32

In [37]:
# Crear columna con rutas
path = r'D:\PCCS\00_RawData\01_CSV\AGEO\2017'
ventaselec['path'] = path+'\\'+ventaselec.index+'\\'+ventaselec['file']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  This is separate from the ipykernel package so we can avoid doing imports until


In [269]:
# Definir función para traer datos a python
unnameds = set(['Unnamed: '+str(i) for i in range(0, 50)])   # Lista 'Unnamed: x' de 0 a 50

def get_ventas(path, sheet, estado):
    temp = pd.ExcelFile(path)
    temp = temp.parse(sheet, header = 6).dropna(axis = 0, how='all').dropna(axis = 1, how='all')
    
    # Elimina las columnas unnamed
    dropplets = set(temp.columns).intersection(unnameds)
    temp = temp.drop(dropplets, axis = 1)
    temp = temp.dropna(axis = 0, how='all')
    temp = temp.reset_index().drop('index', axis = 1)
    
    # Identifica los últimos renglones, que no contienen datos
    col0 = temp.columns[0]        # Nombre de la columna 0, para usarlo en un chingo de lugares. Bueno 3
    try: tempnotas = temp[col0][temp[col0] == 'Nota:'].index[0]  # Para las hojas que terminan en 'Notas'
    except: tempnotas = temp[col0][temp[col0] == 'a/'].index[0]   # Para las hojas que terminan en 'a/'
    print(tempnotas)
    
    # Aparta los renglones después de "a/"
    trashes = temp.iloc[tempnotas:-1]
    
    # Elimina los renglones después de "a/"
    temp = temp.iloc[0:tempnotas]
    
    # Crear columna de estado y renombrar la primera columna para poder concatenar datframes más tarde.
    temp['CVE_EDO'] = estado
    temp = temp.rename(columns={col0:'NOM_MUN'})
    print(type(temp))
    
    return temp, trashes

In [167]:
temp1.columns[0]

'Delegación'

In [168]:
temp1[temp1.columns[0]]

0                        NaN
1           Ciudad de México
2             Álvaro Obregón
3               Azcapotzalco
4              Benito Juárez
5                   Coyoacán
6      Cuajimalpa de Morelos
7                 Cuauhtémoc
8          Gustavo A. Madero
9                  Iztacalco
10                Iztapalapa
11    La Magdalena Contreras
12            Miguel Hidalgo
13                Milpa Alta
14                   Tláhuac
15                   Tlalpan
16       Venustiano Carranza
17                Xochimilco
18                     Nota:
19                        a/
20                        b/
21                        c/
22                        d/
23                        e/
24                   Fuente:
25                         &
Name: Delegación, dtype: object

**Extraer datos de todas las ciudades**

Por medio de una función que se aplica al dataframe ventaselec, obtenemos los datos de ventas de energía eléctrica para todos los estados. Esta función incluye lineas para verificar los datasets extraidos.

In [261]:
# Funcion para extraer datos
def getdata(serie, estado):
    path = serie['path']
    sheet = serie['Numeral']
    print('{}\n{}'.format('-'*30, path))     # Imprime la ruta hacia el archivo
    print('Hoja: {}'.format(sheet))          # Imprime el nombre de la hoja que se va a extraer
    temp = get_ventas(path, sheet, estado)
    print(temp.iloc[[0, -1]][temp.columns[0]])
    print(list(temp))
    print(('len = {}'.format(len(temp))))
    return temp

In [262]:
ventasdic = {}
trashesdic = {}
for estado in ventaselec.index:
    ventasdic[estado], trashesdic[estado] = getdata(ventaselec.loc[estado], estado)

------------------------------
D:\PCCS\00_RawData\01_CSV\AGEO\2017\09\CDMX. 17 Electricidad.xls
Hoja: 17.4
17
<class 'pandas.core.frame.DataFrame'>
0     Ciudad de México
16          Xochimilco
Name: NOM_MUN, dtype: object
['NOM_MUN', 'Total', 'Doméstico', 'Alumbrado\npúblico', 'Bombeo de aguas \npotables y negras', 'Agrícola', 'Industrial y \nde servicios', 'CVE_EDO']
len = 17
------------------------------
D:\PCCS\00_RawData\01_CSV\AGEO\2017\01\Ags. 19 Electricidad.xls
Hoja: 19.3
12
<class 'pandas.core.frame.DataFrame'>
0       Estado
11    Tepezalá
Name: NOM_MUN, dtype: object
['NOM_MUN', 'Total', 'Doméstico', 'Alumbrado\npúblico', 'Bombeo de aguas \npotables y negras', 'Agrícola', 'Industrial y \nde servicios', 'CVE_EDO']
len = 12
------------------------------
D:\PCCS\00_RawData\01_CSV\AGEO\2017\02\Bc. 19 Electricidad.xls
Hoja: 19.4
6
<class 'pandas.core.frame.DataFrame'>
0     Estado
5    Tijuana
Name: NOM_MUN, dtype: object
['NOM_MUN', 'Total', 'Doméstico', 'Alumbrado\npúblico',

------------------------------
D:\PCCS\00_RawData\01_CSV\AGEO\2017\27\Tab. 19 Electricidad.xls
Hoja: 19.3
18
<class 'pandas.core.frame.DataFrame'>
0        Estado
17    Tenosique
Name: NOM_MUN, dtype: object
['NOM_MUN', 'Total', 'Doméstico', 'Alumbrado\npúblico', 'Bombeo de aguas \npotables y negras', 'Agrícola', 'Industrial y \nde servicios', 'CVE_EDO']
len = 18
------------------------------
D:\PCCS\00_RawData\01_CSV\AGEO\2017\28\Tamps. 19 Electricidad.xls
Hoja: 19.4
45
<class 'pandas.core.frame.DataFrame'>
0              Estado
44    No especificado
Name: NOM_MUN, dtype: object
['NOM_MUN', 'Total', 'Doméstico', 'Alumbrado\npúblico', 'Bombeo de aguas \npotables y negras', 'Agrícola', 'Industrial y \nde servicios', 'CVE_EDO']
len = 45
------------------------------
D:\PCCS\00_RawData\01_CSV\AGEO\2017\29\Tlax. 19 Electricidad.xls
Hoja: 19.3
63
<class 'pandas.core.frame.DataFrame'>
0      
62     
Name: NOM_MUN, dtype: object
['NOM_MUN', 'Total', 'Doméstico', 'a/', 'Alumbrado\npúblico',

In [265]:
ventasdic['09']

Unnamed: 0,NOM_MUN,Total,Doméstico,Alumbrado público,Bombeo de aguas potables y negras,Agrícola,Industrial y de servicios,CVE_EDO
0,Ciudad de México,14500021.99,3260893.8,647077.29,409572.9,737.0,10181741.0,9
1,Álvaro Obregón,1053345.4,277293.3,49974.58,10039.52,0.0,716038.0,9
2,Azcapotzalco,932103.88,169024.59,25533.89,11092.4,0.0,726453.0,9
3,Benito Juárez,1155190.91,261104.2,45049.06,18201.65,0.0,830836.0,9
4,Coyoacán,1049963.15,269165.37,56786.0,50700.78,0.0,673311.0,9
5,Cuajimalpa de Morelos,486602.73,109032.59,2994.41,20037.73,0.0,354538.0,9
6,Cuauhtémoc,1991862.94,234355.24,51756.96,3040.74,0.0,1702710.0,9
7,Gustavo A. Madero,1266887.71,393779.57,81768.85,7463.29,0.0,783876.0,9
8,Iztacalco,474297.6,144640.66,27044.6,4448.34,0.0,298164.0,9
9,Iztapalapa,1943814.92,494391.53,136657.64,81385.75,0.0,1231380.0,9


In [266]:
ventaselec['path']

estado
09    D:\PCCS\00_RawData\01_CSV\AGEO\2017\09\CDMX. 1...
01    D:\PCCS\00_RawData\01_CSV\AGEO\2017\01\Ags. 19...
02    D:\PCCS\00_RawData\01_CSV\AGEO\2017\02\Bc. 19 ...
03    D:\PCCS\00_RawData\01_CSV\AGEO\2017\03\Bcs. 19...
04    D:\PCCS\00_RawData\01_CSV\AGEO\2017\04\Cam. 19...
05    D:\PCCS\00_RawData\01_CSV\AGEO\2017\05\Coah. 1...
06    D:\PCCS\00_RawData\01_CSV\AGEO\2017\06\Col. 19...
07    D:\PCCS\00_RawData\01_CSV\AGEO\2017\07\Chis. 1...
08    D:\PCCS\00_RawData\01_CSV\AGEO\2017\08\Chih. 1...
10    D:\PCCS\00_RawData\01_CSV\AGEO\2017\10\Dgo. 19...
11    D:\PCCS\00_RawData\01_CSV\AGEO\2017\11\Gto. 19...
12    D:\PCCS\00_RawData\01_CSV\AGEO\2017\12\Gro. 19...
13    D:\PCCS\00_RawData\01_CSV\AGEO\2017\13\Hgo. 19...
14    D:\PCCS\00_RawData\01_CSV\AGEO\2017\14\Jal. 19...
15    D:\PCCS\00_RawData\01_CSV\AGEO\2017\15\Mex. 19...
16    D:\PCCS\00_RawData\01_CSV\AGEO\2017\16\Mich. 1...
17    D:\PCCS\00_RawData\01_CSV\AGEO\2017\17\Mor. 19...
18    D:\PCCS\00_RawData\01_CSV\AGEO\2017