# Usuarios de Energía Eléctrica

Parámetros que se obtienen desde esta fuente

ID |Descripción
---|:----------
P0609|Usuarios eléctricos

In [1]:
descripciones = {
    'P0609': 'Usuarios Electricos'
}

In [2]:
# Librerias utilizadas
import pandas as pd
import sys
import urllib
import os
import csv
import zipfile

In [3]:
# Configuracion del sistema
print('Python {} on {}'.format(sys.version, sys.platform))
print('Pandas version: {}'.format(pd.__version__))
import platform; print('Running on {} {}'.format(platform.system(), platform.release()))

Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:25:24) [MSC v.1900 64 bit (AMD64)] on win32
Pandas version: 0.20.1
Running on Windows 8.1


## 2. Descarga de datos

In [4]:
url = r'http://datos.cfe.gob.mx/Datos/Usuariosyconsumodeelectricidadpormunicipio.csv'
archivo_local = r'D:\PCCS\00_RawData\01_CSV\CFE\UsuariosElec.csv'

if os.path.isfile(archivo_local):
        print('Ya existe el archivo: {}'.format(archivo_local))
else:
    print('Descargando {} ... ... ... ... ... '.format(archivo_local))
    urllib.request.urlretrieve(url, archivo_local)
    print('se descargó {}'.format(archivo_local))

Ya existe el archivo: D:\PCCS\00_RawData\01_CSV\CFE\UsuariosElec.csv


## 3. Estandarizacion de datos de Parámetros

In [5]:
dtypes = {                        # Los valores numericos del CSV estan guardados como " 000,000 " y requieren limpieza
    'Cve Mun':'str',
    '2010':'str', 
    '2011':'str', 
    '2012':'str', 
    '2013':'str', 
    '2014':'str', 
    '2015':'str', 
    '2016':'str', 
    'ene-17':'str', 
    'feb-17':'str', 
    'mar-17':'str', 
    'abr-17':'str', 
    'may-17':'str', 
    'jun-17':'str', 
    'jul-17':'str', 
    'ago-17':'str', 
    'sep-17':'str', 
    'oct-17':'str', 
    'nov-17':'str', 
    'dic-17':'str'}

# Lectura del Dataset
dataset = pd.read_csv(archivo_local, skiprows = 2, nrows = 82236, na_values = ' -   ',
                     dtype=dtypes)   # Lee el dataset
dataset['CVE_EDO'] = dataset['Cve Inegi'].apply(lambda x: '{0:0>2}'.format(x))               # CVE_EDO de 2 digitos
dataset['CVE_MUN'] = dataset['CVE_EDO'].map(str) + dataset['Cve Mun']
dataset.head()

Unnamed: 0,Cve Edo,Cve Inegi,Cve Mun,Entidad Federativa,Municipio,Tarifa,2010,2011,2012,2013,...,jun-17,jul-17,ago-17,sep-17,oct-17,nov-17,dic-17,Unnamed: 25,CVE_EDO,CVE_MUN
0,1,1,1,Aguascalientes ...,Aguascalientes ...,01,231727.0,236475.0,244474.0,251805.0,...,279792,280410,281356,281932,282681,0,0,,1,1001
1,1,1,1,Aguascalientes ...,Aguascalientes ...,1A,,,,,...,2,3,3,3,3,0,0,,1,1001
2,1,1,1,Aguascalientes ...,Aguascalientes ...,1B,,,,,...,0,0,0,0,0,0,0,,1,1001
3,1,1,1,Aguascalientes ...,Aguascalientes ...,1C,,,,,...,2,2,2,0,0,0,0,,1,1001
4,1,1,1,Aguascalientes ...,Aguascalientes ...,1D,,,,,...,0,0,0,0,0,0,0,,1,1001


In [6]:
# Quitar espacios en blanco y comas de columnas que deberian ser numericas
columnums = ['2010', '2011', '2012', '2013', '2014', '2015', '2016', 'ene-17', 'feb-17', 'mar-17', 'abr-17', 'may-17', 'jun-17', 'jul-17', 'ago-17', 'sep-17', 'oct-17', 'nov-17', 'dic-17']
for columna in columnums:
    dataset[columna] = dataset[columna].str.replace(' ','')
    dataset[columna] = dataset[columna].str.replace(',','')
dataset.head()

Unnamed: 0,Cve Edo,Cve Inegi,Cve Mun,Entidad Federativa,Municipio,Tarifa,2010,2011,2012,2013,...,jun-17,jul-17,ago-17,sep-17,oct-17,nov-17,dic-17,Unnamed: 25,CVE_EDO,CVE_MUN
0,1,1,1,Aguascalientes ...,Aguascalientes ...,01,231727.0,236475.0,244474.0,251805.0,...,279792,280410,281356,281932,282681,0,0,,1,1001
1,1,1,1,Aguascalientes ...,Aguascalientes ...,1A,,,,,...,2,3,3,3,3,0,0,,1,1001
2,1,1,1,Aguascalientes ...,Aguascalientes ...,1B,,,,,...,0,0,0,0,0,0,0,,1,1001
3,1,1,1,Aguascalientes ...,Aguascalientes ...,1C,,,,,...,2,2,2,0,0,0,0,,1,1001
4,1,1,1,Aguascalientes ...,Aguascalientes ...,1D,,,,,...,0,0,0,0,0,0,0,,1,1001


In [7]:
# Convertir columnas a numericas 
columnasanios = ['2010', '2011', '2012', '2013', '2014', '2015', '2016', 'ene-17', 'feb-17',
 'mar-17', 'abr-17', 'may-17', 'jun-17', 'jul-17', 'ago-17', 'sep-17', 'oct-17', 'nov-17', 'dic-17']
for columna in columnasanios:
    dataset[columna] = pd.to_numeric(dataset[columna], errors='coerce', downcast = 'integer')
dataset.head()

Unnamed: 0,Cve Edo,Cve Inegi,Cve Mun,Entidad Federativa,Municipio,Tarifa,2010,2011,2012,2013,...,jun-17,jul-17,ago-17,sep-17,oct-17,nov-17,dic-17,Unnamed: 25,CVE_EDO,CVE_MUN
0,1,1,1,Aguascalientes ...,Aguascalientes ...,01,231727.0,236475.0,244474.0,251805.0,...,279792,280410,281356,281932,282681,0,0,,1,1001
1,1,1,1,Aguascalientes ...,Aguascalientes ...,1A,,,,,...,2,3,3,3,3,0,0,,1,1001
2,1,1,1,Aguascalientes ...,Aguascalientes ...,1B,,,,,...,0,0,0,0,0,0,0,,1,1001
3,1,1,1,Aguascalientes ...,Aguascalientes ...,1C,,,,,...,2,2,2,0,0,0,0,,1,1001
4,1,1,1,Aguascalientes ...,Aguascalientes ...,1D,,,,,...,0,0,0,0,0,0,0,,1,1001


In [8]:
# Quitar columnas que ya no se utilizarán
dropcols = ['Cve Edo', 'Cve Inegi', 'Cve Mun', 'Entidad Federativa', 'Municipio', 'Unnamed: 25', 'CVE_EDO']
dataset = dataset.drop(dropcols, axis = 1)
# Asignar CVE_EDO como indice
dataset = dataset.set_index('CVE_MUN')
dataset.head()

Unnamed: 0_level_0,Tarifa,2010,2011,2012,2013,2014,2015,2016,ene-17,feb-17,mar-17,abr-17,may-17,jun-17,jul-17,ago-17,sep-17,oct-17,nov-17,dic-17
CVE_MUN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
1001,01,231727.0,236475.0,244474.0,251805.0,258658.0,266481.0,272727,274480,274960,276209,277409,278329,279792,280410,281356,281932,282681,0,0
1001,1A,,,,,,,5,0,0,1,1,1,2,3,3,3,3,0,0
1001,1B,,,,,,,65,64,64,64,64,0,0,0,0,0,0,0,0
1001,1C,,,,,,,0,0,0,0,0,1,2,2,2,0,0,0,0
1001,1D,,,,,,,0,0,0,0,0,0,0,0,0,0,0,0,0


In [9]:
# Sumar las columnas de 2017
columnas2017 = ['ene-17', 'feb-17', 'mar-17', 'abr-17', 'may-17', 'jun-17', 'jul-17', 'ago-17', 'sep-17', 'oct-17', 'nov-17', 'dic-17']
dataset['2017'] = dataset[columnas2017].sum(axis = 1)

# Eliminar columnas de 2017
dataset = dataset.drop(columnas2017, axis = 1)
dataset.head()

Unnamed: 0_level_0,Tarifa,2010,2011,2012,2013,2014,2015,2016,2017
CVE_MUN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1001,01,231727.0,236475.0,244474.0,251805.0,258658.0,266481.0,272727,2787558
1001,1A,,,,,,,5,17
1001,1B,,,,,,,65,256
1001,1C,,,,,,,0,7
1001,1D,,,,,,,0,0


## Exportar Dataset
Antes de exportar el dataset voy a reducir su tamaño porque tiene 82,236 renglones divididos por tarifa. ÚNicamente voy a dejar los totales de todas las tarifas.

In [17]:
len(dataset)

82236

In [16]:
dataset.head(40)

Unnamed: 0_level_0,Tarifa,2010,2011,2012,2013,2014,2015,2016,2017
CVE_MUN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1001,01,231727.0,236475.0,244474.0,251805.0,258658.0,266481.0,272727,2787558
1001,1A,,,,,,,5,17
1001,1B,,,,,,,65,256
1001,1C,,,,,,,0,7
1001,1D,,,,,,,0,0
1001,1E,,,,,,,0,0
1001,1F,,,,,,,0,0
1001,DAC,4251.0,3827.0,3231.0,3081.0,2720.0,2500.0,2788,27384
1001,02,31502.0,32093.0,32998.0,33564.0,34267.0,35421.0,36380,372160
1001,03,14.0,18.0,18.0,18.0,18.0,19.0,10,180


In [21]:
dataset_total = dataset[dataset['Tarifa'] == 'TOTAL']
dataset_total.head()

Unnamed: 0_level_0,Tarifa,2010,2011,2012,2013,2014,2015,2016,2017
CVE_MUN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1001,TOTAL,272440.0,277517.0,285996.0,293916.0,301276.0,310154.0,317735,3245862
1002,TOTAL,12321.0,12619.0,13017.0,13321.0,13576.0,14062.0,14546,148696
1003,TOTAL,18474.0,18961.0,19500.0,19851.0,20303.0,20803.0,21447,217851
1004,TOTAL,4027.0,4134.0,4206.0,4295.0,4391.0,4512.0,4525,45919
1005,TOTAL,29947.0,31838.0,33700.0,35056.0,36338.0,38424.0,39648,412552


In [22]:
len(dataset_total)

2492