# INTRODUCCIÓN A PANDAS

* ###### Si tienes dudas sobre los comandos puedes enviarlas a **jesicatapia@gmail** ccp **benjov@ciencias.unam.mx**
Los datos consultados en este notebook proceden de :https://datos.cdmx.gob.mx/explore/dataset/consumo-agua/export/ y
https://www.gob.mx/cms/uploads/attachment/file/503374/Diccionario_Proyecciones_de_la_Poblacion_2016_2050.pdf

**PANDAS** es una biblioteca de python utilizada para  manipular y análizar  datos. El nombre deriva del término "panel data" (datos panel).

La estructura básica de PANDAS es el Dataframe.

Un **DataFrame** es un objeto bidimensional (tabla) que puede tener columnas con diferentes tipos de información. Los diferentes tipos de entradas incluyen diccionarios, listas, series e incluso otro DataFrame.

**1) IMPORTAR LA BIBLIOTECA**: Para utilizar PANDAS es necesario importar esta biblioteca así como Numpy

In [1]:
import pandas as pd
import numpy as np

# OJO: CORRE ESTA CELDA SÓLO EN CASO DE QUE LA INSTRUCCION PARA IMPORTAR PANDAS FALLE. DESPUÉS VUELVE A CORRER 1)

In [2]:
#!pip install pip
#!pip install pandas
#!pip install numpy

**2) DISTINTAS FORMAS DE CREAR UN DATAFRAME**

**A) De una lista a un Serie:**

Para crear la serie debemos creamos una variable que contendrá los elementos de la serie, utilizar la instrucción que le indica a PANDAS que el contenido es una serie, y guardar los elementos de la serie entre paréntesis y corchete.

*Instrucción: pd.Series*

*Sintaxis: nombrevariable =Instrucción([elemento1,elemento2,....elementon]*

Por ejemplo, vamos a crear una serie con la lista de tus materias.

In [3]:
data_series = pd.Series(["Historia", "Estadística II", "Econometría",
                         "Filosofía", "Literatura"])
data_series

0          Historia
1    Estadística II
2       Econometría
3         Filosofía
4        Literatura
dtype: object

**B) De una lista de diccionarios a DataFrame:** 

Un listado de diccionarios puede convertirse en un DataFrame utilizando la **Instrucción pd.DataFrame.** Primero asiganos la lista de diccionarios a una variable y luego aplicamos la instrucción pd. Dataframe a dicha variable.

*Instrucción: pd. Dataframe*

*Sintaxis: nombredataframe=Instruccion(variable que contiene la lista de diccionarios)*
    
Un ejemplo clásico es la información de  los Estados de la Republica y su clave en INEGI    
 

In [4]:
# Convertir una lista de diccionarios a DataFrame
#Sintaxis:nombrelistadic=[{"KEY":"VALUE","KEY":VALUE"},{"KEY":"VALUE","KEY":VALUE"}]
#nombredataFrame=pd.Dataframe(nombrelistadic)

listadiccionario = [{"ESTADO": "AGUASCALIENTES", "CLAVEINEGIESTADO":"01"},
                {"ESTADO": "ZACATECAS", "CLAVEINEGIESTADO":"32"}]

df_estados = pd.DataFrame(listadiccionario)
df_estados

Unnamed: 0,ESTADO,CLAVEINEGIESTADO
0,AGUASCALIENTES,1
1,ZACATECAS,32


**C) De un diccionario de listas a un DataFrame**

Un diccionario creado a partir de varias listas puede convertirse en un DataFrame con la instrucción **pd.DataFrame**

*Sintaxis: nombredataFrame=pd.Dataframe({"lista1":[elemento 1,elemento 2,...,elemento n],"lista2":[elemento 1,elemento 2,...,elemento n],"lista n":[elemento n1,elemento n2,...,elemento nn]})*


In [5]:
dfpoblacion = pd.DataFrame(
    {"Delegación": ["Coyoacán", "Miguel Hidalgo"],
     "Claveinegi": ["090030001", "090160001"],
     "Población": ["620,416", "372,889"]})
dfpoblacion

Unnamed: 0,Delegación,Claveinegi,Población
0,Coyoacán,90030001,620416
1,Miguel Hidalgo,90160001,372889


# EJERCICIO

In [6]:
# Crea un  DataFrame a partir de un diccionario de listas completando la información faltante
# = pd.DataFrame({
   # "": ["Carlos", "", "Rosa", , "Luis"],
    #"Edad": [15.00, 12.50, 10.00, 5.00, 1.00],
    # [1.75, 1.68, 1.64, 1.72, "N/D"]
#})


**D) Crear DataFrame a partir de un archivo externo.**

Regualarmente, en esta clase trabajaremos con arcivos de bases de datos externos, con formatos csv, xls, entre otros.
Para que Python "lea" y manipule los datos de dichas bases de datos, a veces es necesario importar la biblioteca correspondiente a cada extension, de acuerdo a los archivos que se quieran manipular.Tal como se ha trabajado en este notebook se debe utilizar la instrucción:-import x as - abreviatura de la biblioteca-

*Para mayor información te sugerimos estos enlaces:
http://www.developerpe.com/blog/cargar_panda_csv_txt_json_xlsx/
https://pandas.pydata.org/docs/user_guide/cookbook.html?highlight=read#data-in-out*

**Por ejemplo:
import csv**

En este caso **NO** será necesario debido a que la instalación de Pandas incluye csv.

**Para crar un DataFrame con información de un archivo externo**

**1)** Primero guardamos la ruta del archivo en una variable

In [7]:
aguacsv = "Downloads/consumoagua.csv"

**2)** Le damos un nombre a nuestro DataFrame y con ayuda de la instrucción **pd.read_csv**, leemos los datos del csv.

* ###### Ojo:la instrucción encoding no es estrictamente necesaria, pero nos ayudará a que todos los caracteres sean interpretados correctamente

In [8]:
consumodf = pd.read_csv(aguacsv,encoding="UTF-8")

* ###### Para ver el encabezado del del DataFRame utilizamos la instrucción .head(),  por default muestra las primeras 5 líneas.
Sintaxis: nombredataframe.head()


In [9]:
consumodf.head()

Unnamed: 0,Geo Point,Geo Shape,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des
0,"19.4982924872,-99.1990438826","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",307.09,2019.0,Azcapotzalco,41.43,455.73,Azcapotzalco,TIERRA NUEVA,51.181668,1029.5,54.184211,133.34,1.0,266.68,10206.0,BAJO
1,"19.4988910559,-99.2009080554","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",63.78,2019.0,Azcapotzalco,61.337142,429.36,Azcapotzalco,TIERRA NUEVA,15.945,530.88,40.836923,18.87,1.0,37.74,10203.0,BAJO
2,"19.4808107353,-99.2087681126","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",129.81,2019.0,Azcapotzalco,24.724412,840.63,Azcapotzalco,SAN ANTONIO,64.905003,980.96,25.814737,5.26,1.0,10.52,10211.0,MEDIO
3,"19.4815775288,-99.2034616053","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",142.2,2019.0,Azcapotzalco,22.798462,592.76,Azcapotzalco,SAN ANTONIO,142.199997,766.23,27.365357,31.27,1.0,31.27,10217.0,BAJO
4,"19.4794098214,-99.2027692099","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",71.38,2019.0,Azcapotzalco,37.390334,1121.71,Azcapotzalco,SAN ANTONIO,35.69,1203.12,36.458182,10.03,1.0,10.03,10220.0,BAJO


* ###### Para ver la información de una columna en particular y sus primeros 10 registros utilizamos la sintaxis: nombredataframe["columna"].head(10)

In [10]:
consumodf["alcaldia"].head(10)

0    Azcapotzalco
1    Azcapotzalco
2    Azcapotzalco
3    Azcapotzalco
4    Azcapotzalco
5    Azcapotzalco
6    Azcapotzalco
7    Azcapotzalco
8    Azcapotzalco
9    Azcapotzalco
Name: alcaldia, dtype: object

* ###### Para mostrar múltiples columnas utilizamos la  Sintaxis: nombredataframe[["columnaA","columnaB"]].head(n) -nota los corchetes dobles


In [11]:
consumodf[["alcaldia", "consumo_prom"]].head()

Unnamed: 0,alcaldia,consumo_prom
0,Azcapotzalco,54.184211
1,Azcapotzalco,40.836923
2,Azcapotzalco,25.814737
3,Azcapotzalco,27.365357
4,Azcapotzalco,36.458182


* ###### Para saber cuántos datos tenemos utilizamos la sintaxis nombredataframe.shape

In [64]:
consumodf.shape

(39344, 13)

# FUNCIONES BÁSICAS DE PANDAS PARA ANALIZAR UN DATAFRAME 

Tal como está, nuestro DataFrame no nos permite revisar la información de forma sencilla, para ordenar y limpiar los datos que tenemos debemos realizar una serie de operaciones. Cada una de las instrucciones que se muestran a continuación pueden se guardadas en una variable para posteriormente ser utilizadas

* Para mostrar el nombre de todas las columnas que componen nuestro DataFrame utilizamos la instrucción **.columns**

 **Sintaxis:** nombredataframe.columns()

In [12]:
consumodf.columns

Index(['Geo Point', 'Geo Shape', 'consumo_total_mixto', 'anio', 'nomgeo',
       'consumo_prom_dom', 'consumo_total_dom', 'alcaldia', 'colonia',
       'consumo_prom_mixto', 'consumo_total', 'consumo_prom',
       'consumo_prom_no_dom', 'bimestre', 'consumo_total_no_dom', 'gid',
       'indice_des'],
      dtype='object')

* La instrucción **.dtypes** a plicada al DataFrame regresa el tipo de datos de cada columna

In [13]:
consumodf.dtypes

Geo Point                object
Geo Shape                object
consumo_total_mixto     float64
anio                    float64
nomgeo                   object
consumo_prom_dom        float64
consumo_total_dom       float64
alcaldia                 object
colonia                  object
consumo_prom_mixto      float64
consumo_total           float64
consumo_prom            float64
consumo_prom_no_dom     float64
bimestre                float64
consumo_total_no_dom    float64
gid                     float64
indice_des               object
dtype: object

* La instrucción **.count()** aplicada al DataFrame regresa el no. de observaciones válidas en cada columna

In [14]:
consumodf.count()

Geo Point               71097
Geo Shape               71073
consumo_total_mixto     62763
anio                    71084
nomgeo                  71084
consumo_prom_dom        66267
consumo_total_dom       66267
alcaldia                71084
colonia                 71084
consumo_prom_mixto      62763
consumo_total           71084
consumo_prom            71084
consumo_prom_no_dom     71084
bimestre                71084
consumo_total_no_dom    71084
gid                     71084
indice_des              71084
dtype: int64

* Si queremos saber los valores que toma cada columna y el no. de observaciones que tiene cada valor, utilizamo la instrucción **.value_counts()**

 **Sintaxis:** nombredataframe["columna"].value_counts()

In [15]:
consumodf["alcaldia"].value_counts()

IZTAPALAPA             10515
GUSTAVO A. MADERO      10058
CUAUHTEMOC              7313
BENITO JUAREZ           5848
VENUSTIANO CARRANZA     5179
MIGUEL HIDALGO          5088
COYOACAN                4947
AZCAPOTZALCO            4204
ALVARO OBREGON          4135
IZTACALCO               3469
TLALPAN                 3199
XOCHIMILCO              2450
TLAHUAC                 1955
MAGDALENA CONTRERAS      955
CUAJIMALPA               889
MILPA ALTA               650
BENITO JUAREZ ii         201
MIGUEL                    17
Azcapotzalco              12
Name: alcaldia, dtype: int64

* Para conocer los valores únicos de una columna utilizamos la instrucción **.unique()**, esta instrucción regresa un arreglo con la información delos valores únicos que aparecen en la columna y el tipo de datos

   **Sintaxis:** unicos= nombredataframe["columna"].unique()

In [16]:
unique = consumodf["bimestre"].unique()
unique

array([ 1.,  2., nan,  3.])

# OPERACIONES CON COLUMNAS

Por ahora, los comandos utilizados nos permiten tener una idea general de lo que hay en la base de datos.
A fin de realizar un análisis más profundo de la información que contiene nuestro DataFrame, es necesario renombrar y reorganizar columnas, así como limpiar algunos registros.

Utilizaremos algunos nuevos comandos para este propósito.

* **ELIMINAR:** Vamos a conservar sólo las columnas que necesitamos, en este caso no vamos a utilizar la información geográfica por lo que debemos eliminar las columnas con dicha información.
Por otra parte la información de la columna 'nomgeo'está repetida en la columna "alcaldía"; por lo que vamos a eliminar esta información.
 Utilizamos el comando **.drop**
   
 **Sintaxis:** nombredataframe.drop(["columna1,"columna n"], axis=1, inplace=True)

In [17]:
consumodf.drop(["Geo Point","Geo Shape",], axis=1, inplace=True)
consumodf.head(5)


Unnamed: 0,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des
0,307.09,2019.0,Azcapotzalco,41.43,455.73,Azcapotzalco,TIERRA NUEVA,51.181668,1029.5,54.184211,133.34,1.0,266.68,10206.0,BAJO
1,63.78,2019.0,Azcapotzalco,61.337142,429.36,Azcapotzalco,TIERRA NUEVA,15.945,530.88,40.836923,18.87,1.0,37.74,10203.0,BAJO
2,129.81,2019.0,Azcapotzalco,24.724412,840.63,Azcapotzalco,SAN ANTONIO,64.905003,980.96,25.814737,5.26,1.0,10.52,10211.0,MEDIO
3,142.2,2019.0,Azcapotzalco,22.798462,592.76,Azcapotzalco,SAN ANTONIO,142.199997,766.23,27.365357,31.27,1.0,31.27,10217.0,BAJO
4,71.38,2019.0,Azcapotzalco,37.390334,1121.71,Azcapotzalco,SAN ANTONIO,35.69,1203.12,36.458182,10.03,1.0,10.03,10220.0,BAJO


 * **RENOMBRAR** Vamos a renombrar algunas columnas para aclarar su significado y a reorganizar el orden de aparición de las mismas. Para ello vamos a utilizar el comando **df.rename**

 **Sintaxis:** dataframe=dataframe.rename(columns={"Nombreactual": "Nuevonombre", "Nombreactual": "Nuevonombre"})

Los nombres de las columnas serán lo siguientes:

 * anio=año
 * consumo_total_mixto= CTMixto
 * consumo_prom_mixto= CPMixto
 * consumo_prom_dom= CPDomestico
 * consumo_total_dom=CTDomestico
 * consumo_prom_no_dom= CPNODomestico
 * consumo_total_no_dom=CTNODomestico


In [18]:
consumodf = consumodf.rename(columns={"anio":"año","consumo_total_mixto":"CTMixto", "consumo_prom_mixto":"CPMixto","consumo_prom_dom":"CPDomestico","consumo_total_dom":"CTDomestico","consumo_prom_no_dom":"CPNODomestico","consumo_total_no_dom":"CTNODomestico"})
consumodf.head()

Unnamed: 0,CTMixto,año,nomgeo,CPDomestico,CTDomestico,alcaldia,colonia,CPMixto,consumo_total,consumo_prom,CPNODomestico,bimestre,CTNODomestico,gid,indice_des
0,307.09,2019.0,Azcapotzalco,41.43,455.73,Azcapotzalco,TIERRA NUEVA,51.181668,1029.5,54.184211,133.34,1.0,266.68,10206.0,BAJO
1,63.78,2019.0,Azcapotzalco,61.337142,429.36,Azcapotzalco,TIERRA NUEVA,15.945,530.88,40.836923,18.87,1.0,37.74,10203.0,BAJO
2,129.81,2019.0,Azcapotzalco,24.724412,840.63,Azcapotzalco,SAN ANTONIO,64.905003,980.96,25.814737,5.26,1.0,10.52,10211.0,MEDIO
3,142.2,2019.0,Azcapotzalco,22.798462,592.76,Azcapotzalco,SAN ANTONIO,142.199997,766.23,27.365357,31.27,1.0,31.27,10217.0,BAJO
4,71.38,2019.0,Azcapotzalco,37.390334,1121.71,Azcapotzalco,SAN ANTONIO,35.69,1203.12,36.458182,10.03,1.0,10.03,10220.0,BAJO


* **REORGANIZAR:** Vamos a reorganizar las columnas y a conservar sólo aquellas que vamos a utilizar, para ello se utiliza la sigiente sintaxis. Los nombres de las columnas van en el órden que nosotros establezcamos.

  **Sintaxis:** nombredataframe=nombredataframe[["nombre columna1","nombre columna2",..."nombre columnan"]]

In [19]:
consumodf = consumodf[["año","alcaldia","colonia","bimestre","indice_des","CPDomestico","CTDomestico","CPNODomestico","CTNODomestico","CPMixto","CTMixto","consumo_total","consumo_prom"]]
consumodf

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
0,2019.0,Azcapotzalco,TIERRA NUEVA,1.0,BAJO,41.430000,455.73,133.340000,266.68,51.181668,307.09,1029.50,54.184211
1,2019.0,Azcapotzalco,TIERRA NUEVA,1.0,BAJO,61.337142,429.36,18.870000,37.74,15.945000,63.78,530.88,40.836923
2,2019.0,Azcapotzalco,SAN ANTONIO,1.0,MEDIO,24.724412,840.63,5.260000,10.52,64.905003,129.81,980.96,25.814737
3,2019.0,Azcapotzalco,SAN ANTONIO,1.0,BAJO,22.798462,592.76,31.270000,31.27,142.199997,142.20,766.23,27.365357
4,2019.0,Azcapotzalco,SAN ANTONIO,1.0,BAJO,37.390334,1121.71,10.030000,10.03,35.690000,71.38,1203.12,36.458182
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71110,2019.0,CUAUHTEMOC,GUERRERO,1.0,POPULAR,23.271045,6678.79,34.915001,69.83,89.473333,268.42,7017.04,24.030959
71111,2019.0,CUAUHTEMOC,GUERRERO,1.0,BAJO,17.740541,656.40,1.770000,1.77,48.980000,48.98,707.15,18.132052
71112,2019.0,CUAUHTEMOC,GUERRERO,1.0,MEDIO,,,52.623334,157.87,,,157.87,52.623334
71113,2019.0,CUAUHTEMOC,GUERRERO,1.0,POPULAR,16.403548,5085.09,12.648333,75.89,110.200000,661.20,5822.20,18.081335


# LIMPIANDO DATOS

* Observa que la información de la columna alcaldía contiene errores e inconsistencias en algunos de los registros

In [20]:
consumodf["alcaldia"].value_counts()

IZTAPALAPA             10515
GUSTAVO A. MADERO      10058
CUAUHTEMOC              7313
BENITO JUAREZ           5848
VENUSTIANO CARRANZA     5179
MIGUEL HIDALGO          5088
COYOACAN                4947
AZCAPOTZALCO            4204
ALVARO OBREGON          4135
IZTACALCO               3469
TLALPAN                 3199
XOCHIMILCO              2450
TLAHUAC                 1955
MAGDALENA CONTRERAS      955
CUAJIMALPA               889
MILPA ALTA               650
BENITO JUAREZ ii         201
MIGUEL                    17
Azcapotzalco              12
Name: alcaldia, dtype: int64

* **REEMPLAZAR VALORES:** Para corregir esta situación utilizamos la instrucción **.replace**

  **Sintaxis:** nombredataframe["columna"]=nombredataframe["columna"].replace({'Valor actual': 'Nuevo Valor', 'Valor actual': 'Nuevo Valor'})

In [21]:
consumodf["alcaldia"] = consumodf["alcaldia"].replace(
    {'Azcapotzalco': 'AZCAPOTZALCO', 'MIGUEL ':'MIGUEL HIDALGO','BENITO JUAREZ ii': 'BENITO JUAREZ'})

* Comprobamos que efectivamente se han reemplazado los datos

In [22]:
consumodf["alcaldia"].value_counts()

IZTAPALAPA             10515
GUSTAVO A. MADERO      10058
CUAUHTEMOC              7313
BENITO JUAREZ           6049
VENUSTIANO CARRANZA     5179
MIGUEL HIDALGO          5105
COYOACAN                4947
AZCAPOTZALCO            4216
ALVARO OBREGON          4135
IZTACALCO               3469
TLALPAN                 3199
XOCHIMILCO              2450
TLAHUAC                 1955
MAGDALENA CONTRERAS      955
CUAJIMALPA               889
MILPA ALTA               650
Name: alcaldia, dtype: int64

* **CAMBIANDO EL TIPO DE DATOS:** 
Ahora vamos a cambiar el tipo de datos de algunas columnas con la instrucción **.astype**
Iniciamos el proceso revisando el tipo de datos actual de cada columna.

  **Sintaxis:** dataFrame.dtypes

In [23]:
consumodf.dtypes

año              float64
alcaldia          object
colonia           object
bimestre         float64
indice_des        object
CPDomestico      float64
CTDomestico      float64
CPNODomestico    float64
CTNODomestico    float64
CPMixto          float64
CTMixto          float64
consumo_total    float64
consumo_prom     float64
dtype: object

* Vamos a cambiar año y bimestre a tipo string y, la columna "indice_des" a categoría aplicando la  instrucción **.astype.**
 
 Formateamos las columnas float a 2 decimales


In [25]:
consumodf.round(2)
consumodf["año"]=consumodf["año"].astype(str)
consumodf["bimestre"]=consumodf["bimestre"].astype(str)
consumodf["indice_des"]=consumodf["indice_des"].astype('category')
consumodf

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
0,2019.0,AZCAPOTZALCO,TIERRA NUEVA,1.0,BAJO,41.430000,455.73,133.340000,266.68,51.181668,307.09,1029.50,54.184211
1,2019.0,AZCAPOTZALCO,TIERRA NUEVA,1.0,BAJO,61.337142,429.36,18.870000,37.74,15.945000,63.78,530.88,40.836923
2,2019.0,AZCAPOTZALCO,SAN ANTONIO,1.0,MEDIO,24.724412,840.63,5.260000,10.52,64.905003,129.81,980.96,25.814737
3,2019.0,AZCAPOTZALCO,SAN ANTONIO,1.0,BAJO,22.798462,592.76,31.270000,31.27,142.199997,142.20,766.23,27.365357
4,2019.0,AZCAPOTZALCO,SAN ANTONIO,1.0,BAJO,37.390334,1121.71,10.030000,10.03,35.690000,71.38,1203.12,36.458182
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71110,2019.0,CUAUHTEMOC,GUERRERO,1.0,POPULAR,23.271045,6678.79,34.915001,69.83,89.473333,268.42,7017.04,24.030959
71111,2019.0,CUAUHTEMOC,GUERRERO,1.0,BAJO,17.740541,656.40,1.770000,1.77,48.980000,48.98,707.15,18.132052
71112,2019.0,CUAUHTEMOC,GUERRERO,1.0,MEDIO,,,52.623334,157.87,,,157.87,52.623334
71113,2019.0,CUAUHTEMOC,GUERRERO,1.0,POPULAR,16.403548,5085.09,12.648333,75.89,110.200000,661.20,5822.20,18.081335


* Comprobamos el cambio en el tipo de datos

In [26]:
consumodf.dtypes

año                object
alcaldia           object
colonia            object
bimestre           object
indice_des       category
CPDomestico       float64
CTDomestico       float64
CPNODomestico     float64
CTNODomestico     float64
CPMixto           float64
CTMixto           float64
consumo_total     float64
consumo_prom      float64
dtype: object

**VALORES PERDIDOS nan y 0**
Ahora revisemos los registros en 0 y los valores perdidos
Para recabar la información utilizamos un "loop" o iteración en cada columna.
* 1) La instrucción **consumodf.columns:** nos da como resultado una lista con los nombres de las columnas
* 2) de esta lista vamos seleccionado cada elemento (i) con la instrucción **  for i in consumodf.columns:**
* 3) por cada elemento(i) le pedimos a python que imprima (i) y aplique **consumodf[i].value_counts()** instrucción que nos mostrará los valores que toma (i)
    

In [27]:
for i in consumodf.columns:
    print (i)
    print(consumodf[i].value_counts())

año
2019.0    71084
nan          31
Name: año, dtype: int64
alcaldia
IZTAPALAPA             10515
GUSTAVO A. MADERO      10058
CUAUHTEMOC              7313
BENITO JUAREZ           6049
VENUSTIANO CARRANZA     5179
MIGUEL HIDALGO          5105
COYOACAN                4947
AZCAPOTZALCO            4216
ALVARO OBREGON          4135
IZTACALCO               3469
TLALPAN                 3199
XOCHIMILCO              2450
TLAHUAC                 1955
MAGDALENA CONTRERAS      955
CUAJIMALPA               889
MILPA ALTA               650
Name: alcaldia, dtype: int64
colonia
CENTRO                  1139
AGRICOLA ORIENTAL        837
ROMA NORTE               602
MOCTEZUMA 2A SECCION     558
JARDIN BALBUENA          498
                        ... 
PIRU SECC. I               2
CALZADA JALALPA            2
HUIZACHITO                 2
U. HAB. NUEVA ROSITA       1
SANTISIMA TRINIDAD         1
Name: colonia, Length: 1339, dtype: int64
bimestre
2.0    23935
3.0    23817
1.0    23332
nan       31
Name: bi

* Como podemos observar en casi todas las columnas hay nan y valores 0.

* Para **eliminar** los valores en **0 utilizamos la instrucción .drop.**
  Apliquemos esta instrucción en una de las columnas de nuestro DataFrame

In [28]:
consumodf = consumodf.drop(consumodf[consumodf['CPDomestico']==0].index)

In [29]:
consumodf['CPDomestico'].value_counts()

1.220000     33
14.640000    23
15.250000    22
10.980000    22
9.760000     21
             ..
20.601600     1
21.558571     1
40.727059     1
25.755294     1
8.000000      1
Name: CPDomestico, Length: 52033, dtype: int64

# EJERCICIO : UTIILIZANDO LOS NOMBRES DE LAS COLUMNAS QUE SE MUESTRAN DEBAJO COMPLETA LA INFORMACIÓN FALTANTE PARA ELIMINAR LAS FILAS CON REGISTROS EN 0
En este caso vamos a elimiar todas esas filas para ilustrar algunos comandos, ¿tendría sentido eliminar todas las filas con valores en 0 en otro contexto?

In [30]:
consumodf.columns

Index(['año', 'alcaldia', 'colonia', 'bimestre', 'indice_des', 'CPDomestico',
       'CTDomestico', 'CPNODomestico', 'CTNODomestico', 'CPMixto', 'CTMixto',
       'consumo_total', 'consumo_prom'],
      dtype='object')

In [31]:
consumodf = consumodf.drop(consumodf[consumodf['CTDomestico']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['CPNODomestico']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['CTNODomestico']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['CPMixto']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['CTMixto']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['consumo_total']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['consumo_prom']==0].index)

**VALORES PERDIDOS**
Iniciaremos este proceso revisando los valores perdidos con .count()

In [32]:
consumodf.count()

año              46878
alcaldia         46847
colonia          46847
bimestre         46878
indice_des       46847
CPDomestico      42953
CTDomestico      42953
CPNODomestico    46847
CTNODomestico    46847
CPMixto          39807
CTMixto          39807
consumo_total    46847
consumo_prom     46847
dtype: int64

* Utilizamos   la instrucción **.dropna** para eliminar las filas con información faltante

In [33]:
consumodf = consumodf.dropna(how="any")
consumodf.count()

año              39344
alcaldia         39344
colonia          39344
bimestre         39344
indice_des       39344
CPDomestico      39344
CTDomestico      39344
CPNODomestico    39344
CTNODomestico    39344
CPMixto          39344
CTMixto          39344
consumo_total    39344
consumo_prom     39344
dtype: int64

# GUARDANDO EL DATAFRAME LIMPIO

**GUARDAMOS EL DATAFRAME EN UN NUEVO ARCHIVO**

Observa que colocamos dos características a nuestra exportación 1)index y 2)header :

* **Index False** exportará nuestro DataFRame sin la columna del índice generado por python y
* **header True** guardará los nombres de las columnas como encabezados en el csv

Siempre es recomendable tener una copia de tus datos limpios.

In [None]:
consumodf.to_csv("C://Users//JESICA//baseconsumolimpia.csv",
                  encoding="utf-8", index=False, header=True)

* Vamos a leer nuevamente los datos, pero ahora desde nuestro archivo limpio, ¿recuerdas como se hace?

In [34]:
aguacsv="C://Users//JESICA//baseconsumolimpia.csv"

In [None]:
consumodf = pd.read_csv(aguacsv,encoding="UTF-8")

# RESUMEN DE LA INFORMACIÓN

* Vamos a hacer un resumen estadístico del DataFrame con la instrucción **.describe**

In [35]:
consumodf.describe()

Unnamed: 0,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
count,39344.0,39344.0,39344.0,39344.0,39344.0,39344.0,39344.0,39344.0
mean,32.959467,1318.336369,51.287023,299.262257,72.05293,255.184905,1872.783545,39.509115
std,26.746011,2011.073405,186.643012,961.154195,144.490224,354.098189,2424.710614,85.898154
min,0.12,0.24,0.012,0.08,0.12,0.12,10.35,1.725
25%,22.929105,428.8175,9.455,20.7275,31.291071,71.895,721.5675,25.851209
50%,29.079217,813.355,20.355,67.26,48.621667,164.625,1211.42,32.745884
75%,38.246445,1485.8275,45.026548,233.055,77.832875,330.0525,2150.0325,42.499111
max,1808.04,62267.4,15472.4975,61889.99,11702.22,23404.44,64954.45,10825.74167


**MEAN, MIN Y MAX:** Aunque el resumen  que **.describe** nos muestra  es útil, podemos mejorar la forma en la que presentamos nuestra información
* Obtengamos el **promedio deL CONSUMO TOTAL(MEAN), del CONSUMO DOMÉSTICO Y NO DOMÉSTICO, así como sus valores máximos (MAX) y mínimos (MIN)**

In [36]:
promedio_consumo_total = consumodf["consumo_total"].mean()
CTMIN = consumodf["consumo_total"].min()
CTMAX= consumodf["consumo_total"].max()
promedio_consumo_total_Doméstico = consumodf["CTDomestico"].mean()
CDMIN = consumodf["CTDomestico"].min()
CDMAX= consumodf["CTDomestico"].max()
promedio_consumo_total_NoDoméstico = consumodf["CTNODomestico"].mean()
CNDMIN = consumodf["CTNODomestico"].min()
CNDMAX= consumodf["CTNODomestico"].max()

* **LEN, UNIQUE:** calcularemos también el número total de colonias en la base de datos utilizando **.unique y len()**

In [None]:
total_colonias = len(consumodf["colonia"].unique())

* Guardemos nuestros cálculos en un nuevo DataFrame

**Sintaxis:** nombredataFrame=pd.DataFrame({"Nombrecolumna":[nombrevariablecreada],"Nombrecolumna":[nombrevariablecreada]})

In [37]:

resumen = pd.DataFrame({"Promedio del consumo total": promedio_consumo_total,"Colonias": [total_colonias],
                        "CTotal Min": [CTMIN],"CTotal MAx": [CTMAX],
                              "Promedio del consumo total Doméstico": [promedio_consumo_total_Doméstico],
                               "CDomestico Min": [CDMIN],"CDomestico Max": [CDMAX],
                              "Promedio del consumo total NO Doméstico": [promedio_consumo_total_NoDoméstico],"CNDomestico Min": [CNDMIN],"CNDomestico Max": [CNDMAX],})
resumen

Unnamed: 0,Promedio del consumo total,Colonias,CTotal Min,CTotal MAx,Promedio del consumo total Doméstico,CDomestico Min,CDomestico Max,Promedio del consumo total NO Doméstico,CNDomestico Min,CNDomestico Max
0,1872.783545,997,10.35,64954.45,1318.336369,0.24,62267.4,299.262257,0.08,61889.99


# FILTRADO DE COLUMNAS, RESUMEN DE LA INFORMACIÓN
Para nuestros propósitos,probablemente,es mucho más interesante analizar los datos desagregando la información por Alcaldia, bimestre, colonia o categoría del índice de desarrollo.
Para llevar a cabo dicho análisis es necesario aplicar filtros y agrupar información

#  .ILOC, .LOC
Los comandos .iloc y .loc  son útiles para seleccionar información.

* El método **.ILOC** se utiliza para seleccionar en un DataFrame filas y/o columnas por su **ubicación.**
* Se utiliza la sintáxis **dataframe.iloc[ filas , columnas]**
  * Por ejemplo vamos a seleccionar en nuestro DataFrame resumen la información del **No. Total de Colonias** presente en la base de datos de consumo de agua. Recuerda que en python se cuenta a partir de 0 tanto filas como columnas, por ello para seleccionar la fila  1,segunda columna colocamos 0, 1

In [38]:
resumen.iloc[0,1]

997

* Otra opción es seleccionar directamente la columna 2, sin colocar la referencia a la fila(es factible en este caso por que el DataFrame solo contiene 1 fila, este tipo de selección traerá el contenido completo de la columna)
**dataframe.iloc[:, columna]**

In [39]:
resumen.iloc[:,1]

0    997
Name: Colonias, dtype: int64

* Para seleccionar toda una fila se omite la información de columnas **dataframe.iloc[fila,:]**

In [40]:
resumen.iloc[0,:]

Promedio del consumo total                  1872.783545
Colonias                                     997.000000
CTotal Min                                    10.350000
CTotal MAx                                 64954.450000
Promedio del consumo total Doméstico        1318.336369
CDomestico Min                                 0.240000
CDomestico Max                             62267.400000
Promedio del consumo total NO Doméstico      299.262257
CNDomestico Min                                0.080000
CNDomestico Max                            61889.990000
Name: 0, dtype: float64

 **.LOC:** La selección de información mediante el comando **.loc** puede resultar mucho más interesante
* El método .loc puede ser utilizado de  dos formas diferentes: 
 **1)** Para seleccionar filas o columnas mediante una etiqueta y  **2)** Para seleccionar filas que cumplen una condición:
    * Para ilustrae el primer caso regresando a nuestro DataFrame de consumo de agua, podemos seleccionar toda la información de la columna "Consumo promedio doméstico" haciendo referencia a su etiqueta

In [42]:
consumodf.loc[:, 'CPDomestico']

0        41.430000
1        61.337142
2        24.724412
3        22.798462
4        37.390334
           ...    
71109    22.536393
71110    23.271045
71111    17.740541
71113    16.403548
71114    27.331305
Name: CPDomestico, Length: 39344, dtype: float64

* Podemos seleccionar diversas columnas, pasando como parámetro un arreglo con los nombres de las columnas
* El resultado al utilizar .loc es un DataFrame

In [43]:
consumodf.loc[:, ['CPDomestico','CTDomestico','CPNODomestico','CTNODomestico']]

Unnamed: 0,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico
0,41.430000,455.73,133.340000,266.68
1,61.337142,429.36,18.870000,37.74
2,24.724412,840.63,5.260000,10.52
3,22.798462,592.76,31.270000,31.27
4,37.390334,1121.71,10.030000,10.03
...,...,...,...,...
71109,22.536393,1374.72,13.250000,132.50
71110,23.271045,6678.79,34.915001,69.83
71111,17.740541,656.40,1.770000,1.77
71113,16.403548,5085.09,12.648333,75.89


* Podríamos limitar la consulta a un número determinado de filas, por las primeras 5

In [44]:
consumodf.loc[0:4:,['CPDomestico','CTDomestico','CPNODomestico','CTNODomestico']]

Unnamed: 0,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico
0,41.43,455.73,133.34,266.68
1,61.337142,429.36,18.87,37.74
2,24.724412,840.63,5.26,10.52
3,22.798462,592.76,31.27,31.27
4,37.390334,1121.71,10.03,10.03


**2)** seleccionar filas o columnas que cumplen una condición.
* Supongamos que estamos interesados en seleccionar la información de una colonia en particular para analizar los distintos tipos de consumos de agua

In [45]:
copilcoU=consumodf.loc[consumodf.loc[:, 'colonia'] == "COPILCO UNIVERSIDAD"]
copilcoU

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
797,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,BAJO,19.9747,1997.47,12.936667,77.62,426.480011,426.48,2501.57,23.379159
808,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,ALTO,25.891042,1242.77,10.553461,274.39,459.619995,459.62,1976.78,26.357067
809,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,ALTO,30.97625,247.81,137.470001,137.47,25.379999,25.38,410.66,41.066
873,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,POPULAR,16.793953,722.14,154.720001,154.72,59.59,119.18,996.04,21.653043
875,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,ALTO,12.17375,389.56,57.096667,342.58,43.079999,172.32,904.46,21.534762
4415,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,23.34125,186.73,14.216667,85.3,12.45,49.8,321.83,17.879444
7671,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,27.487778,247.39,28.565,114.26,4.76,4.76,366.41,26.172143
7686,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,21.095,590.66,26.915,53.83,48.51,145.53,790.02,23.94
7687,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,27.606809,1297.52,12.843824,436.69,477.32,477.32,2211.53,26.969878
7753,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,POPULAR,26.797209,1152.28,154.72,154.72,73.83,147.66,1454.66,31.623043


* También podemos seleccionar filas que cumplan varias condiciones;
por ejemplo la información de la colonia  COPILCO UNIVERSIDAD para el segundo y tercer bimestre


In [46]:
copilcoU2=consumodf.loc[(consumodf.loc[:, 'colonia'] == "COPILCO UNIVERSIDAD")&((consumodf['bimestre'] >="2"))]
copilcoU2

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
4415,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,23.34125,186.73,14.216667,85.3,12.45,49.8,321.83,17.879444
7671,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,27.487778,247.39,28.565,114.26,4.76,4.76,366.41,26.172143
7686,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,21.095,590.66,26.915,53.83,48.51,145.53,790.02,23.94
7687,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,27.606809,1297.52,12.843824,436.69,477.32,477.32,2211.53,26.969878
7753,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,POPULAR,26.797209,1152.28,154.72,154.72,73.83,147.66,1454.66,31.623043
7768,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,POPULAR,25.432857,178.03,28.06,84.18,29.28,29.28,291.49,26.499091
20899,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,BAJO,20.2642,2026.42,13.423333,80.54,629.52,629.52,2736.48,25.574579
20908,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,25.183333,226.65,21.55,86.2,4.76,4.76,317.61,22.686429
20909,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,33.80375,270.43,62.83,125.66,47.58,47.58,443.67,40.333636
20910,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,27.606809,1297.52,15.207,456.21,477.32,477.32,2231.05,28.603205


# ORDENANDO LOS DATOS 

**SORT**
* Observando los datos, identificamos que la información de las columna bimestre aparece de forma desordenada combinando 2 y 3
* Podemos ordenar los datos del DataFrame copilcoU2 

In [47]:
copilcoU2ordenado= copilcoU2.sort_values(["bimestre"], ascending=True)
copilcoU2ordenado.head()


Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
4415,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,23.34125,186.73,14.216667,85.3,12.45,49.8,321.83,17.879444
51356,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,33.38625,267.09,93.94,93.94,14.04,14.04,375.07,37.507
51344,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,21.552143,603.46,26.915,53.83,52.38,157.14,814.43,24.679697
51343,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,20.493,204.93,15.253333,45.76,27.53,55.06,305.75,20.383333
51360,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,38.554167,462.65,11.875,118.75,120.12,120.12,701.52,30.50087


* Inclusive podemos **ordenar los datos por más de una columna**

In [48]:
copilcoU2ordenado= copilcoU2.sort_values(["bimestre","indice_des"], ascending=True)
copilcoU2ordenado.head()

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
4415,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,23.34125,186.73,14.216667,85.3,12.45,49.8,321.83,17.879444
20908,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,25.183333,226.65,21.55,86.2,4.76,4.76,317.61,22.686429
20909,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,33.80375,270.43,62.83,125.66,47.58,47.58,443.67,40.333636
20910,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,27.606809,1297.52,15.207,456.21,477.32,477.32,2231.05,28.603205
20912,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,17.535,490.98,9.76,19.52,167.76,167.76,678.26,21.879355


# AGRUPANDO CON GROUP BY
Es posible que estemos interesado en analizar los datos desde el punto de vista de algún tipo de agrupación presente en los datos.

Por ejemplo **analizar por separado la información de las colonias etiquetadas con un índice de desarrollo "ALTO" vs las etiquetadas con un índice de desarrollo "BAJO".**

Para realizar este tipo de análisis vamos a utilizar la instrucción **group.by**

* Vamos a analizar los datos del DataFrame consumodf para comparar los consumos de agua de las colonias según su  índice desarrollo
* **La instrucción .groupby crea un objeto, a partir del cual podremos obtener información de los grupos** 

In [49]:
gruposdesarrollo=consumodf.groupby(['indice_des'])
gruposdesarrollo

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002088BC09F48>

**.GROUP.KEYS** Esta instrucción mostrará los grupos que se identifican en el DataFrame a partir de los valores únicos presentes en la columna

In [50]:
consumodf.groupby(['indice_des']).groups.keys()

dict_keys(['ALTO', 'BAJO', 'MEDIO', 'POPULAR'])

* Si queremos saber **cuántos elementos integran cada grupo** podemos utilizar la instruccion **len** y la etiqueta del grupo 

In [51]:
alto=len(consumodf.groupby(['indice_des']).groups['ALTO'])
bajo=len(consumodf.groupby(['indice_des']).groups['BAJO'])
medio=len(consumodf.groupby(['indice_des']).groups['MEDIO'])
popular=len(consumodf.groupby(['indice_des']).groups['POPULAR'])
alto,medio,bajo,popular

(9291, 6383, 18508, 5162)

**.GROUPBY .MEAN** Podemos obtener el promedio de consumo total por cada grupo

In [52]:
consumodf.groupby('indice_des')['consumo_total'].mean()

indice_des
ALTO       2069.225107
BAJO       1740.483173
MEDIO      1565.138656
POPULAR    2373.979605
Name: consumo_total, dtype: float64

**.GROUPBY .NUNIQUE:** Podemos obtener el numero total de colonias que se incluyen en cada grupo

In [53]:
consumodf.groupby('indice_des')["colonia"].nunique()

indice_des
ALTO       384
BAJO       698
MEDIO      397
POPULAR    558
Name: colonia, dtype: int64

# MERGE
Un problema común en el análisis de datos es la necesidad de tener que incorporar nueva información.
Python cuenta con varios métodos para realizar esta tarea, cada uno es útil dependiendo cómo queremos incluir nuestra información y la estructura de los datos a los que la anexaremos.



* Para identificar si los consumos de agua son altos o bajos, debemos considerar alguna medida que nos permita tener referencia, por ejemplo los litros consumidos por el número de habitantes de la alacldia
 nuestra información no contiene datos sobre la población, por lo que debemos incorporar este dato.
* Tomamos información sobre las proyecciones de población que realiza CONAPO, estos datos están a nivel alcaldia , por lo que primero debemos obtener un DataFrame con la información resumida a ese nivel
* Despues vamos a unir la información de población mediante el comando .merge y realizaremos algunos cálculos para analizar los consumos de agua:

**1)** consideremos inicialmente únicamente la información de los consumos tootales

In [54]:
consumototalc=consumodf.groupby('alcaldia')['CTDomestico','CTNODomestico','CTMixto','consumo_total'].sum()
consumototalc

Unnamed: 0_level_0,CTDomestico,CTNODomestico,CTMixto,consumo_total
alcaldia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ALVARO OBREGON,2848471.52,762543.21,486470.55,4097485.0
AZCAPOTZALCO,4343306.13,610362.31,854549.49,5808218.0
BENITO JUAREZ,7935253.841,1614444.471,1036532.35,10586230.0
COYOACAN,2459695.16,586953.65,325060.72,3371709.0
CUAJIMALPA,629755.09,143581.71,123931.95,897268.7
CUAUHTEMOC,8744129.539,2844224.43,2081876.31,13670230.0
GUSTAVO A. MADERO,5878477.35,803802.5,1398647.18,8080927.0
IZTACALCO,3958748.05,650252.27,657270.53,5266271.0
IZTAPALAPA,2946168.72,461752.13,672698.58,4080620.0
MAGDALENA CONTRERAS,413205.22,87372.54,60795.85,561373.7


**2** Vamos a leer los datos de nuestro archivo de población**

In [55]:
poblacioncsv ="Downloads//proyeccionespoblac2019alcaldias.csv"
poblac2019cdmx= pd.read_csv(poblacioncsv,encoding="UTF-8")
poblac2019cdmx

Unnamed: 0,alcaldia,Pob2019_H,Pob2019_M,Pob_Tot2019
0,ALVARO OBREGON,360335,395285,755620
1,AZCAPOTZALCO,192944,216916,409860
2,BENITO JUAREZ,198095,232259,430354
3,COYOACAN,293039,330644,623683
4,CUAJIMALPA,95608,103772,199380
5,CUAUHTEMOC,259989,287714,547703
6,GUSTAVO A. MADERO,567165,613564,1180729
7,IZTACALCO,186979,207469,394448
8,IZTAPALAPA,885252,938216,1823468
9,MAGDALENA CONTRERAS,117979,127396,245375


In [56]:
dataframecompleto = pd.merge(poblac2019cdmx, consumototalc,how='outer', on='alcaldia')
dataframecompleto 

Unnamed: 0,alcaldia,Pob2019_H,Pob2019_M,Pob_Tot2019,CTDomestico,CTNODomestico,CTMixto,consumo_total
0,ALVARO OBREGON,360335,395285,755620,2848471.52,762543.21,486470.55,4097485.0
1,AZCAPOTZALCO,192944,216916,409860,4343306.13,610362.31,854549.49,5808218.0
2,BENITO JUAREZ,198095,232259,430354,7935253.841,1614444.471,1036532.35,10586230.0
3,COYOACAN,293039,330644,623683,2459695.16,586953.65,325060.72,3371709.0
4,CUAJIMALPA,95608,103772,199380,629755.09,143581.71,123931.95,897268.7
5,CUAUHTEMOC,259989,287714,547703,8744129.539,2844224.43,2081876.31,13670230.0
6,GUSTAVO A. MADERO,567165,613564,1180729,5878477.35,803802.5,1398647.18,8080927.0
7,IZTACALCO,186979,207469,394448,3958748.05,650252.27,657270.53,5266271.0
8,IZTAPALAPA,885252,938216,1823468,2946168.72,461752.13,672698.58,4080620.0
9,MAGDALENA CONTRERAS,117979,127396,245375,413205.22,87372.54,60795.85,561373.7


* Calcularemos el consumo total/la población total de la alcaldia y agregaremos esta información como una nueva columna

In [57]:
CTpPobtot = dataframecompleto ["consumo_total"]/dataframecompleto ["Pob_Tot2019"]
dataframecompleto["CTpPobtot"] = CTpPobtot
dataframecompleto

Unnamed: 0,alcaldia,Pob2019_H,Pob2019_M,Pob_Tot2019,CTDomestico,CTNODomestico,CTMixto,consumo_total,CTpPobtot
0,ALVARO OBREGON,360335,395285,755620,2848471.52,762543.21,486470.55,4097485.0,5.42268
1,AZCAPOTZALCO,192944,216916,409860,4343306.13,610362.31,854549.49,5808218.0,14.171224
2,BENITO JUAREZ,198095,232259,430354,7935253.841,1614444.471,1036532.35,10586230.0,24.598891
3,COYOACAN,293039,330644,623683,2459695.16,586953.65,325060.72,3371709.0,5.406127
4,CUAJIMALPA,95608,103772,199380,629755.09,143581.71,123931.95,897268.7,4.500294
5,CUAUHTEMOC,259989,287714,547703,8744129.539,2844224.43,2081876.31,13670230.0,24.959203
6,GUSTAVO A. MADERO,567165,613564,1180729,5878477.35,803802.5,1398647.18,8080927.0,6.844015
7,IZTACALCO,186979,207469,394448,3958748.05,650252.27,657270.53,5266271.0,13.350989
8,IZTAPALAPA,885252,938216,1823468,2946168.72,461752.13,672698.58,4080620.0,2.237834
9,MAGDALENA CONTRERAS,117979,127396,245375,413205.22,87372.54,60795.85,561373.7,2.287819


In [None]:
dataframecompleto["CTpPobtot"].describe().round()

**BINING**

Vamos a dividir nuestros datos en distintas categorías a partir de la información  de el Consumo TOtal/Población
para ello utilizaremos el comando **pd.cut y la instrucción bins**
Los bins deben considerar el rango completo de la variable que vamos a categorizar(cada bin establece el límite de la categiría)
Los nombres de los grupos deben ser no.bins-1.

In [58]:
bins = [0, 3, 6, 13, 23, 34]
group_names = ["MUY BAJO", "BAJO", "MEDIO", "ALTO", "MUY ALTO"]
dataframecompleto["Categoriaconsumo"] = pd.cut(dataframecompleto["CTpPobtot"], bins, labels=group_names)
dataframecompleto

Unnamed: 0,alcaldia,Pob2019_H,Pob2019_M,Pob_Tot2019,CTDomestico,CTNODomestico,CTMixto,consumo_total,CTpPobtot,Categoriaconsumo
0,ALVARO OBREGON,360335,395285,755620,2848471.52,762543.21,486470.55,4097485.0,5.42268,BAJO
1,AZCAPOTZALCO,192944,216916,409860,4343306.13,610362.31,854549.49,5808218.0,14.171224,ALTO
2,BENITO JUAREZ,198095,232259,430354,7935253.841,1614444.471,1036532.35,10586230.0,24.598891,MUY ALTO
3,COYOACAN,293039,330644,623683,2459695.16,586953.65,325060.72,3371709.0,5.406127,BAJO
4,CUAJIMALPA,95608,103772,199380,629755.09,143581.71,123931.95,897268.7,4.500294,BAJO
5,CUAUHTEMOC,259989,287714,547703,8744129.539,2844224.43,2081876.31,13670230.0,24.959203,MUY ALTO
6,GUSTAVO A. MADERO,567165,613564,1180729,5878477.35,803802.5,1398647.18,8080927.0,6.844015,MEDIO
7,IZTACALCO,186979,207469,394448,3958748.05,650252.27,657270.53,5266271.0,13.350989,ALTO
8,IZTAPALAPA,885252,938216,1823468,2946168.72,461752.13,672698.58,4080620.0,2.237834,MUY BAJO
9,MAGDALENA CONTRERAS,117979,127396,245375,413205.22,87372.54,60795.85,561373.7,2.287819,MUY BAJO


In [59]:
#Guardemos nuestro DataFrame en un nuevo csv
dataframecompleto.to_csv("C://Users//JESICA//basecompletaconpob.csv",
                  encoding="utf-8", index=False, header=True)