# INTRODUCCIÓN A PANDAS

* ###### Si tienes dudas sobre los comandos puedes enviarlas a **jesicatapia@gmail** ccp **benjov@ciencias.unam.mx**
Los datos consultados en este notebook proceden de :https://datos.cdmx.gob.mx/explore/dataset/consumo-agua/export/ y
https://www.gob.mx/cms/uploads/attachment/file/503374/Diccionario_Proyecciones_de_la_Poblacion_2016_2050.pdf

**PANDAS** es una biblioteca de python utilizada para  manipular y análizar  datos. El nombre deriva del término "panel data" (datos panel).

La estructura básica de PANDAS es el DataFrame.

Un **DataFrame** es un objeto bidimensional (tabla) que puede tener columnas con diferentes tipos de información. Los diferentes tipos de entradas incluyen diccionarios, listas, series e incluso otro DataFrame.

**1) IMPORTAR LA BIBLIOTECA**: Para utilizar PANDAS es necesario importar esta biblioteca así como Numpy

In [2]:
import pandas as pd
import numpy as np

# OJO: CORRE ESTA CELDA SÓLO EN CASO DE QUE LA INSTRUCCION PARA IMPORTAR PANDAS FALLE. DESPUÉS VUELVE A CORRER 1)

In [None]:
#!pip install pip
#!pip install pandas
#!pip install numpy

**2) DISTINTAS FORMAS DE CREAR UN DATAFRAME**

**A) De una lista a un Serie:**

Para crear la serie debemos creamos una variable que contendrá los elementos de la serie, utilizar la instrucción que le indica a PANDAS que el contenido es una serie, y guardar los elementos de la serie entre paréntesis y corchete.

*Instrucción: pd.Series*

*Sintaxis: nombrevariable =Instrucción([elemento1,elemento2,....elementon]*

Por ejemplo, vamos a crear una serie con la lista de tus materias.

In [3]:
data_series = pd.Series(["Historia", "Estadística II", "Econometría",
                         "Filosofía", "Literatura"])
data_series

0          Historia
1    Estadística II
2       Econometría
3         Filosofía
4        Literatura
dtype: object

**B) De una lista de diccionarios a DataFrame:** 

Un listado de diccionarios puede convertirse en un DataFrame utilizando la **Instrucción pd.DataFrame.** Primero asiganos la lista de diccionarios a una variable y luego aplicamos la instrucción pd. Dataframe a dicha variable.

*Instrucción: pd. Dataframe*

*Sintaxis: nombredataframe=Instruccion(variable que contiene la lista de diccionarios)*
    
Un ejemplo clásico es la información de  los Estados de la Republica y su clave en INEGI    
 

In [4]:
# Convertir una lista de diccionarios a DataFrame
#Sintaxis:nombrelistadic=[{"KEY":"VALUE","KEY":VALUE"},{"KEY":"VALUE","KEY":VALUE"}]
#nombredataFrame=pd.Dataframe(nombrelistadic)

listadiccionario = [{"ESTADO": "AGUASCALIENTES", "CLAVEINEGIESTADO":"01"},
                {"ESTADO": "ZACATECAS", "CLAVEINEGIESTADO":"32"}]

df_estados = pd.DataFrame(listadiccionario)
df_estados

Unnamed: 0,ESTADO,CLAVEINEGIESTADO
0,AGUASCALIENTES,1
1,ZACATECAS,32


**C) De un diccionario de listas a un DataFrame**

Un diccionario creado a partir de varias listas puede convertirse en un DataFrame con la instrucción **pd.DataFrame**

*Sintaxis: nombredataFrame=pd.Dataframe({"lista1":[elemento 1,elemento 2,...,elemento n],"lista2":[elemento 1,elemento 2,...,elemento n],"lista n":[elemento n1,elemento n2,...,elemento nn]})*


In [5]:
dfpoblacion = pd.DataFrame(
    {"Delegación": ["Coyoacán", "Miguel Hidalgo"],
     "Claveinegi": ["090030001", "090160001"],
     "Población": ["620,416", "372,889"]})
dfpoblacion

Unnamed: 0,Delegación,Claveinegi,Población
0,Coyoacán,90030001,620416
1,Miguel Hidalgo,90160001,372889


# EJERCICIO

In [None]:
# Crea un  DataFrame a partir de un diccionario de listas completando la información faltante
# = pd.DataFrame({
   # "": ["Carlos", "", "Rosa", , "Luis"],
    #"Edad": [15.00, 12.50, 10.00, 5.00, 1.00],
    # [1.75, 1.68, 1.64, 1.72, "N/D"]
#})


**D) Crear DataFrame a partir de un archivo externo.**

Regualarmente, en esta clase trabajaremos con arcivos de bases de datos externos, con formatos csv, xls, entre otros.
Para que Python "lea" y manipule los datos de dichas bases de datos, a veces es necesario importar la biblioteca correspondiente a cada extension, de acuerdo a los archivos que se quieran manipular.Tal como se ha trabajado en este notebook se debe utilizar la instrucción:-import x as - abreviatura de la biblioteca-

*Para mayor información te sugerimos estos enlaces:
http://www.developerpe.com/blog/cargar_panda_csv_txt_json_xlsx/
https://pandas.pydata.org/docs/user_guide/cookbook.html?highlight=read#data-in-out*

**Por ejemplo:
import csv**

En este caso **NO** será necesario debido a que la instalación de Pandas incluye csv.

**Para crar un DataFrame con información de un archivo externo**

**1)** Primero guardamos la ruta del archivo en una variable

In [6]:
aguacsv = "consumoagua.csv"

**2)** Le damos un nombre a nuestro DataFrame y con ayuda de la instrucción **pd.read_csv**, leemos los datos del csv.

* ###### Ojo:la instrucción encoding no es estrictamente necesaria, pero nos ayudará a que todos los caracteres sean interpretados correctamente

In [7]:
consumodf = pd.read_csv(aguacsv,encoding="UTF-8")

* ###### Para ver el encabezado del del DataFRame utilizamos la instrucción .head(),  por default muestra las primeras 5 líneas.
Sintaxis: nombredataframe.head()


In [8]:
consumodf.head()

Unnamed: 0,Geo Point,Geo Shape,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des
0,"19.4982924872,-99.1990438826","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",307.09,2019.0,Azcapotzalco,41.43,455.73,Azcapotzalco,TIERRA NUEVA,51.181668,1029.5,54.184211,133.34,1.0,266.68,10206.0,BAJO
1,"19.4988910559,-99.2009080554","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",63.78,2019.0,Azcapotzalco,61.337142,429.36,Azcapotzalco,TIERRA NUEVA,15.945,530.88,40.836923,18.87,1.0,37.74,10203.0,BAJO
2,"19.4808107353,-99.2087681126","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",129.81,2019.0,Azcapotzalco,24.724412,840.63,Azcapotzalco,SAN ANTONIO,64.905003,980.96,25.814737,5.26,1.0,10.52,10211.0,MEDIO
3,"19.4815775288,-99.2034616053","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",142.2,2019.0,Azcapotzalco,22.798462,592.76,Azcapotzalco,SAN ANTONIO,142.199997,766.23,27.365357,31.27,1.0,31.27,10217.0,BAJO
4,"19.4794098214,-99.2027692099","{""type"": ""MultiPolygon"", ""coordinates"": [[[[-9...",71.38,2019.0,Azcapotzalco,37.390334,1121.71,Azcapotzalco,SAN ANTONIO,35.69,1203.12,36.458182,10.03,1.0,10.03,10220.0,BAJO


* ###### Para ver la información de una columna en particular y sus primeros 10 registros utilizamos la sintaxis: nombredataframe["columna"].head(10)

In [9]:
consumodf["alcaldia"].head(10)

0    Azcapotzalco
1    Azcapotzalco
2    Azcapotzalco
3    Azcapotzalco
4    Azcapotzalco
5    Azcapotzalco
6    Azcapotzalco
7    Azcapotzalco
8    Azcapotzalco
9    Azcapotzalco
Name: alcaldia, dtype: object

* ###### Para mostrar múltiples columnas utilizamos la  Sintaxis: nombredataframe[["columnaA","columnaB"]].head(n) -nota los corchetes dobles


In [10]:
consumodf[["alcaldia", "consumo_prom"]].head()

Unnamed: 0,alcaldia,consumo_prom
0,Azcapotzalco,54.184211
1,Azcapotzalco,40.836923
2,Azcapotzalco,25.814737
3,Azcapotzalco,27.365357
4,Azcapotzalco,36.458182


* ###### Para saber cuántos datos tenemos utilizamos la sintaxis nombredataframe.shape

In [11]:
consumodf.shape

(71115, 17)

# FUNCIONES BÁSICAS DE PANDAS PARA ANALIZAR UN DATAFRAME 

Tal como está, nuestro DataFrame no nos permite revisar la información de forma sencilla, para ordenar y limpiar los datos que tenemos debemos realizar una serie de operaciones. Cada una de las instrucciones que se muestran a continuación pueden se guardadas en una variable para posteriormente ser utilizadas

* Para mostrar el nombre de todas las columnas que componen nuestro DataFrame utilizamos la instrucción **.columns**

 **Sintaxis:** nombredataframe.columns()

In [12]:
consumodf.columns

Index(['Geo Point', 'Geo Shape', 'consumo_total_mixto', 'anio', 'nomgeo',
       'consumo_prom_dom', 'consumo_total_dom', 'alcaldia', 'colonia',
       'consumo_prom_mixto', 'consumo_total', 'consumo_prom',
       'consumo_prom_no_dom', 'bimestre', 'consumo_total_no_dom', 'gid',
       'indice_des'],
      dtype='object')

* La instrucción **.dtypes** a plicada al DataFrame regresa el tipo de datos de cada columna

In [13]:
consumodf.dtypes

Geo Point                object
Geo Shape                object
consumo_total_mixto     float64
anio                    float64
nomgeo                   object
consumo_prom_dom        float64
consumo_total_dom       float64
alcaldia                 object
colonia                  object
consumo_prom_mixto      float64
consumo_total           float64
consumo_prom            float64
consumo_prom_no_dom     float64
bimestre                float64
consumo_total_no_dom    float64
gid                     float64
indice_des               object
dtype: object

* La instrucción **.count()** aplicada al DataFrame regresa el no. de observaciones válidas en cada columna

In [14]:
consumodf.count()

Geo Point               71097
Geo Shape               71073
consumo_total_mixto     62763
anio                    71084
nomgeo                  71084
consumo_prom_dom        66267
consumo_total_dom       66267
alcaldia                71084
colonia                 71084
consumo_prom_mixto      62763
consumo_total           71084
consumo_prom            71084
consumo_prom_no_dom     71084
bimestre                71084
consumo_total_no_dom    71084
gid                     71084
indice_des              71084
dtype: int64

* Si queremos saber los valores que toma cada columna y el no. de observaciones que tiene cada valor, utilizamo la instrucción **.value_counts()**

 **Sintaxis:** nombredataframe["columna"].value_counts()

In [15]:
consumodf["alcaldia"].value_counts()

IZTAPALAPA             10515
GUSTAVO A. MADERO      10058
CUAUHTEMOC              7313
BENITO JUAREZ           5848
VENUSTIANO CARRANZA     5179
MIGUEL HIDALGO          5088
COYOACAN                4947
AZCAPOTZALCO            4204
ALVARO OBREGON          4135
IZTACALCO               3469
TLALPAN                 3199
XOCHIMILCO              2450
TLAHUAC                 1955
MAGDALENA CONTRERAS      955
CUAJIMALPA               889
MILPA ALTA               650
BENITO JUAREZ ii         201
MIGUEL                    17
Azcapotzalco              12
Name: alcaldia, dtype: int64

* Para conocer los valores únicos de una columna utilizamos la instrucción **.unique()**, esta instrucción regresa un arreglo con la información delos valores únicos que aparecen en la columna y el tipo de datos

   **Sintaxis:** unicos= nombredataframe["columna"].unique()

In [16]:
unique = consumodf["bimestre"].unique()
unique

array([ 1.,  2., nan,  3.])

# OPERACIONES CON COLUMNAS

Por ahora, los comandos utilizados nos permiten tener una idea general de lo que hay en la base de datos.
A fin de realizar un análisis más profundo de la información que contiene nuestro DataFrame, es necesario renombrar y reorganizar columnas, así como limpiar algunos registros.

Utilizaremos algunos nuevos comandos para este propósito.

* **ELIMINAR:** Vamos a conservar sólo las columnas que necesitamos, en este caso no vamos a utilizar la información geográfica por lo que debemos eliminar las columnas con dicha información.
Por otra parte la información de la columna 'nomgeo'está repetida en la columna "alcaldía"; por lo que vamos a eliminar esta información.
 Utilizamos el comando **.drop**
   
 **Sintaxis:** nombredataframe.drop(["columna1,"columna n"], axis=1, inplace=True)

In [17]:
consumodf.drop(["Geo Point","Geo Shape",], axis=1, inplace=True)
consumodf.head(5)


Unnamed: 0,consumo_total_mixto,anio,nomgeo,consumo_prom_dom,consumo_total_dom,alcaldia,colonia,consumo_prom_mixto,consumo_total,consumo_prom,consumo_prom_no_dom,bimestre,consumo_total_no_dom,gid,indice_des
0,307.09,2019.0,Azcapotzalco,41.43,455.73,Azcapotzalco,TIERRA NUEVA,51.181668,1029.5,54.184211,133.34,1.0,266.68,10206.0,BAJO
1,63.78,2019.0,Azcapotzalco,61.337142,429.36,Azcapotzalco,TIERRA NUEVA,15.945,530.88,40.836923,18.87,1.0,37.74,10203.0,BAJO
2,129.81,2019.0,Azcapotzalco,24.724412,840.63,Azcapotzalco,SAN ANTONIO,64.905003,980.96,25.814737,5.26,1.0,10.52,10211.0,MEDIO
3,142.2,2019.0,Azcapotzalco,22.798462,592.76,Azcapotzalco,SAN ANTONIO,142.199997,766.23,27.365357,31.27,1.0,31.27,10217.0,BAJO
4,71.38,2019.0,Azcapotzalco,37.390334,1121.71,Azcapotzalco,SAN ANTONIO,35.69,1203.12,36.458182,10.03,1.0,10.03,10220.0,BAJO


 * **RENOMBRAR** Vamos a renombrar algunas columnas para aclarar su significado y a reorganizar el orden de aparición de las mismas. Para ello vamos a utilizar el comando **df.rename**

 **Sintaxis:** dataframe=dataframe.rename(columns={"Nombreactual": "Nuevonombre", "Nombreactual": "Nuevonombre"})

Los nombres de las columnas serán lo siguientes:

 * anio=año
 * consumo_total_mixto= CTMixto
 * consumo_prom_mixto= CPMixto
 * consumo_prom_dom= CPDomestico
 * consumo_total_dom=CTDomestico
 * consumo_prom_no_dom= CPNODomestico
 * consumo_total_no_dom=CTNODomestico


In [18]:
consumodf = consumodf.rename(columns={"anio":"año","consumo_total_mixto":"CTMixto", "consumo_prom_mixto":"CPMixto",
                                      "consumo_prom_dom":"CPDomestico","consumo_total_dom":"CTDomestico",
                                      "consumo_prom_no_dom":"CPNODomestico","consumo_total_no_dom":"CTNODomestico"})
consumodf.head()

Unnamed: 0,CTMixto,año,nomgeo,CPDomestico,CTDomestico,alcaldia,colonia,CPMixto,consumo_total,consumo_prom,CPNODomestico,bimestre,CTNODomestico,gid,indice_des
0,307.09,2019.0,Azcapotzalco,41.43,455.73,Azcapotzalco,TIERRA NUEVA,51.181668,1029.5,54.184211,133.34,1.0,266.68,10206.0,BAJO
1,63.78,2019.0,Azcapotzalco,61.337142,429.36,Azcapotzalco,TIERRA NUEVA,15.945,530.88,40.836923,18.87,1.0,37.74,10203.0,BAJO
2,129.81,2019.0,Azcapotzalco,24.724412,840.63,Azcapotzalco,SAN ANTONIO,64.905003,980.96,25.814737,5.26,1.0,10.52,10211.0,MEDIO
3,142.2,2019.0,Azcapotzalco,22.798462,592.76,Azcapotzalco,SAN ANTONIO,142.199997,766.23,27.365357,31.27,1.0,31.27,10217.0,BAJO
4,71.38,2019.0,Azcapotzalco,37.390334,1121.71,Azcapotzalco,SAN ANTONIO,35.69,1203.12,36.458182,10.03,1.0,10.03,10220.0,BAJO


* **REORGANIZAR:** Vamos a reorganizar las columnas y a conservar sólo aquellas que vamos a utilizar, para ello se utiliza la sigiente sintaxis. Los nombres de las columnas van en el órden que nosotros establezcamos.

  **Sintaxis:** nombredataframe=nombredataframe[["nombre columna1","nombre columna2",..."nombre columnan"]]

In [19]:
consumodf = consumodf[["año","alcaldia","colonia","bimestre","indice_des","CPDomestico","CTDomestico","CPNODomestico","CTNODomestico","CPMixto","CTMixto","consumo_total","consumo_prom"]]
consumodf

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
0,2019.0,Azcapotzalco,TIERRA NUEVA,1.0,BAJO,41.430000,455.73,133.340000,266.68,51.181668,307.09,1029.50,54.184211
1,2019.0,Azcapotzalco,TIERRA NUEVA,1.0,BAJO,61.337142,429.36,18.870000,37.74,15.945000,63.78,530.88,40.836923
2,2019.0,Azcapotzalco,SAN ANTONIO,1.0,MEDIO,24.724412,840.63,5.260000,10.52,64.905003,129.81,980.96,25.814737
3,2019.0,Azcapotzalco,SAN ANTONIO,1.0,BAJO,22.798462,592.76,31.270000,31.27,142.199997,142.20,766.23,27.365357
4,2019.0,Azcapotzalco,SAN ANTONIO,1.0,BAJO,37.390334,1121.71,10.030000,10.03,35.690000,71.38,1203.12,36.458182
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71110,2019.0,CUAUHTEMOC,GUERRERO,1.0,POPULAR,23.271045,6678.79,34.915001,69.83,89.473333,268.42,7017.04,24.030959
71111,2019.0,CUAUHTEMOC,GUERRERO,1.0,BAJO,17.740541,656.40,1.770000,1.77,48.980000,48.98,707.15,18.132052
71112,2019.0,CUAUHTEMOC,GUERRERO,1.0,MEDIO,,,52.623334,157.87,,,157.87,52.623334
71113,2019.0,CUAUHTEMOC,GUERRERO,1.0,POPULAR,16.403548,5085.09,12.648333,75.89,110.200000,661.20,5822.20,18.081335


# LIMPIANDO DATOS

* Observa que la información de la columna alcaldía contiene errores e inconsistencias en algunos de los registros

In [20]:
consumodf["alcaldia"].value_counts()

IZTAPALAPA             10515
GUSTAVO A. MADERO      10058
CUAUHTEMOC              7313
BENITO JUAREZ           5848
VENUSTIANO CARRANZA     5179
MIGUEL HIDALGO          5088
COYOACAN                4947
AZCAPOTZALCO            4204
ALVARO OBREGON          4135
IZTACALCO               3469
TLALPAN                 3199
XOCHIMILCO              2450
TLAHUAC                 1955
MAGDALENA CONTRERAS      955
CUAJIMALPA               889
MILPA ALTA               650
BENITO JUAREZ ii         201
MIGUEL                    17
Azcapotzalco              12
Name: alcaldia, dtype: int64

* **REEMPLAZAR VALORES:** Para corregir esta situación utilizamos la instrucción **.replace**

  **Sintaxis:** nombredataframe["columna"]=nombredataframe["columna"].replace({'Valor actual': 'Nuevo Valor', 'Valor actual': 'Nuevo Valor'})

In [21]:
consumodf["alcaldia"] = consumodf["alcaldia"].replace(
    {'Azcapotzalco': 'AZCAPOTZALCO', 'MIGUEL ':'MIGUEL HIDALGO','BENITO JUAREZ ii': 'BENITO JUAREZ'})

* Comprobamos que efectivamente se han reemplazado los datos

In [22]:
consumodf["alcaldia"].value_counts()

IZTAPALAPA             10515
GUSTAVO A. MADERO      10058
CUAUHTEMOC              7313
BENITO JUAREZ           6049
VENUSTIANO CARRANZA     5179
MIGUEL HIDALGO          5105
COYOACAN                4947
AZCAPOTZALCO            4216
ALVARO OBREGON          4135
IZTACALCO               3469
TLALPAN                 3199
XOCHIMILCO              2450
TLAHUAC                 1955
MAGDALENA CONTRERAS      955
CUAJIMALPA               889
MILPA ALTA               650
Name: alcaldia, dtype: int64

* **CAMBIANDO EL TIPO DE DATOS:** 
Ahora vamos a cambiar el tipo de datos de algunas columnas con la instrucción **.astype**
Iniciamos el proceso revisando el tipo de datos actual de cada columna.

  **Sintaxis:** dataFrame.dtypes

In [23]:
consumodf.dtypes

año              float64
alcaldia          object
colonia           object
bimestre         float64
indice_des        object
CPDomestico      float64
CTDomestico      float64
CPNODomestico    float64
CTNODomestico    float64
CPMixto          float64
CTMixto          float64
consumo_total    float64
consumo_prom     float64
dtype: object

* Vamos a cambiar año y bimestre a tipo string y, la columna "indice_des" a categoría aplicando la  instrucción **.astype.**
 
 Formateamos las columnas float a 2 decimales


In [24]:
consumodf.round(2)
consumodf["año"]=consumodf["año"].astype(str)
consumodf["bimestre"]=consumodf["bimestre"].astype(str)
consumodf["indice_des"]=consumodf["indice_des"].astype('category')
consumodf

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
0,2019.0,AZCAPOTZALCO,TIERRA NUEVA,1.0,BAJO,41.430000,455.73,133.340000,266.68,51.181668,307.09,1029.50,54.184211
1,2019.0,AZCAPOTZALCO,TIERRA NUEVA,1.0,BAJO,61.337142,429.36,18.870000,37.74,15.945000,63.78,530.88,40.836923
2,2019.0,AZCAPOTZALCO,SAN ANTONIO,1.0,MEDIO,24.724412,840.63,5.260000,10.52,64.905003,129.81,980.96,25.814737
3,2019.0,AZCAPOTZALCO,SAN ANTONIO,1.0,BAJO,22.798462,592.76,31.270000,31.27,142.199997,142.20,766.23,27.365357
4,2019.0,AZCAPOTZALCO,SAN ANTONIO,1.0,BAJO,37.390334,1121.71,10.030000,10.03,35.690000,71.38,1203.12,36.458182
...,...,...,...,...,...,...,...,...,...,...,...,...,...
71110,2019.0,CUAUHTEMOC,GUERRERO,1.0,POPULAR,23.271045,6678.79,34.915001,69.83,89.473333,268.42,7017.04,24.030959
71111,2019.0,CUAUHTEMOC,GUERRERO,1.0,BAJO,17.740541,656.40,1.770000,1.77,48.980000,48.98,707.15,18.132052
71112,2019.0,CUAUHTEMOC,GUERRERO,1.0,MEDIO,,,52.623334,157.87,,,157.87,52.623334
71113,2019.0,CUAUHTEMOC,GUERRERO,1.0,POPULAR,16.403548,5085.09,12.648333,75.89,110.200000,661.20,5822.20,18.081335


* Comprobamos el cambio en el tipo de datos

In [None]:
consumodf.dtypes

**VALORES PERDIDOS nan y 0**
Ahora revisemos los registros en 0 y los valores perdidos
Para recabar la información utilizamos un "loop" o iteración en cada columna.
* 1) La instrucción **consumodf.columns:** nos da como resultado una lista con los nombres de las columnas
* 2) de esta lista vamos seleccionado cada elemento (i) con la instrucción **  for i in consumodf.columns:**
* 3) por cada elemento(i) le pedimos a python que imprima (i) y aplique **consumodf[i].value_counts()** instrucción que nos mostrará los valores que toma (i)
    

In [25]:
for i in consumodf.columns:
    print (i)
    print(consumodf[i].value_counts())

año
2019.0    71084
nan          31
Name: año, dtype: int64
alcaldia
IZTAPALAPA             10515
GUSTAVO A. MADERO      10058
CUAUHTEMOC              7313
BENITO JUAREZ           6049
VENUSTIANO CARRANZA     5179
MIGUEL HIDALGO          5105
COYOACAN                4947
AZCAPOTZALCO            4216
ALVARO OBREGON          4135
IZTACALCO               3469
TLALPAN                 3199
XOCHIMILCO              2450
TLAHUAC                 1955
MAGDALENA CONTRERAS      955
CUAJIMALPA               889
MILPA ALTA               650
Name: alcaldia, dtype: int64
colonia
CENTRO                  1139
AGRICOLA ORIENTAL        837
ROMA NORTE               602
MOCTEZUMA 2A SECCION     558
JARDIN BALBUENA          498
                        ... 
CALZADA JALALPA            2
HUIZACHITO                 2
PIRU SECC. I               2
U. HAB. NUEVA ROSITA       1
SANTISIMA TRINIDAD         1
Name: colonia, Length: 1339, dtype: int64
bimestre
2.0    23935
3.0    23817
1.0    23332
nan       31
Name: bi

* Como podemos observar en casi todas las columnas hay nan y valores 0.

* Para **eliminar** los valores en **0 utilizamos la instrucción .drop.**
  Apliquemos esta instrucción en una de las columnas de nuestro DataFrame

In [26]:
consumodf = consumodf.drop(consumodf[consumodf['CPDomestico']==0].index)

In [27]:
consumodf['CPDomestico'].value_counts()

1.220000     33
14.640000    23
15.250000    22
10.980000    22
9.760000     21
             ..
20.601600     1
21.558571     1
40.727059     1
25.755294     1
8.000000      1
Name: CPDomestico, Length: 52033, dtype: int64

# EJERCICIO : UTIILIZANDO LOS NOMBRES DE LAS COLUMNAS QUE SE MUESTRAN DEBAJO COMPLETA LA INFORMACIÓN FALTANTE PARA ELIMINAR LAS FILAS CON REGISTROS EN 0
En este caso vamos a elimiar todas esas filas para ilustrar algunos comandos, ¿tendría sentido eliminar todas las filas con valores en 0 en otro contexto?

In [None]:
consumodf.columns

In [28]:
consumodf = consumodf.drop(consumodf[consumodf['CTDomestico']==0].index)
consumodf = .drop([consumodf['CPNODomestico']==0].)
consumodf = consumodf.drop(consumodf[consumodf['CTNODomestico']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['CPMixto']==0].index)
 = .drop([consumodf['']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['consumo_total']==0].index)
 =(consumodf[consumodf['consumo_prom']==0].)

SyntaxError: invalid syntax (<ipython-input-28-f2a55a1388ee>, line 2)

**VALORES PERDIDOS**
Iniciaremos este proceso revisando los valores perdidos con .count()

In [29]:
consumodf.count()

año              61257
alcaldia         61226
colonia          61226
bimestre         61257
indice_des       61226
CPDomestico      56409
CTDomestico      56409
CPNODomestico    61226
CTNODomestico    61226
CPMixto          52927
CTMixto          52927
consumo_total    61226
consumo_prom     61226
dtype: int64

* Utilizamos   la instrucción **.dropna** para eliminar las filas con información faltante

In [30]:
consumodf = consumodf.dropna(how="any")
consumodf.count()

año              52366
alcaldia         52366
colonia          52366
bimestre         52366
indice_des       52366
CPDomestico      52366
CTDomestico      52366
CPNODomestico    52366
CTNODomestico    52366
CPMixto          52366
CTMixto          52366
consumo_total    52366
consumo_prom     52366
dtype: int64

# GUARDANDO EL DATAFRAME LIMPIO

**GUARDAMOS EL DATAFRAME EN UN NUEVO ARCHIVO**

Observa que colocamos dos características a nuestra exportación 1)index y 2)header :

* **Index False** exportará nuestro DataFRame sin la columna del índice generado por python y
* **header True** guardará los nombres de las columnas como encabezados en el csv

Siempre es recomendable tener una copia de tus datos limpios.

In [31]:
consumodf.to_csv("baseconsumolimpia.csv",
                  encoding="utf-8", index=False, header=True)

* Vamos a leer nuevamente los datos, pero ahora desde nuestro archivo limpio, ¿recuerdas como se hace?

In [32]:
aguacsv="baseconsumolimpia.csv"

In [33]:
consumodf = pd.read_csv(aguacsv,encoding="UTF-8")

# RESUMEN DE LA INFORMACIÓN

* Vamos a hacer un resumen estadístico del DataFrame con la instrucción **.describe**

In [34]:
consumodf.describe()

Unnamed: 0,año,bimestre,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
count,52366.0,52366.0,52366.0,52366.0,52366.0,52366.0,52366.0,52366.0,52366.0,52366.0
mean,2019.0,2.085475,34.025437,1364.11552,58.892029,318.626388,57.627796,203.367126,1886.109045,42.519609
std,0.0,0.793382,62.711118,2756.789941,284.211086,1210.814088,128.735199,324.599131,3204.602089,144.459118
min,2019.0,1.0,0.02,0.12,0.0,0.0,0.0,0.0,0.12,0.06
25%,2019.0,1.0,22.628355,374.5875,6.71,12.81,17.39,27.66,621.765,25.016286
50%,2019.0,2.0,28.968857,758.31,18.3,54.87,40.055,116.24,1109.11,32.11
75%,2019.0,3.0,38.441888,1433.735,44.349166,212.43,67.195625,271.05,2034.9,42.487803
max,2019.0,3.0,7796.41,95060.69,15472.4975,61889.99,11702.22,23404.44,95117.77,11082.175


**MEAN, MIN Y MAX:** Aunque el resumen  que **.describe** nos muestra  es útil, podemos mejorar la forma en la que presentamos nuestra información
* Obtengamos el **promedio deL CONSUMO TOTAL(MEAN), del CONSUMO DOMÉSTICO Y NO DOMÉSTICO, así como sus valores máximos (MAX) y mínimos (MIN)**

In [35]:
promedio_consumo_total = consumodf["consumo_total"].mean()
CTMIN = consumodf["consumo_total"].min()
CTMAX= consumodf["consumo_total"].max()
promedio_consumo_total_Doméstico = consumodf["CTDomestico"].mean()
CDMIN = consumodf["CTDomestico"].min()
CDMAX= consumodf["CTDomestico"].max()
promedio_consumo_total_NoDoméstico = consumodf["CTNODomestico"].mean()
CNDMIN = consumodf["CTNODomestico"].min()
CNDMAX= consumodf["CTNODomestico"].max()

* **LEN, UNIQUE:** calcularemos también el número total de colonias en la base de datos utilizando **.unique y len()**

In [37]:
total_colonias = len(consumodf["colonia"].unique())
total_colonias

1168

In [38]:
CNDMAX

61889.99

* Guardemos nuestros cálculos en un nuevo DataFrame

**Sintaxis:** nombredataFrame=pd.DataFrame({"Nombrecolumna":[nombrevariablecreada],"Nombrecolumna":[nombrevariablecreada]})

In [39]:

resumen = pd.DataFrame({"Promedio del consumo total": promedio_consumo_total,"Colonias": [total_colonias],
                        "CTotal Min": [CTMIN],"CTotal MAx": [CTMAX],
                              "Promedio del consumo total Doméstico": [promedio_consumo_total_Doméstico],
                               "CDomestico Min": [CDMIN],"CDomestico Max": [CDMAX],
                              "Promedio del consumo total NO Doméstico": [promedio_consumo_total_NoDoméstico],"CNDomestico Min": [CNDMIN],"CNDomestico Max": [CNDMAX],})
resumen

Unnamed: 0,Promedio del consumo total,Colonias,CTotal Min,CTotal MAx,Promedio del consumo total Doméstico,CDomestico Min,CDomestico Max,Promedio del consumo total NO Doméstico,CNDomestico Min,CNDomestico Max
0,1886.109045,1168,0.12,95117.77,1364.11552,0.12,95060.69,318.626388,0.0,61889.99


# FILTRADO DE COLUMNAS, RESUMEN DE LA INFORMACIÓN
Para nuestros propósitos,probablemente,es mucho más interesante analizar los datos desagregando la información por Alcaldia, bimestre, colonia o categoría del índice de desarrollo.
Para llevar a cabo dicho análisis es necesario aplicar filtros y agrupar información

#  .ILOC, .LOC
Los comandos .iloc y .loc  son útiles para seleccionar información.

* El método **.ILOC** se utiliza para seleccionar en un DataFrame filas y/o columnas por su **ubicación.**
* Se utiliza la sintáxis **dataframe.iloc[ filas , columnas]**
  * Por ejemplo vamos a seleccionar en nuestro DataFrame resumen la información del **No. Total de Colonias** presente en la base de datos de consumo de agua. Recuerda que en python se cuenta a partir de 0 tanto filas como columnas, por ello para seleccionar la fila  1,segunda columna colocamos 0, 1

In [40]:
resumen.iloc[0,1]

1168

* Otra opción es seleccionar directamente la columna 2, sin colocar la referencia a la fila(es factible en este caso por que el DataFrame solo contiene 1 fila, este tipo de selección traerá el contenido completo de la columna)
**dataframe.iloc[:, columna]**

In [41]:
resumen.iloc[:,1]

0    1168
Name: Colonias, dtype: int64

* Para seleccionar toda una fila se omite la información de columnas **dataframe.iloc[fila,:]**

In [42]:
resumen.iloc[0,:]

Promedio del consumo total                  1886.109045
Colonias                                    1168.000000
CTotal Min                                     0.120000
CTotal MAx                                 95117.770000
Promedio del consumo total Doméstico        1364.115520
CDomestico Min                                 0.120000
CDomestico Max                             95060.690000
Promedio del consumo total NO Doméstico      318.626388
CNDomestico Min                                0.000000
CNDomestico Max                            61889.990000
Name: 0, dtype: float64

 **.LOC:** La selección de información mediante el comando **.loc** puede resultar mucho más interesante
* El método .loc puede ser utilizado de  dos formas diferentes: 
 **1)** Para seleccionar filas o columnas mediante una etiqueta y  **2)** Para seleccionar filas que cumplen una condición:
    * Para ilustrae el primer caso regresando a nuestro DataFrame de consumo de agua, podemos seleccionar toda la información de la columna "Consumo promedio doméstico" haciendo referencia a su etiqueta

In [43]:
consumodf.loc[:, 'CPDomestico']

0        41.430000
1        61.337142
2        24.724412
3        22.798462
4        37.390334
           ...    
52361    22.536393
52362    23.271045
52363    17.740541
52364    16.403548
52365    27.331305
Name: CPDomestico, Length: 52366, dtype: float64

* Podemos seleccionar diversas columnas, pasando como parámetro un arreglo con los nombres de las columnas
* El resultado al utilizar .loc es un DataFrame

In [44]:
consumodf.loc[:, ['CPDomestico','CTDomestico','CPNODomestico','CTNODomestico']]

Unnamed: 0,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico
0,41.430000,455.73,133.340000,266.68
1,61.337142,429.36,18.870000,37.74
2,24.724412,840.63,5.260000,10.52
3,22.798462,592.76,31.270000,31.27
4,37.390334,1121.71,10.030000,10.03
...,...,...,...,...
52361,22.536393,1374.72,13.250000,132.50
52362,23.271045,6678.79,34.915001,69.83
52363,17.740541,656.40,1.770000,1.77
52364,16.403548,5085.09,12.648333,75.89


* Podríamos limitar la consulta a un número determinado de filas, por las primeras 5

In [45]:
consumodf.loc[0:4:,['CPDomestico','CTDomestico','CPNODomestico','CTNODomestico']]

Unnamed: 0,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico
0,41.43,455.73,133.34,266.68
1,61.337142,429.36,18.87,37.74
2,24.724412,840.63,5.26,10.52
3,22.798462,592.76,31.27,31.27
4,37.390334,1121.71,10.03,10.03


**2)** seleccionar filas o columnas que cumplen una condición.
* Supongamos que estamos interesados en seleccionar la información de una colonia en particular para analizar los distintos tipos de consumos de agua

In [50]:
copilcoU=consumodf.loc[consumodf.loc[:, 'colonia'] == "COPILCO UNIVERSIDAD"]
copilcoU

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
472,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,BAJO,19.974700,1997.47,12.936667,77.62,426.480011,426.48,2501.57,23.379159
474,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,ALTO,25.891042,1242.77,10.553461,274.39,459.619995,459.62,1976.78,26.357067
475,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,ALTO,30.976250,247.81,137.470001,137.47,25.379999,25.38,410.66,41.066000
481,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,POPULAR,16.793953,722.14,154.720001,154.72,59.590000,119.18,996.04,21.653043
482,2019.0,COYOACAN,COPILCO UNIVERSIDAD,1.0,ALTO,12.173750,389.56,57.096667,342.58,43.079999,172.32,904.46,21.534762
...,...,...,...,...,...,...,...,...,...,...,...,...,...
37688,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,38.554167,462.65,11.875000,118.75,120.120000,120.12,701.52,30.500870
37689,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,26.074348,599.71,7.520000,7.52,0.000000,0.00,607.23,25.301250
37690,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,POPULAR,11.910000,190.56,7.170000,7.17,0.000000,0.00,197.73,11.631176
37701,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,POPULAR,20.830698,895.72,154.720000,154.72,73.830000,147.66,1198.10,26.045652


* También podemos seleccionar filas que cumplan varias condiciones;
por ejemplo la información de la colonia  COPILCO UNIVERSIDAD para el segundo y tercer bimestre


In [52]:
copilcoU2=consumodf.loc[(consumodf.loc[:, 'colonia'] == "COPILCO UNIVERSIDAD")&((consumodf['bimestre'] >=2))]
copilcoU2

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
2740,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,MEDIO,20.561667,986.96,27.151818,298.67,0.0,0.0,1285.63,21.790339
2741,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,23.34125,186.73,14.216667,85.3,12.45,49.8,321.83,17.879444
2768,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,17.84,53.52,73.81,147.62,0.0,0.0,201.14,40.228
5188,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,27.487778,247.39,28.565,114.26,4.76,4.76,366.41,26.172143
5198,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,35.485556,319.37,179.52,179.52,0.0,0.0,498.89,49.889
5199,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,21.095,590.66,26.915,53.83,48.51,145.53,790.02,23.94
5200,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,27.606809,1297.52,12.843824,436.69,477.32,477.32,2211.53,26.969878
5201,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,38.312857,268.19,16.47,16.47,0.0,0.0,284.66,35.5825
5202,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,ALTO,47.186,707.79,54.19,433.52,0.0,0.0,1141.31,49.622174
5203,2019.0,COYOACAN,COPILCO UNIVERSIDAD,3.0,POPULAR,11.91,190.56,7.17,7.17,0.0,0.0,197.73,11.631176


# ORDENANDO LOS DATOS 

**SORT**
* Observando los datos, identificamos que la información de las columna bimestre aparece de forma desordenada combinando 2 y 3
* Podemos ordenar los datos del DataFrame copilcoU2 

In [55]:
copilcoU2ordenado= copilcoU2.sort_values(["bimestre"], ascending=True)
copilcoU2ordenado.head()


Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
2740,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,MEDIO,20.561667,986.96,27.151818,298.67,0.0,0.0,1285.63,21.790339
37690,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,POPULAR,11.91,190.56,7.17,7.17,0.0,0.0,197.73,11.631176
37689,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,26.074348,599.71,7.52,7.52,0.0,0.0,607.23,25.30125
37688,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,38.554167,462.65,11.875,118.75,120.12,120.12,701.52,30.50087
37687,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,38.4,345.6,179.52,179.52,0.0,0.0,525.12,52.512


* Inclusive podemos **ordenar los datos por más de una columna**

In [56]:
copilcoU2ordenado= copilcoU2.sort_values(["bimestre","indice_des"], ascending=True)
copilcoU2ordenado.head()

Unnamed: 0,año,alcaldia,colonia,bimestre,indice_des,CPDomestico,CTDomestico,CPNODomestico,CTNODomestico,CPMixto,CTMixto,consumo_total,consumo_prom
2741,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,23.34125,186.73,14.216667,85.3,12.45,49.8,321.83,17.879444
2768,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,17.84,53.52,73.81,147.62,0.0,0.0,201.14,40.228
15949,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,25.183333,226.65,21.55,86.2,4.76,4.76,317.61,22.686429
15950,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,33.80375,270.43,62.83,125.66,47.58,47.58,443.67,40.333636
15951,2019.0,COYOACAN,COPILCO UNIVERSIDAD,2.0,ALTO,27.606809,1297.52,15.207,456.21,477.32,477.32,2231.05,28.603205


In [59]:
consumodf['indice_des']

0           BAJO
1           BAJO
2          MEDIO
3           BAJO
4           BAJO
          ...   
52361    POPULAR
52362    POPULAR
52363       BAJO
52364    POPULAR
52365       BAJO
Name: indice_des, Length: 52366, dtype: object

# AGRUPANDO CON GROUP BY
Es posible que estemos interesado en analizar los datos desde el punto de vista de algún tipo de agrupación presente en los datos.

Por ejemplo **analizar por separado la información de las colonias etiquetadas con un índice de desarrollo "ALTO" vs las etiquetadas con un índice de desarrollo "BAJO".**

Para realizar este tipo de análisis vamos a utilizar la instrucción **group.by**

* Vamos a analizar los datos del DataFrame consumodf para comparar los consumos de agua de las colonias según su  índice desarrollo
* **La instrucción .groupby crea un objeto, a partir del cual podremos obtener información de los grupos** 

In [60]:
gruposdesarrollo=consumodf.groupby(['indice_des'])
gruposdesarrollo

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1251bd090>

**.GROUP.KEYS** Esta instrucción mostrará los grupos que se identifican en el DataFrame a partir de los valores únicos presentes en la columna

In [61]:
consumodf.groupby(['indice_des']).groups.keys()

dict_keys(['ALTO', 'BAJO', 'MEDIO', 'POPULAR'])

In [62]:
gruposdesarrollo.groups.keys()

dict_keys(['ALTO', 'BAJO', 'MEDIO', 'POPULAR'])

* Si queremos saber **cuántos elementos integran cada grupo** podemos utilizar la instruccion **len** y la etiqueta del grupo 

In [63]:
alto=len(consumodf.groupby(['indice_des']).groups['ALTO'])
bajo=len(consumodf.groupby(['indice_des']).groups['BAJO'])
medio=len(consumodf.groupby(['indice_des']).groups['MEDIO'])
popular=len(consumodf.groupby(['indice_des']).groups['POPULAR'])
alto,medio,bajo,popular

(12861, 8133, 23264, 8108)

**.GROUPBY .MEAN** Podemos obtener el promedio de consumo total por cada grupo

In [64]:
consumodf.groupby('indice_des')['consumo_total'].mean()

indice_des
ALTO       2153.718748
BAJO       1708.624580
MEDIO      1473.264340
POPULAR    2384.991157
Name: consumo_total, dtype: float64

**.GROUPBY .NUNIQUE:** Podemos obtener el numero total de colonias que se incluyen en cada grupo

In [65]:
consumodf.groupby('indice_des')["colonia"].nunique()

indice_des
ALTO       465
BAJO       829
MEDIO      493
POPULAR    808
Name: colonia, dtype: int64

# MERGE
Un problema común en el análisis de datos es la necesidad de tener que incorporar nueva información.
Python cuenta con varios métodos para realizar esta tarea, cada uno es útil dependiendo cómo queremos incluir nuestra información y la estructura de los datos a los que la anexaremos.



* Para identificar si los consumos de agua son altos o bajos, debemos considerar alguna medida que nos permita tener referencia, por ejemplo los litros consumidos por el número de habitantes de la alacldia
 nuestra información no contiene datos sobre la población, por lo que debemos incorporar este dato.
* Tomamos información sobre las proyecciones de población que realiza CONAPO, estos datos están a nivel alcaldia , por lo que primero debemos obtener un DataFrame con la información resumida a ese nivel
* Despues vamos a unir la información de población mediante el comando .merge y realizaremos algunos cálculos para analizar los consumos de agua:

**1)** consideremos inicialmente únicamente la información de los consumos tootales

In [None]:
consumototalc=consumodf.groupby('alcaldia')['CTDomestico','CTNODomestico','CTMixto','consumo_total'].sum()
consumototalc

**2** Vamos a leer los datos de nuestro archivo de población**

In [None]:
poblacioncsv ="Downloads//proyeccionespoblac2019alcaldias.csv"
poblac2019cdmx= pd.read_csv(poblacioncsv,encoding="UTF-8")
poblac2019cdmx

In [None]:
dataframecompleto = pd.merge(poblac2019cdmx, consumototalc,how='outer', on='alcaldia')
dataframecompleto 

* Calcularemos el consumo total/la población total de la alcaldia y agregaremos esta información como una nueva columna

In [None]:
CTpPobtot = dataframecompleto ["consumo_total"]/dataframecompleto ["Pob_Tot2019"]
dataframecompleto["CTpPobtot"] = CTpPobtot
dataframecompleto

In [None]:
dataframecompleto["CTpPobtot"].describe().round()

**BINING**

Vamos a dividir nuestros datos en distintas categorías a partir de la información  de el Consumo TOtal/Población
para ello utilizaremos el comando **pd.cut y la instrucción bins**
Los bins deben considerar el rango completo de la variable que vamos a categorizar(cada bin establece el límite de la categiría)
Los nombres de los grupos deben ser no.bins-1.

In [None]:
bins = [0, 3, 6, 13, 23, 34]
group_names = ["MUY BAJO", "BAJO", "MEDIO", "ALTO", "MUY ALTO"]
dataframecompleto["Categoriaconsumo"] = pd.cut(dataframecompleto["CTpPobtot"], bins, labels=group_names)
dataframecompleto

In [None]:
#Guardemos nuestro DataFrame en un nuevo csv
dataframecompleto.to_csv("C://Users//JESICA//basecompletaconpob.csv",
                  encoding="utf-8", index=False, header=True)

# OPERADORES Y CONDICIONALES 

*Para realizar comparaciones en Python se utilizan diversos operadores, entre los más comúnes
se encuentran:

**== igual**

**!= distinto de** 

**<*menor que**

**> mayor que** 

**>= mayor o igual que**

**and** 

**or**

#### **IF**

La instrucción **IF en conjunto con los operadores lógicos** permiten que un programa ejecute una o más  instrucciones al al cumplirse una condición.

**La sintaxis de la instrucción if es la siguiente:**

   * Se establecen los valores de las variables a comparar (sí aplica).
    
   * Se evalúa la condición IF
    
   * Sí el resultado es **True** se ejecuta el bloque de sentencias
    
   * Sí el resultado es **False** no se ejecuta el bloque de sentencias.

In [None]:
#EJEMPLO
x = 1
y = 1
if x == y:
    print("x is equal to y")
    x = (x)+1
    y= (y)+1
    print(x)
    print(y)

In [None]:
#EJEMPLO
x = 1
y = 2
if x == y:
    print("x is equal to y")
    x = (x)+1
    y= (y)+1
    print(x)
    print(y)

#### **IF ELSE** --  IF ANIDADOS CON MÁS DE DOS CONDICIONES

**IF, ELIF, ELSE** 
Estas tres instrucciones  permiten establecer instrucciones para **más de un escenario.**
Cuando sólo teníamos IF,  establecimos condiciones para el caso en el que la evaluación de IF da como resultado "True", al agregar ELSE podemos establecer instrucciones para el caso en el que la evaluación de IF da como resultado "False"

Si además añadimos ELIF(contracción de else if) estamos incluyendo un escenario adicional para comparar nuestras variables.

In [None]:
#EJEMPLO 1 IF ELSE
x = 1
y = 10
if x == y:#La primera línea contiene la condición a evaluar y es una expresión lógica. Esta línea debe terminar siempre por dos puntos (:).
    print("x is equal to y")#loque de órdenes que se ejecutan cuando la condición se cumple (es decir, cuando la condición es verdadera). 
else:#si la condición anterior no se cumple
     print("x is not equal to y")


In [None]:
#EJEMPLO 2 IF ELIF ELSE
x = 100
y = 100
if x > y:#condición_1:
    print("x es mayor") #bloque 1
elif x < y: #condición_2:
    print("x es menor") #bloque 2
else:
    print("x es igual a y")#bloque 3


# LOOPS/CICLOS FOR,  WHILE
Un For Loop o ciclo for, recorre cada uno de los elementos de una lista y ejecuta por cada elemento la condición establecida.

**Ejemplo 1 For Loop en un rango de números**, si sólo se provee un número, se ejecutara la condición desde 0 hasta el número provisto

In [None]:
for x in range(10):
    print(x)

**Ejemplo 2 For Loop en un rango entre dos números,** si provee un número inicial y uno final , se ejecutara la condición hasta alcanzar el número final

In [None]:
for x in range(20, 30):
    print(x)

**Ejemplo 3 For Loop en un una lista** si se provee una lista, la instrucción se ejecutará por cada elemento dentro de la lista 

In [None]:
palabras= ["Sandía", "Canela", "Azul", "Tiempo", "Ayer", "Hoy"]
for palabra in palabras:
    print(palabra)


**Ejemplo 4 While Loop**  Este tipo de ciclos continuará ejecutando la instrucción establecida hasta que se cumple cierta condición

In [None]:
x = "A"
while x == "A":
    print("Primera letra del Abecedario")
    x = input("Introduce otra letra ")


# EJERCICIOS 
Completa la información necesaria para ejecutar los siguientes Loops

In [None]:
#Ejecuta  un rango de números (0 al 4)
for x in range():
    print(x)
    print("Muy bien,entendiste el ejericio!")

In [None]:
#Ejecuta un loop de números del 2 al 6 inclusive
 x in range(, ):
    print(x)

In [None]:
#Itera cada una de las letras en una palabra
palabra = "Econometría"
for letra in palabra:
    print(letra)

In [None]:
#Itera cada uno de los elementos en una lista
canasta = ["leche", "carne", "jitomate", "lechuga"]
for  in :
    print()

In [None]:
# Ejecuta la instrucción hasta que se cumpla una  a condition
run = "y"
while run == "y":
    print("Hi!")
    run = input("To run again. Enter 'y'")

**LIST COMPREHENSION**
Permite crear listas de forma simplificada y con menor cantidad de código.
El resultado siempres será una lista.

**Ejemplo 1:** Queremos guardar cada una de las letras que componen una palabra en una lista para cambiarla a mayúscula e imprimir todas las letras.
Como ya hemos visto, podemos utilizar un ciclo for para este propósito

In [None]:
palabra = "Parangaricutirimicuaro" # guardamos en una variable nuestra palabra
letras = [] #creamos una lista vacia en la que se van a ir agregando las letras de nuestra palabra
for letra in palabra:# iniciamos nuestro ciclo for
        letras.append(letra.upper()) # letra.upper(convierte a mayúscula la letra dentro del ciclo)
                                     # letras.append(listavacia.append esta instrucción "agrega" la letra en mayúscula a la lista llamada letras)
print(letras)

* Con **LIST COMPREHENSION** podemos ejecutar la misma tarea con un código simplificado

**Sintaxis:** variable para guardar la lista = [Expresion para aplicar a cada elemento() ciclo for]

In [None]:
palabra = "Parangaricutirimicuaro"
letras = [letra.upper() for letra in palabra]
print(letras)

**Ejemplo 2: For en un rango**
Obtengamos el cuadrado de los número pares que hay en un rango del 0 al 9

In [None]:
# variable para guardar la lista = [Expresion para aplicar a cada elemento() ciclo for range]   
cuadrados_pares = [num**2 for num in range(10) if num % 2 == 0]
print(cuadrados_pares)

**Ejemplo 3: For IF**

Podemos añadir un condicional (if) a un list comprehension.

* Supongamos que queremos un listado de las temperaturas más altas en una semana del mes de julio (mayores a 26 grados)
Tenemos un listado con el registro de temperaturas de cada día de la semana.
Con un clico for e If podemos seleccionar las temperaturas de los días más calurosos.

In [None]:
temperatura_semanal= [27, 25, 22, 29, 30,26,32]
días_calurosos = []
for temperatura in temperatura_semanal:
    if temperatura > 26:
        días_calurosos.append(temperatura)
print(días_calurosos)

* Podemos hacer la misma selección utilizando list comprehension

In [None]:
temperatura_semanal= [27, 25, 22, 29, 30,26,32]
días_calurosos = [temperatura for temperatura in temperatura_semanal if temperatura > 26]

print(días_calurosos)

* Utilizando **IF, CICLOS FOR Y LIST COMPRENHENSION** en PANDAS

In [None]:
#Creamos un DataFrame de prueba
import pandas as pd
datos = {'nombre': ['Francisco', 'Julieta', 'Marcela', 'Joaquin', 'Carlos'], 
        'año': [2012, 2012, 2013, 2014, 2014], 
        'calificacion': [9, 7, 8, 10, 8]}
df = pd.DataFrame(datos)
df

**Creando una nueva columna con IF** 
* Estructura df.loc[df['nombre_columna'] condicion, 'nombre_nueva_columna'] = 'valor si la condición se cumple'
  Estructura df.loc[df['nombre_columna'] condicion, 'nombre_nueva_columna'] = 'valor si la condición  NO se cumple'

In [None]:
df.loc[df['año'] > 2012 , '+2012'] = 'Verdadero' 
df.loc[df['año'] <= 2012, '+2012'] = 'Falso' 
df

**Ciclo for en pandas**

In [None]:
import numpy as np
# Iteración por columnas del DataFrame:
cols=df.columns
upp=[]
for col in cols:
    upp.append(col.upper())
print(upp)

In [None]:
# Iteración por filas del DataFrame:
for indice_fila, fila in df.iterrows():
    print(indice_fila)
    print(fila)

**Ejemplo List Comprehensions**
* Vamos a crear una columna nueva de **"año anterior"** restaremos 1 a la columna año utilizando list comprehension.

* **Sintaxis** nombredataframe[nombrecolumna] =[ciclo for para cada fila en la columna [nombrecolumna]]

In [None]:
df['año_anterior'] = [row-1 for row in df['año']]
df