# INTRODUCCIÓN A PANDAS

###### Los datos consultados en este notebook proceden de :https://datos.cdmx.gob.mx/explore/dataset/consumo-agua/export/ y
https://www.gob.mx/cms/uploads/attachment/file/503374/Diccionario_Proyecciones_de_la_Poblacion_2016_2050.pdf

**PANDAS** es una biblioteca de python utilizada para  manipular y análizar  datos. El nombre deriva del término "panel data" (datos panel).

La estructura básica de PANDAS es el DataFrame.

Un **DataFrame** es un objeto bidimensional (tabla) que puede tener columnas con diferentes tipos de información. Los diferentes tipos de entradas incluyen diccionarios, listas, series e incluso otro DataFrame.

**1) IMPORTAR LA BIBLIOTECA**: Para utilizar PANDAS es necesario importar esta biblioteca así como Numpy

In [None]:
import pandas as pd
import numpy as np

# OJO: CORRE ESTA CELDA SÓLO EN CASO DE QUE LA INSTRUCCION PARA IMPORTAR PANDAS FALLE. DESPUÉS VUELVE A CORRER 1)

In [None]:
#!pip install pip
#!pip install pandas
#!pip install numpy

**2) DISTINTAS FORMAS DE CREAR UN DATAFRAME**

**A) De una lista a un Serie:**

Para crear la serie debemos creamos una variable que contendrá los elementos de la serie, utilizar la instrucción que le indica a PANDAS que el contenido es una serie, y guardar los elementos de la serie entre paréntesis y corchete.

*Instrucción: pd.Series*

*Sintaxis: nombrevariable =Instrucción([elemento1,elemento2,....elementon]*

Por ejemplo, vamos a crear una serie con la lista de tus materias.

In [None]:
data_series = pd.Series(["Historia", "Estadística II", "Econometría",
                         "Filosofía", "Literatura"])
data_series

**B) De una lista de diccionarios a DataFrame:** 

Un listado de diccionarios puede convertirse en un DataFrame utilizando la **Instrucción pd.DataFrame.** Primero asiganos la lista de diccionarios a una variable y luego aplicamos la instrucción pd. Dataframe a dicha variable.

*Instrucción: pd. Dataframe*

*Sintaxis: nombredataframe=Instruccion(variable que contiene la lista de diccionarios)*
    
Un ejemplo clásico es la información de  los Estados de la Republica y su clave en INEGI    
 

In [None]:
# Convertir una lista de diccionarios a DataFrame
#Sintaxis: nombrelistadic = [{"KEY":"VALUE","KEY":VALUE"},{"KEY":"VALUE","KEY":VALUE"}]
#nombredataFrame=pd.Dataframe(nombrelistadic)

listadiccionario = [{"ESTADO": "AGUASCALIENTES", "CLAVEINEGIESTADO":"01"},
                {"ESTADO": "ZACATECAS", "CLAVEINEGIESTADO":"32"}]

df_estados = pd.DataFrame(listadiccionario)
df_estados

**C) De un diccionario de listas a un DataFrame**

Un diccionario creado a partir de varias listas puede convertirse en un DataFrame con la instrucción **pd.DataFrame**

*Sintaxis: nombredataFrame=pd.Dataframe({"lista1":[elemento 1,elemento 2,...,elemento n],"lista2":[elemento 1,elemento 2,...,elemento n],"lista n":[elemento n1,elemento n2,...,elemento nn]})*


In [None]:
dfpoblacion = pd.DataFrame(
    {"Delegación": ["Coyoacán", "Miguel Hidalgo"],
     "Claveinegi": ["090030001", "090160001"],
     "Población": ["620,416", "372,889"]})
dfpoblacion

# EJERCICIO

In [None]:
# Crea un  DataFrame a partir de un diccionario de listas completando la información faltante
# = pd.DataFrame({
   # "": ["Carlos", "", "Rosa", , "Luis"],
    #"Edad": [15.00, 12.50, 10.00, 5.00, 1.00],
    # [1.75, 1.68, 1.64, 1.72, "N/D"]
#})


**D) Crear DataFrame a partir de un archivo externo.**

Regualarmente, en esta clase trabajaremos con arcivos de bases de datos externos, con formatos csv, xls, entre otros.
Para que Python "lea" y manipule los datos de dichas bases de datos, a veces es necesario importar la biblioteca correspondiente a cada extension, de acuerdo a los archivos que se quieran manipular.Tal como se ha trabajado en este notebook se debe utilizar la instrucción:-import x as - abreviatura de la biblioteca-

*Para mayor información te sugerimos estos enlaces:
http://www.developerpe.com/blog/cargar_panda_csv_txt_json_xlsx/
https://pandas.pydata.org/docs/user_guide/cookbook.html?highlight=read#data-in-out*

**Por ejemplo:
import csv**

En este caso **NO** será necesario debido a que la instalación de Pandas incluye csv.

**Para crar un DataFrame con información de un archivo externo**

**1)** Primero guardamos la ruta del archivo en una variable

In [None]:
#
aguacsv = "https://datos.cdmx.gob.mx/dataset/eb38823c-488a-49e8-a2cf-62e628fa246f/resource/2263bf74-c0ed-4e7c-bb9c-73f0624ac1a9/download/consumo-agua.csv"

**2)** Le damos un nombre a nuestro DataFrame y con ayuda de la instrucción **pd.read_csv**, leemos los datos del csv.

* ###### Ojo:la instrucción encoding no es estrictamente necesaria, pero nos ayudará a que todos los caracteres sean interpretados correctamente

In [None]:
consumodf = pd.read_csv(aguacsv, encoding = 'latin-1') 
# encoding = {UTF-8 , latin1, utf-8-sig}

###### Para ver el encabezado del del DataFRame utilizamos la instrucción .head(),  por default muestra las primeras 5 líneas.

Sintaxis: nombredataframe.head()

###### También podemos ver los últimos registros con tail()

Sintaxis: nombredataframe.tail()

In [None]:
consumodf.head()

* ###### Para ver la información de una columna en particular y sus primeros 10 registros utilizamos la sintaxis: nombredataframe["columna"].head(10)

In [None]:
consumodf["alcaldia"].head(10)

* ###### Para mostrar múltiples columnas utilizamos la  Sintaxis: nombredataframe[["columnaA","columnaB"]].head(n) -nota los corchetes dobles


In [None]:
consumodf[["alcaldia", "consumo_prom"]].head()

* ###### Para saber cuántos datos tenemos utilizamos la sintaxis nombredataframe.shape

In [None]:
consumodf.shape

# FUNCIONES BÁSICAS DE PANDAS PARA ANALIZAR UN DATAFRAME 

Tal como está, nuestro DataFrame no nos permite revisar la información de forma sencilla, para ordenar y limpiar los datos que tenemos debemos realizar una serie de operaciones. Cada una de las instrucciones que se muestran a continuación pueden se guardadas en una variable para posteriormente ser utilizadas

* Para mostrar el nombre de todas las columnas que componen nuestro DataFrame utilizamos la instrucción **.columns**

 **Sintaxis:** nombredataframe.columns()

In [None]:
consumodf.columns

* La instrucción **.dtypes** a plicada al DataFrame regresa el tipo de datos de cada columna

In [None]:
consumodf.dtypes

* La instrucción **.count()** aplicada al DataFrame regresa el no. de observaciones válidas en cada columna

In [None]:
consumodf.count()

* Si queremos saber los valores que toma cada columna y el no. de observaciones que tiene cada valor, utilizamo la instrucción **.value_counts()**

 **Sintaxis:** nombredataframe["columna"].value_counts()

In [None]:
consumodf["alcaldia"].value_counts()

* Para conocer los valores únicos de una columna utilizamos la instrucción **.unique()**, esta instrucción regresa un arreglo con la información delos valores únicos que aparecen en la columna y el tipo de datos

   **Sintaxis:** unicos= nombredataframe["columna"].unique()

In [None]:
unique = consumodf["bimestre"].unique()
unique

# OPERACIONES CON COLUMNAS

Por ahora, los comandos utilizados nos permiten tener una idea general de lo que hay en la base de datos.
A fin de realizar un análisis más profundo de la información que contiene nuestro DataFrame, es necesario renombrar y reorganizar columnas, así como limpiar algunos registros.

Utilizaremos algunos nuevos comandos para este propósito.

* **ELIMINAR:** Vamos a conservar sólo las columnas que necesitamos, en este caso no vamos a utilizar la información geográfica por lo que debemos eliminar las columnas con dicha información.
Por otra parte la información de la columna 'nomgeo'está repetida en la columna "alcaldía"; por lo que vamos a eliminar esta información.
 Utilizamos el comando **.drop**
   
 **Sintaxis:** nombredataframe.drop(["columna1,"columna n"], axis=1, inplace=True)

In [None]:
consumodf.drop(["geo_point_2d", "geo_shape"], axis=1, inplace=True)
consumodf.head(5)


 * **RENOMBRAR** Vamos a renombrar algunas columnas para aclarar su significado y a reorganizar el orden de aparición de las mismas. Para ello vamos a utilizar el comando **df.rename**

 **Sintaxis:** dataframe=dataframe.rename(columns={"Nombreactual": "Nuevonombre", "Nombreactual": "Nuevonombre"})

Los nombres de las columnas serán lo siguientes:

 * anio=año
 * consumo_total_mixto= CTMixto
 * consumo_prom_mixto= CPMixto
 * consumo_prom_dom= CPDomestico
 * consumo_total_dom=CTDomestico
 * consumo_prom_no_dom= CPNODomestico
 * consumo_total_no_dom=CTNODomestico


In [None]:
consumodf = consumodf.rename(columns={"anio":"año","consumo_total_mixto":"CTMixto", "consumo_prom_mixto":"CPMixto",
                                      "consumo_prom_dom":"CPDomestico","consumo_total_dom":"CTDomestico",
                                      "consumo_prom_no_dom":"CPNODomestico","consumo_total_no_dom":"CTNODomestico"})
consumodf.head()

* **REORGANIZAR:** Vamos a reorganizar las columnas y a conservar sólo aquellas que vamos a utilizar, para ello se utiliza la sigiente sintaxis. Los nombres de las columnas van en el órden que nosotros establezcamos.

  **Sintaxis:** nombredataframe=nombredataframe[["nombre columna1","nombre columna2",..."nombre columnan"]]

In [None]:
consumodf = consumodf[["año","alcaldia","colonia","bimestre","indice_des","CPDomestico","CTDomestico","CPNODomestico","CTNODomestico","CPMixto","CTMixto","consumo_total","consumo_prom"]]
consumodf

# LIMPIANDO DATOS

* Observa que la información de la columna alcaldía contiene errores e inconsistencias en algunos de los registros

In [None]:
consumodf["alcaldia"].value_counts()

* **REEMPLAZAR VALORES:** Para corregir esta situación utilizamos la instrucción **.replace**

  **Sintaxis:** nombredataframe["columna"]=nombredataframe["columna"].replace({'Valor actual': 'Nuevo Valor', 'Valor actual': 'Nuevo Valor'})

In [None]:
consumodf["alcaldia"] = consumodf["alcaldia"].replace(
    {'IZTAPALAPA': 'IZP'})

* Comprobamos que efectivamente se han reemplazado los datos

In [None]:
consumodf["alcaldia"].value_counts()

* **CAMBIANDO EL TIPO DE DATOS:** 
Ahora vamos a cambiar el tipo de datos de algunas columnas con la instrucción **.astype**
Iniciamos el proceso revisando el tipo de datos actual de cada columna.

  **Sintaxis:** dataFrame.dtypes

In [None]:
consumodf.dtypes

* Vamos a cambiar año y bimestre a tipo string y, la columna "indice_des" a categoría aplicando la  instrucción **.astype.**
 
 Formateamos las columnas float a 2 decimales


In [None]:
consumodf.round(2)
consumodf["año"]=consumodf["año"].astype(str)
consumodf["bimestre"]=consumodf["bimestre"].astype(str)
consumodf["indice_des"]=consumodf["indice_des"].astype('category')
consumodf

* Comprobamos el cambio en el tipo de datos

In [None]:
consumodf.dtypes

**VALORES PERDIDOS nan y 0**
Ahora revisemos los registros en 0 y los valores perdidos
Para recabar la información utilizamos un "loop" o iteración en cada columna.
* 1) La instrucción **consumodf.columns:** nos da como resultado una lista con los nombres de las columnas
* 2) de esta lista vamos seleccionado cada elemento (i) con la instrucción **  for i in consumodf.columns:**
* 3) por cada elemento(i) le pedimos a python que imprima (i) y aplique **consumodf[i].value_counts()** instrucción que nos mostrará los valores que toma (i)
    

In [None]:
for i in consumodf.columns:
    print (i)
    print(consumodf[i].value_counts())

* Como podemos observar en casi todas las columnas hay nan y valores 0.

* Para **eliminar** los valores en **0 utilizamos la instrucción .drop.**
  Apliquemos esta instrucción en una de las columnas de nuestro DataFrame

In [None]:
consumodf = consumodf.drop(consumodf[consumodf['CPDomestico']==0].index)

In [None]:
consumodf['CPDomestico'].value_counts()

# EJERCICIO : UTIILIZANDO LOS NOMBRES DE LAS COLUMNAS QUE SE MUESTRAN DEBAJO COMPLETA LA INFORMACIÓN FALTANTE PARA ELIMINAR LAS FILAS CON REGISTROS EN 0
En este caso vamos a elimiar todas esas filas para ilustrar algunos comandos, ¿tendría sentido eliminar todas las filas con valores en 0 en otro contexto?

In [None]:
consumodf.columns

In [None]:
consumodf = consumodf.drop(consumodf[consumodf['CTDomestico']==0].index)
consumodf = .drop([consumodf['CPNODomestico']==0].)
consumodf = consumodf.drop(consumodf[consumodf['CTNODomestico']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['CPMixto']==0].index)
 = .drop([consumodf['']==0].index)
consumodf = consumodf.drop(consumodf[consumodf['consumo_total']==0].index)
 =(consumodf[consumodf['consumo_prom']==0].)

**VALORES PERDIDOS**
Iniciaremos este proceso revisando los valores perdidos con .count()

In [None]:
consumodf.count()

* Utilizamos   la instrucción **.dropna** para eliminar las filas con información faltante

In [None]:
consumodf = consumodf.dropna(how="any")
consumodf.count()

# GUARDANDO EL DATAFRAME LIMPIO

**GUARDAMOS EL DATAFRAME EN UN NUEVO ARCHIVO**

Observa que colocamos dos características a nuestra exportación 1)index y 2)header :

* **Index False** exportará nuestro DataFRame sin la columna del índice generado por python y
* **header True** guardará los nombres de las columnas como encabezados en el csv

Siempre es recomendable tener una copia de tus datos limpios.

In [None]:
consumodf.to_csv("baseconsumolimpia.csv",
                  encoding="utf-8", index=False, header=True)

* Vamos a leer nuevamente los datos, pero ahora desde nuestro archivo limpio, ¿recuerdas como se hace?

In [None]:
aguacsv="baseconsumolimpia.csv"

In [None]:
consumodf = pd.read_csv(aguacsv,encoding="UTF-8")

# RESUMEN DE LA INFORMACIÓN

* Vamos a hacer un resumen estadístico del DataFrame con la instrucción **.describe**

In [None]:
consumodf.describe()

**MEAN, MIN Y MAX:** Aunque el resumen  que **.describe** nos muestra  es útil, podemos mejorar la forma en la que presentamos nuestra información
* Obtengamos el **promedio deL CONSUMO TOTAL(MEAN), del CONSUMO DOMÉSTICO Y NO DOMÉSTICO, así como sus valores máximos (MAX) y mínimos (MIN)**

In [None]:
promedio_consumo_total = consumodf["consumo_total"].mean()
CTMIN = consumodf["consumo_total"].min()
CTMAX= consumodf["consumo_total"].max()
promedio_consumo_total_Doméstico = consumodf["CTDomestico"].mean()
CDMIN = consumodf["CTDomestico"].min()
CDMAX= consumodf["CTDomestico"].max()
promedio_consumo_total_NoDoméstico = consumodf["CTNODomestico"].mean()
CNDMIN = consumodf["CTNODomestico"].min()
CNDMAX= consumodf["CTNODomestico"].max()

In [None]:
promedio_consumo_total

In [None]:
CDMIN



* **LEN, UNIQUE:** calcularemos también el número total de colonias en la base de datos utilizando **.unique y len()**

In [None]:
total_colonias = len(consumodf["colonia"].unique())
total_colonias

In [None]:
consumodf["colonia"]

In [None]:
CNDMAX

* Guardemos nuestros cálculos en un nuevo DataFrame

**Sintaxis:** nombredataFrame=pd.DataFrame({"Nombrecolumna":[nombrevariablecreada],"Nombrecolumna":[nombrevariablecreada]})

In [None]:

resumen = pd.DataFrame({"Promedio del consumo total": promedio_consumo_total,"Colonias": [total_colonias],
                        "CTotal Min": [CTMIN],"CTotal MAx": [CTMAX],
                              "Promedio del consumo total Doméstico": [promedio_consumo_total_Doméstico],
                               "CDomestico Min": [CDMIN],"CDomestico Max": [CDMAX],
                              "Promedio del consumo total NO Doméstico": [promedio_consumo_total_NoDoméstico],
                        "CNDomestico Min": [CNDMIN],"CNDomestico Max": [CNDMAX],})
resumen

# FILTRADO DE COLUMNAS, RESUMEN DE LA INFORMACIÓN
Para nuestros propósitos,probablemente,es mucho más interesante analizar los datos desagregando la información por Alcaldia, bimestre, colonia o categoría del índice de desarrollo.
Para llevar a cabo dicho análisis es necesario aplicar filtros y agrupar información

#  .ILOC, .LOC
Los comandos .iloc y .loc  son útiles para seleccionar información.

* El método **.ILOC** se utiliza para seleccionar en un DataFrame filas y/o columnas por su **ubicación.**
* Se utiliza la sintáxis **dataframe.iloc[ filas , columnas]**
  * Por ejemplo vamos a seleccionar en nuestro DataFrame resumen la información del **No. Total de Colonias** presente en la base de datos de consumo de agua. Recuerda que en python se cuenta a partir de 0 tanto filas como columnas, por ello para seleccionar la fila  1,segunda columna colocamos 0, 1

In [None]:
resumen.iloc[0,1]

* Otra opción es seleccionar directamente la columna 2, sin colocar la referencia a la fila(es factible en este caso por que el DataFrame solo contiene 1 fila, este tipo de selección traerá el contenido completo de la columna)
**dataframe.iloc[:, columna]**

In [None]:
resumen.iloc[:,1]

* Para seleccionar toda una fila se omite la información de columnas **dataframe.iloc[fila,:]**

In [None]:
resumen.iloc[0,:]

 **.LOC:** La selección de información mediante el comando **.loc** puede resultar mucho más interesante
* El método .loc puede ser utilizado de  dos formas diferentes: 
 **1)** Para seleccionar filas o columnas mediante una etiqueta y  **2)** Para seleccionar filas que cumplen una condición:
    * Para ilustrae el primer caso regresando a nuestro DataFrame de consumo de agua, podemos seleccionar toda la información de la columna "Consumo promedio doméstico" haciendo referencia a su etiqueta

In [None]:
consumodf.loc[:, 'CPDomestico']

* Podemos seleccionar diversas columnas, pasando como parámetro un arreglo con los nombres de las columnas
* El resultado al utilizar .loc es un DataFrame

In [None]:
consumodf.loc[:, ['CPDomestico','CTDomestico','CPNODomestico','CTNODomestico']]

* Podríamos limitar la consulta a un número determinado de filas, por las primeras 5

In [None]:
consumodf.loc[10:14:,['CPDomestico','CTDomestico','CPNODomestico','CTNODomestico']]

**2)** seleccionar filas o columnas que cumplen una condición.
* Supongamos que estamos interesados en seleccionar la información de una colonia en particular para analizar los distintos tipos de consumos de agua

In [None]:
copilcoU=consumodf.loc[consumodf.loc[:, 'colonia'] == "COPILCO UNIVERSIDAD"]
copilcoU

* También podemos seleccionar filas que cumplan varias condiciones;
por ejemplo la información de la colonia  COPILCO UNIVERSIDAD para el segundo y tercer bimestre


In [None]:
copilcoU2=consumodf.loc[(consumodf.loc[:, 'colonia'] != "COPILCO UNIVERSIDAD")&((consumodf['bimestre'] <=2))]
copilcoU2

In [None]:
copilcoU3 = copilcoU.loc[copilcoU.loc[:, 'bimestre'] == 2]
copilcoU3

# ORDENANDO LOS DATOS 

**SORT**
* Observando los datos, identificamos que la información de las columna bimestre aparece de forma desordenada combinando 2 y 3
* Podemos ordenar los datos del DataFrame copilcoU2 

In [None]:
copilcoU2ordenado= copilcoU2.sort_values(["CPNODomestico"], ascending=True)
copilcoU2ordenado.head()


* Inclusive podemos **ordenar los datos por más de una columna**

In [None]:
copilcoU2ordenado= copilcoU2.sort_values(["bimestre","indice_des"], ascending=True)
copilcoU2ordenado.head()

In [None]:
consumodf['indice_des']

# AGRUPANDO CON GROUP BY
Es posible que estemos interesado en analizar los datos desde el punto de vista de algún tipo de agrupación presente en los datos.

Por ejemplo **analizar por separado la información de las colonias etiquetadas con un índice de desarrollo "ALTO" vs las etiquetadas con un índice de desarrollo "BAJO".**

Para realizar este tipo de análisis vamos a utilizar la instrucción **group.by**

* Vamos a analizar los datos del DataFrame consumodf para comparar los consumos de agua de las colonias según su  índice desarrollo
* **La instrucción .groupby crea un objeto, a partir del cual podremos obtener información de los grupos** 

In [None]:
gruposdesarrollo=consumodf.groupby(['indice_des'])
gruposdesarrollo

**.GROUP.KEYS** Esta instrucción mostrará los grupos que se identifican en el DataFrame a partir de los valores únicos presentes en la columna

In [None]:
consumodf.groupby(['indice_des']).groups.keys()

In [None]:
gruposdesarrollo.groups.keys()

* Si queremos saber **cuántos elementos integran cada grupo** podemos utilizar la instruccion **len** y la etiqueta del grupo 

In [None]:
alto=len(consumodf.groupby(['indice_des']).groups['ALTO'])
bajo=len(consumodf.groupby(['indice_des']).groups['BAJO'])
medio=len(consumodf.groupby(['indice_des']).groups['MEDIO'])
popular=len(consumodf.groupby(['indice_des']).groups['POPULAR'])
alto,medio,bajo,popular

**.GROUPBY .MEAN** Podemos obtener el promedio de consumo total por cada grupo

In [None]:
consumodf.groupby('indice_des')['consumo_total'].mean()

**.GROUPBY .NUNIQUE:** Podemos obtener el numero total de colonias que se incluyen en cada grupo

In [None]:
consumodf.groupby('indice_des')["colonia"].nunique()

# MERGE
Un problema común en el análisis de datos es la necesidad de tener que incorporar nueva información.
Python cuenta con varios métodos para realizar esta tarea, cada uno es útil dependiendo cómo queremos incluir nuestra información y la estructura de los datos a los que la anexaremos.



* Para identificar si los consumos de agua son altos o bajos, debemos considerar alguna medida que nos permita tener referencia, por ejemplo los litros consumidos por el número de habitantes de la alacldia
 nuestra información no contiene datos sobre la población, por lo que debemos incorporar este dato.
* Tomamos información sobre las proyecciones de población que realiza CONAPO, estos datos están a nivel alcaldia , por lo que primero debemos obtener un DataFrame con la información resumida a ese nivel
* Despues vamos a unir la información de población mediante el comando .merge y realizaremos algunos cálculos para analizar los consumos de agua:

**1)** consideremos inicialmente únicamente la información de los consumos tootales

In [None]:
consumototalc=consumodf.groupby('alcaldia')['CTDomestico','CTNODomestico','CTMixto','consumo_total'].sum()
consumototalc

**2** Vamos a leer los datos de nuestro archivo de población**

In [None]:
poblacioncsv ="proyeccionespoblac2019alcaldias.csv"
poblac2019cdmx= pd.read_csv(poblacioncsv,encoding="UTF-8")
poblac2019cdmx

In [None]:
dataframecompleto = pd.merge(poblac2019cdmx, consumototalc, how='outer', on='alcaldia')
dataframecompleto 

* Calcularemos el consumo total/la población total de la alcaldia y agregaremos esta información como una nueva columna

In [None]:
CTpPobtot = dataframecompleto ["consumo_total"]/dataframecompleto ["Pob_Tot2019"]
dataframecompleto["CTpPobtot"] = CTpPobtot
dataframecompleto

In [None]:
dataframecompleto["CTpPobtot"].describe().round()

**BINING**

Vamos a dividir nuestros datos en distintas categorías a partir de la información  de el Consumo TOtal/Población
para ello utilizaremos el comando **pd.cut y la instrucción bins**
Los bins deben considerar el rango completo de la variable que vamos a categorizar(cada bin establece el límite de la categiría)
Los nombres de los grupos deben ser no.bins-1.

In [None]:
bins = [0, 3, 6, 13, 23, 34]
group_names = ["MUY BAJO", "BAJO", "MEDIO", "ALTO", "MUY ALTO"]
dataframecompleto["Categoriaconsumo"] = pd.cut(dataframecompleto["CTpPobtot"], bins, labels=group_names)
dataframecompleto

In [None]:
#Guardemos nuestro DataFrame en un nuevo csv
dataframecompleto.to_csv("basecompletaconpob.csv",  encoding="utf-8", index=False, header=True)

# OPERADORES Y CONDICIONALES 

*Para realizar comparaciones en Python se utilizan diversos operadores, entre los más comúnes
se encuentran:

**== igual**

**!= distinto de** 

**<*menor que**

**> mayor que** 

**>= mayor o igual que**

**and** 

**or**

#### **IF**

La instrucción **IF en conjunto con los operadores lógicos** permiten que un programa ejecute una o más  instrucciones al al cumplirse una condición.

**La sintaxis de la instrucción if es la siguiente:**

   * Se establecen los valores de las variables a comparar (sí aplica).
    
   * Se evalúa la condición IF
    
   * Sí el resultado es **True** se ejecuta el bloque de sentencias
    
   * Sí el resultado es **False** no se ejecuta el bloque de sentencias.

In [None]:
#EJEMPLO
x = 1
y = 1
if x == y:
    print("x is equal to y")
    x = (x)+1
    y= (y)+1
    print(x)
    print(y)

In [None]:
#EJEMPLO
x = 1
y = 2
if x == y:
    print("x is equal to y")
    x = (x)+1
    y= (y)+1
    print(x)
    print(y)

#### **IF ELSE** --  IF ANIDADOS CON MÁS DE DOS CONDICIONES

**IF, ELIF, ELSE** 
Estas tres instrucciones  permiten establecer instrucciones para **más de un escenario.**
Cuando sólo teníamos IF,  establecimos condiciones para el caso en el que la evaluación de IF da como resultado "True", al agregar ELSE podemos establecer instrucciones para el caso en el que la evaluación de IF da como resultado "False"

Si además añadimos ELIF(contracción de else if) estamos incluyendo un escenario adicional para comparar nuestras variables.

In [None]:
#EJEMPLO 1 IF ELSE
x = 1
y = 10
if x == y:#La primera línea contiene la condición a evaluar y es una expresión lógica. Esta línea debe terminar siempre por dos puntos (:).
    print("x is equal to y")#loque de órdenes que se ejecutan cuando la condición se cumple (es decir, cuando la condición es verdadera). 
else:#si la condición anterior no se cumple
     print("x is not equal to y")


In [None]:
#EJEMPLO 2 IF ELIF ELSE
x = 100
y = 100
if x > y:#condición_1:
    print("x es mayor") #bloque 1
elif x < y: #condición_2:
    print("x es menor") #bloque 2
else:
    print("x es igual a y")#bloque 3


# LOOPS/CICLOS FOR,  WHILE
Un For Loop o ciclo for, recorre cada uno de los elementos de una lista y ejecuta por cada elemento la condición establecida.

**Ejemplo 1 For Loop en un rango de números**, si sólo se provee un número, se ejecutara la condición desde 0 hasta el número provisto

In [None]:
for x in range(10):
    print(x)

**Ejemplo 2 For Loop en un rango entre dos números,** si provee un número inicial y uno final , se ejecutara la condición hasta alcanzar el número final

In [None]:
for x in range(20, 30):
    print(x)

**Ejemplo 3 For Loop en un una lista** si se provee una lista, la instrucción se ejecutará por cada elemento dentro de la lista 

In [None]:
palabras= ["Sandía", "Canela", "Azul", "Tiempo", "Ayer", "Hoy"]
for palabra in palabras:
    print(palabra)


**Ejemplo 4 While Loop**  Este tipo de ciclos continuará ejecutando la instrucción establecida hasta que se cumple cierta condición

In [None]:
x = "A"
while x == "A":
    print("Primera letra del Abecedario")
    x = input("Introduce otra letra ")


# EJERCICIOS 
Completa la información necesaria para ejecutar los siguientes Loops

In [None]:
#Ejecuta  un rango de números (0 al 4)
for x in range():
    print(x)
    print("Muy bien,entendiste el ejericio!")

In [None]:
#Ejecuta un loop de números del 2 al 6 inclusive
 x in range(, ):
    print(x)

In [None]:
#Itera cada una de las letras en una palabra
palabra = "Econometría"
for letra in palabra:
    print(letra)

In [None]:
#Itera cada uno de los elementos en una lista
canasta = ["leche", "carne", "jitomate", "lechuga"]
for  in :
    print()

In [None]:
# Ejecuta la instrucción hasta que se cumpla una  a condition
run = "y"
while run == "y":
    print("Hi!")
    run = input("To run again. Enter 'y'")

**LIST COMPREHENSION**
Permite crear listas de forma simplificada y con menor cantidad de código.
El resultado siempres será una lista.

**Ejemplo 1:** Queremos guardar cada una de las letras que componen una palabra en una lista para cambiarla a mayúscula e imprimir todas las letras.
Como ya hemos visto, podemos utilizar un ciclo for para este propósito

In [None]:
palabra = "Parangaricutirimicuaro" # guardamos en una variable nuestra palabra
letras = [] #creamos una lista vacia en la que se van a ir agregando las letras de nuestra palabra
for letra in palabra:# iniciamos nuestro ciclo for
        letras.append(letra.upper()) # letra.upper(convierte a mayúscula la letra dentro del ciclo)
                                     # letras.append(listavacia.append esta instrucción "agrega" la letra en mayúscula a la lista llamada letras)
print(letras)

* Con **LIST COMPREHENSION** podemos ejecutar la misma tarea con un código simplificado

**Sintaxis:** variable para guardar la lista = [Expresion para aplicar a cada elemento() ciclo for]

In [None]:
palabra = "Parangaricutirimicuaro"
letras = [letra.upper() for letra in palabra]
print(letras)

**Ejemplo 2: For en un rango**
Obtengamos el cuadrado de los número pares que hay en un rango del 0 al 9

In [None]:
# variable para guardar la lista = [Expresion para aplicar a cada elemento() ciclo for range]   
cuadrados_pares = [num**2 for num in range(10) if num % 2 == 0]
print(cuadrados_pares)

**Ejemplo 3: For IF**

Podemos añadir un condicional (if) a un list comprehension.

* Supongamos que queremos un listado de las temperaturas más altas en una semana del mes de julio (mayores a 26 grados)
Tenemos un listado con el registro de temperaturas de cada día de la semana.
Con un clico for e If podemos seleccionar las temperaturas de los días más calurosos.

In [None]:
temperatura_semanal= [27, 25, 22, 29, 30,26,32]
días_calurosos = []
for temperatura in temperatura_semanal:
    if temperatura > 26:
        días_calurosos.append(temperatura)
print(días_calurosos)

* Podemos hacer la misma selección utilizando list comprehension

In [None]:
temperatura_semanal= [27, 25, 22, 29, 30,26,32]
días_calurosos = [temperatura for temperatura in temperatura_semanal if temperatura > 26]

print(días_calurosos)

* Utilizando **IF, CICLOS FOR Y LIST COMPRENHENSION** en PANDAS

In [None]:
#Creamos un DataFrame de prueba
import pandas as pd
datos = {'nombre': ['Francisco', 'Julieta', 'Marcela', 'Joaquin', 'Carlos'], 
        'año': [2012, 2012, 2013, 2014, 2014], 
        'calificacion': [9, 7, 8, 10, 8]}
df = pd.DataFrame(datos)
df

**Creando una nueva columna con IF** 
* Estructura df.loc[df['nombre_columna'] condicion, 'nombre_nueva_columna'] = 'valor si la condición se cumple'
  Estructura df.loc[df['nombre_columna'] condicion, 'nombre_nueva_columna'] = 'valor si la condición  NO se cumple'

In [None]:
df.loc[df['año'] > 2012 , '+2012'] = 'Verdadero' 
df.loc[df['año'] <= 2012, '+2012'] = 'Falso' 
df

**Ciclo for en pandas**

In [None]:
import numpy as np
# Iteración por columnas del DataFrame:
cols=df.columns
upp=[]
for col in cols:
    upp.append(col.upper())
print(upp)

In [None]:
# Iteración por filas del DataFrame:
for indice_fila, fila in df.iterrows():
    print(indice_fila)
    print(fila)

**Ejemplo List Comprehensions**
* Vamos a crear una columna nueva de **"año anterior"** restaremos 1 a la columna año utilizando list comprehension.

* **Sintaxis** nombredataframe[nombrecolumna] =[ciclo for para cada fila en la columna [nombrecolumna]]

In [None]:
df['año_anterior'] = [row-1 for row in df['año']]
df