# INTRODUCCIÓN A  LA VISUALIZACIÓN DE DATOS CON MATPLOTLIB

**Matplotlib** es una de las librerías de python más populares, para la generación de gráficos.
En esta clase revisaremos los comandos necesarios para construir algunos de los gráficos más comunmente utilizados.

In [None]:
#Importando las librerías necesarias para graficar
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib import pylab, mlab, pyplot

**Para desplegar las gráficas matplotlib cuenta con dos opciones:**
* **%matplotlib notebook** desplegará graficas interactivas embebidas en el notebook 
* **%matplotlib inline** desplegará graficas estáticas embebidas en el notebook, que pueden ser guardadas en diversos formatos.

In [None]:
%matplotlib inline

# GRAFICANDO X,Y
Antes de comenzar, te sugerimos familiarizarte con algunas instrucciones básicas

• **figure():** crea una ventana para dibujar la figura.

• **plot(x,y):** dibuja la figura en la ventana, en esta instrucción se colocan los parámetros de la figura tales como color,grosor,tipo de marcador,etc. En estas ligas encontrarás información sobre estilo
https://matplotlib.org/3.1.1/api/markers_api.html
https://python-graph-gallery.com/wp-content/uploads/Matplotlib_cheatsheet_datacamp.png, http://www.utc.fr/~jlaforet/Suppl/python-cheatsheets.pdf

• **plt.ylabel**('titulo de y')

• **plt.axis** ([[xmin, xmax, ymin, ymax]]) rango de valores eje x y eje y

• **plt.xlabel** ('titulo de x')

• **plt.show** ('titulo de x')

**Ejemplo 1)**  Vamos a graficar los valores de x[1,2,3,4];y[1,4,9,16]
Nota que en este caso estamos utilizando un par de listas de números.


In [None]:
fig = plt.figure()
plt.plot([1,2,3,4], [2,4,9,20],) 
plt.axis([0, 5, 0, 20])
plt.ylabel("datos eje y")
plt.xlabel("datos eje x")
plt.show()

**Ejemplo 2)** Si queremos incluir marcadores para cada punto agregamos una línea con los parámetros color("r:red" y forma"o:circulo"

In [None]:
fig = plt.figure()
plt.plot([1,2,3,4], [2,4,9,20],"y",linewidth=2.0)
plt.plot([1,2,3,4], [2,4,9,20],"ro") 
plt.axis([0, 4, 0, 20])
plt.ylabel("datos eje y")
plt.xlabel("datos eje x")
plt.show()

**MÚLTIPLES GRAFICOS EN UNA FIGURA**

Para colocar más de un gráfico en la misma figura utilizamos la instrucción **plt.subplot**

**Sintaxis:** plt.subplot(filas, columnas, nro. de gráfico).

En esta liga encontrarás otros ejemplos https://matplotlib.org/3.1.0/gallery/subplots_axes_and_figures/subplots_demo.html

In [None]:
plt.figure(2,figsize=(6,4.5))

plt.suptitle("Ejemplo de gráficas en grupo")

plt.subplot(211)
plt.plot([1,2,3,4], [2,4,9,20],) 
plt.axis([0, 5, 0, 20])
plt.ylabel("datos eje y")
plt.xlabel("datos eje x")

plt.subplot(212)
plt.plot([1,2,3,4], [2,4,9,20],"y",linewidth=2.0)
plt.plot([1,2,3,4], [2,4,9,20],"ro") 
plt.axis([0, 4, 0, 20])
plt.ylabel("datos eje y")
plt.xlabel("datos eje x")
plt.show()

In [None]:
plt.figure(2,figsize=(6,4.5))

plt.suptitle("Ejemplo de gráficas en grupo")

plt.subplot(121)

plt.plot([1,2,3,4], [2,4,9,20],) 
plt.axis([0, 5, 0, 20])
plt.ylabel("datos eje y")
plt.xlabel("datos eje x")

plt.subplot(122)
plt.plot([1,2,3,4], [2,4,9,20],"y",linewidth=2.0)
plt.plot([1,2,3,4], [2,4,9,20],"ro") 
plt.axis([0, 4, 0, 20])
plt.ylabel("datos eje y")
plt.xlabel("datos eje x")
plt.show()

**MATPLOTLIB Y PANDAS**

Una vez que hemos revisado los parámetros básicos necesarios para graficar, veamos cómo podemos utilizar esta herramienta para visualizar información contenida en nuestra base de datos.

**Ejemplo 1)** Iniciemos con un ejemplo sencillo, vamos a crear un DataFrame de prueba asignando a nuestras columnas los encabezados x y y.


In [None]:
df = pd.DataFrame({'x': [10, 8, 10, 7, 7, 10, 9, 9],
                   'y': [6, 4, 5, 5, 7, 10, 9, 9]})
df

* Para graficar el dataframe utilizaremos 2 comandos nuevos

**1) plt.style.use('nombre del estilo')**

Este comando permite aplicar un estilo específico a nuestros gráficos,los estilos disponibles pueden consultarse con el comando **plt.style.available**
En este caso utilizaremos el estilo 'dark_background', no es el mejor estilo, pero es ilustrativo de los estilos disponibles.

**2) nombredataframe.plot()**

Este comando tomará los datos del dataframe y grafica los mismos considerando cada columna como datos del eje Y.
Este comando asume que el índice del DataFrame son los valores del eje X.


In [None]:
plt.style.available

In [None]:
plt.style.use('dark_background')
df.plot()

Si queremos tomar únicamente los datos de una de las columnas seleccionamos la columna por nombre; tal como aprendimos en nuestra clase anterior.

In [None]:
df['x'].plot()

**HISTOGRAMA**
Ahora vamos a hablar un poco del tipo de gráficas disponibles en matplotlib y bajo qué circunstancias es correcto utilizarlas.
Te sugerimos consultar esta página en la que encontrarás información de las gráficas que se presentan en este notebook
https://python-graph-gallery.com/

Iniciaremos esta exploración con un Histograma.

**¿Qué es un Histograma?**

Es un gráfico que muestra la distribución de **frecuencias** de una variable dada.
En el eje Y se representan las frecuencias observadas y en el eje X los posibles valores que toma nuestra variable, es importante mencionar que en el caso de los valores del eje X es posible establecer "grupos" o clases para representar su rango completo.

Por ejemplo, si utilizamos la columna X de nuestro dataframe y la graficamos como histograma,podemos observar que 1) su rango de valores va de 7 a 10 y 2) las frecuencias observadas no son mayores a 3 observaciones.

Trazemos el histograma con la instrucción .hist()
**datos.hist(parámetros)**



In [None]:
plt.style.use('classic')
df['x'].hist()
plt.ylabel("Frecuencia observada")
plt.xlabel("Valores que toma mi variable")
plt.show()

Para graficar más de un histograma en la misma figura asignamos las columnas de mi DataFrame a una variable, nota que podemos diferenciar las frecuencias a partir del color y podemos establecer la cantidad de grupos "clases" para representar nuestros datos.

En este caso utilizamos una sintaxis distinta colocando **plt.hist(datos,parametros-bins, color, etc-)**

In [None]:
plt.style.use('seaborn-bright')
datosX=df['x']
datosY=df['y']
plt.hist([datosX, datosY],bins=3, color=['orange', 'green'])
plt.ylabel("Frecuencia observada")
plt.xlabel("Valores que toma mi variable")
plt.title("Histograma")
plt.show()

Ya que tenemos los comandos básicos para graficar,utilicemos nuestro DataFrame de consumo de agua para aprender cómo utilizar distintos tipos de representaciones de datos

In [None]:
aguacpob="basecompletaconpob.csv"

In [None]:
aguacp = pd.read_csv(aguacpob,encoding="UTF-8")
aguacp 

In [None]:
aguacp ['Categoriaconsumo'].hist(color='green')
plt.ylabel("Frecuencia observada")
plt.xlabel("Categorías de consumo de agua")
plt.title("Histograma de categorías de consumo de agua CDMX 2019")
plt.show()

In [None]:
aguacp ['Categoriaconsumo'].value_counts()

**GRAFICO DE DENSIDAD**

* Regularmente cuando analizamos un conjunto de datos hacemos ciertas suposiciones respecto de la generalización sobre las conclusiones obtenidas. Lo anterior se debe por un lado, a que suponemos que el conjunto de datos analizado es una muestra "suficientemente representativa" del fenómeno que analizamos y, por otra parte a que suponemos que los datos se distribuyen de una forma específica. 

* Más adelante en el curso ahondaremos sobre este tema, por lo pronto aprederemos cómo trazar un gráfico de  Función de Densidad de Probabilidad que nos permitirá describir la probabilidad relativa según la cual nuestra variable aleatoria tomará un determinado valor.El área debajo de la curva es la probabilidad. Puedes calcular área debajo de la curva dentro de un intervalo.

Un recurso que te sugerimos revisar es este notebook: https://github.com/relopezbriega/relopezbriega.github.io/blob/master/downloads/DistStatsPy.ipynb

**El comando .plot.kde() arroja como resultado el gráfico de densidad.**

**Sintaxis:** dataframe['nombrecolumna'].plot.kde()

In [None]:
aguacp ['consumo_total'].plot.kde()
plt.title("Densidad consumo total de agua")
plt.show()

In [None]:
aguacp [['consumo_total','Pob_Tot2019']].plot.kde()
plt.title("Densidad agua y población")
plt.show()

**GRAFICO DE PASTEL**
* El gráfico de pastel nos ayuda a identificar cuánto un grupo específico o segmento a un conjunto, el total representa el 100% de la variable a analizar.
* La función .plot(kind='pie')  despliega el gráfico.

**Sintaxis:**

Al igual que con otros gráficos podemos guardar nuestras agrupaciones y pasar la variable a la instrucción del tipo de gráfico que queremos:**variable**.plot(kind='pie',parametros) 

*Utilicemos un gráfico de pastel para conocer la contribución de las diversas categorías de consumo al total de delegaciones.

In [None]:
plt.style.use('ggplot')
datos = aguacp.groupby(["Categoriaconsumo"]).Categoriaconsumo.count()
datos.plot(kind='pie',figsize=(14, 6),autopct='%1.1f%%',explode = (0.1, 0, 0, 0,0))
plt.axis('equal')
plt.legend(labels=datos.index, loc='upper left')
plt.title("% de alcaldias segun categoría de consumo de agua")
plt.show()

**GRAFICO DE BARRAS**
El gráfico de barras es útil para comparar los valores que toma una variable en relación a una o más categorías.estos se pueden representar horizontal o verticalmente. 

In [None]:
plt.style.use('ggplot')
datos = aguacp.groupby(["alcaldia"]).consumo_total.mean()
datos.plot(kind='bar',figsize=(15, 6),color = 'lightblue')
plt.title("Promedio de consumo total de agua por alcaldia 2019")
plt.ylabel("Valor de la variable- consumo total")
plt.xlabel("Categorías - alcaldías")
plt.show()

* Otra forma de utilizar el gráfico de barras es la **comparación entre los datos de dos columnas de un dataframe**, por ejemplo Población y consumo total o la población de hombres y mujeres en cada Alcadía.

* Nota que la **Sintaxis** para llamar al comando es la siguiente:

dataframe(valoresx="columna",valoresy["col1","col2"],kind="tipodegráfico", en este caso barra horizontal)

In [None]:
aguacp.plot(x="alcaldia", y=["Pob_Tot2019", "consumo_total"], kind="barh")

In [None]:
aguacp.plot(x="alcaldia", y=["Pob2019_H","Pob2019_M",], kind="barh")

**GRAFICO DE DISPERSIÓN**

**La Dispersión** 
puede definirse como el grado de distanciamiento de un conjunto de valores respecto a su valor medio.
Un gráfico de dispersión nos permite representar gráficamente la relación la relación entre dos variables o grupos de datos.
De forma general con el gráfico podemos encontrar 3 tipos de correlación: Positiva, negativa y nula. Esta correlación NO implica que una variable cause el movimiento de la otra, únicamente en esta etapa descriptiva podemos decir que ambas se mueven  
en una misma dirección (en dirección contraria) de forma proporcional.   

**Correlación positiva**

Se presenta cuando una variable aumenta o disminuye y la otra también. 

**Correlación negativa**

Se presenta cuando una variable se comporta de forma contraria o a la otra, es decir que si una variable aumenta, la otra disminuye. 

**Relación nula**

Si no encuentras un comportamiento entre las variables, existe una correlación nula.

** Sintaxis**

* Para trazar un gráfico de dispersión podemos utilizar la sintaxis:

**plt.scater(dataframe.columna valoresX,dataframe.columna valoresY)**


In [None]:
plt.style.use('ggplot')
plt.scatter(aguacp.Pob_Tot2019, aguacp.consumo_total, s=200,color ="red")
plt.title("Gráfico de dispersión Consumo total vs Población total")
plt.ylabel(" Consumo total")
plt.xlabel("Pob_Tot2019")
plt.show()

**.CORR**
Para obtener una medida de la correlación entre dos variables podemos utilizar la sintaxis
nombredataframe['Columna']**.corr**(nombredataframe['Columna'])

In [None]:
aguacp['Pob_Tot2019'].corr(aguacp['consumo_total'])

**BOXPLOT O DIAGRAMAS DE CAJA**


* EL diagrama de **"cajas y bigotes"** o **"Boxplot"** muestra gráficamente grupos de datos numéricos a través de sus cuartiles.

* Con este diagrama podemos identificar rápidamente valores clave, tales como: el promedio, el percentil 25 medio, etc, valores atípicos,si los datos son simétricos, qué tan estrechamente se agrupan los datos.

* La linea recta que atraviesa el rectángulo o "caja" representa la mediana(el segundo cuartil); la base del rectángulo representa el pimer cuartil y su parte superior el tercer cuartil.
Al rango entre el primer y tercer cuartil se le conoce como intercuartílico (RangoInterCCuartil RIC).

* De la caja salen dos líneas. Una que llega hasta el mínimo valor de los datos en la variable o hasta el primer cuartil menos hast 1.5 veces el RIC; y otra que llegar hasta el valor máximo de los datos o el tercer cuartil más hasta 1.5 veces el RIC. Estos son los bigotes.

*  Los valores atípicos se representan a veces como puntos individuales que están en línea con los bigotes. Los diagramas de cajas y bigotes se pueden dibujar vertical u horizontalmente.

In [None]:
#Sintaxis
#nombredataframe.boxplot(by ='categoria', column =[nombrecolumna], grid = False)
aguacp.boxplot(by ='Categoriaconsumo', column =['Pob_Tot2019'], grid = True) 

In [None]:
aguacp.boxplot(by ='Categoriaconsumo', column =['consumo_total'], grid = True) 

In [None]:

aguacp.boxplot(by ='Categoriaconsumo', column =['CTNODomestico'], grid = False) 

In [None]:
aguacp.boxplot(by ='Categoriaconsumo', column =['CTDomestico'], grid = False) 

In [None]:
aguacp.boxplot(by ='Categoriaconsumo', column =['Pob_Tot2019'], grid = False) 