# **Python para Ciencia de Datos: Matplotlib y Seaborn**

___

**Saúl Arciniega Esparza** | Ph.D. Profesor Asociado C Tiempo Completo

* [Twitter](https://twitter.com/zaul_arciniega) | [LinkedIn](https://www.linkedin.com/in/saularciniegaesparza/) | [ResearchGate](https://www.researchgate.net/profile/Saul-Arciniega-Esparza)
* [Hydrogeology Group](https://www.ingenieria.unam.mx/hydrogeology/), [Facultad de Ingeniería de la UNAM](https://www.ingenieria.unam.mx/)
___

### **Contenido**

0. [Generación de gráficas](#Generación-de-gráficas)
1. [Gráficas con Matplotlib](#1.-Gráficas-con-Matplotlib)
    1. [Uso de **plot**](#1.1-Uso-de-plot())
    2. [Estilos de líneas](#1.2-Cambiar-estilos-de-líneas)
    3. [Modificar atributos de los ejes](#1.3-Modificar-atributos-de-los-ejes)
    4. [Agregar leyenda](#1.4-Agregar-leyenda)
    5. [Uso de **figure** y **subplots**](#1.5-Uso-de-figure()-y-subplots())
    6. [Más propiedades de los ejes](#1.6-Más-propiedades-de-los-ejes)
2. [Gráficas con Pandas](#2.-Gráficas-con-Pandas)
    1. [Gráfica simple](#2.1-Gráfica-simple)
    2. [Scatterplot](#2.2-Scatterplot)
    3. [Gráfica de series temporales](#2.3-Gráfica-de-series-temporales)
3. [Gráficas con Seaborn](#3.-Gráficas-con-Seaborn)
    1. [Scatterplots](#3.1-Scatterplots)
    2. [Boxplots](#3.2-Boxplots)
    3. [Histogramas](#3.3-Histogramas)
    4. [Regresión a elementos clasificados](#3.4-Regresión-a-elementos-clasificados)
    5. [Correlación y dispersión](#3.5-Correlación-y-dispersión)

___
# Generación de gráficas

[**Matplotlib**](https://matplotlib.org/) es la librería gráfica más polular dentro de Python y esta basada en la librería gráfica de **Matlab**, por lo que muchos comandos o funciones de Matplotlib tienen similitudes con las de Matlab.

Adicionalmente trabajaremos con [**Seaborn**](https://seaborn.pydata.org/), una librería que extiende las funcionalidades de **Matplotlib** y permite generar gráficos complejos con poco código.

Veremos en estos ejemplos cómo crear gráficos con Matplotlib,Pandas y Seaborn (estas dos últimas utilizan como base Matplotlib).

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

# activa la creación de gráficas inline, auto
%matplotlib inline

___
# 1. Gráficas con Matplotlib

[Ir a Inicio](#Contenido)

## 1.1 Uso de plot()

In [None]:
# Ejemplo sencillo con Matplotlib
y = np.random.rand(30)

plt.plot(y)

In [None]:
# Graficar x,y
x = np.arange(10, 40)
y = np.random.rand(30)

plt.plot(x, y)

In [None]:
# Agregar múltiples gráficas en un mismo eje
x = np.arange(10, 40)
y = np.random.rand(30, 3)

plt.plot(x, y[:,0])
plt.plot(x, y[:,1])
plt.plot(x, y[:,2])

## 1.2 Cambiar estilos de líneas

In [None]:
# Cambiar estilos de las gráficas
x = np.arange(10, 40)
y = np.random.rand(30, 3)

plt.plot(x, y[:,0], 'k')
plt.plot(x, y[:,1], 'r--')
plt.plot(x, y[:,2], 'go-')

## 1.3 Modificar atributos de los ejes

In [None]:
# Agregar atributos a los ejes: etiquetas y titulo
x = np.arange(10, 40)
y = np.random.rand(30, 3)

plt.plot(x, y[:,0], 'k')
plt.plot(x, y[:,1], 'r--')
plt.plot(x, y[:,2], 'go-')

plt.xlabel('Fecha', fontsize=10)
plt.ylabel('Caudal (m$^3$/s)', fontsize=12)
plt.title('Grafica de ejemplo $\geq$', fontsize=14)

## 1.4 Agregar leyenda

In [None]:
# Agregar leyenda
x = np.arange(10, 40)
y = np.random.rand(30, 3)

plt.plot(x, y[:,0], 'k')
plt.plot(x, y[:,1], 'r--')
plt.plot(x, y[:,2], 'go-')

plt.legend(['Linea1', 'Q2', 'W3'], loc=2)

In [None]:
# Agregar etiquetas a las gráficas y agregar leyenda
x = np.arange(10, 40)
y = np.random.rand(30, 3)

plt.plot(x, y[:,0], 'k', label='L1')
plt.plot(x, y[:,1], 'r--', label='Q2')
plt.plot(x, y[:,2], 'go-', label='W3')

plt.legend(loc=2)

## 1.5 Uso de figure() y subplots()

In [None]:
# Cear múltiples figuras para gráficar
x = np.arange(10, 40)
y = np.random.rand(30, 3)

# Abrimos la primer figura
plt.figure()
plt.plot(x, y[:,0], 'k', label='L1')
plt.plot(x, y[:,1], 'r--', label='Q2')

# Abrimos una figura nueva
plt.figure()
plt.plot(x, y[:,2], 'go-', label='W3')

En el caso anterior abrimos dos figuras diferentes y agregamos un gráfico a cada una, sin embargo, cuando requerimos generar gráficos en múltiples ejes es mejor hacerlo enla misma figura. Para agregar varios ejes a la misma figura usamos el comando **plt.subplot**

In [None]:
# Gráficas con subplot
x = np.arange(10, 40)
y = np.random.rand(30, 3)

# abrimos nueva figura
plt.figure()

# Creamos tres ejes y los guardamos en variables
ax1 = plt.subplot(2,2,1)
ax3 = plt.subplot(2,2,3)
ax4 = plt.subplot(2,2,4)

# Ahora agregamos el contenido de cada eje
ax1.plot(x, y[:,0], 'k', label='L1')
ax3.plot(x, y[:,1], 'r--', label='Q2')
ax4.plot(x, y[:,2], 'go-', label='W3')

# Agregamos otras características a los ejes
ax1.set_ylabel('Variable1')
ax3.set_ylabel('Variable2-3')
ax4.set_xlabel('Tiempo')

In [None]:
# Este ejemplo es parecido al anterior pero cambiamos la estructura de los ejes
# Aqui generamos una figura con un arreglo de 3x1 ejes

x = np.arange(10, 40)
y = np.random.rand(30, 3)

# abrimos nueva figura
plt.figure()

# Creamos tres ejes y los guardamos en variables
ax1 = plt.subplot(3,1,1)
ax2 = plt.subplot(3,1,2)
ax3 = plt.subplot(3,1,3)

# Ahora agregamos el contenido de cada eje
ax1.plot(x, y[:,0], 'k', label='L1')
ax2.plot(x, y[:,1], 'r--', label='Q2')
ax3.plot(x, y[:,2], 'go-', label='W3')

# Agregamos otras características a los ejes
ax1.set_ylabel('Variable1')
ax2.set_ylabel('Variable2-3')
ax3.set_xlabel('Tiempo')

## 1.6 Más propiedades de los ejes

In [None]:
# Edición de otras propiedades de los ejes

lluvia = np.genfromtxt('./Datos/lluvia.csv', delimiter=',')

# Creamos un objeto figura y eje al mismo tiempo con plt.subplots
fig, ax = plt.subplots()

# Agregamos una gáfica de barras
ax.bar(lluvia[:,0], lluvia[:,1])
# Activamos la división de la malla 
ax.grid(True)
# Agregamos etiquetas de los ejes
ax.set_xlabel('Tiempo (h)', fontsize=12)
ax.set_ylabel('Precipitacion (mm)', fontsize=12)
# Cambiamos los límites de los ejes
ax.set_xlim([0, 6])
ax.set_ylim([0, 16])
# Editamos la numeración del eje x
ax.set_xticks(np.arange(0, 7, 2));
ax.set_xticklabels(['A', 'B', 'C', 'D'])

# 2. Gráficas con Pandas

[Ir a Inicio](#Contenido)

Caundo generamos un DataFrame en [**Pandas**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html) podemos realizar gráficas de forma muy sencilla accediendo al método **.plot()**.

Cabe aclarar que **Pandas** utiliza **Matplotlib** para generar sus gráficas. Esto nos permite que podamos combiar métodos de **Matplotlib** para mejorar el estilo y visualización de las gráficas generadas con Pandas.

In [None]:
# Importamos la serie
s1 = pd.read_csv('./Datos/serie1.csv', index_col=[0], header=None, squeeze=True)
s2 = pd.read_csv('./Datos/serie2.csv', index_col=[0], header=None,squeeze=True)
df = pd.concat((s1,s2), axis=1)
df.columns = ['P', 'AET']
df.head()

## 2.1 Gráfica simple

In [None]:
# Graficamos. Por defecto, el DataFrame utiliza el índice en X y grafica todas las variables en Y 
df.plot()

In [None]:
# Podemos seleccionar cuál variable graficar
df.plot(y='P')

## 2.2 Scatterplot

In [None]:
# Además, podemos seleccionar cuál variable usar como X y cuál como Y
df.plot(x='P', y='AET')

In [None]:
# Tal vez sea mejor graficar como scatterplot
df.plot(x='P', y='AET', kind='scatter')

## 2.3 Gráfica de series temporales

Pandas es particularmente útil cuando trabajamos con fechas:

In [None]:
df = pd.read_csv('./Datos/Precipitacion_mm-d.csv', sep=',', index_col=[0], parse_dates=[0])
df.head()

In [None]:
# Grafica diaria de las tres cuencas para el año 2000
df.loc['2000-01-01':'2000-12-31', :].plot()

In [None]:
# Hagamos una mejor representación de lo anterior

fig = plt.figure(figsize=(10, 10))

ax1 = plt.subplot(3,1,1)
ax2 = plt.subplot(3,1,2) 
ax3 = plt.subplot(3,1,3)

# En Pandas así se indica el eje en el que queremos graficar
df.loc['2000-01-01':'2000-12-31',:].plot(y='1', ax=ax1, legend=False, color='k')  
df.loc['2000-01-01':'2000-12-31',:].plot(y='2', ax=ax2, legend=False, color='b')
df.loc['2000-01-01':'2000-12-31',:].plot(y='3', ax=ax3, legend=False, color='g')

ax1.set_ylabel('Lluvia (mm)')
ax2.set_ylabel('Lluvia (mm)')
ax3.set_ylabel('Lluvia (mm)')

ax3.set_xlabel('Fecha');


# 3. Gráficas con Seaborn

[Ir a Inicio](#Contenido)

[**Seaborn**](https://seaborn.pydata.org/) es una potente librería de gráficos estadísticos, basado en Matplotlib, pero que simplifica mucho la generación de gráficas muy ponentes.

In [None]:
# Importamos la serie
s1 = pd.read_csv('./Datos/serie1.csv', index_col=[0], header=None, squeeze=True)
s2 = pd.read_csv('./Datos/serie2.csv', index_col=[0], header=None,squeeze=True)
df = pd.concat((s1,s2), axis=1)
df.columns = ['P', 'AET']

# Clasificar por tipo de clima
mask = df["P"] > df["P"].mean()
df["Clima"] = "Seco"
df.loc[mask, "Clima"] = "Humedo"

## 3.1 Scatterplots

In [None]:
# Scatterplot clasificado
sns.scatterplot(x="P", y="AET", hue="Clima", size="P", data=df)

## 3.2 Boxplots

In [None]:
# Comparación de boxplot por tipo de clima
sns.boxplot(x="Clima", y="P", data=df)

## 3.3 Histogramas

In [None]:
# Histogramas clasificados
g = sns.FacetGrid(df, col="Clima")
g.map(sns.distplot, "P", kde=False, bins=10)

## 3.4 Regresión a elementos clasificados

In [None]:
# Regresion lineal clasificada
sns.lmplot(x="P", y="AET", hue="Clima", data=df, ci=None)

In [None]:
# Regresion lineal clasificada en diferenes ejes
sns.lmplot(x="P", y="AET", col="Clima", data=df, ci=None)

In [None]:
# Grafica densidad y correlacion
sns.jointplot("P", "AET", data=df, kind="scatter")

## 3.5 Correlación y dispersión

In [None]:
# Grafica de correlacion y dispersion
sns.pairplot(df.dropna())

In [None]:
# Grafica de correlacion y dispersion clasificada
sns.pairplot(df.dropna(), hue="Clima")

In [None]:
# Grafica de correlacion y dispersion clasificada con regresion
sns.pairplot(df.dropna(), hue="Clima", kind="reg")