# Visualización de datos usando [Matplotlib](https://matplotlib.org/)  <a class="tocSkip">

Matplotlib es una librería de Python para hacer gráficos en dos dimensiones de alta calidad y altamente 
personalizables

Matplotlib se integra con NumPy y acepta el formato `ndarray`  en sus funciones

Matplotlib se integra con Jupyter mediante la magia `%matplotlib`, que nos permite seleccionar un backend para mostrar los gráficos 
- `inline` : Gráficos rasterizados en el notebook
- `notebook` : Gráficos interactivos en el notebook
- `qt`, `wx`, `gtk` : Gráficos en una ventana 
    
### Instalación <a class="tocSkip">
    
Con nuestro ambiente conda activado:

    conda install matplotlib
 
### Importar <a class="tocSkip">

In [None]:
# Invocamos la magia con una de las opciones
%matplotlib notebook

In [None]:
# Importamos la librería
import matplotlib as mpl
display(mpl.__version__)
import matplotlib.pyplot as plt
import numpy as np

El modulo pyplot provee 
- Funciones para crear distintos tipos de gráficos
- Una maquina de estados que añade los diversos elementos que queremos incluir en él

# Nuestra primera figura en matplotlib

Sea los siguientes datos que representan el número de casos covid19 positivos totales desde el 1/22/20

In [None]:
data_covid = np.genfromtxt('covid19_extract.csv', delimiter=',', names=True,
                           dtype= ['U50', 'U50', 'f8', 'f8'] + ['i4']*100)
data_argentina = np.array([data_covid[0][i] for i in range(4,len(data_covid[0]))])
data_bolivia = np.array([data_covid[1][i] for i in range(4,len(data_covid[1]))])
data_brazil = np.array([data_covid[2][i] for i in range(4,len(data_covid[2]))])
data_chile = np.array([data_covid[3][i] for i in range(4,len(data_covid[3]))])
display(data_chile)

Una linea en matplotlib se dibuja con la función `plot`

    plt.plot(a)
    
Dibuja $a$ en el eje vertical y `range(len(a))` en el eje horizontal

    plt.plot(x, y)
    
Dibuja $y$ en el eje vertical y $x$ en el eje horizontal


> Un gráfico de linea sirve para estudiar como cambia una variable en función de otra o en función del tiempo (orden)

In [None]:
plt.plot(data_chile);

Podemos especificar el color, ancho, estilo, transparencia, entre otros

¿Dónde estamos creando esta linea?

In [None]:
plt.plot(data_argentina, color='r', linestyle='--',  linewidth=2, alpha=0.5);

## Notas técnicas:
- En IPython llamar a `plot` genera inmediatamente la figura
- Si se usa el intérprete normal de Python la figura se mostrará usando `show()`


> El backend notebook añade una barra de herramientas que permite manipular interactivamente el gráfico



## Creación de figuras y ejes

- Figura (Figure): Es el elemento principal, actua como un lienzo que mantiene los demás elementos
- Ejes (Axes): 
    - Sistema de coordenadas
    - Puede haber más de uno por figura
    - Se puede configurar su posición dentro de la figura.

Anteriormente, al llamar `plot` creamos automaticamente un eje y una figura

> Para tener mayor control sobre nuestro gráfico podemos crear una figura y un conjunto de ejes usando `figure` o `subplots`


In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')
ax.plot(data_chile)

# Anatomía de un gráfico de Matplotlib

Se llama *artista* (artist) a los objetos que podemos dibujar en los ejes

Agregamos artistas y modificamos su apariencia usando las funciones de la clases `Axes`

> La siguiente figura de la documentación de matplotlib resume los elementos principales que podemos modificar

<a href="https://matplotlib.org/examples/showcase/anatomy.html"><img src="https://matplotlib.org/_images/anatomy.png" width="600"></a>


A continuación veremos como 
- Crear lineas de distintos tipos con y sin marcadores
- Agregar un título y nombres para los ejes
- Cambiar los límites, posición y razón de aspecto de los ejes
- Cambiar la frecuencia y tamaño de los ticks de los ejes
- Agregar una grilla
- Agregar una leyenda

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')
# Tipos de linea: -, --, -., :, none
# Tipos de markers: .,o,x,d,s,1,2,3,4

ax.plot(data_chile, linewidth=2, alpha=0.75, label='Chile')
ax.plot(data_argentina, linestyle='--', linewidth=2, alpha=0.75, label='Argentina')
ax.plot(range(0, len(data_chile), 7), data_chile[::7], 
        linestyle='none', marker='x', markersize=10, label='semanas')

# Leyenda
#ax.legend(loc=2, ncol=1)
ax.legend(loc=1, ncol=3, bbox_to_anchor=(0.75, 1))

# Texto para ejes y título
ax.set_xlabel('Tiempo [días]', fontsize=14, fontname='serif', color="green")
ax.set_ylabel('Número de casos totales COVID-19')
ax.set_title('Mis primeros pasos en matplotlib')

# Límites de los ejes
ax.set_xlim([50, 100])
#ax.xaxis.set_ticks_position('top')
#ax.yaxis.set_ticks_position('right')

# Ticks de los ejes
ax.set_yticks([0, 5000, 10000, 20000])
#ax.set_xticks([-1, 0, 1])
ax.set_yticklabels(['nada', 'pocos', 'muchos', 'demasiados'])
ax.xaxis.set_major_locator(mpl.ticker.MultipleLocator(7))
ax.xaxis.set_minor_locator(mpl.ticker.MultipleLocator(1))

# Grilla
ax.grid(color="red", which="major", axis='both', linestyle=':', linewidth=0.5)


## Posicionamiento de ejes

Creando un eje en una posición específica de la figura

In [None]:
fig = plt.figure(figsize=(7, 4))

#left, bottom, width, height = 0.2, 0.1, 0.5, 0.8
ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
ax.plot(data_chile)
ax2 = fig.add_axes([0.25, 0.68, 0.4, 0.2])
ax2.plot(data_argentina)

Creando y posicionando múltiples ejes en una misma figura

In [None]:
fig, ax = plt.subplots(nrows=2, ncols=1, figsize=(7, 4), 
                       sharex=True, sharey=True, tight_layout=True)
ax[0].plot(data_chile, lw=2)
ax[0].set_title('Chile')
ax[1].plot(data_argentina, lw=2)
ax[1].set_title('Argentina')

Mayor control creando una grilla de ejes usando `gridspec`

In [None]:
fig = plt.figure(figsize=(7, 4), facecolor='w', tight_layout=True)

gs = mpl.gridspec.GridSpec(4, 4)

ax = fig.add_subplot(gs[0, 0])
ax.plot(data_chile); ax.set_title('0')
ax = fig.add_subplot(gs[1:, 0])
ax.plot(data_chile); ax.set_title('1')
ax = fig.add_subplot(gs[0:2, 1:])
ax.plot(data_chile); ax.set_title('2')
ax = fig.add_subplot(gs[2:4, 1:3])
ax.plot(data_chile); ax.set_title('3')
ax = fig.add_subplot(gs[2:4, 3])
ax.plot(data_chile); ax.set_title('4')

## Graficando en escala logarítmica

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')

ax.grid()
ax.plot(data_chile)
#ax.set_yscale('log')
# ax.semilogy(data_chile)

#ax.loglog(data_chile)

## Ejes compartidos

Dos ejes de ordenadas independientes compartiendo el mismo eje de abscisas

**Ojo:** Este tipo de visualización puede inducir a confusión, evítala a menos de que sea muy bien justificado

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')
ax.grid()
ax.plot(data_chile, c='green')
ax.set_ylabel(r'Chile', color="green")

ax2 = ax.twinx()
ax2.plot(data_argentina, c='red')
ax2.set_ylabel(r'Argentina', color="red");

## Anotaciones en un gráfico

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')
ax.grid()
x = np.linspace(-5, 5, num=101)
ax.plot(x, np.exp(-x**2), c='blue')

ax.text(4, 0.1, "un texto flotante", fontsize=14,
        color='blue', family="serif", rotation=90)
ax.annotate('este es el máximo', xy=(0, 1), xytext=(1, 1), fontsize=13, 
            arrowprops=dict(arrowstyle="<->"));

# Tipos de gráficos 

Hasta ahora sólo hemos usado la función `plot` para crear lineas. 

Existen otras opciones para crear gráficas a partir de funciones con variable independiente unidimensional

## Nubes de puntos con `scatter`

Un gráfico de nube sirve para explorar si existe correlación entre dos conjuntos de datos

In [None]:
fig, ax = plt.subplots(figsize=(7, 3), tight_layout=True)

#ax.scatter(x=data_argentina, y=data_chile,
#           marker='x', s=100, c='r', alpha=1.)

# El tamañó y el color pueden especificarse "por punto"
ax.scatter(x=data_argentina, y=data_chile, 
           s=np.random.randint(100, size=len(data_chile)),
           c=np.random.randint(10, size=len(data_chile)), cmap=plt.cm.Set2, alpha=0.8)

También es útil si tenemos datos irregulares

El siguiente ejemplo corresponde al brillo de una estrella en el tiempo detectado por el telescopio Vista

En este caso no es correcto "conectar los puntos" con una linea

In [None]:
tiempo, brillo, error = np.genfromtxt("rrl.dat")[:, :3].T
#display(tiempo, brillo)

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True)
#ax.plot(tiempo, brillo) 
ax.scatter(tiempo, brillo)
#ax.plot(tiempo, brillo, 'o') 

ax.set_xlabel('Tiempo [día juliano]')
ax.set_ylabel('Magnitud aparente')
ax.invert_yaxis();

## Linea con barras de error con `errorbar`


Este gráfico es útil si queremos mostrar la incerteza asociada a nuestras variables

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True)

ax.errorbar(x=tiempo, y=brillo, xerr=0.0, yerr=error, 
            fmt='.', elinewidth=None, ecolor=None, capsize=None)
ax.invert_yaxis();

## Rangos de datos con `fill_between`


Este gráfico es útil si queremos
- presentar la incerteza asociada a la variable dependiente
- resumir el comportamiento de varios line plots


In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')
ax.grid()
data = np.vstack((data_chile, data_argentina, data_bolivia))
media = np.mean(data, axis=0)
devstd = np.std(data, axis=0)
ax.plot(media)
ax.fill_between(x=range(len(media)),
                y1=media - devstd, 
                y2=media + devstd, alpha=0.5)

## Lineas sobrepuestas con `stackplot`

Sirve para estudiar la contribución de varias variables con respecto al valor total (suma)

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')
ax.grid()
ax.stackplot(range(len(data_chile)), data_chile, data_argentina, data_bolivia,
             alpha=0.5, labels=('Chile', 'Argentina', 'Bolivia'));
plt.legend(loc=2)

## Barras con  `bar`

Un gráfico de barras sirve para comparar una cierta cantidad con respecto a distintos grupos

Por ejemplo

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')

ax.bar(x=range(3), height=[data_chile[-1], data_argentina[-1], data_bolivia[-1]], 
       width=0.8, bottom=0, align='center', 
       color=None, edgecolor=None, linewidth=None, xerr=None, yerr=None);
ax.set_ylabel('Infectados totales a la fecha')
ax.set_xticks(range(3))
ax.set_xticklabels(['Chile', 'Argentina', 'Bolivia']);

## Histogramas con  `hist` 


Un histograma es una representación de la **distribución de una o más variables**

La construcción de un histograma involucra
- Medir el rango de la variable
- Dividir el rango en $N$ cajones
- Contar cuantas muestras corresponden a cada cajón

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True, facecolor='w')

data = np.random.randn(100, 3)
data[:, 1] *= 1.5
data[:, 2] += 2

ax.hist(data, bins=None, range=None, density=False, weights=None, 
        histtype='bar', color=None);

# histype={'bar', 'barstacked', 'step',  'stepfilled'}

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(7, 3), tight_layout=True, facecolor='w')

ax[0].errorbar(tiempo, brillo, error, fmt='.')
ax[0].invert_yaxis()
ax[0].set_ylabel('Brillo aparente')

ax[1].hist(brillo, bins=10, alpha=0.75, orientation="horizontal");
ax[1].invert_yaxis()
#ax[1].set_xlabel('Brillo aparente')
ax[1].set_title('Histograma');

## Diagrama de caja y bigote (boxplot)

Gráfico usado para comparar distintas distribuciones de datos

- La linea naranja corresponde a la media de los datos
- La parte superior e inferior de la caja corresponden al  menor y mayor cuartil, respectivamente
- Los bigotes son el rango calculado a partir de los cuartiles
- Las pelotas son puntos fuera del rango anterior(outliers)

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True)

#print(np.percentile(data, q=1, axis=0))
ax.boxplot(data, notch=False, sym='o', 
           showmeans=None, showcaps=None, showbox=None);

## Mapas de colores

Para visualizar funciones que varían en dos variables independientes (superficie) podemos usar **Mapas de colores**
- `contour` y `contourf`
- `pcolor`
- `matshow` y `imshow`


En los mapas de colores la variable dependiente (altura) se codifica como una escala de color

[Matplotlib](https://matplotlib.org/examples/color/colormaps_reference.html) ofrece muchas escalas de tipo 
- gradiente: Para representar variables continuas 
- divergentes: Para representar variables continuas con un valor cero
- categóricas: Para representar clases 

In [None]:
scale = np.tile(np.linspace(0, 1, num=256), (20, 1))
fig, ax = plt.subplots(3, figsize=(7, 3), tight_layout=True)
for ax_, cmap_ in zip(ax, [plt.cm.Reds, plt.cm.RdBu, plt.cm.Accent]):
    ax_.imshow(scale, cmap=cmap_)
    ax_.axis('off')

### Mapa de contornos

In [None]:
# Creando una gráfica de "altura"
x = np.linspace(-3, 3, num=10)
X, Y = np.meshgrid(x, x)
Z = np.exp(-0.5*(X-1)**2 - 0.5*(Y+1)**2) + np.exp(-0.5*(X+1)**2 -0.5*(Y-1)**2)

fig, ax = plt.subplots(figsize=(7, 4))
cplot = ax.contourf(X, Y, Z, levels=None,
                    cmap=plt.cm.Greens, vmin=None, vmax=None, 
                    linewidths=None, linestyles='solid')

fig.colorbar(mappable=cplot, ax=ax, orientation='vertical', pad=0.05)

In [None]:
# Creando una gráfica de "altura"
Z = np.exp(-0.5*(X-1)**2 - 0.5*(Y+1)**2) + np.exp(-0.5*(X+1)**2 -0.5*(Y-1)**2)

fig, ax = plt.subplots(figsize=(7, 4))
cplot = ax.contourf(X, Y, Z, levels=6, cmap=plt.cm.Reds)
fig.colorbar(mappable=cplot, ax=ax, orientation='vertical', pad=0.05)

cplot = ax.contour(X, Y, Z, levels=6, colors='k', linewidths=2, linestyles='solid')
ax.clabel(cplot, colors='k', fontsize=10)

In [None]:
Z = np.exp(-0.5*(X-1)**2 - 0.5*(Y+1)**2) + np.exp(-0.5*(X+1)**2 -0.5*(Y-1)**2)

fig, ax = plt.subplots(figsize=(7, 4))
cplot = ax.pcolor(X, Y, Z, 
                  cmap=plt.cm.Reds, vmin=None, vmax=None)
fig.colorbar(mappable=cplot, ax=ax, orientation='vertical', pad=0.05)

### Espectrograma

In [None]:
x = np.arange(0, 10, step=0.001)
y = np.cos(2.*np.pi*x*x)

fig, ax = plt.subplots(2, figsize=(7, 5), tight_layout=True, sharex=True)
ax[0].plot(x, y)
ax[1].specgram(y, Fs=1000);
ax[1].set_ylabel('Frecuencia')
ax[1].set_xlabel('Tiempo');

### Matrices

In [None]:
Z = np.random.randint(255, size=(20, 20))

fig, ax = plt.subplots(figsize=(5, 4), tight_layout=True, facecolor='w')
cplot = ax.matshow(Z, cmap=plt.cm.Greys_r, interpolation='none')
fig.colorbar(cplot)

# interpolation = {'none', 'bilinear', 'bicubic', 'gaussian', 'lanczos'}

### Imágenes

In [None]:
img = plt.imread('img/valdivia.png')
fig, ax = plt.subplots(figsize=(7, 5), tight_layout=True)
ax.imshow(img);

## Gráficas en 3D

Otra opción para visualizar este tipo de funciones es usar gráficos 3D

- Notemos que es necesario importar el módulo `Axes3D`
- Luego podemos usar 
    - `plot_surface`
    - `contour`, `contourf`
    - `plot_wireframe`

In [None]:
from mpl_toolkits.mplot3d.axes3d import Axes3D

fig, ax = plt.subplots(figsize=(7, 4), subplot_kw={'projection': '3d'})

x = np.linspace(-3, 3, num=10)
X, Y = np.meshgrid(x, x)
Z = np.exp(-0.5*(X-1)**2 - 0.5*(Y+1)**2) + np.exp(-0.5*(X+1)**2 -0.5*(Y-1)**2)
cplot = ax.plot_surface(X, Y, Z, cmap=plt.cm.Reds)
fig.colorbar(cplot)

El módulo `Axes3D` puede usarse también para hacer líneas y nubes de puntos en 3D a partir de arreglos unidimensionales (vértices)

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), subplot_kw={'projection': '3d'})

N = 100
rho = np.linspace(0, 2, num=N)
phi = np.linspace(0, 20, num=N)

#ax.plot(rho*np.cos(phi), rho*np.sin(phi), np.linspace(0, 2, num=N))
ax.scatter(rho*np.cos(phi), rho*np.sin(phi), np.linspace(0, 2, num=N))

# Configurando dinamicamente opciones generales de matplotlib

Matplotlib mantiene un diccionario llamado rcParams

Si hay opciones que siempre vamos a ocupar conviene escribirlas aquí

In [None]:
display(mpl.rcParams)

In [None]:
mpl.rcParams['axes.grid'] = True
mpl.rcParams['axes.linewidth'] = 2
mpl.rcParams['lines.linewidth'] = 4
mpl.rcParams['font.size'] = 12
mpl.rcParams['lines.marker'] = 'd'
mpl.rcParams['lines.markersize'] = 20

x = np.arange(10)
plt.figure()
plt.plot(x, x**2)
plt.plot(x, x**3)

Podemos escoger el estilo general de nuestras gráficas con

In [None]:
sorted(mpl.style.available)

In [None]:
plt.style.use('Solarize_Light2')

plt.figure()
x = np.arange(10)
plt.plot(x, x**2);

# [Seaborn](https://seaborn.pydata.org/)

Seaborn es una librería de visualización que utiliza matplotlib como backend

Provee más opciones de gráficos y tienen una apariencia por defecto más moderna y acabada 

Además se integra mejor con la librería pandas (más en próximas clases)


### Instalación <a class="tocSkip">

Con nuestro ambiente conda activado

    conda install seaborn

> Se sugiere reuniciar el notebook en este punto antes de continuar


In [None]:
%matplotlib notebook
import numpy as np
import matplotlib.pyplot as plt

import seaborn as sns
sns.set()

Todas las funciones que vimos de matplotlib tendrán ahora la apariencia de seaborn

In [None]:
x = np.arange(-2, 2, step=0.01)
y = np.sin(2.0*np.pi*x) + 0.5*np.random.randn(len(x))

plt.figure(figsize=(6, 3), tight_layout=True)
plt.plot(x, y);

## Algunos gráficos implementados en seaborn  <a class="tocSkip">

Todos los gráficos de seaborn pueden hacerse usando matplotlib (y un poco de esfuerzo extra)

La ventaja de seaborn es que nos da una abstracción superior

Seaborn ofrece `kdeplot` para visualizar distribuciones como alternativa a un histograma 

In [None]:
plt.figure(figsize=(6, 3), tight_layout=True)
sns.kdeplot(y, shade=True);

`kdeplot` también puede usarse para dibujar distribuciones de mayor dimensión

Si queremos dibujar la distribución conjunta con las marginales podemos usar `jointplot`

In [None]:
# plt.figure(figsize=(6, 3), tight_layout=True)
# sns.kdeplot(x, y, shade=True);
sns.jointplot(x, y, kind='kde')

Otro ejemplo muy util para dibujar correlación entre variables es `pairplot`

Esta función recibe como entrada un objeto DataFrame de pandas

In [None]:
import pandas as pd # Si instalaste seaborn con conda, ya tienes instalado pandas
data = pd.DataFrame(np.array([x, y, y**2]).T)
sns.pairplot(data);

# Más allá de matplotlib

- [Bokeh](https://bokeh.pydata.org/en/latest/) y [Dash](https://dash.plot.ly/installation): Visualizaciónes con foco en la interactividad
- [Datashader](http://datashader.org/) Visualización con foco en grandes volúmenes de datos
- [Vispy](http://vispy.org/): Visualización aceleradas por GPU basadas en OpenGL
    

# [¿Cómo hacer buenas visualizaciones?](https://vimeo.com/29684853)

> El objetivo de una visualización de datos es **comunicar la información de forma clara y simple**

> Esto tiene un aspecto funcional y otro estético que deben estar balanceados. 

En esta clase hemos aprendido a usar matplotlib y seaborn: aspecto funcional

El aspecto estético requiere diseño (y sentido común)

La mejor forma de aprender este aspecto es estudiando ejemplos

- https://informationisbeautiful.net/visualizations/
- https://bokeh.pydata.org/en/latest/docs/gallery.html

A continuación voy a listar algunos consejos 

## Las formas más efectivas de comunicar diferencias  cuantitativas

<a href="https://www.knowablemagazine.org/article/mind/2019/science-data-visualization"><img src="img/G-01-visual-ranking_4.svg" width="500"></a>

Recomiendo tomar el *chart challenge* en el link de la imagen

## [Play your charts right](https://www.geckoboard.com/uploads/play-your-charts-right.pdf)

- **Menos es más:** Muestra sólo lo fundamental y usa color sólo para comunicar
- **Evita el misterio:** Etiqueta tus ejes y gráficos

## [Evita paletas de colores de tipo arcoíris](https://www.scientificamerican.com/article/end-of-the-rainbow-new-map-scale-is-more-readable-by-people-who-are-color-blind/)

Las paletas de tipo son más difíciles de interpretar y no son amigables con los daltónicos

La paleta por defecto de matplotlib es viridis que es [perceptualmente-uniforme](https://bids.github.io/colormap/)

## Evita comunicar muchas ideas con un sólo gráfico