<p><img alt="DataOwl" width=150 src="http://gwsolutions.cl/Images/dataowl.png", align="left", hspace=0, vspace=5></p>

<h1 align="center">Visualización</h1>

<h4 align="center">Matplotlib, Seaborn y Plotly</h4>
<pre><div align="center"> La idea de este notebook es que sirva para iniciarse en la visualización de datos.</div>


<div align="right"> En términos de código y estructura, este notebook esta basado en
<a href="https://www.kaggle.com/subinium/simple-matplotlib-visualization-tips">Simple Matplotlib Visualization Tips</a>.
</div></pre>

## Visualización de datos

La visualización de datos es la disciplina de tratar de comprender los datos colocándolos en un contexto visual para que los patrones, las tendencias y las correlaciones que de otro modo no podrían detectarse puedan quedar expuestos.

<p><img alt="COVID" width=600 src="https://miro.medium.com/max/700/1*N0tRnDv63278HUKF_dE4HA.png", align="center", hspace=0, vspace=5></p>

Python ofrece múltiples librerías de visualización, cada una con muchas características diferentes. No importa si desea crear trazados interactivos, en vivo o altamente personalizados, Python tiene una excelente biblioteca para cada gusto y uso.

Nos centraremos en introducir **Matplotlib**. En un futuro, veremos también **Seaborn** y **Plotly**.

<a id="section1"></a>
<h1> Matplotlib </h1>
    
Matplotlib es el O.G. de las librerías de visualización de datos de Python. A pesar de tener más de una década, sigue siendo la biblioteca más utilizada para graficar en la comunidad Python; fue diseñado para parecerse mucho a MATLAB, un lenguaje de programación patentado desarrollado en la década de 1980.

Debido a que Matplotlib fue la primera librería de visualización de datos de Python, muchas otras librerías están construidas sobre ella o diseñadas para trabajar en conjunto con ella durante el análisis.

<p><img alt="Pandas" width=150 src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Matplotlib_icon.svg/1200px-Matplotlib_icon.svg.png", align="right", hspace=0, vspace=5></p>

Si bien Matplotlib es bueno para tener una idea de los datos, no es muy útil para crear gráficos de calidad de publicación de manera rápida y fácil.

Para instalar la librería puede hacerse a través del comando **pip** o el comando **conda** en la consola de comandos:



```cmd
conda install matplotlib

pip install matplotlib
```

In [2]:
# Importando las librerías

import numpy as np

import matplotlib.pyplot as plt

En primer lugar, queremos plasmar información en forma gráfica. Debemos saber cómo iniciar un objeto ***figura*** y cómo añadir elementos en él. Conforme avancemos en el curso, veremos muchas prestaciones que ofrecen los módulos de Matplotlib, cómo manipular sus objetos y qué limitaciones tienen.

In [None]:
# Forma 1a (figura vacía)
plt.figure()

# Forma 1b (figura vacía numerada)
plt.figure(1)

# Forma 2a (forma pro)
fig1 = plt.figure(figsize=(8, 5))

# Forma 2b (forma más pro)
fig2, axes = plt.subplots(2, 3, figsize=(8, 5))

Notemos una diferencia entre definir una figura vacía y una figura definida de forma pro: en el segundo caso, la figura pasa a ser un objeto asignado a las variables **fig1** y **fig2**. Por esto, **fig1** y **fig2** tienen "valor" distinto y se les puede cambiar sus atributos de forma independiente. En el caso de la figura vacía y la figura vacía numerada, se puede cambiar sus atributos de forma más limitada (es decir, habrá aspectos que será mucho más difícil o imposibles cambiarlos) y siempre que no se defina una nueva figura vacía.

### 1.0 Configuraciones iniciales

Algo que rara vez se hace y debiera ser necesario antes de cualquier visualización en notebooks, es establecer la resolución a través de la configuración **dpi** (dots per inch) de la figura. Matplotlib tiene una resolución predeterminada baja, por lo que configurarla a medida hace que los gráficos se vean mejor.

In [3]:
# Estableciendo la resolución de las figuras

plt.rcParams['figure.dpi'] = 60

Existe una cierta anatomía de una figura realizada con matplotlib (Y con cualquier librería de visualización), la cual podemos apreciar a priori en la siguiente imagen.

<p><img alt="COVID" width=600 src="https://scontent.fscl6-1.fna.fbcdn.net/v/t1.0-9/101147394_10223322201184885_7931971586804940800_n.jpg?_nc_cat=100&_nc_sid=8024bb&_nc_ohc=7s50oZWJPegAX97cGCE&_nc_ht=scontent.fscl6-1.fna&oh=bb8b9a6a22cf1564b02d3a5d3144c1a5&oe=5F00954B", align="center", hspace=0, vspace=5></p>


### 1.1 Gráficos básicos

Lo primero que haremos es plotear dos vectores de la misma dimensión, uno correspondiente al **eje x** y otro al **eje y**. Este es el gráfico más básico que podemos obtener con Matplotlib.

In [None]:
# Gráfico de linea en 2D

x = [2 , 4 , 6 , 8]
y = [5 , 6 , 2 , 9]

plt.plot(x,y)

Podemos añadir un color distinto a la linea que graficamos anteriormente mediante el argumento opcional **color**.

In [None]:
# Agregando color

x = [2 , 4 , 6 , 8]
y = [5 , 6 , 2 , 9]

plt.plot( x , y , color = 'red')

Además podemos darle más características al gráfico, asi como título, leyenda y ejes, no obstante debemos definirlos como nuevos elementos para añadirlos a este.

In [None]:
# Agregando título, leyenda y ejes

x = [2 , 4 , 6 , 8]
y = [5 , 6 , 2 , 9]

plt.plot( x , y , color = 'red', label = 'Mi linea', marker = 'o', linestyle = '--')
plt.title('Mi gráfico', color = 'blue')

plt.legend()
plt.xlabel('Eje x', color = 'green')
plt.ylabel('Eje y', color = 'green')


Y no solo podemos gráficar vectores, sino también funciones que ya esten definidas en librerías como numpy, o en funciones que nosotros mismos programemos.

In [None]:
# Graficando las funciones seno y coseno


x = np.linspace(0,10,50)

plt.plot(x, np.sin(x), label='Seno(x)', color = 'blue')

plt.plot(x, np.cos(x), label='Coseno(x)', color = 'red', linestyle = ':')

plt.xlabel('x', fontsize=15, color='green')
plt.ylabel('sin(x)', fontsize=15, color='green')
plt.legend()
plt.title('Graficando funciones') 

### 1.2 Múltiples gráficos

Podemos utilizar la función **subplots** para poner varios gráficos en la misma figura, separando cada gráfico en su propio box de ejes.

In [None]:
# Ejemplo de subplot

plt.rcParams['figure.dpi'] = 80
fig, axes = plt.subplots(2, 3, figsize=(8, 5))
plt.tight_layout()
plt.show()

¿Pero que pasa si quiero distintas cajas de distintos tamaños?
Por ejemplo, los gráficos de barras y los gráficos circulares suelen ser muy diferentes en relación. En este caso, el diseño debe ser diferente; para esto se puede cambiar y manipular fácilmente el sistema de cuadrícula usando la función **subplot2grid**.

In [None]:
# Manipulando subplots

fig = plt.figure(figsize=(8, 5)) 

ax = [None for _ in range(6)] 

ax[0] = plt.subplot2grid((3,4), (0,0), colspan=4)
ax[1] = plt.subplot2grid((3,4), (1,0), colspan=1)
ax[2] = plt.subplot2grid((3,4), (1,1), colspan=1)
ax[3] = plt.subplot2grid((3,4), (1,2), colspan=1)
ax[4] = plt.subplot2grid((3,4), (1,3), colspan=1,rowspan=2)
ax[5] = plt.subplot2grid((3,4), (2,0), colspan=3)


for ix in range(6): 
    ax[ix].set_title('ax[{}]'.format(ix)) 
    ax[ix].set_xticks([])
    ax[ix].set_yticks([]) 
    
fig.tight_layout()
plt.show()

### 1.3 Mapas de colores

El color es una de las cosas más importantes en un gráfico. Por supuesto, el equipo de matplotlib ya ha creado una buena paleta de colores, y solo necesitamos usarla. Entre las 4 categorías más utilizadas de paletas de colores encontramos la **divergente**, la **cualitativa**, la **continua** y la **científica**.

<hr>

 * <u>Mapa de colores **divergente**</u>
 
     - Este mapa de colores se usa generalmente en visualizaciones donde la mediana es obvia.
 
     - Generalmente se visualiza sobre un fondo blanco, blanco en el centro y de color más oscuro hacia ambos extremos. En otras palabras, cuanto más claro sea el valor, más cerca del centro, más oscuro, más cerca del final.
 
     - Útil para expresar sesgo, como la correlación y la disposición política.
 
     - Si bien es un mapa de colores continuo, también puede usar una paleta de colores discreta dependiendo del intervalo.

In [None]:
# Función para plotear un colormap

def cmap_plot(cmap_list, ctype):
    cmaps = cmap_list

    n = len(cmaps)

    fig = plt.figure(figsize=(8.25, n*.20), dpi=150)
    ax = plt.subplot(1, 1, 1, frameon=False, xlim=[0,10], xticks=[], yticks=[])
    fig.subplots_adjust(top=0.99, bottom=0.01, left=0.18, right=0.99)

    y, dy, pad = 0, 0.3, 0.08

    ticks, labels = [], []

    for cmap in cmaps[::-1]:
        Z = np.linspace(0,1,512).reshape(1,512)
        plt.imshow(Z, extent=[0,10,y,y+dy], cmap=plt.get_cmap(cmap))
        ticks.append(y+dy/2)
        labels.append(cmap)
        y = y + dy + pad

    ax.set_ylim(-pad,y)
    ax.set_yticks(ticks)
    ax.set_yticklabels(labels)

    ax.tick_params(axis='y', which='both', length=0, labelsize=5)
    plt.title(f'Colormap {ctype}', fontweight='bold', fontsize=8)
    plt.show()

In [None]:
# Ploteando colormap divergente

diverge_cmap = ('PRGn', 'PiYG', 'RdYlGn', 'BrBG', 'RdGy', 'PuOr', 'RdBu', 'RdYlBu',  'Spectral', 'coolwarm_r', 'bwr_r', 'seismic_r')
cmap_plot(diverge_cmap, 'Divergente')

* <u>Mapa de colores **cualitativo**</u>
 
     - Una paleta de colores independientes, a menudo utilizada para variables categóricas.
 
     - Se recomienda organizar hasta 10 colores y agrupar pequeñas categorías con otras.
 
     - La repetición de colores puede ser confusa, así que trate de evitar la superposición lo más posible. Es una buena idea cambiar de color a color en lugar de saturación y brillo.

In [None]:
# Ploteando colormap cualitativo

qualitative_cmap = ('tab10', 'tab20', 'tab20b', 'tab20c', 'Pastel1', 'Pastel2', 'Paired', 'Set1', 'Set2', 'Set3', 'Accent', 'Dark2' )
cmap_plot(qualitative_cmap, 'Cualitativo')

* <u>Mapa de colores **continuo**</u>
 
     - Esta paleta es apropiada para variables con números o valores ordenados.
 
     - Usado mucho en comparación de cifras. Especialmente eficaz para expresar densidad. Aproveche los gráficos de mapas para una mejor visualización.
     
     - Similar a divergente, pero con una parte ligeramente diferente porque cada punto final es un criterio de color, no la mediana. Por lo general, indica que los valores de luz son oscuros en fondos oscuros y valores oscuros en fondos claros.
     
     - Se recomienda usar un solo tono para el color.
     
     - Al igual que la divergente, también se puede usar en forma discreta.

In [None]:
# Ploteando colormap continuo

sequential_cmap = ('Greys', 'Reds', 'Oranges', 
         'YlOrBr', 'YlOrRd', 'OrRd', 'PuRd', 'RdPu', 'BuPu',
         'Purples', 'YlGnBu', 'Blues', 'PuBu', 'GnBu', 'PuBuGn', 'BuGn',
         'Greens', 'YlGn','bone', 'gray', 'pink', 'afmhot', 'hot', 'gist_heat', 'copper', 
         'Wistia', 'autumn_r', 'summer_r', 'spring_r', 'cool', 'winter_r')            
cmap_plot(sequential_cmap, 'Continuo')

 * <u>Mapa de colores **científico**</u>
 
     - Utilizado en gráficos científicos.

In [None]:
# Ploteando colormap científico

scientific_cmap = ('viridis', 'plasma', 'inferno', 'magma')
cmap_plot(scientific_cmap, 'científico')

### 1.4 Detalles

Poner atención a pequeños detalles en la visualización nos ayudará a enfocar mejor la atención a lo más importante. Es importante que una visualización sea buena para lograr apoyar de la mejor manera a la toma de decisión y para documentar con estilo los reportes y proyectos.

Otra forma de darle estilo e información a nuestros gráficos es analizar distintos segmentos para ver si podemos entregar más información, como en el ejemplo que sigue:

Para más ejemplos de gráficos utilizando MatplotLib recomendamos visitar el artículo <a href="https://nextjournal.com/sosiristseng/top-50-matplotlib-visualizations">Top 50 Matplotlib visualizations</a>.