# Visualización

![elgif](https://media.giphy.com/media/3og0IExSrnfW2kUaaI/giphy.gif)

## Motivación
En Python podemos realizar visualizaciones de todo tipo. En esta clase veremos algunas herramientas que nos permitirán crear gráficos. Algunos ejemplos psicodélicos...:


![cuadrados](../images/cuadrados.png)


![julia](../images/julia.png)


![mandelbrot](../images/mandelbrot.png)


Pero... **WAIT**     
Este no es nuestro objetivo. 

En realidad, nuestros objetivos son dos, en primer lugar visualizar los datos para realizar un análisis exploratorio de los datos, EDA por las siglas en inglés. Necesitamos describir correctamente los datos y la visualización es una gran herramienta para ello. Nuestro segundo objetivo es representar los datos de tal manera que tengan narrativa, que podamos contar una historia a través de ellos. Es lo que se llama storytelling.

**¿Qué es storytelling?**

Es una técnica que utiliza datos para contar una historia. Es una forma útil de presentar información, lo que significa que se puede utilizar tanto con audiencias internas como externas. Si estás realizando la presentación de un informe, por ejemplo, puedes expresar mejor una idea o explicar mejor un punto si utilizas gráficos, tablas o infografías, ya que dichos contenidos retienen la atención de tu audiencia de una manera que un texto o incluso un video no lo pueden hacer. Estas herramientas facilitan el procesamiento de toda la información a la vez y la toma de decisiones.

El storytelling va más allá de representar datos de una manera más atractiva. Consiste en mostrar cómo o por qué los datos cambiaron durante un período, y para eso es necesario reunir:

+ una narrativa
+ un contexto
+ personajes

Estos son los factores clave para que tu audiencia se involucre realmente con el contenido.


**Matplotlib/Pylab - Seaborn**

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Motivación" data-toc-modified-id="Motivación-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Motivación</a></span></li><li><span><a href="#Importamos-librerías" data-toc-modified-id="Importamos-librerías-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Importamos librerías</a></span></li><li><span><a href="#Cargamos-datitos" data-toc-modified-id="Cargamos-datitos-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Cargamos datitos</a></span></li><li><span><a href="#Configuraciones-de-visualización" data-toc-modified-id="Configuraciones-de-visualización-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Configuraciones de visualización</a></span></li><li><span><a href="#Gráficos-de-Barras" data-toc-modified-id="Gráficos-de-Barras-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Gráficos de Barras</a></span><ul class="toc-item"><li><span><a href="#Seaborn" data-toc-modified-id="Seaborn-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Seaborn</a></span></li><li><span><a href="#Matplotlib" data-toc-modified-id="Matplotlib-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Matplotlib</a></span></li></ul></li><li><span><a href="#Gráficos-con-más-de-una-barra,-agrupando-variables" data-toc-modified-id="Gráficos-con-más-de-una-barra,-agrupando-variables-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Gráficos con más de una barra, agrupando variables</a></span><ul class="toc-item"><li><span><a href="#Seaborn" data-toc-modified-id="Seaborn-6.1"><span class="toc-item-num">6.1&nbsp;&nbsp;</span>Seaborn</a></span></li><li><span><a href="#Matplotlib" data-toc-modified-id="Matplotlib-6.2"><span class="toc-item-num">6.2&nbsp;&nbsp;</span>Matplotlib</a></span></li></ul></li><li><span><a href="#Histogramas" data-toc-modified-id="Histogramas-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Histogramas</a></span><ul class="toc-item"><li><span><a href="#Seaborn" data-toc-modified-id="Seaborn-7.1"><span class="toc-item-num">7.1&nbsp;&nbsp;</span>Seaborn</a></span></li><li><span><a href="#Matplotlib" data-toc-modified-id="Matplotlib-7.2"><span class="toc-item-num">7.2&nbsp;&nbsp;</span>Matplotlib</a></span></li></ul></li><li><span><a href="#Más-variables-Stacked-Hist" data-toc-modified-id="Más-variables-Stacked-Hist-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Más variables Stacked Hist</a></span><ul class="toc-item"><li><span><a href="#Seaborn" data-toc-modified-id="Seaborn-8.1"><span class="toc-item-num">8.1&nbsp;&nbsp;</span>Seaborn</a></span></li></ul></li><li><span><a href="#Más-variables-/-Barras-combinadas" data-toc-modified-id="Más-variables-/-Barras-combinadas-9"><span class="toc-item-num">9&nbsp;&nbsp;</span>Más variables / Barras combinadas</a></span></li><li><span><a href="#Añadimos-KDE-al-histplot" data-toc-modified-id="Añadimos-KDE-al-histplot-10"><span class="toc-item-num">10&nbsp;&nbsp;</span>Añadimos KDE al histplot</a></span></li><li><span><a href="#KDE-plot" data-toc-modified-id="KDE-plot-11"><span class="toc-item-num">11&nbsp;&nbsp;</span>KDE plot</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Con-más-variables" data-toc-modified-id="Con-más-variables-11.0.1"><span class="toc-item-num">11.0.1&nbsp;&nbsp;</span>Con más variables</a></span></li></ul></li></ul></li><li><span><a href="#Scatterplot" data-toc-modified-id="Scatterplot-12"><span class="toc-item-num">12&nbsp;&nbsp;</span>Scatterplot</a></span><ul class="toc-item"><li><span><a href="#Seaborn" data-toc-modified-id="Seaborn-12.1"><span class="toc-item-num">12.1&nbsp;&nbsp;</span>Seaborn</a></span></li><li><span><a href="#Matplotlib" data-toc-modified-id="Matplotlib-12.2"><span class="toc-item-num">12.2&nbsp;&nbsp;</span>Matplotlib</a></span></li><li><span><a href="#Más-categorías" data-toc-modified-id="Más-categorías-12.3"><span class="toc-item-num">12.3&nbsp;&nbsp;</span>Más categorías</a></span></li><li><span><a href="#Con-variables-categóricas" data-toc-modified-id="Con-variables-categóricas-12.4"><span class="toc-item-num">12.4&nbsp;&nbsp;</span>Con variables categóricas</a></span></li><li><span><a href="#Swarmplot" data-toc-modified-id="Swarmplot-12.5"><span class="toc-item-num">12.5&nbsp;&nbsp;</span>Swarmplot</a></span></li></ul></li><li><span><a href="#Jointplot" data-toc-modified-id="Jointplot-13"><span class="toc-item-num">13&nbsp;&nbsp;</span>Jointplot</a></span><ul class="toc-item"><li><span><a href="#¿Se-puede-hacer-un-Jointplot-con-matplotlib?" data-toc-modified-id="¿Se-puede-hacer-un-Jointplot-con-matplotlib?-13.1"><span class="toc-item-num">13.1&nbsp;&nbsp;</span>¿Se puede hacer un Jointplot con matplotlib?</a></span></li></ul></li><li><span><a href="#Pairplot" data-toc-modified-id="Pairplot-14"><span class="toc-item-num">14&nbsp;&nbsp;</span>Pairplot</a></span></li><li><span><a href="#LinePlot" data-toc-modified-id="LinePlot-15"><span class="toc-item-num">15&nbsp;&nbsp;</span>LinePlot</a></span></li><li><span><a href="#Matriz-de-Correlación" data-toc-modified-id="Matriz-de-Correlación-16"><span class="toc-item-num">16&nbsp;&nbsp;</span>Matriz de Correlación</a></span></li><li><span><a href="#Boxplot" data-toc-modified-id="Boxplot-17"><span class="toc-item-num">17&nbsp;&nbsp;</span>Boxplot</a></span></li><li><span><a href="#ViolinPlot" data-toc-modified-id="ViolinPlot-18"><span class="toc-item-num">18&nbsp;&nbsp;</span>ViolinPlot</a></span></li><li><span><a href="#Pie-plot-👀" data-toc-modified-id="Pie-plot-👀-19"><span class="toc-item-num">19&nbsp;&nbsp;</span>Pie plot 👀</a></span></li><li><span><a href="#Subplots" data-toc-modified-id="Subplots-20"><span class="toc-item-num">20&nbsp;&nbsp;</span>Subplots</a></span></li></ul></div>

## Importamos librerías 

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

## Cargamos datitos

In [None]:
penguins = sns.load_dataset("penguins")
tips = sns.load_dataset("tips")
titanic = pd.read_csv('../datasets/titanic.csv')

In [None]:
penguins.head()

## Configuraciones de visualización

In [None]:
# Matplotlib inline para visualizar los gráficos de Matplotlib


In [None]:
# Configuración para setear y que todas las fig de Seaborn salgan por defecto con este tamaño
# Se puede especificar el tamaño de cada figura


## Gráficos de Barras
Muestre los recuentos de las observaciones en cada casilla categórica utilizando barras.     
Esto es basicamente un groupby 'species' .count()     

### Seaborn
Gráfico de barras básico, donde contamos la cantidad de elementos que hay en cada especie de pingüino

Podemos cambiarle los colores a los gráficos utilizando el argumento `palette = "código de color"`     
Revisa las paletas de seaborn --> [Aquí](https://seaborn.pydata.org/tutorial/color_palettes.html)

¿Cuándo usar una o la otra? Realmente podemos hacer lo mismo con ambas, Matplotlib es tremendamente poderosa y Seaborn se ha construido en base a Matplotlib pero es sintácticamente más sencilla y visualmente un poco más moderna.       
Echad un ojo a este artículo: --> [matplotlib vs seaborn](https://es.acervolima.com/2021/02/09/diferencia-entre-matplotlib-vs-seaborn/)

### Matplotlib
El mismo countplot que hemos realizado en seaborn se llama "bar plot" en matplotlib. Es un gráfico de barras.     
Basta con tener el dataframe agrupado y añadir `.plot`

## Gráficos con más de una barra, agrupando variables
Podemos crear gráficos de barras agrupadas y añadir, por lo tanto, una dimensión adicional a la gráfica recurriendo al parámetro hue, que provoca que cada barra se multiplique por el número de valores distintos de la variable indicada por este argumento.

### Seaborn

El mismo gráfico pero horizontal 🙃

Añadimos otra variable que tenga más categorías, en seaborn las barras se colorean solas 🌈

### Matplotlib

Vamos a intentar, por partes, conseguir el mismo gráfico que tenemos arriba, en el que contamos los pingüinos por especie y sex.
Primero tenemos que agrupar los datos, pero nos queda así de ... ¿soso?

Ok, no pasa nada, le añadimos el parámetro color.     
Lista de colores en matplotlib --> https://matplotlib.org/stable/gallery/color/named_colors.html

Por favor barritas ¿Os podéis juntar? Ok, hay que hacer un ... [unstack()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html) con los índices, ya que tenemos multiindex.

Lo ponemos tumbaíto 

El código que tenemos que escribir para realizar un gráfico similar al de barras agrupadas en seaborn en matplotlib es ligeramente más complicado. Tenemos que agrupar y tener como index las especies, después podemos tener más variables con un count, o con la media, y podremos graficarlo correctamente. 

## Histogramas
Los histogramas se parecen a los gráficos de barras verticales. Sin embargo, los histogramas representan la frecuencia subyacente de un conjunto de datos discretos o continuos que se miden en una escala de intervalos. Esta representación facilita la visualización de la distribución subyacente del conjunto de datos y la inspección de otras propiedades, como la asimetría y la curtosis (medida que determina el grado de concentración que presentan los valores en la región central de la distribución).

![asimetría](http://www.spssfree.com/curso-de-spss/curso/5-17.gif)

### Seaborn

Podemos especificar manualmente el número de `cajas`.

Podemos elegir si lo rellenamos o no...

Podemos pedir una aproximación de la distribución / kernel density estimation

### Matplotlib

## Más variables Stacked Hist

### Seaborn

No solo puedo condicionar un histplot (es decir, muéstrame los datos con una condición en el dataframe si no que, además, en vez de elegir todas las categorías en el hue, puedo elegir solo las que quiera.

## Más variables / Barras combinadas
Tiene sentido cuando tenemos variables categóricas

## Añadimos KDE al histplot
Las líneas que vamos a añadir son de la librería matplotlib, pero... lo bueno es que podemos combinar ambas librerías, y entonces todo es más fantasía 🔝🙃

## KDE plot
Esta función permite mucho más control sobre la gráfica resultante que la función seaborn.distplot. Si pasamos como primer argumento el conjunto de valores y calculado en la sección anterior, obtenemos exactamente la misma gráfica.   

#### Con más variables
Mítico hue 🙃

## Scatterplot
Un diagrama de dispersión (también conocido como gráfico de dispersión) utiliza puntos para representar los valores de dos variables numéricas diferentes. La posición de cada punto en el eje horizontal y vertical indica los valores de un punto de datos individual. Los gráficos de dispersión se utilizan para observar las relaciones entre las variables.

### Seaborn

### Matplotlib

### Más categorías

Podemos hacer que el tamaño de los puntos dependa de una variable numérica

### Con variables categóricas

La representación por defecto de los datos en catplot() utiliza un gráfico de dispersión. En realidad hay dos gráficos de dispersión categóricos diferentes en seaborn. Adoptan diferentes enfoques para resolver el principal reto de representar datos categóricos con un gráfico de dispersión, que es que todos los puntos que pertenecen a una categoría caigan en la misma posición a lo largo del eje correspondiente a la variable categórica.

### Swarmplot
Dibuja un gráfico de dispersión categórica con puntos no superpuestos.

## Jointplot
Dibuja un gráfico de dos variables con gráficos bivariados y univariados. Es parecido a un scatterplot pero añade los histogramas individuales de ambas variables

La asignación de una variable `hue` añadirá colores condicionales al gráfico de dispersión y dibujará curvas de densidad separadas (utilizando kdeplot()) en los ejes marginales

### ¿Se puede hacer un Jointplot con matplotlib?
Sí, pero hay que establecer las figuras y hacerlo de forma independiente.... aquí un [tutorial](https://stackabuse.com/matplotlib-scatter-plot-with-distribution-plots-histograms-jointplot/)

## Pairplot
Ploteamos relaciones entre las variables

In [None]:
 #Aquí ponemos hue con las especies porque el dataset está clasificado así

## LinePlot

## Matriz de Correlación
La matriz de correlación es una importante métrica de análisis de datos que se calcula para resumir los datos a fin de comprender la relación entre las diversas variables y tomar decisiones en consecuencia.

In [None]:
import numpy as np

## Boxplot
Este tipo de gráfico muestra los tres valores del cuartil de la distribución junto con los valores extremos. Los "bigotes" se extienden a los puntos que se encuentran dentro de 1,5 IQRs del cuartil inferior y superior, y luego las observaciones que caen fuera de este rango se muestran de forma independiente. Esto significa que cada valor en el boxplot corresponde a una observación real en los datos.

Las líneas:  
 - La del medio: la mediana
 - La del medio a la izquierda: Q1: percentil 25%
 - Media de la derecha: Q3: percentil 75%
 
 - Izquierda: Q1 - 1.5 IQR
 - Derecha: Q3 + 1.5 IQR 

Primer cuartil: el 25% de los valores son menores o igual a este valor (punto 2 en el gráfico anterior).    
Mediana o Segundo Cuartil: Divide en dos partes iguales la distribución. De forma que  el 50% de los valores son menores o igual a este valor (punto 3 en el gráfico siguiente).    
Tercer cuartil: el 75% de los valores son menores o igual a este valor (punto 4 en el gráfico siguiente).    
Rango Intercuartílico (RIC): Diferencia entre el valor del tercer cuartil y el primer cuartil.

In [None]:
sns.boxplot(x="Age", data=titanic)

## ViolinPlot
Un gráfico de violín es un método para representar datos numéricos. Es similar a un diagrama de caja, con la adición de un diagrama de densidad del núcleo girado en cada lado

## Pie plot 👀
⚠️ NO muestra muy efectivamente los datos cuantitativos.     
⚠️ Las pequeñas porciones, por ejemplo del 2% del total, corren el riesgo de quedar invisibles en el Chart.      
⚠️ A las personas se les hace muy difícil comparar áreas y ángulos entre sí, sobretodo cuando presentan valores similares.

## Subplots
Utilizados para pintar varios gráficos en una misma "imagen"

In [None]:
# Creamos una figura y ejes, donde luego accederemos a ellos en forma de coordenadas [fila,columna]
