# Visualización de datos con Seaborn
Seaborn es una libreria de visualizacíon en Python que trabaja sobre Matplotlib. Esta libreria nos permite generar gráficos a partir de DataFrames de Pandas de manera muy cómoda y accesible. 

Antes de empezar a trabajar vamos a importar las librerias que ya conocemos de antes, y ahora sumaremos Seaborn, la cual se suele importar con el nombre `sns`. Además, se suele acompañar de la instrucción `sns.set()` que sirve para darle un estilo particular a los gráficos, como veremos en breve.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import seaborn as sns
# sns.set() 

Seaborn ya viene con algunos datasets incorporados. Puedes ver cuáles con la siguiente instrucción:

In [None]:
sns.get_dataset_names()

Vamos a usar el dataset Iris, que ya conocemos. Para cargarlo, simplemente hacemos:

In [None]:
data = sns.load_dataset('iris')
data.head()

Notar que ya lo carga en un Data Frame de Pandas. Las columnas tienen nombres ligeramente distintos a los que veníamos usando, pero la información es la misma. Veamos qué podemos hacer con Seaborn para visualizar de forma eficiente este dataset.

## 1. Diagramas de dispersión e histogramas con Seaborn.

Una instrucción muy cómoda para hacer una primera inspección de un dataset es `sns.pairplot()`. Hay que tener cuidado con esta función cuando el dataset tiene muchas instancias o columnas.

In [None]:
sns.pairplot(data)

¿Ves lo que hizo?¿Cómo describirías este gráfico? Recuerda siempre consultar la documentación.

Este grafico se puede mejorar, pasándole el argumento `hue` a la función:

In [None]:
sns.pairplot(data, hue = 'species')

Éste debe ser unos de los gráficos más famosos en ciencia de datos. ¿Te parece útil?¿Por qué?

Vuelve a correr las instrucciones, pero descomentando la instrucción `sns.set()` al comienzo del código. ¿Qué cambió?

A continuación, veamos cómo generar cada componente de este gráfico de forma independiente.

### 1.1 Scatterplot

Hacer un diagrama de dispersión con Seaborn es sencillo:

In [None]:
sns.scatterplot(x="petal_length", y="petal_width", data=data)

Y, si le pasamos la especie en el argumento `hue`, el gráfico mejora sustancialmente:

In [None]:
sns.scatterplot(x="petal_length", y="petal_width", hue="species" , data=data)

**Ejercicio:** intenta hacer este mismo gráfico con Matplotlib.

### 1.2 Histogramas

Los histogramas en Seaborn son un poco más versátiles que los de Matplotlib. Veamos cómo:

In [None]:
sns.distplot(data['petal_length'], bins = 20)

**Ejercicio:** Modificar los siguientes argumentos de la función `distplot` y observar qué hacen: `hist`,`kde` (prestar atención a la escala en el eje *y*) y `rug`.

Otra tipo de visualización que combina ambas opciones es `jointplot`:

In [None]:
sns.jointplot(x="petal_length", y="petal_width", marginal_kws=dict(bins=15, rug=True), data=data)

Esperamos con estos primeros ejemplos haberlos convencido que el uso de Seaborn facilita la visualización de datos provienentes de un DataFrame respecto a la utilización de (solo) Matplotlib. A continuación vamos a explorar otras funciones de visualización que nos ofrece esta libreria.

## 2. Categorical Plots

Como su nombre lo indica, los categorical plots son gráficos donde una de las variables a graficar es de tipo categórica. Este tipo de gráficos son muy usados en Data Science y Seaborn tiene algunas funciones especiales dedicada a ellos.

Una función útil para contar las diferentes etiquetas de una variable categórica es `countplot`:

In [None]:
sns.countplot(data = data, x = "species")

Así, obtenemos tres barras de altura 50, una por especie, representando la cantidad de instancias que hay en el dataset de cada una.

Muchas veces queremos graficar una variable numérica en función de una variable categórica. Por ejemplo, el ancho del pétalo según la especie. Veamos cómo realizar un grafico de este tipo en Matplotlib:

In [None]:
especie = data['species']
ancho_petalo = data['petal_width']
plt.scatter(especie,ancho_petalo)

Como podemos observar el resultado no es muy satisfactorio. Al estar todos los puntos sobre una misma linea, no se pueden distinguir entre sí. 

Veamos ahora cómo realizar el mismo gráfico son Seaborn, usando la función `catplot`:

In [None]:
sns.catplot(data = data, x = "species", y = "petal_width")

Como se puede observar, Seaborn le da automáticamente distintos colores a las categorías y además los separa para poder identificar la cantidad de puntos en cada grupo con facilidad.

**Ejercicio - Challenge**:

1. Realizar con Seaborn un gráfico del largo del pétalo según la especie.
1. Realizar el mismo gráfico, pero ahora como gráfico de barras. **Pista**: ver el parametro `kind` de la función `catplot` o la función `barplot`.
1. ¿Que representan las barritas negras?
1. Averiguar la utilidad de los parámetros `ci` y `estimator`.

In [None]:
# COMPLETAR

### 3. Diagrama de Cajas

Generar diagramas de cajas es muy sencillo. Podemos generar el diagrama de una columna de la siguiente manera:

In [None]:
sns.boxplot(data = data, y = "petal_width")
# sns.boxplot(data = data, x = "petal_width")

Pero aporta mucha más información si separamos por especie.

In [None]:
sns.boxplot(data = data, x = 'species', y = "petal_width")

## 4. Heatmaps y correlación

Correr la siguiente celda y googlear: ¿Qué es un heatmap?¿Cómo se hacen en Seaborn?¿Qué hacía la función `corr()` de Pandas?¿Cuáles son sus parámetros?¿Qué hace el parámetro `method`? Interpretar el gráfico obtenido.

In [None]:
corr = data.drop(columns = 'species').corr()
plt.figure(figsize=(8,8))
sns.heatmap(corr, cbar = True,  square = True, annot=True, fmt= '.2f',annot_kws={'size': 15},
           xticklabels= data.drop(columns = 'species').columns, 
           yticklabels= data.drop(columns = 'species').columns,
           cmap= 'coolwarm')
plt.xticks(rotation = 45)
plt.yticks(rotation = 45)
plt.show()

## 5. Combinando con Matplotlib

Como Seaborn corre sobre Matplotlib, se pueden combinar instrucciones de ambas librerías sin problemas. Veamos un ejemplo:

In [None]:
sns.boxplot(data = data, x = 'species', y = "petal_width")
plt.title('Diagrama de caja del ancho del pétalo para las distintas especies de Iris')

# Con estas instrucciones reemplazamos las etiquetas en los ejes que pone Seaborn
plt.xlabel('Especie')
plt.ylabel('Ancho del pétalo (cm)')

## Ejercitación

Elige uno de los datasets disponibles en Seaborn o el dataset de críticas de vinos del encuentro anterior. Aplica las herramientas vistas de Pandas y de Seaborn para obtener una primera aproximación a las características del conjunto de datos elegido.