# Seaborn

In [None]:
## This code allows the scroll in presentation mode. Hidden content in slides view
from notebook.services.config import ConfigManager
cm = ConfigManager()
cm.update('livereveal', {
              'scroll': True,
})

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="darkgrid")

### Scatter plots

In [None]:
tips = sns.load_dataset("tips")
tips.head()

Vamos a mostrar la relación entre la cuenta total y la propina

In [None]:
sns.relplot(x="total_bill", y="tip", data=tips);

Añadimos una tercera variable al análisis: si es fumador o no

In [None]:
sns.relplot(x="total_bill", y="tip", hue="smoker", data=tips);

Añadimos simbología a la variable de colores para diferenciarla mejor

In [None]:
sns.relplot(x="total_bill", y="tip", hue="smoker",
            style="smoker", data=tips);

Es posible representar 4 variables combinando el color en una variable y la simbología en otra

In [None]:
sns.relplot(x="total_bill", y="tip", 
            hue="smoker", style="time", data=tips);

Como la variable es categórica, automáticamente aplica una paleta de colores para diferenciar cada valor. Si usamos una variable numérica, la paleta de colores será un degradado automáticamente

In [None]:
sns.relplot(x="total_bill", y="tip", hue="size", data=tips);

También podemos jugar con el tamaño del punto

In [None]:
sns.relplot(x="total_bill", y="tip", size="size", data=tips);

Y esta relación de tamaño se puede ajustar

In [None]:
sns.relplot(x="total_bill", y="tip", 
            size="size", sizes=(15, 200), data=tips);

### Relaciones múltiples con facetas

In [None]:
sns.relplot(x="total_bill", y="tip", hue="smoker",
            col="time", data=tips);

## Datos categóricos

Catplot se comporta como scatter pero con valores categóricos

In [None]:
tips = sns.load_dataset("tips")
sns.catplot(x="day", y="total_bill", data=tips);

In [None]:
sns.catplot(x="day", y="total_bill", jitter=False, data=tips);

También se puede ajustar los puntos a lo largo del eje categórico utilizando un algoritmo que evita que se superpongan. 
Puede dar una mejor representación de la distribución de las observaciones, aunque solo funciona bien para conjuntos de datos relativamente pequeños.

In [None]:
sns.catplot(x="day", y="total_bill", kind="swarm", data=tips);

También se puede usar una tercera variable

In [None]:
sns.catplot(x="day", y="total_bill", 
            hue="sex", kind="swarm", data=tips);

También funciona con variables no categóricas

In [None]:
sns.catplot(x="size", y="total_bill", kind="swarm",
            data=tips.query("size != 3"));

Se puede elegir el orden de las variables

In [None]:
sns.catplot(x="smoker", y="tip", order=["No", "Yes"], data=tips);

Si quiero rotar el gráfico, solo tengo que invertir las variables

In [None]:
sns.catplot(x="total_bill", y="day", 
            hue="time", kind="swarm", data=tips);

### Distribución de observaciones por categoría

In [None]:
sns.catplot(x="day", y="total_bill", kind="box", data=tips);

Con una tercera variable

In [None]:
sns.catplot(x="day", y="total_bill", 
            hue="smoker", kind="box", data=tips);

Los violines combinan los boxplot con una estimación de densidad

In [None]:
sns.catplot(x="total_bill", y="day", hue="time",
            kind="violin", data=tips);

También es posible dividir los violines por variable

In [None]:
sns.catplot(x="day", y="total_bill", hue="sex",
            kind="violin", split=True, data=tips);

### Multiples relaciones con facetas

In [None]:
sns.catplot(x="day", y="total_bill", hue="smoker",
            col="time", aspect=.6,
            kind="swarm", data=tips);

## Distribuciones de datos

In [None]:
x = np.random.normal(size=100)
sns.distplot(x);

Con el parámetro `rug` o el gráfico `rugplot` mostrará una línea por cada observación

In [None]:
sns.distplot(x, kde=False, rug=True);

Podemos ajustar los bins del histograma

In [None]:
sns.distplot(x, bins=20, kde=False, rug=True);

También podemos mostrar solo la Kernel density estimation

In [None]:
sns.distplot(x, hist=False, rug=True);

### Distribuciones con 2 variables

In [None]:
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 200)
df = pd.DataFrame(data, columns=["x", "y"])
df.head()

In [None]:
sns.jointplot(x="x", y="y", data=df);

Gráficos hexbin

In [None]:
x, y = np.random.multivariate_normal(mean, cov, 1000).T
with sns.axes_style("white"):
    sns.jointplot(x=x, y=y, kind="hex", color="k");

Kernel density

In [None]:
sns.jointplot(x="x", y="y", data=df, kind="kde");

### Visualizando múltiples variables y sus relaciones

In [None]:
iris = sns.load_dataset("iris")
sns.pairplot(iris);