In [0]:
SANDBOX_NAME = # Sandbox Name
DATA_PATH = "/data/sandboxes/"+SANDBOX_NAME+"/data/"



# Seaborn - Introducción y ejemplos



### importación datos para pintar gráficas

In [0]:
import pandas as pd
from sklearn.datasets import load_iris

dataset = load_iris()

df = pd.DataFrame(data = dataset.data, columns= dataset.feature_names)



Importación de librerías

In [0]:
import seaborn as sns



Sirve para inicializar seaborn como el estilo por defecto de las gráficas

In [0]:
sns.set(color_codes=True)

import matplotlib.pyplot as plt
%matplotlib inline



# Referencias



información acerca de seaborn: https://seaborn.pydata.org/introduction.html#introduction

tutoriales: https://seaborn.pydata.org/tutorial/distributions.html#visualizing-pairwise-relationships-in-a-dataset



## Relación entre seaborn y matplotlib



Seaborn es una librería para pintar gráficas construida a partir de matplotlib. Así pues, utilizando la siguiente línea de código

In [0]:
plt.style.use("seaborn-paper")



cualquier gráfica hecha con matplotlib se representará como si hubiera estado construida por seaborn. Sin embargo, hay cierto tipos de gráficos que con seaborn se pintan de una manera muy ágil.



## Histogramas y funciones de densidad



La función 'distplot' tiene muchas funcionalidades distintas, permitiendo pintar un histograma, la función de densidad o ambos.

In [0]:
x = df['sepal width (cm)']

In [0]:
sns.distplot(x)
plt.show()

In [0]:
sns.distplot(x, hist=False)
plt.show()



El parámetro 'rug=True' marca los valores para los que existen puntos: con los histogramas no se puede ver el valor exacto.

In [0]:
sns.distplot(x, rug=True)
plt.show()



## Distribuciones bivariantes



El equivalente de plt.scatter() de matplotlib en seaborn es sns.jointplot(). Tiene muchas funcionalidades distintas, a continuación se listan algunas de ellas.



no solo se pinta el scatter plot, sino que de manera automática se muestran los histogramas de cada una de las variables

In [0]:
sns.jointplot(x=df['sepal width (cm)'], y = df['sepal length (cm)'])
plt.show()



divide el espacio en hexágonos, y cuanto más oscuro sea mayor concentración de puntos

In [0]:
sns.jointplot(x=df['sepal width (cm)'], y=df['sepal length (cm)'], kind="hex", color="purple")
plt.show()





también se puede utilizar esta misma función para pintar gráficas de contorno

In [0]:
sns.jointplot(x=df['sepal width (cm)'], y=df['sepal length (cm)'], kind="kde")
plt.show()



se le puede dar más información para que también pinte los puntos en sí jugando con seaborn y matplotlib a la vez

In [0]:
g = sns.jointplot(x=df['sepal width (cm)'], y=df['sepal length (cm)'], kind="kde", color="m")
g.plot_joint(plt.scatter, c="w", s=30, linewidth=1, marker="+")
g.set_axis_labels("sepal_width", "sepal_length");
plt.show()



## Relaciones entre todas la variables



También resulta muy útil poner gráficamente ver todas las relaciones existentes entre todas la variables. Para ello existen las funciones pairplot() y PairGrid().



`pairplot()` no ofrece mucha flexibilidad en qué devuelve

In [0]:
sns.pairplot(df)



en cambio, con PairGrid(), que conceptualmente es muy parecido, se puede explicitar qué elemento en la diagonal y cuál
fuera de ella

In [0]:
g = sns.PairGrid(df)



indica qué aparecerá en la diagonal (análisis univariante)

In [0]:
g.map_diag(sns.kdeplot)



indica qué aparecerá fuera de la diagonal (análisis bivariante)

In [0]:
g.map_offdiag(sns.kdeplot, cmap="Blues_d", n_levels=6)
plt.show()



## Gráficos especiales



### Heatmap



cargamos otros datos

In [0]:
flights = spark.read.csv(DATA_PATH+"flights.csv", header=True,
                         inferSchema=True).toPandas()



hacemos 'pivot' para pintar datos que tengan sentido

In [0]:
flights = flights.pivot("month", "year", "passengers")

sns.heatmap(flights)
plt.show()



así anotamos datos en la gráfica
al marcar fmt='d' nos aseguramos que en formato de los datos no sea científico

In [0]:
sns.heatmap(flights, annot=True, fmt='d')
plt.show()



se pueden añadir espacios para facilitar la lectura

In [0]:
sns.heatmap(flights, linewidths=.5)
plt.show()



también jugar con otros colores

In [0]:
sns.heatmap(flights, cmap="YlGnBu")
plt.show()



## Violinplots



Los violinplots son similares a los boxplots con la diferencia que los violinplots grafican una estimación de la función de densidad de la distribución de los datos.



carga de datos

In [0]:
tips = spark.read.csv(DATA_PATH+"tips.csv", header=True,
                          inferSchema=True).toPandas()

In [0]:
sns.violinplot(x="day", y="total_bill", data=tips)
plt.show()



también se pueden comparar simulatáneamente más de una variable categórica

In [0]:
sns.violinplot(x="day", y="total_bill", hue="smoker", data=tips, palette="muted")
plt.show()



se puede comparar en el mismo dibujo

In [0]:
sns.violinplot(x="day", y="total_bill", hue="smoker", data=tips, palette="muted", split=True)
plt.show()



se pueden pintar varias gráficas en una misma con la función 'factorplot()'

In [0]:
g = sns.factorplot(x="sex", y="total_bill", hue="smoker", col="time",data=tips, kind="violin", split=True,size=4, aspect=.7)
plt.show()