# Seaborn

Es un modulo de ploteo de graficos estadisticos que esta construida sobre matplotlib.

Lo interesante de este modulo es que, ademas de mostrar graficos estadisticos interesantes con muy poco codigo, es que funciona muy bien con dataframes de pandas.

[repositorio del codigo](https://github.com/mwaskom/seaborn)

[documentacion de seaborn](https://seaborn.pydata.org/)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
sns.set_style('darkgrid')

#### Datasets

In [None]:
# seaborn viene con un conjunto de dataframes para cargar y explorar

#['anscombe','attention','brain_networks','car_crashes','dots','exercise','flights',
# 'fmri','gammas','iris','planets','tips','titanic']

In [None]:
df = sns.load_dataset('tips')

In [None]:
df.head()

In [None]:
df.shape

## Tipos de datos

![image.png](attachment:image.png)

----

## Ploteos de distribucion

Utilizan variables numericas y muestran la distribucion de las mismas

### distplot
Nos muestra la distribucion de una variable numerica a traves de un histograma

In [None]:
sns.distplot(df['total_bill'])
#kde = kernel density estimation

In [None]:
sns.distplot(df['total_bill'],kde=False)

In [None]:
# podemos cambiar la cantidad de bins para mas informacion
sns.distplot(df['total_bill'],kde=False,bins=30)

In [None]:
sns.distplot(df['total_bill'],kde=False,bins=100)

### jointplot
Nos muestra un grafico bivariable (entre dos variables numericas) y ademas un grafico distplot de cada una.

Podemos elegir el tipo de grafico entre ellas:

* “scatter” 
* “reg” 
* “resid” 
* “kde” 
* “hex”


In [None]:
sns.jointplot(x='total_bill',y='tip',data=df)

In [None]:
#plt.figure(figsize=(15,15))
sns.scatterplot(x='total_bill',y='tip',data=df)

In [None]:
# que pasa si no quiero el scatter plot y quiero otro
sns.jointplot(x='total_bill',y='tip',data=df,kind='hex')

### pairplot
Nos permite graficar las relaciones bivariables a traves de todas las variables **numericas** del dataframe y ademas soporta el parametro **hue** para las columnas categoricas.

In [None]:
sns.pairplot(df)

In [None]:
sns.pairplot(df,hue='sex')

In [None]:
sns.pairplot(df,hue='sex',diag_kind='hist')

In [None]:
sns.pairplot(df,hue='sex',diag_kind='hist',palette='magma')

**histplot**

In [None]:
sns.histplot(x='total_bill',data=df,hue='sex')

In [None]:
sns.histplot(x='total_bill',data=df,hue='sex',multiple="stack")

In [None]:
sns.histplot(x='total_bill',data=df,hue='sex',multiple="dodge")

In [None]:
# y si queremos poner uno al lado del otro?
# ahora lo vemos en grids

----

## Ploteos categoricos

Ploteos para trabajar con variables categoricas

### barplot
Nos permite graficar variables categoricas, usando una funcion de agregacion sobre otra variable (generalmente numerica), por defecto esta funcion de agregacion es la media.

In [None]:
sns.barplot(data=df,x='sex',y='total_bill')

In [None]:
sns.barplot(data=df,y='sex',x='total_bill')

In [None]:
import numpy as np

In [None]:
sns.barplot(data=df,x='sex',y='total_bill',estimator=np.sum)

### countplot
Es basicamente un grafico **barplot** pero que usa como funcion de agregacion la cuenta de la cantidad de datos que tenemos en esa variable.



In [None]:
sns.countplot(data=df,x='sex')

In [None]:
sns.countplot(data=df,x='sex',hue="smoker")

In [None]:
# ver de resolver ese tema

In [None]:
df_2 = df.groupby(['sex','smoker']).count()['size']

In [None]:
sum(df_2)

In [None]:
df_2.map(lambda x : (x/sum(df_2))*100)

### boxplot

El diagrama de caja es un gráfico utilizado para representar una variable cuantitativa (variable numérica). El gráfico es una herramienta que permite visualizar, a través de los cuartiles, cómo es la distribución, su grado de asimetría, los valores extremos, la posición de la mediana, etc

Podemos extender la definicion para ver la distribucion de las variables categoricas (cualitativas)

In [None]:
sns.boxplot(x='total_bill',data=df)

In [None]:
sns.boxplot(x='total_bill',y='smoker',data=df)

In [None]:
sns.boxplot(x='total_bill',y='day',data=df)

In [None]:
sns.boxplot(y='total_bill',x='day',data=df,hue='smoker')

### stripplot

Este grafico consiste en un scatterplot (grafico de puntos) pero en donde una de las variables es categorica

In [None]:
sns.stripplot(x="day", y="total_bill", data=df)

In [None]:
sns.stripplot(x="day", y="total_bill", data=df,jitter=False)

In [None]:
sns.stripplot(x="day", y="total_bill", data=df,hue='sex')

### catplot

Es la forma generalizada de construir un grafico categorico. Hay que pasarle que tipo de grafico queremos en el parametro `kind`.

Veamos unos ejemplos

In [None]:
sns.catplot(x='sex',data=df,kind='count')

In [None]:
sns.catplot(x='sex',y='total_bill',data=df,kind='box')

----

## Ploteos matriciales

Nos permite hacer graficos matriciales, es decir, mostrar una matriz en un mapa de colores dependiendo de los valores de la misma.

### Heatmap

Para que este grafico funcione correctamente, los datos ya tienen que estar en formato de matriz numerica, y la funcion sns.heatmap() basicamente la colorea.

In [None]:
# creamos una matriz de correlacion
# que nos va a indicar la correlacion entre las distintas variables numericas

In [None]:
df.corr()

In [None]:
sns.heatmap(df.corr())

In [None]:
sns.heatmap(df.corr(),cmap='PuOr')

In [None]:
sns.heatmap(df.corr(),cmap='ocean',annot=True)

In [None]:
# si vamos bien de tiempo no dar este tema, porque no vimos pivot tables

In [None]:
flights = sns.load_dataset('flights')

In [None]:
flights.head()

In [None]:
flights.pivot_table(values='passengers',index='month',columns='year')

In [None]:
pvflights = flights.pivot_table(values='passengers',index='month',columns='year')
sns.heatmap(pvflights)

## Cuadriculas - Grillas

Permiten hacer varios graficos a la vez en distintas grillas

### PairGrid

Crea una grilla para rellenar con graficos bivariables del dataset, para variables numericas.


In [None]:
sns.PairGrid(df)

In [None]:
# una vez creada la girlla podemos mapear graficos sobre la misma

g = sns.PairGrid(df)
g.map(plt.scatter)

In [None]:
g = sns.PairGrid(df,hue='sex')
g.map(plt.scatter)

In [None]:
# Puedo mapear las distintas regiones de la grilla
g = sns.PairGrid(df,palette='coolwarm')
g.map_diag(sns.histplot)
g.map_upper(sns.scatterplot)
g.map_lower(sns.kdeplot)

### Facet Grid

Es una forma general de crear grillas para graficos basados en un campo en particular, con relacion a otros.

In [None]:
g = sns.FacetGrid(df, col="time", row="smoker")

In [None]:
g = sns.FacetGrid(df, col="time",  row="smoker")
g = g.map(plt.hist, "total_bill")

In [None]:
g = sns.FacetGrid(df, col="time",  row="smoker",hue='sex')
g = g.map(plt.scatter, "total_bill", "tip").add_legend()

**volvamos a nuestro ejemplo de histogramas**

In [None]:
sns.histplot(x='total_bill',data=df,hue='sex')

In [None]:
sns.FacetGrid(data=df,col="sex")

In [None]:
g = sns.FacetGrid(data=df,col="sex")
g.map(sns.histplot,'total_bill')

In [None]:
g = sns.FacetGrid(data=df,col="sex",hue='sex')
g.map(sns.histplot,'total_bill')

## Estilos y colores

Veamos un poco mas de seaborn para personalizar nuestros graficos

In [None]:
sns.countplot(x='sex',data=df)

In [None]:
# cambiar el estilo de los graficos
sns.set_style('ticks')
# {darkgrid, whitegrid, dark, white, ticks}
sns.countplot(x='sex',data=df)

In [None]:
sns.countplot(x='sex',data=df)
sns.despine()

In [None]:
sns.countplot(x='sex',data=df)
sns.despine(left=True,bottom=True)

In [None]:
# cambiar el tamano de la imagen
plt.figure(figsize=(7,7))
sns.set_style('darkgrid')
sns.countplot(x='sex',data=df)

In [None]:
# palettes and colors
sns.countplot(x='sex',data=df,hue="size")

In [None]:
sns.countplot(x='sex',data=df,hue="size",palette='seismic')

https://matplotlib.org/tutorials/colors/colormaps.html