In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# SEABORN

> Corresponde a una librería de alto nivel de gráficos. 
* Los gráficos vienen prehechos, 
* son más bonitos,
* con default incluyen color más agradables,
* Incluyen operaciones estadísticas, (esto a veces puede atrasar algunos gráficos)
* Es más amigable para realizar un EDA.
* Está construido sobre matplotlib por lo que algunas funcionalidades son aplicables también.
* Su documentación es muchísimo mejor: https://seaborn.pydata.org/index.html

> CON: Es más lento y menos flexible que Matplotlib, aunque debe ser usado en conjunto con matplotlib.

In [None]:
df = pd.read_csv('titanic.csv')
df['Signing_date'] = df.Signing_date.astype('datetime64') # transformamos fechas para utilizarlas en el análisis.
df

# Seteando estilos

In [None]:
sns.set_style('white') # white, dark, whitegrid, darkgrid, ticks
sns.set_context('talk')# notebook talk poster
sns.scatterplot(x = 'Age', y = 'Fare', data = df) # primera y última vez que utilizan esta interfaz
plt.show()
# esta interfax es muy parecida a la de matplotlib

> Nota: Seaborn posee montones de gráficos, pero todos se pueden resumir a través de la interfaz de FacetGrid

# Interfaz de FacetGrid

Seaborn también posee dos interfaces. En la clase sólo mostraremos una, ya que hace el aprendizaje más fácil y reduce la cantidad de código. Esto permite gráficos muy bonitos aprendiendo sólo 3 funciones principales.

* replot: Se utilizará para scatter y line.
* catplot: para muchos gráficos que utilizan variables categóricas
* displot: para distribuciones.

# RELPLOT

## Scatterplots

> NOTA: Los scatterplots se utilizarán cuando deseemos entender relación entre dos variables numéricas. en modelación se tienden a utilizar para ver relaciones entre el target (vector objetivo) y las features (variables predictoras)

In [None]:
sns.relplot(x = 'Age', y= 'Fare', data = df, hue = 'Sex', hue_order = ['female', 'male']) 
plt.show()

In [None]:
hue_colors = {'male': 'b',
             'female': 'r'}

sns.relplot(y = 'Age', x = 'Fare', data = df, hue = 'Sex', hue_order = ['female', 'male'], palette = hue_colors, alpha = 0.2, size = 'Embarked') # try style
plt.show()

In [None]:
df.groupby('Sex').Fare.agg({np.mean, np.max, np.min})

In [None]:
hue_colors = {'male': 'b',
             'female': 'r'}
g = sns.relplot(x = 'Fare', y = 'Age', data = df, row = 'Pclass', hue = 'Sex', style = 'Sex', col = 'Embarked', palette = hue_colors)
g.set_titles('Scatter Plot de {col_name} vs Clase {row_name}')
plt.show()

## Linecharts

> Normalmente los linecharts se utilizan para mostrar cambios en tendencia (normalmente a lo largo del tiempo)

In [None]:
s = df.groupby('Signing_date', as_index = False).Fare.mean().rename(columns = {'Fare': 'Precio_Promedio'}) # calcular el valor promedio por fecha.
sns.relplot(x = 'Signing_date', y = 'Precio_Promedio', data = s, kind = 'line') # try hue
plt.show()

In [None]:
sns.relplot(x = 'Signing_date', y = 'Fare', data = df, estimator = np.mean, kind = 'line', ci = None, hue = 'Survived', alpha = 0.5, height = 5, aspect = 2)
plt.xticks(rotation = 90) # rotate x axis 
plt.show()

# CATPLOT

## Countplot 

> Supongamos queremos saber la distribución de hombres y mujeres a bordo del titanic

In [None]:
df.Sex.value_counts()

In [None]:
sns.catplot(y='Sex', data = df, kind = 'count', order = ['female', 'male']) # automáticamente cuenta
plt.show()

In [None]:
hue_colors = {1: 'red',
             2: 'yellow',
             3: 'blue'}

sns.catplot(x='Sex', hue = 'Pclass', data = df, palette = hue_colors, kind = 'count', col = 'Embarked')
plt.show()

In [None]:
sns.catplot(x = 'Pclass', y = 'Survived', data = df, kind = 'bar', estimator = np.mean, ci = None)
plt.show()

## BoxPlots y amigos

In [None]:
sns.catplot(x = 'Pclass', y = 'Age', data = df, ci = None, kind = 'swarm', height = 5, aspect = 2) 
plt.show()
# muestra casos por categoría. Normalmente combina categorías con números

In [None]:
sns.catplot(y = 'Age', x = 'Pclass', data = df, kind = 'box', whis = [5,95], height = 5, aspect = 2) # whis percentiles, float as multiplier of IQR
plt.show()

In [None]:
sns.catplot(y = 'Age', x = 'Pclass', data = df, kind = 'violin', whis = [5,95], height = 5, aspect = 2) # whis percentiles, float as multiplier of IQR
plt.show()

In [None]:
sns.catplot(y = 'Age', x = 'Pclass', data = df, kind = 'boxen', height = 5, aspect = 2, outlier_prop = 0.95) 
plt.show()

# DISPLOT

In [None]:
g = sns.displot(x = 'Age', data = df, kde = True) # Histograma
g.fig.suptitle('Histograma Age', y = 1.05)
plt.axvline(22)
plt.axvline(40)
plt.axvline(80)
plt.show()

In [None]:
sns.displot(x = 'Age', hue = 'Survived', data = df, element = 'step') # try kind = 'kde'
plt.show()

In [None]:
sns.displot(x = 'Age', y = 'Fare', hue = 'Survived', data = df, alpha = 0.4) # try kind = 'kde'
plt.show()

# Otros Gráficos 

In [None]:
sns.displot(x = 'Age', hue = 'Survived', data = df, kde = True, element ='step')
plt.show()

In [None]:
sns.pairplot(df, hue = 'Survived', corner = True)

In [None]:
g = sns.pairplot(x_vars = df.select_dtypes(np.number).columns, y_vars = 'Fare', data = df, hue = 'Survived') # corner=True
plt.show()

In [None]:
sns.heatmap(df.corr(), annot = True)
plt.show() # no usar heatmaps, mejor cambiar por clustermap

In [None]:
g = sns.clustermap(df.drop(columns = ['PassengerId']).corr(), annot=True, linewidths=.9, cmap = 'viridis') # entrega de manera segmentada los valores de correlación

## Combinando Matplotlib con Seaborn

In [None]:
g = sns.displot(x ='Age',col ='Survived', data = df)
g.map(plt.axvline, x = 40, color = 'r')
plt.show()

In [None]:
g = sns.displot(x ='Age',col ='Survived', data = df)
g.map(plt.axhline, y = 40, color = 'r')
plt.show()