![imagen](./img/seaborn.png)

# [**Seaborn**](https://seaborn.pydata.org/) 
es una librería de visualización de datos de Python basada en matplotlib. Esta nos permite hacer interfaces de alto nivel con gráficas atractivas pero también estadísticamente informativas. 

# Exploratory Data Analysis with Seaborn
Entender cómo se hacen las gráficas en python está muy bien, pero lo importante es saber cuándo usarlas. En este notebook no se pretende explicar todos los tipos de gráficas que hay (histogramas, scatter plots, heatmaps...), en primer lugar porque es imposible abarcarlo todo, y en segundo lugar porque hay que ir un paso atrás antes de elegir la gráfica, ya que tenemos que comprender de qué tipo son los datos y qué es lo que estamos buscando con cada gráfica.

Por tanto, primero tendremos que identificar el tipo de los datos y cuántas variables vamos a representar
- Una varibale numérica
- Una variable categórica
- Dos variables numércias
- Tres o más variables numércias
- Dos variablees categóricas
- Variables numércias y categóricas

Teniendo claro esto, junto con un buen catálogo de gráficas, lo tendremos mucho más fácil.

[https://www.data-to-viz.com/](https://www.data-to-viz.com/)

## Tipos de las variables

Antes de representar cualquier variable es imprescindible comprender qué tipo de datos queremos representar. Tenemos los siguientes:

![imagen](./img/dtypes.png)

In [None]:
# Importamos todos los paquetes que vayamos a necesitar
from sklearn.datasets import load_boston, load_iris


# Algunas configuraciones de los paquetes
sns.set(color_codes = True)
pd.set_option("display.max_rows", 500)# Cuántas filas de los DataFrames nos "escupe" pandas en el Notebook

# para eliminar los warnings
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Cargamos las features en un DataFrame:
iris_df = pd.DataFrame(load_iris()["data"],columns=load_iris()["feature_names"])
boston_df = pd.DataFrame(load_boston()["data"],columns=load_boston()["feature_names"])

# Y añadimos la columna de especies:
iris_df["target"] = load_iris()["target_names"][load_iris()["target"]]
boston_df["target"] = load_boston()["target"]

# Cargamos tb el dataset del titanic
titanic_df = pd.read_csv("data/titanic.csv", sep="\t")

# Cargamos los datos del supermarket sales
market_df = pd.read_csv("data/supermarket_sales.csv")

# Cargamos dataset de suicidios
suicid_df = pd.read_csv("data/suicide.csv")

In [None]:
titanic_df.head()

In [None]:
boston_df.head()

In [None]:
market_df.head()

In [None]:
iris_df.head()

In [None]:
suicid_df.head()

## 1. Análisis univariante

### 1.1 Variables cuantitativas

Si queremos ver cómo se distribuyen los precios de venta de tickets del Titanic.

#### Densidad

[Documentación](https://seaborn.pydata.org/generated/seaborn.distplot.html)

Este tipo de gráficas nos sirven para ver la distribución de los datos, donde se concentran más, ¿es dispersa? ¿tiene asimétrica? ¿por qué? ¿Hay outliers?

In [None]:
plt.figure(figsize = (10,5))

In [None]:
plt.figure(figsize = (10,5))

#### Histograma
También podemos verlo en un histograma

[Documentación](https://seaborn.pydata.org/generated/seaborn.distplot.html)

Los histogramas dan la frecuencia de aparición de todos los valores. Muy similar al diagrama de densidad anterior. La diferencia es que ahora el eje y es un conteo y no la probabilidad de aparición de los valores de la variable.

In [None]:
plt.figure(figsize = (10,5))

In [None]:
plt.figure(figsize=(10,5))

Podemos agrupar (visualmente) una variable numérica. Podría ser una posible categorización de los billetes

In [None]:
plt.figure(figsize=(10,5))

#### Histograma + Densidad

[Documentación](https://seaborn.pydata.org/generated/seaborn.distplot.html)

In [None]:
plt.figure(figsize=(10,5))
sns.distplot(titanic_df["Fare"],
            kde_kws={"color": "k", "lw": 3, "label": "KDE"},
            hist_kws={"histtype": "step", "lw": 3,
                      "alpha": 1, "color": "g", "label": "HISTOGRAM"}) #alpha es la opacidad
plt.legend();

#### Boxplot

[Colores de Matplotlib](https://matplotlib.org/3.1.0/gallery/color/named_colors.html)

[Boxlot](https://seaborn.pydata.org/generated/seaborn.boxplot.html)

Los boxplots dan una información muy parecida a los gráficos vistos anteriormente, aunque en este caso destaca mucho más los outliers.

In [None]:
plt.figure(figsize=(20,5))

![imagen](./img/boxplot.png)

#### Violinplot

[Colores de Matplotlib](https://matplotlib.org/3.1.0/gallery/color/named_colors.html)

[Violinplot](https://seaborn.pydata.org/generated/seaborn.violinplot.html)

Igual que un diagrama de caja, pero en este caso tiene la función de distribución en lugar de la propia caja

In [None]:
plt.figure(figsize=(20,5))

In [None]:
plt.figure(figsize=(20,5))

### 1.2 Variables cualitativas

#### Countplot

Para representar una variable categórica tendremos que ver su frecuencia de valores

En este caso vamos a ver qué tipo de embarque ha sido el más frecuente.

[Documentacion](https://seaborn.pydata.org/generated/seaborn.countplot.html)

In [None]:
plt.figure(figsize=(7,5))
#countplot


#### Lollipop

¿Cuáles han sido los productos más pedidos?

[Documentación](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.hlines.html)

In [None]:
conteo = market_df['Product line'].value_counts(ascending=True)
conteo

In [None]:
plt.figure(figsize=(10,5))

#### Donut chart/Pie chart

[Documentación](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.pie.html)

In [None]:
# create data
data = titanic_df["Embarked"].value_counts()
data

In [None]:
# Create a circle for the center of the plot
my_circle=plt.Circle( (0,0), 0.7, color='white')

plt.figure(figsize=(8,8))

plt.pie(data.values,
        labels = data.index,
        autopct='%1.2f%%')

p = plt.gcf() # hacer referencia a la figura "activa"
p.gca().add_artist(my_circle) ;# gca haría referencia al axes "activo"


In [None]:
# pie chart
plt.figure(figsize=(8,8))

In [None]:
# pie chart
plt.figure(figsize=(8,8))

## 2. Análisis Bivariante

### 2.1 Comparativa de variables cuantitativas (2-4 variables)

#### Boxplot

En este ejemplo veremos cómo de diferentes son las distribuciones de las 4 características que definen a una flor.

[Boxlot](https://seaborn.pydata.org/generated/seaborn.boxplot.html)

In [None]:
iris_df[iris_df.columns.values[:4]].head()

In [None]:
plt.figure(figsize=(10,10))

El boxplot está bien, pero haay algo de información que se nos escapa

In [None]:
plt.figure(figsize=(10,10))
#swarm

#### Diagramas de densidad

Otra manera de ver cómo se distribuyen las características de las flores.

[Documentación](https://seaborn.pydata.org/generated/seaborn.kdeplot.html)

In [None]:
plt.figure(figsize=(10,8))

#### Histogramas

[Documentación](https://seaborn.pydata.org/generated/seaborn.distplot.html)

In [None]:
plt.figure(figsize=(12,8))
sns.distplot(iris_df["sepal length (cm)"] , color="skyblue", label="Sepal Length")
sns.distplot(iris_df["sepal width (cm)"] , color="red", label="Sepal Width")
plt.legend();

In [None]:
f, axes = plt.subplots(2, 2, figsize=(15,10), sharex=True) 


#### Scatter plot

En este ejemplo se ve claramente cómo estas dos variables sirven para distinguir las setosas de los otros tipos

[Documentación](https://seaborn.pydata.org/generated/seaborn.scatterplot.html)

In [None]:
iris_df.columns

In [None]:
plt.figure(figsize=(12,8))

[Documentación dataset](https://scikit-learn.org/stable/datasets/index.html#boston-dataset)

[Documentación jointplot](https://seaborn.pydata.org/generated/seaborn.jointplot.html)

% poblacion con poco poder adquisitivo vs media de habitaciones por vivienda

In [None]:
display(boston_df['LSTAT'].head(), boston_df['RM'])

In [None]:
sns.jointplot(x = boston_df['LSTAT'],
             y = boston_df['RM'],
             color = "#4CB391",
             kind = 'hex');

In [None]:
sns.jointplot(x=boston_df['LSTAT'],
              y=boston_df['RM'],
              kind="kde",
              color="#4CB391");

### 2.2 Comparativa de múltiples numéricas

#### Heatmaps

Los heatmaps son perfectos para representar una matriz de correlación

[Documentación heatmap](https://seaborn.pydata.org/generated/seaborn.heatmap.html)

In [None]:
boston_df.corr()

In [None]:
plt.figure(figsize=(10,10)) # cmap=sns.diverging_palette(148, 280, s=85, l=25, n=8)


También nos permite comparar una variable numérica vs dos variables categóricas. Por ejemplo la cantidad de suicidios desagregado por edades y paises.

Se recomienda que las dos variables categóricas tengan pocos casos, porque sino no se va a ver bien el heatmap.

In [None]:
# dos categoricas una numerica
data = suicid_df.groupby(['country', 'age']).sum()['suicides_no'].unstack()
data_filtrado = data.loc[['Italy', 'Spain', 'Portugal', 'Belgium', 'Czech Republic']]
data_filtrado

In [None]:
plt.figure(figsize=(10,10)) #cmap = sns.cm.rocket_r

#### Correlograma

[Documentación Pairplot](https://seaborn.pydata.org/generated/seaborn.pairplot.html)

Interesante gráfica para ver en un dataset qué variables presentan correlación lineal, así como sus distribuciones. NO realices esta gráfica con muchas varaibles porque no se va a ver bien. Hazlo por partes.

In [None]:
# CODIGO pairplot 


In [None]:
sns.pairplot(iris_df,
            kind = "reg");

In [None]:
sns.pairplot(iris_df,
            kind = "scatter",
            hue = 'target',
            plot_kws = dict(s=80, edgecolor="white", linewidth=1.5));

In [None]:
sns.pairplot(iris_df,
             kind="scatter",
             hue="target",
             diag_kind="hist");

### 2.3 Comparativa de dos variables cualitativas

#### Tabla

[Documentacion](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html)

Lo más sencillo, una tabla con la frecuencia de valores. Esto es factible cuando los elementos únicos por categoría no son muchos.

In [None]:
pd.crosstab(titanic_df['Embarked'],
           titanic_df['Sex'],
           margins=True)

#### Diagrama de barras

[Documentacion](https://seaborn.pydata.org/generated/seaborn.catplot.html)

En un diagrama de barras también se entiende la representación de dos variables cualitativas

In [None]:
sns.catplot(data = titanic_df,
            y = 'Embarked',
            hue = 'Sex',
           kind = 'count',
           edgecolor=".6");

Otra manera de visualizar dos o más variables categóricas

In [None]:
plt.figure(figsize=(30,10));
sns.catplot(data=titanic_df,
            x="Survived",
            col="Embarked",
            kind="count",
            col_wrap=3);

In [None]:
df_plot = titanic_df.groupby(['Embarked', 'Survived']).size().reset_index().pivot(columns='Embarked', index='Survived', values=0)
df_plot

In [None]:
df_plot.plot(kind='bar');

### 2.4 Cualitativa vs cuantitativa

#### Time series

[Documentacion](https://seaborn.pydata.org/generated/seaborn.lineplot.html)

Las series temporales tienen la particularidad de que son datos ordenados

In [None]:
suicid_df2 = suicid_df[suicid_df['country'].isin(['Spain', 'Germany', 'France'])]
suicid_df2 = suicid_df2.groupby(['country', 'year']).sum()
suicid_df2.reset_index(inplace=True)
suicid_df2.head()

In [None]:
plt.figure(figsize=(15,10))
# CODE LINEPLOT

#### Treemap
Un treemap es una opción muy interesante para mostrar una variable numérica vs una categórica

In [None]:
#!pip install squarify

In [None]:
import squarify

data = suicid_df.groupby("country").sum()['suicides_no'].sort_values(ascending=False)[:15] 
data

In [None]:
plt.figure(figsize=(15,10))
#CODE SQUARIY.PLOT

             
plt.axis('off')
plt.show()

#### Bubble chart

In [None]:
suicid_df2 = suicid_df[suicid_df['country-year'] == 'Spain2002']

sns.relplot(data=suicid_df2,
            x="suicides_no",
            y="suicides/100k pop",
            hue="sex", size="age",
            sizes=(4, 300),
            alpha=.5, palette="muted");

### **A partir de aquí te dejo que seas tú el que le eches un ojo al resto de opciones.**

Con este catplot obtenemos la dispersión de la variable Age, por cada grupo de la categoría.

In [None]:
sns.catplot(x = 'Survived',
           y = 'Age',
           hue = 'Sex',
           data = titanic_df);

El equivalente con un diagrama de caja sería el siguiente

In [None]:
sns.catplot(x="Survived", y="Age", hue="Sex", kind="box", data=titanic_df);

In [None]:
sns.catplot(x="Survived", y="Age", hue="Sex", kind="violin", data=titanic_df);

In [None]:
sns.catplot(x="Survived", y="Age", hue="Sex", kind="violin", split = True, data=titanic_df);

In [None]:
sns.catplot(x="City", y="Total", kind="swarm", data=market_df);

In [None]:
sns.catplot(x="Survived",
            y="Fare",
            hue="Sex",
            col="Embarked",
            data=titanic_df,
            height=5,
            aspect=.8);

In [None]:
suicid_df2 = suicid_df[suicid_df['country'].isin(['Spain', 'Germany', 'France'])]

chart = sns.catplot(x = 'age',
                   y = 'suicides/100k pop',
                   hue = 'sex',
                   col = 'country',
                   data = suicid_df2,
                   height = 8,
                   aspect = 0.8)

chart.set_xticklabels(rotation=45);

In [None]:
sns.catplot(x="Fare",
            y="Embarked",
            hue="Sex",
            kind="violin",
            bw=.1,
            height=8,
            aspect=.8,
            data=titanic_df);

In [None]:
plt.figure(figsize=(10,5))
sns.kdeplot(
   data=titanic_df, x="Fare", hue="Embarked",
   fill=True, common_norm=False, palette="crest",
   alpha=.5, linewidth=0,
);

In [None]:
suicid_df2 = suicid_df[suicid_df['country'] == 'Spain']

plt.figure(figsize=(20,8))
sns.barplot(x = 'year',
           y = 'suicides_no',
           palette = 'Blues_d',
           data = suicid_df2,
           ci = None);

In [None]:
df1 = suicid_df.groupby('country').sum()['suicides_no']
df2 = suicid_df[suicid_df['gdp_per_capita ($)'] > 10000].groupby('country').sum()['suicides_no']
df1 = df1[df1.index.isin(df2.index)]

df_tot = pd.DataFrame({"Tot_suicide": df1, "Suicide_gdp": df2}).sort_values("Tot_suicide", ascending=False)[:20]
df_tot.reset_index(level=0, inplace=True)

In [None]:
df_tot.head()

In [None]:
# Initialize the matplotlib figure
f, ax = plt.subplots(figsize=(6, 15))

# Plot the total crashes
sns.set_color_codes("pastel")
sns.barplot(x="Tot_suicide", y="country", data=df_tot,
            label="Total", color="b")

# Plot the crashes where alcohol was involved
sns.set_color_codes("muted")
sns.barplot(x="Suicide_gdp", y="country", data=df_tot,
            label="High gdp", color="b")

# Add a legend and informative axis label
ax.legend(ncol=2, loc="lower right", frameon=True)
sns.despine(left=True, bottom=True)

#### 