# Seaborn

## Aspecte gràfics 

Farem servir unes quantes línies per canviar l'aspecte dels gràfics

Encara que no fem servir explícitament Seaborn, el podem fer servir per modificar l'aspecte dels gràfics de matplotlib.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

# paràmetres comuns de Matplotlib i Seaborn
FIG_PARAMS = {
    "font.size": 10,
    "savefig.dpi": 150,
    "figure.figsize": (5, 4),
    "lines.linewidth": 2,
}
plt.rcParams.update(FIG_PARAMS)
sns.set_theme(rc=FIG_PARAMS)

sns.set_style("white")  # Per defecte Seaborn té el fons gris

# paper/notebook/talk/poster, font_scale engrandeix el text
sns.set_context("notebook", font_scale=1.8)
sns.set_palette("colorblind")  # paleta de colors

%matplotlib inline
%config InlineBackend.figure_format='retina'

In [None]:
def savefig(name):
    sns.despine()
    plt.tight_layout()  # semblant a layout="constrained"
    plt.savefig(name, bbox_inches="tight")  # treu tot l'espai blanc del voltant

## Gràfics amb Seaborn

Seaborn és bo si voleu fer un gràfic a partir de les "tidy data", on teniu una fila per observació i una columna per variable.

Per tant, va molt bé amb DataFrames de Pandas

In [None]:
penguins = sns.load_dataset("penguins").dropna()

In [None]:
penguins.head()

In [None]:
penguins.info()

In [None]:
penguins.species.unique()

In [None]:
penguins.island.unique()

In [None]:
penguins.sex.unique()

In [None]:
penguins[["species", "island", "sex"]].value_counts()

## Scatterplot

Els plots de seaborn esperen un DataFrame com a primer argument i el nom de les columnes pels eixos.
Automàticament ens posa el nom dels eixos igual al nom de les columnes. Per tant, podem canviar el nom directament al df, o com feiem amb plt.

In [None]:
sns.scatterplot(penguins, x="bill_length_mm", y="bill_depth_mm")

Segons el tipus de gràfic podem passar altres columnes per distingir-les d'alguna manera.

Per exemple amb el color, fent servir l'argument `hue`.

Si la variable que fem servir té pocs valor farà servir una paleta de colors discreta

In [None]:
sns.scatterplot(penguins, x="bill_length_mm", y="bill_depth_mm", hue="species")

In [None]:
sns.scatterplot(penguins, x="bill_length_mm", y="bill_depth_mm", hue="sex")

En canvi, si hi ha molts valors, farà servir un paleta contínua.

In [None]:
sns.scatterplot(penguins, x="bill_length_mm", y="bill_depth_mm", hue="body_mass_g")

**Llegenda (matplotlib)**

La llegenda queda una mica al mig, a part de la posició, podem posar-la fora de la figura amb `bbox_to_anchor`, que indica les coordenades on volem posar la llegenda. Valors més petits de 0 o més grans que 1 la posaran fora dels requadre

In [None]:
sns.scatterplot(penguins, x="bill_length_mm", y="bill_depth_mm", hue="body_mass_g")
plt.legend(bbox_to_anchor=(1.05, 1))

També s'hi pot posar un títol

In [None]:
sns.scatterplot(
    penguins,
    x="bill_length_mm",
    y="bill_depth_mm",
    hue="body_mass_g",
)
plt.legend(bbox_to_anchor=(1.05, 1), title="Body Mass (g)")

Un altre manera de representar una variable és la mida `size`

In [None]:
sns.scatterplot(
    penguins,
    x="bill_length_mm",
    y="bill_depth_mm",
    size="body_mass_g",
)
plt.legend(bbox_to_anchor=(1.05, 1), title="Body Mass (g)")

Es poden combinar `hue` i `size`

In [None]:
sns.scatterplot(
    penguins,
    x="bill_length_mm",
    y="bill_depth_mm",
    hue="species",
    size="body_mass_g",
)
plt.legend(bbox_to_anchor=(1.05, 1))

Finalment, scatterplot té també l'argument `style`

In [None]:
sns.scatterplot(
    penguins,
    x="bill_length_mm",
    y="bill_depth_mm",
    hue="species",
    style="sex",
)
plt.legend(bbox_to_anchor=(1.05, 1))

`hue`, `size` i `style` produeixen ordres arbitraris a la llegenda. Es poden ordenar amb `hue_order`...

In [None]:
sns.scatterplot(
    penguins,
    x="bill_length_mm",
    y="bill_depth_mm",
    hue="species",
    style="sex",
    style_order=["Female", "Male"],
)
plt.legend(bbox_to_anchor=(1.05, 1))

## Exercici 1

Visualitza les següents dades amb un `scatterplot`.

Prova de fer servir diferents variable per `hue`, `style` i/o `size`

In [None]:
tips = sns.load_dataset("tips")
tips.head()

## Altres tipus de plots

### regplot

In [None]:
# Calcula i mostra una regressió lineal
# Malauradament no permet mostrar l'equació de la línia ni cap coeficient de la regressió
sns.regplot(tips, x="total_bill", y="tip")

### histplot

In [None]:
# Molt semblant al de Matplotlib
sns.histplot(tips, x="total_bill")

In [None]:
# Però té la opció `hue`
sns.histplot(
    tips,
    x="total_bill",
    bins=20,
    hue="smoker",
)

### Kernel Density Estimation (KDE)

In [None]:
# En comptes de l'histograma podem estimar la distribució
sns.kdeplot(data=penguins, x="flipper_length_mm")

In [None]:
# I és molt millor mostrar varies distribucions que pas histogrames solapats
sns.kdeplot(data=penguins, x="flipper_length_mm", hue="species")

# En aquest cas per moure la llegenda cal especificar el hue_order igual que els labels (no es generen per defecte)
species = ["Adelie", "Chinstrap", "Gentoo"]
plt.legend(species, bbox_to_anchor=(1.05, 1))

In [None]:
# Podem indicar que els posi un sobre l'altre
sns.kdeplot(data=penguins, x="flipper_length_mm", hue="species", hue_order=species, multiple="stack")
plt.legend(species, bbox_to_anchor=(1.05, 1))

### Boxplot

In [None]:
sns.boxplot(penguins, x="species", y="flipper_length_mm")

In [None]:
sns.boxplot(penguins, x="species", y="flipper_length_mm", hue="sex")
plt.legend(bbox_to_anchor=(1.05, 1))

### Violinplot

In [None]:
sns.violinplot(tips, x="smoker", y="tip")

## Gràfics combinats 

### Jointplot

Fa un regplot en 2 dimensions i dos histogrames marginals per cada eix

In [None]:
sns.jointplot(penguins, x="flipper_length_mm", y="bill_length_mm")

Amb `hue` fa kdeplots en comptes de histogrames marginals

In [None]:
sns.jointplot(penguins, x="flipper_length_mm", y="bill_length_mm", hue="species")
plt.legend(bbox_to_anchor=(1.05, 1))

A més permet altres tipus de representacions

In [None]:
sns.jointplot(penguins, x="flipper_length_mm", y="bill_length_mm", hue="species", kind="hist")
species = ["Adelie", "Chinstrap", "Gentoo"]
plt.legend(species, bbox_to_anchor=(1.05, 1))

In [None]:
sns.jointplot(penguins, x="flipper_length_mm", y="bill_length_mm", hue="species", kind="kde")
species = ["Adelie", "Chinstrap", "Gentoo"]
plt.legend(species, bbox_to_anchor=(1.05, 1))

### Pairplot

Semblant a quan fèiem `df.hist`, genera un histograma per a cada variable i un scatterplot per a cada combinació.

In [None]:
sns.pairplot(data=penguins)

In [None]:
I també accepta `hue`

In [None]:
sns.pairplot(data=penguins, hue="species")

## Subplots

De la mateixa manera que amb Pandas, si creem un subplot, l'argument `ax` indica quin gràfic estem creant

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(3, 6))

sns.scatterplot(penguins, x="bill_length_mm", y="bill_depth_mm", ax=axes[0])
sns.scatterplot(penguins, x="bill_length_mm", y="flipper_length_mm", ax=axes[1])

Seaborn ens també ens facilita la creació de subplots estructurats amb `FacetGrid`.

In [None]:
g = sns.FacetGrid(tips, col="time")
g.map(sns.histplot, "tip")

In [None]:
# En comptes de figsize, es canvia el tamany amb height i aspect
g = sns.FacetGrid(tips, col="time", height=4, aspect=1.2)
g.map(sns.histplot, "tip")

In [None]:
g = sns.FacetGrid(tips, col="sex", row="time", hue="smoker", height=3.5, aspect=1.2)
g.map(sns.scatterplot, "total_bill", "tip", alpha=0.7)
g.add_legend()

In [None]:
g = sns.FacetGrid(tips, col="day", height=4, aspect=0.5)
g.map(sns.barplot, "sex", "total_bill", order=["Male", "Female"])