<div class="alert alert-block alert-info" style="background-color: #301E40; border: 0px; -moz-border-radius: 10px; -webkit-border-radius: 10px;">
<br/><br/>
<h1 style="font-size: 45px; color: white; align: center;"><center>
<img src="https://raw.githubusercontent.com/HumbleData/beginners-data-workshop/master/media/humble-data-logo-white-transparent.png" width="250px" /><br/><br/>
Visualizzazione dei dati con Seaborn
</center></h1>
</div>

## Informazioni su seaborn

Seaborn è una libreria di visualizzazione dati Python basata su
matplotlib. Fornisce un'interfaccia di alto livello per tracciare
grafici statistici accattivanti e informativi, ed è molto efficace per
mostrare dati su categorie.

![](https://d1rwhvwstyk9gu.cloudfront.net/2017/07/seaburn-1.png)

Prima di iniziare, dobbiamo installare Seaborn. Esegui la cella qui
sotto.

In [None]:
import piplite
await piplite.install('seaborn')

Utilizzeremo il set di dati
[Pokemon.csv](https://gist.github.com/armgilles/194bcff35001e7eb53a2a8b441e8b2c6).
Diamo un'occhiata ai dati:

In [None]:
import pandas as pd

pokemon_df = pd.read_csv('../data/Pokemon/pokemon.csv', index_col=0)
pokemon_df.head(10)

---
<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Grafici a dispersione di categoria
</h2><br>
</div>

Ad esempio, vogliamo confrontare l'attacco di diversi tipi di pokemon, per vedere se qualche tipo è generalmente più potente degli altri:

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.catplot(x="Type 1", y="Attack", data=pokemon_df);

Durante l'importazione, di solito semplifichiamo 'seaborn' con 'sns'. (È
un riferimento a [West Wing / Rob
Lowe](https://en.wikipedia.org/wiki/Sam_Seaborn)!) Tieni presente che
dobbiamo anche importare `matplotlib.pyplot` perché Seaborn è una
libreria che sfrutta matplotlib. Abbiamo un grafico, ma non è molto
efficace ed è poco leggibile: aggiungiamo qualche configurazione per
renderlo più bello.

**Prova ad aggiungere `aspect=2.5` come ultimo argomento nel seguente
`sns.catplot`**

In [None]:
sns.catplot(x="Type 1", y="Attack", data=pokemon_df);

Puoi notare che aggiungendo 'aspect' il grafico si allarga. La larghezza
del grafico è uguale a 'aspect \* height' (aspetto \* altezza) quindi
aggiungendo 'aspect' hai aumentato la larghezza del grafico. È una delle
configurazioni che possiamo aggiungere al grafico. Per l'elenco completo
delle configurazioni con i relativi dettagli, possiamo fare riferimento
alla [documentazione ufficiale (in
inglese)](https://seaborn.pydata.org/generated/seaborn.catplot.html#seaborn.catplot),
ma vediamo un'introduzione ad alcune comuni.

Ad esempio, possiamo impostare un offset casuale dell'asse x per tutti i
punti in modo da vederli senza che si sovrappongano. Usiamo
l'impostazione 'jitter', il cui valore predefinito è True.
Disattiviamola e vediamo cosa accade:

**Prova ad aggiungere `jitter=False` come ultimo argomento nel seguente
`sns.catplot`**

In [None]:
sns.catplot(x="Type 1", y="Attack", data=pokemon_df, aspect=2.5);

Ora abbiamo un grafico in cui i punti sono allineati in base alle
rispettive categorie senza offset sull'asse x. Quale utilizzare dipende
da se la popolazione del valore (ad esempio Attacco) è importante. Nel
nostro caso, vogliamo sapere come è distribuito l'Attacco in ogni Tipo,
quindi è bene avere il 'jitter' attivo, o meglio ancora se possiamo
aumentarlo ancora di più e mostrare la distribuzione:

**Prova ad aggiungere `kind="swarm"` come ultimo argomento nel seguente
`sns.catplot`**

In [None]:
sns.catplot(x="Type 1", y="Attack", data=pokemon_df, aspect=2.5);

Otteniamo il risultato desiderato impostando 'kind' (in italiano 'tipo')
su 'swarm' (in italiano 'sciame'), in modo che i punti non si
sovrappongano. Lo svantaggio è che questo stratagemma occuperà più
spazio in orizzontale. Immagina di non voler rendere il grafico molto
ampio a causa delle limitazioni delle dimensioni del foglio di carta.
Possiamo ruotarlo di 90 gradi capovolgendo x e y, e regolando l'aspetto
e l'altezza:

**Prova: scambia `x` e `y` e aggiungi
`height=12, aspect=0.6, kind="swarm"` negli argomenti del seguente
`sns.catplot`**

In [None]:
sns.catplot(x="Type 1", y="Attack", data=pokemon_df);

Ci sono alcune cose che possiamo osservare finora:

1.  Per alcuni tipi, come Psico, l'intervallo di attacco è molto ampio
    con una lunga coda all'estremità (ad esempio, alcuni pokemon di tipo
    Psico hanno un attacco molto elevato, ma la maggior parte di tipo
    Psico no).

2.  D'altra parte, i pokemon di tipo Veleno hanno un valore di attacco
    per lo più compreso tra 40 e 110.

3.  In generale i pokemon di tipo Drago hanno più potere di attacco di
    quelli Folletto, ma ci sono 2 pokemon di tipo Folletto che hanno un
    potere di attacco maggiore.

Proviamo ad approfondire: vediamo se è vero che i pokemon leggendari
sono i più potenti. Creiamo un codice di colori in base a 'Legendary'
per vedere se il fatto che un pokemon sia leggendario abbia qualcosa a
che fare con l'attacco del pokemon:

**Prova ad aggiungere `hue="Legendary"` come ultimo argomento nel
seguente `sns.catplot`**

In [None]:
plt.figure(figsize=(15, 6))
sns.catplot(x="Type 1", y="Attack", data=pokemon_df, size=7)

Ah ha! Vediamo che molti dei pokemon Psico che hanno valore di attacco
più elevato sono in realtà pokemon leggendari. Ciò accade anche per il
tipo Terra e il tipo Volante.

### Esercizio

Ora tocca a te fare qualche analisi. Scegli una proprietà del Pokemon
(indicata nel set di dati in inglese): HP, Defense, Sp. Atk, Sp. Def
oppure Speed ed effettua analisi simili per scoprire qualche fatto
interessante sui pokemon.

---

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Costruzione di griglie strutturate multi-grafico
</h2><br>
</div>

A volte, è comodo avere più grafici in uno per un confronto immediato.
Un modo per farlo in Seaborn è utilizzare FacetGrid. La classe FacetGrid
è utile quando desideri visualizzare la distribuzione di una variabile o
la relazione tra più variabili separatamente all'interno di sottoinsiemi
del tuo set di dati. Di seguito utilizzeremo FacetGrid per vedere se c'è
una differenza nella nostra analisi di cui sopra tra diverse
generazioni.

Per creare un FacetGrid, possiamo fare quanto segue:

In [None]:
g = sns.FacetGrid(pokemon_df, col="Generation")

Osserva che abbiamo 6 aree di grafici che corrispondono al numero di generazioni diverse che abbiamo (possiamo verificare quali sono le diverse generazioni in questo modo):

In [None]:
pokemon_df["Generation"].unique()

Tuttavia, vorremmo che i grafici fossero allineati verticalmente anziché
orizzontalmente.

**Prova a sostituire `col` con `row` nel seguente `sns.FacetGrid`**

In [None]:
g = sns.FacetGrid(pokemon_df, col="Generation")

Ok, ora abbiamo il layout, come inseriamo i grafici? Per alcuni grafici,
è possibile utilizzare il metodo
[FacetGrid.map()](https://seaborn.pydata.org/generated/seaborn.FacetGrid.map.html#seaborn.FacetGrid.map),
ad esempio, utilizzando sns.countplot per contare quanti pokemon ci sono
nei diversi tipi:

In [None]:
g = sns.FacetGrid(pokemon_df, row="Generation", aspect=3.5)
g.map(sns.countplot, "Type 1");

Ma con sns.catplot, che abbiamo usato prima, tutto questo è ancora più
semplice. Dato che catplot è già un FacetGrid , possiamo aggiungervi
direttamente l'impostazione `row` o `col`.

**Prova ad aggiungere `row="Generation"` come ultimo argomento nel
seguente `sns.catplot`**

In [None]:
plt.figure(figsize=(15, 6))
sns.catplot(x="Type 1", y="Attack", data=pokemon_df, size=7, hue="Legendary", aspect=2.5)

Ora vedi che in ogni generazione i pokemon leggendari hanno un attacco
molto più elevato rispetto agli altri della stessa generazione. Per i
dettagli sull'utilizzo di FacetGrids, puoi consultare la documentazione
ufficiale qui (in inglese):
<https://seaborn.pydata.org/tutorial/axis_grids.html>