<div class="alert alert-block alert-info" style="background-color: #301E40; border: 0px; -moz-border-radius: 10px; -webkit-border-radius: 10px;">
<br/><br/>
<h1 style="font-size: 45px; color: white; align: center;"><center>
<img src="https://raw.githubusercontent.com/HumbleData/beginners-data-workshop/master/media/humble-data-logo-white-transparent.png" width="250px" /><br/><br/>
Analisi dei dati con Pandas
</center></h1>
</div>

> ***Nota***: questo notebook contiene celle di soluzione con ***una
> sola*** soluzione. Ricorda che non esiste un'unica soluzione a un
> problema!
>
> Riconoscerai queste celle in quanto iniziano con **\# %**.
>
> Se desideri vedere la soluzione, dovrai rimuovere il carattere **\#**
> (cosa che puoi fare utilizzando **Ctrl** e **?**) e quindi eseguire la
> cella. Se desideri eseguire il codice della soluzione, dovrai eseguire
> nuovamente la cella.

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Pacchetti di analisi dei dati
</h2><br>
</div>

I data scientist utilizzano varie librerie Python che semplificano notevolmente il lavoro con i dati. Tali librerie sono costituite principalmente da:

| Pacchetto                     | Descrizione                                                                                                                                                                                                            |
|-------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| `NumPy`                       | Calcoli numerici: esegue tutto il lavoro pesante passando alle subroutine C. Ciò significa che ottieni *sia* la produttività di Python *che* la potenza computazionale di C. Il meglio di entrambi i mondi!            |
| `SciPy`                       | Calcolo scientifico, test statistici e molto altro!                                                                                                                                                                    |
| `pandas`                      | Il tuo coltellino svizzero per la manipolazione dei dati. Probabilmente vedrai pandas utilizzato in qualsiasi demo di PyData! Pandas è basato su NumPy, quindi è **veloce**.                                           |
| `matplotlib`                  | Un vecchio ma potente pacchetto di visualizzazione dei dati, ispirato a Matlab.                                                                                                                                        |
| `Seaborn`                     | Un pacchetto di visualizzazione dei dati più nuovo e facile da usare ma limitato, basato su matplotlib.                                                                                                                |
| `scikit-learn`                | La tua cassetta degli attrezzi per il machine learning! Classificazione, regressione, clustering, riduzione dimensionale e altro.                                                                                      |
| `nltk` e `spacy`              | nltk = natural language processing toolkit (in italiano "strumenti per l'elaborazione del linguaggio naturale"); spacy è un pacchetto più recente per l'elaborazione del linguaggio naturale ma molto facile da usare. |
| `statsmodels`                 | Test statistici, previsioni di serie temporali e altro ancora. L'interfaccia della "formula del modello" risulterà familiare agli utenti di R.                                                                         |
| `requests` e `Beautiful Soup` | `requests` + `Beautiful Soup` = ottima combinazione per sviluppare web scraper.                                                                                                                                        |
| `Jupyter`                     | Anche Jupyter stesso è un pacchetto. Dai un'occhiata all'ultima versione su <https://pypi.org/project/jupyter/> e aggiornala con un comando come `conda install jupyter==1.0.0`                                        |

Tieni presente che ne esistono molti altri.

Per oggi ci concentreremo principalmente sulla libreria che rappresenta il 99% del nostro lavoro: `pandas`. Pandas sfrutta la velocità e la
potenza di NumPy.

Esegui il codice qui sotto. Non farti spaventare dal fatto che vedrai un modo un po' diverso da quello con cui abbiamo importato i moduli finora: si tratta di una sintassi speciale per lavorare con i notebook JupyterLite che stiamo utilizzando.

In [None]:
import pyodide_js

# Installa NumPy
await pyodide_js.loadPackage('numpy')

# Installa Pandas
await pyodide_js.loadPackage('pandas')

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Importazioni
</h2><br>
</div>

In [None]:
import pandas as pd

> Importa numpy utilizzando la convenzione vista alla fine del primo notebook.

In [None]:
# %run ../solutions/02_01.py

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Caricamento dei dati
</h2><br>
</div>

Per consultare la documentazione di un metodo, puoi utilizzare la funzione di aiuto. In Jupyter puoi anche semplicemente inserire un punto interrogativo prima del metodo.

In [None]:
?pd.read_csv

Per caricare il dataframe che stiamo utilizzando in questo notebook,
carichiamo il file tramite il suo percorso: ../data/Penguins/penguins.csv

> Carica il dataframe, leggilo come DataFrame pandas e assegnalo alla
> variabile df.

In [None]:
# %run ../solutions/02_02.py

**Per dare un'occhiata alle prime 5 righe di df, possiamo usare il metodo *head*.**

In [None]:
df.head()

> Dai un'occhiata alle ultime 3 righe di df usando il metodo tail

In [None]:
# %run ../solutions/02_03.py

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Informazioni generali sul dataset
</h2><br>
</div>

**Per ottenere la dimensione di un dataset, possiamo utilizzare l'attributo *shape*.**  
Il primo numero è il numero di righe, il secondo il numero di colonne

> Guarda che forma (in inglese "shape") ha la variabile df (non inserire
> parentesi alla fine).

In [None]:
# %run ../solutions/02_04.py

> Recupera i nomi delle colonne e le informazioni su di esse (numero di
> non nulli e tipo) utilizzando il metodo info.

In [None]:
# %run ../solutions/02_05.py

> Recupera le colonne del dataframe utilizzando l'attributo columns.

In [None]:
# %run ../solutions/02_06.py

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Impostazioni di visualizzazione
</h2><br>
</div>

Hai tu il controllo sulle opzioni di visualizzazione del notebook.

In [None]:
pd.set_option('display.max_rows', [numero di righe])

> Forza pandas a visualizzare 25 righe modificando il valore di \[numero di righe\] sopra.

In [None]:
# %run ../solutions/02_07.py

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Creare sottoinsiemi di dati
</h2><br>
</div>

Possiamo frammentare un dataframe per etichetta, per indice o una
combinazione di entrambi.  
Esistono vari modi per farlo, utilizzando .loc, .iloc e \[ \].  
Consulta la
[documentazione](https://pandas.pydata.org/pandas-docs/stable/indexing.html).

> Visualizza la colonna "bill_length_mm"

In [None]:
# %run ../solutions/02_08.py

*Nota:* puoi anche usare `df.bill_length_mm`, ma non è l'idea migliore
perché non funziona con colonne con spazi e potrebbe essere usato in
combinazione con dei metodi.

> Dai un'occhiata alla 12ª osservazione:

In [None]:
# uso di .iloc (utilizza posizioni, "i" sta per numero intero)

In [None]:
# %run ../solutions/02_09.py

In [None]:
# uso di .loc (utilizza indici ed etichette)

In [None]:
# %run ../solutions/02_10.py

> Visualizza **bill_length_mm** per le ultime tre osservazioni.

In [None]:
# uso di .iloc

In [None]:
# %run ../solutions/02_11.py

In [None]:
# uso di .loc

In [None]:
# %run ../solutions/02_12.py

E infine estrai **flipper_length_mm** e **body_mass_g** della 146ª, dell'8ª e della prima osservazione:

In [None]:
# uso di .iloc

In [None]:
# %run ../solutions/02_13.py

In [None]:
# uso di .loc

In [None]:
# %run ../solutions/02_14.py

**!!ATTENZIONE!!** A differenza di Python e `.iloc`, il valore finale in un intervallo specificato da `.loc` **include** l'ultimo indice specificato.

In [None]:
df.iloc[5:10]

In [None]:
df.loc[5:10]

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Filtraggio dei dati in base a condizioni
</h2><br>
</div>

**Possiamo anche utilizzare una o più condizioni per filtrare.**  
Vogliamo visualizzare le righe di df dove **body_mass_g** è maggiore di 4000. Inizieremo creando una maschera con questa condizione.

In [None]:
mask_PW = df['body_mass_g'] > 4000
mask_PW

Tieni presente che questa restituisce valori booleani. Se passiamo questa maschera al nostro dataframe, verranno visualizzate solo le righe in cui la maschera è True.

In [None]:
df[mask_PW]

> Visualizza le righe di df dove **body_mass_g** è maggiore di 4000 e **flipper_length_mm** è minore di 185.

In [None]:
# %run ../solutions/02_15.py

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Valori
</h2><br>
</div>

Possiamo ottenere il numero di valori univoci da una determinata colonna utilizzando il metodo `nunique`.

Ad esempio, possiamo sapere il numero di valori univoci dalla colonna species:

In [None]:
df['species'].nunique()

Possiamo ottenere l'elenco di valori univoci da una determinata colonna anche utilizzando il metodo `unique`.

> Calcola quanti sono i valori univoci dalla colonna species

In [None]:
# %run ../solutions/02_16.py

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Valori nulli (null) e NaN
</h2><br>
</div>

Lavorando con i dati, scoprirai presto che i dati non sono quasi mai
"puliti". I valori che letteralmente non contengono alcun dato vengono
definiti valori nulli (null). Nel calcolo è buona pratica anche definire
un "numero speciale" chiamato "NaN", dall'inglese "**N**ot **a**
**N**umber" (trad. "non è un numero").

Possiamo usare il metodo `isnull` per sapere se un valore è nullo o
meno. Questo metodo restituisce un booleano.

In [None]:
df['flipper_length_mm'].isnull()

**Possiamo applicare diversi metodi uno dopo l'altro.**.  
Ad esempio, potremmo applicare il metodo `sum` dopo il metodo `isnull`
per conoscere il numero di osservazioni nulle nella colonna
**flipper_length_mm**.

> Calcola il numero totale di valori nulli per **flipper_length_mm**.

In [None]:
# %run ../solutions/02_17.py

Per ottenere il conteggio dei diversi valori di una colonna, possiamo utilizzare il metodo `value_counts`.

Ad esempio, per la colonna species:

In [None]:
df['species'].value_counts()

Se vogliamo conoscere il conteggio dei valori NaN, dobbiamo passare il valore `False` al parametro **dropna** (impostato su `True` per impostazione predefinita).

> Calcola la proporzione per ciascun sesso, inclusi i valori NaN.

In [None]:
# %run ../solutions/02_18.py

Per ottenere la proporzione invece del conteggio di questi valori, dobbiamo passare il valore `True` al parametro **normalize**.

> Calcola la proporzione per ciascuna specie.

In [None]:
# %run ../solutions/02_19.py

> Utilizzando l'attributo index (indice), recupera gli indici delle osservazioni che non hanno **flipper_length_mm**

In [None]:
# %run ../solutions/02_20.py

Utilizza il metodo **[dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)** per rimuovere la riga che ha solo valori NaN.

> Consulta la documentazione del metodo dropna.

In [None]:
# %run ../solutions/02_21.py

> Utilizza il metodo dropna per rimuovere la riga di `df` dove tutti i valori sono NaN e assegnala a `df_2`.

In [None]:
# %run ../solutions/02_22.py

Possiamo usare una f-string (stringa di formattazione) per formattare una stringa. Dobbiamo scrivere una f prima delle virgolette e scrivere ciò che vogliamo formattare tra parentesi graffe.

In [None]:
print(f'Forma di df: {df.shape}')

> Stampa il numero di righe di `df_2` utilizzando una f-string. Si sono perse delle righe tra `df` e `df_2`? Se no, perché?

In [None]:
# %run ../solutions/02_23.py

> Utilizza il metodo dropna per rimuovere le righe di `df_2` che contengono valori NaN e assegna il risultato alla variabile `df_3`

In [None]:
# %run ../solutions/02_24.py

> Stampa il numero di righe di `df_3` utilizzando una f-string.

In [None]:
# %run ../solutions/02_25.py

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Duplicati
</h2><br>
</div>

> Rimuovi le righe duplicate da `df_3` e assegna il nuovo dataframe a `df_4`

In [None]:
# %run ../solutions/02_26.py

In [None]:
# controllo della forma di df_4
df_4.shape

Vedrai che 4 righe sono state eliminate.

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Alcune statistiche
</h2><br>
</div>

> Utilizza il metodo describe per vedere come sono distribuiti i dati (solo caratteristiche numeriche!)

In [None]:
# %run ../solutions/02_27.py

Possiamo anche modificare la colonna **species** per risparmiare spazio in memoria. Nota: potrebbe apparire un avviso **SettingWithCopyWarning**: puoi tranquillamente ignorare l'errore per adesso.

In [None]:
df_4['species'] = df_4['species'].astype('category')

> Utilizzando l'attributo dtypes, controlla i tipi delle colonne di `df_4`

In [None]:
# %run ../solutions/02_28.py

Possiamo anche usare le funzioni count(), mean(), sum(), median(),
std(), min() e max() separatamente se ci interessa solo una di queste
statistiche.

> Calcola il minimo per ogni colonna numerica di `df_4`. Assicurati di
> includere l'argomento `numeric_only=True` nella funzione per limitare
> il calcolo alle colonne numeriche.

In [None]:
# %run ../solutions/02_29.py

> Calcola il massimo di **flipper_length_mm**.

In [None]:
# %run ../solutions/02_30.py

Possiamo anche ottenere informazioni aggregate per ciascuna specie
utilizzando il metodo `groupby`.

> Ottieni la mediana per ciascuna specie (colonna **species**). Di
> nuovo, assicurati di includere l'argomento `numeric_only=True` nella
> funzione per limitare il calcolo alle colonne numeriche.

In [None]:
# %run ../solutions/02_31.py

<div class="alert alert-block alert-warning" style="padding: 0px; padding-left: 20px; padding-top: 5px;"><h2 style="color: #301E40">
Salvataggio del dataframe come file CSV
</h2><br>
</div>

> Salva df_4 in questo percorso: `'../data/Penguins/my_penguins.csv'`

In [None]:
# %run ../solutions/02_32.py