(pandas-aggregated-notebook)=
# Riepilogo dei dati con Pandas

Il riepilogo dei dati in Pandas è un'attività fondamentale nell'analisi dei dati e consiste nel calcolare statistiche descrittive di un insieme di dati. 

## Calcolo delle statistiche descrittive

Agli oggetti Pandas possono essere applicati vari metodi matematici e statistici. La maggior parte di questi rientra nella categoria della riduzione di dati o delle statistiche descrittive. Rispetto ai metodi degli array NumPy, i metodi Pandas consentono la gestione dei dati mancanti. Alcuni dei metodi disponibili per gli oggetti Pandas sono elencati di seguito.

| Method |	Description |
| --- | --- |
| count	| Number of non-NA values |
| describe	|Compute set of summary statistics|
| min, max	|Compute minimum and maximum values|
| argmin, argmax|	Compute index locations (integers) at which minimum or maximum value is obtained, respectively; not available on DataFrame objects|
| idxmin, idxmax|	Compute index labels at which minimum or maximum value is obtained, respectively|
| quantile|	Compute sample quantile ranging from 0 to 1 (default: 0.5)|
| sum	|Sum of values|
| mean	|Mean of values|
| median | Arithmetic median (50% quantile) of values|
| mad |	Mean absolute deviation from mean value|
| prod	|Product of all values|
| var	|Sample variance of values|
| std	|Sample standard deviation of values|
| skew|	Sample skewness (third moment) of values|
| kurt	|Sample kurtosis (fourth moment) of values|
| cumsum|	Cumulative sum of values|
| cummin, cummax	|Cumulative minimum or maximum of values, respectively|
| cumprod|	Cumulative product of values|
| diff	|Compute first arithmetic difference (useful for time series)|
| pct_change	|Compute percent changes|

Tali metodi possono essere applicati a tutto il DataFrame, oppure soltanto ad una o più colonne. 

In [1]:
import pandas as pd
import numpy as np
import statistics as st

Per fare un esempio, esamineremo nuovamente i dati `penguins.csv`. Come in precedenza, dopo avere caricato i dati, rimuoviamo i dati mancanti.

In [2]:
df = pd.read_csv('data/penguins.csv')
df.dropna(inplace=True)

Usiamo il metodo `describe()` su tutto il DataFrame:

In [3]:
df.describe(include='all')

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
count,333,333,333.0,333.0,333.0,333.0,333,333.0
unique,3,3,,,,,2,
top,Adelie,Biscoe,,,,,male,
freq,146,163,,,,,168,
mean,,,43.992793,17.164865,200.966967,4207.057057,,2008.042042
std,,,5.468668,1.969235,14.015765,805.215802,,0.812944
min,,,32.1,13.1,172.0,2700.0,,2007.0
25%,,,39.5,15.6,190.0,3550.0,,2007.0
50%,,,44.5,17.3,197.0,4050.0,,2008.0
75%,,,48.6,18.7,213.0,4775.0,,2009.0


Se desideriamo solo le informazioni relative alle variabili qualitative, usiamo l'argomento `include='object'`.

In [4]:
df.describe(include='object')

Unnamed: 0,species,island,sex
count,333,333,333
unique,3,3,2
top,Adelie,Biscoe,male
freq,146,163,168


I valori NaN indicano dati mancanti. Ad esempio, la colonna `species` contiene stringhe, quindi non esiste alcun valore per `mean`; allo stesso modo, `bill_length_mm` è una variabile numerica, quindi non vengono calcolate le statistiche riassuntive per le variabili categoriali (`unique`, `top`, `freq`).

Esaminimiamo le colonne singolarmente. Ad esempio, troviamo la media della colonna `bill_depth_mm`.

In [5]:
df["bill_depth_mm"].mean()

17.164864864864867

Per la deviazione standard usiamo il metodo `std()`. Si noti l'argomento opzionale `ddof`:

In [6]:
df["bill_length_mm"].std(ddof=1)

5.46866834264756

La cella seguente fornisce l'indice della riga nella quale la colonna `bill_length_mm` assume il suo valore massimo:

In [7]:
df["bill_length_mm"].idxmax()

185

La colonna `species` nel DataFrame `df` è una variabile a livello nominale. Elenchiamo le modalità di tale variabile.

In [10]:
df["species"].unique()

array(['Adelie', 'Gentoo', 'Chinstrap'], dtype=object)

Il metodo `value_counts` ritorna la distribuzione di frequenza assoluta:

In [8]:
df["species"].value_counts()

Adelie       146
Gentoo       119
Chinstrap     68
Name: species, dtype: int64

Per le frequenze relative si imposta l'argomento `normalize=True`:

In [9]:
print(df["species"].value_counts(normalize=True))

Adelie       0.438438
Gentoo       0.357357
Chinstrap    0.204204
Name: species, dtype: float64


### Aggregazione dei dati

Il riepilogo di più valori in un unico indice va sotto il nome di "aggregazione" dei dati. Il metodo `aggregate()` può essere applicato ai DataFrame e restituisce un nuovo DataFrame più breve contenente solo i valori aggregati. Il primo argomento di `aggregate()` specifica quale funzione o quali funzioni devono essere utilizzate per aggregare i dati. Molte comuni funzioni di aggregazione sono disponibili nel modulo `statistics`. Ad esempio:

- `median()`: la mediana;
- `mean()`: la media;
- `stdev()`: la deviazione standard;

Se vogliamo applicare più funzioni di aggregazione, allora possiamo raccogliere prima le funzioni in una lista e poi passare la lista ad `aggregate()`. 

In [28]:
summary_stats = [min, st.median, st.mean, st.stdev, max]
df.aggregate(summary_stats)

  df.aggregate(summary_stats)


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
min,Adelie,Biscoe,32.1,13.1,172.0,2700.0,female,2007.0
median,Chinstrap,Dream,44.5,17.3,197.0,4050.0,male,2008.0
mean,,,43.992793,17.164865,200.966967,4207.057057,,2008.042042
stdev,,,5.468668,1.969235,14.015765,805.215802,,0.812944
max,Gentoo,Torgersen,59.6,21.5,231.0,6300.0,male,2009.0


Si noti che Pandas ha applicato le funzioni di riepilogo a ogni colonna, ma, per alcune colonne, le statistiche riassuntive non si possono calcolare, ovvero tutte le colonne che contengono stringhe anziché numeri. Di conseguenza, vediamo che alcuni dei risultati per tali colonne sono contrassegnati con "NaN". Questa è un'abbreviazione di "Not a Number", talvolta utilizzata nell'analisi dei dati per rappresentare valori mancanti o non definiti.

Molto spesso vogliamo calcolare le statistiche descrittive separatamente per ciascun gruppo di osservazioni -- per esempio, nel caso presente, potremmo volere distinguere le statistiche descrittive in base alla specie dei pinguini. Questo risultato si ottiene con il metodo `.groupby()`. 

Per esempio, ragruppiamo le osservazioni `body_mass_g` in funzione delle modalità della variabile `species`.

In [5]:
grouped = df["body_mass_g"].groupby(df["species"])
grouped

<pandas.core.groupby.generic.SeriesGroupBy object at 0x7fc918bbcfd0>

Calcoliamo ora la media della variabile `body_mass_g` separatamente per ciascun gruppo di osservazioni. 

In [11]:
grouped.mean()

species
Adelie       3706.164384
Chinstrap    3733.088235
Gentoo       5092.436975
Name: body_mass_g, dtype: float64

È possibile applicare vari criteri di classificazione. Questa possibilità è implementata nella cosiddetta operazione `groupby`. Il nome "group by" deriva da un comando nel linguaggio del database SQL, ma forse è più semplice pensarlo nei termini coniati da Hadley Wickham: split, apply, combine. Un esempio canonico di questa operazione di split-apply-combine, in cui "apply" è un'aggregazione di sommatoria, è illustrato nella figura seguente:

```{image} images/split_apply_combine.png
:height: 400px
:name: split_apply_combine
``` 

La figura rende chiaro ciò che si ottiene con `groupby`:

- la fase "split" prevede la suddivisione e il raggruppamento di un DataFrame in base al valore della chiave specificata;
- la fase "apply" implica il calcolo di alcune funzioni, solitamente un'aggregazione, una trasformazione o un filtro, all'interno dei singoli gruppi;
- la fase "combine" unisce i risultati di queste operazioni in una matrice di output.

Per fare un altro esempio, contiamo il numero di pinguini presenti sulle tre isole, distinguendoli per specie e genere.

In [26]:
df.groupby(["island", "species", "sex"]).size()

island     species    sex   
Biscoe     Adelie     female    22
                      male      22
           Gentoo     female    58
                      male      61
Dream      Adelie     female    27
                      male      28
           Chinstrap  female    34
                      male      34
Torgersen  Adelie     female    24
                      male      23
dtype: int64

Con il metodo `aggregate()` possiamo applicare diverse funzioni di aggregazione alle osservazioni ragruppate. Ad esempio

In [29]:
summary_stats = [st.mean, st.stdev]
df.groupby(["species"]).aggregate(summary_stats)

  df.groupby(["species"]).aggregate(summary_stats)


Unnamed: 0_level_0,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_depth_mm,bill_depth_mm,bill_depth_mm,bill_depth_mm,bill_depth_mm,...,body_mass_g,body_mass_g,body_mass_g,body_mass_g,body_mass_g,year,year,year,year,year
Unnamed: 0_level_1,min,median,mean,stdev,max,min,median,mean,stdev,max,...,min,median,mean,stdev,max,min,median,mean,stdev,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Adelie,32.1,38.85,38.823973,2.662597,46.0,15.5,18.4,18.34726,1.219338,21.5,...,2850.0,3700.0,3706.164384,458.620135,4775.0,2007,2008.0,2008.054795,0.811816,2009
Chinstrap,40.9,49.55,48.833824,3.339256,58.0,16.4,18.45,18.420588,1.135395,20.8,...,2700.0,3700.0,3733.088235,384.335081,4800.0,2007,2008.0,2007.970588,0.86336,2009
Gentoo,40.9,47.4,47.568067,3.106116,59.6,13.1,15.0,14.996639,0.985998,17.3,...,3950.0,5050.0,5092.436975,501.476154,6300.0,2007,2008.0,2008.067227,0.789025,2009


Nella cella seguente troviamo la media di `body_mass_g` e `flipper_length_mm` separatamente per ciascuna isola e ciascuna specie:

In [30]:
df.groupby(["island", "species"])[["body_mass_g", "flipper_length_mm"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,body_mass_g,flipper_length_mm
island,species,Unnamed: 2_level_1,Unnamed: 3_level_1
Biscoe,Adelie,3709.659091,188.795455
Biscoe,Gentoo,5092.436975,217.235294
Dream,Adelie,3701.363636,189.927273
Dream,Chinstrap,3733.088235,195.823529
Torgersen,Adelie,3708.510638,191.531915


Facciamo la stessa cosa per la deviazione standard.

In [99]:
df.groupby(["island", "species"])[["body_mass_g", "flipper_length_mm"]].std(ddof=1)

Unnamed: 0_level_0,body_mass_g,flipper_length_mm
species,Unnamed: 1_level_1,Unnamed: 2_level_1
Adelie,458.620135,6.521825
Chinstrap,384.335081,7.131894
Gentoo,501.476154,6.585431


Prestiamo attenzione alla seguente sintassi:

In [33]:
summary_stats = (
    df.loc[:, ["island", "species", "body_mass_g", "flipper_length_mm"]]
    .groupby(["island", "species"])
    .aggregate(["mean", "std", "count"])
)
summary_stats


Unnamed: 0_level_0,Unnamed: 1_level_0,body_mass_g,body_mass_g,body_mass_g,flipper_length_mm,flipper_length_mm,flipper_length_mm
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count,mean,std,count
island,species,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Biscoe,Adelie,3709.659091,487.733722,44,188.795455,6.729247,44
Biscoe,Gentoo,5092.436975,501.476154,119,217.235294,6.585431,119
Dream,Adelie,3701.363636,448.774519,55,189.927273,6.480325,55
Dream,Chinstrap,3733.088235,384.335081,68,195.823529,7.131894,68
Torgersen,Adelie,3708.510638,451.846351,47,191.531915,6.220062,47


Nell'istruzione precedente selezioniamo tutte le righe (`:`) di tre colonne di interesse: `df.loc[:, ["island", "species", "body_mass_g", "flipper_length_mm"]]`. L'istruzione `.groupby(["island", "species"])` ragruppa le osservazioni (righe) secondo le modalità delle variabili `island` e `species`. Infine `.aggregate(["mean", "std", "count"])` applica i metodi statistici specificati a ciascun gruppo di osservazioni. Con questa sintassi la sequenza delle operazioni da eseguire diventa molto intuitiva.

È possibile approfondire questo argomento consultanto il [capitolo 10](https://wesmckinney.com/book/data-aggregation.html) del testo *Python for Data Analysis* di {cite:t}`mckinney2022python`.

## Watermark

In [None]:
%load_ext watermark
%watermark -n -u -v -iv -w