# Aggregazioni in Pandas

## Modulo 4: Aggregazioni_parte 2
- Utilizzo di `.groupby` e metodi aggregati
- Comprendere l'oggetto `.groupby`
- Introduzione del metodo `.agg`
- Specificare l'output della colonna
- Raggruppamento per più colonne

In [2]:
import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/emilianoyoulysses/corso_python_fondazione_pico/refs/heads/DataFrames-%26-TimeSeries/tips.csv")
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [3]:
df.total_bill.median() # Abbiamo già lavorato con alcune funzioni aggregate

17.795

In [4]:
df.mean(numeric_only=True) # Funzioni aggregate eseguite su intere colonne o dataframe


total_bill    19.785943
tip            2.998279
size           2.569672
dtype: float64

In [5]:
df.tip.min(), df.tip.max()

(1.0, 10.0)

In [5]:
df.describe() # .describe è anche una funzione aggregata, poiché ospita più funzioni aggregate

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


Ma cosa facciamo quando abbiamo bisogno di risultati aggregati per ogni valore in una colonna categorica?

* È possibile creare manualmente dataframe per ogni categoria
* Ma questo può diventare noioso con molte categorie e con più colonne
* Soprattutto se vogliamo eseguire gli stessi metodi su ogni dataframe


In [6]:
thurs = df[df.day == "Thur"]
fri = df[df.day == "Fri"]
sat = df[df.day == "Sat"]
sun = df[df.day == "Sun"]

thurs.total_bill.mean(), fri.total_bill.mean(), sat.total_bill.mean(), sun.total_bill.mean()

(17.682741935483868, 17.15157894736842, 20.441379310344825, 21.41)

# Cos'è groupby()?
Il metodo `groupby()`consente di raggruppare i dati in base a una o più colonne, in modo da poter poi applicare operazioni di aggregazione (come somma, media, conteggio, massimo, ecc.) su ciascun gruppo.

`df.groupby("colonna").metodo()`

In [8]:
# Calcoliamo dall'oggetto groupby con metodi aggregati (.mean, .median, ecc...)
# Calcola la fattura totale media per ogni giorno
# Il "per ciascuno" significa che stiamo raggruppando per colonna del giorno

df.groupby("day").total_bill.mean()

day
Fri     17.151579
Sat     20.441379
Sun     21.410000
Thur    17.682742
Name: total_bill, dtype: float64

Osserviamo groupby su di una colonna con una funzione di aggregazione che ci restituirà una Series. \
Cambia anche il punto di osservazione. 

In [9]:
# L'oggetto groupby è un'entità composta, costruita per accedere con funzioni aggregate
# possiamo osservare l'oggetto groupby e la sua locazione in memoria

df.groupby("day")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fa38b5d6e80>

In [10]:
# L'oggetto groupby non stampa i risultati,
# Sotto il cofano, è un oggetto contenente più tuple di dataframe per ogni possibile valore categorico
# Consiglia di evitare di scomporre gruppi per oggetti (questa cella è per condividere il contesto)
# Ecco a cosa servono le funzioni aggregate!
a, b, c, d = df.groupby("day")
a

('Fri',
      total_bill   tip     sex smoker  day    time  size
 90        28.97  3.00    Male    Yes  Fri  Dinner     2
 91        22.49  3.50    Male     No  Fri  Dinner     2
 92         5.75  1.00  Female    Yes  Fri  Dinner     2
 93        16.32  4.30  Female    Yes  Fri  Dinner     2
 94        22.75  3.25  Female     No  Fri  Dinner     2
 95        40.17  4.73    Male    Yes  Fri  Dinner     4
 96        27.28  4.00    Male    Yes  Fri  Dinner     2
 97        12.03  1.50    Male    Yes  Fri  Dinner     2
 98        21.01  3.00    Male    Yes  Fri  Dinner     2
 99        12.46  1.50    Male     No  Fri  Dinner     2
 100       11.35  2.50  Female    Yes  Fri  Dinner     2
 101       15.38  3.00  Female    Yes  Fri  Dinner     2
 220       12.16  2.20    Male    Yes  Fri   Lunch     2
 221       13.42  3.48  Female    Yes  Fri   Lunch     2
 222        8.58  1.92    Male    Yes  Fri   Lunch     1
 223       15.98  3.00  Female     No  Fri   Lunch     3
 224       13.42  1.58 

In [11]:
c

('Sun',
      total_bill   tip     sex smoker  day    time  size
 0         16.99  1.01  Female     No  Sun  Dinner     2
 1         10.34  1.66    Male     No  Sun  Dinner     3
 2         21.01  3.50    Male     No  Sun  Dinner     3
 3         23.68  3.31    Male     No  Sun  Dinner     2
 4         24.59  3.61  Female     No  Sun  Dinner     4
 ..          ...   ...     ...    ...  ...     ...   ...
 186       20.90  3.50  Female    Yes  Sun  Dinner     3
 187       30.46  2.00    Male    Yes  Sun  Dinner     5
 188       18.15  3.50  Female    Yes  Sun  Dinner     3
 189       23.10  4.00    Male    Yes  Sun  Dinner     3
 190       15.69  1.50    Male    Yes  Sun  Dinner     2
 
 [76 rows x 7 columns])

In [31]:
# Calcoliamo dall'oggetto groupby con metodi aggregati (.mean, .median, ecc...)
# Calcola la fattura totale media per ogni giorno
# Il "per ciascuno" significa che stiamo raggruppando per colonna del giorno

df.groupby("day").total_bill.mean()

day
Fri     17.151579
Sat     20.441379
Sun     21.410000
Thur    17.682742
Name: total_bill, dtype: float64

In [16]:
# Otteniamo la media per ogni giorno, su tutte le colonne numeriche
# Nota che ogni risultato groupby ridefinisce il significato di ogni riga
df.groupby("day")[["total_bill", "tip", "size"]].mean()

Unnamed: 0_level_0,total_bill,tip,size
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fri,17.151579,2.734737,2.105263
Sat,20.441379,2.993103,2.517241
Sun,21.41,3.255132,2.842105
Thur,17.682742,2.771452,2.451613


In [17]:
# aggreghiamo colonne multiple categoriali
# Possiamo anche raggruppare per più di 1 colonna. Questo crea un multiplo
# Senza specificare le colonne, vedremo tutte le colonne numeriche nell'output
df.groupby(["day", "time"])[["total_bill", "tip", "size"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,size
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,Dinner,19.663333,2.94,2.166667
Fri,Lunch,12.845714,2.382857,2.0
Sat,Dinner,20.441379,2.993103,2.517241
Sun,Dinner,21.41,3.255132,2.842105
Thur,Dinner,18.78,3.0,2.0
Thur,Lunch,17.664754,2.767705,2.459016


In [18]:
# Possiamo anche raggruppare per più di 1 colonna. Questo crea un multiplo
# Possiamo fornire un elenco di colonne numeriche all'interno delle parentesi quadre che specificano le colonne (facendo doppie parentesi)
df.groupby(["day", "time"])[["total_bill", "tip"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1
Fri,Dinner,19.663333,2.94
Fri,Lunch,12.845714,2.382857
Sat,Dinner,20.441379,2.993103
Sun,Dinner,21.41,3.255132
Thur,Dinner,18.78,3.0
Thur,Lunch,17.664754,2.767705


In [19]:
# Se dobbiamo trasformare l'output di groupby nei loro nomi di colonna, possiamo usare .reset_index
df.groupby(["day", "time"])[["total_bill", "tip"]].mean().reset_index()

Unnamed: 0,day,time,total_bill,tip
0,Fri,Dinner,19.663333,2.94
1,Fri,Lunch,12.845714,2.382857
2,Sat,Dinner,20.441379,2.993103
3,Sun,Dinner,21.41,3.255132
4,Thur,Dinner,18.78,3.0
5,Thur,Lunch,17.664754,2.767705


In [20]:
df.groupby("day")[["total_bill", "tip"]].mean()
# ogni riga è una combinazione daytime
# aggregare significa cambiare il punto di vista dell'osservazione

Unnamed: 0_level_0,total_bill,tip
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,17.151579,2.734737
Sat,20.441379,2.993103
Sun,21.41,3.255132
Thur,17.682742,2.771452


In [21]:
# .describe È anche una funzione aggregata
df.groupby("time").total_bill.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Dinner,176.0,20.797159,9.142029,3.07,14.4375,18.39,25.2825,50.81
Lunch,68.0,17.168676,7.713882,7.51,12.235,15.965,19.5325,43.11


# Cos'è il metodo di aggregazione?
Dopo aver raggruppato i dati, è possibile applicare funzioni "aggressive" (ovvero funzioni di aggregazione) per sintetizzare le informazioni in ogni gruppo. Esempi comuni:
* `.sum()`	somma dei valori
* `.mean()`	media dei valori
* `.count()`	numero di elementi
* `.max()`	valore massimo
* `.min()`	valore minimo
* `.agg()`	aggregazioni multiple

In [22]:
# Utilizzando il metodo .agg per specificare più
df.groupby("day").total_bill.agg(["mean", "std"])

Unnamed: 0_level_0,mean,std
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,17.151579,8.30266
Sat,20.441379,9.480419
Sun,21.41,8.832122
Thur,17.682742,7.88617


In [23]:
# Utilizzando il metodo .agg per specificare più
# Possiamo chiamare .agg anche su più colonne numeriche
df.groupby("day")[["total_bill", "tip"]].agg(["mean", "std"])

Unnamed: 0_level_0,total_bill,total_bill,tip,tip
Unnamed: 0_level_1,mean,std,mean,std
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Fri,17.151579,8.30266,2.734737,1.019577
Sat,20.441379,9.480419,2.993103,1.631014
Sun,21.41,8.832122,3.255132,1.23488
Thur,17.682742,7.88617,2.771452,1.240223


In [24]:
# Poiché l'output è un dataframe, possiamo trasporlo, se così facendo rende più facile la lettura
df.groupby("day")[["total_bill", "tip"]].agg(["mean", "std"]).T

Unnamed: 0,day,Fri,Sat,Sun,Thur
total_bill,mean,17.151579,20.441379,21.41,17.682742
total_bill,std,8.30266,9.480419,8.832122,7.88617
tip,mean,2.734737,2.993103,3.255132,2.771452
tip,std,1.019577,1.631014,1.23488,1.240223


## Le forme di .groupby

| esempi specifici    |  forma generale   |
| ---- | ---- |
|`df.groupby("day").mean()` | `df.groupby("categorical_column").aggregate_function()`     |
| `df.groupby("day").total_bill.mean()`     | `df.groupby("categorical_column").numeric_column.aggregate_function()`     |
| `df.groupby("day")["tip"].median()`     | `df.groupby("categoryA")["numeric_columnA"].aggregate_function()`     |
| `df.groupby("day")[["total_bill", "tip"]].min()`     | `df.groupby("categoryA")[["numeric_columnA", "numeric_columnB"]].aggregate_function()`     |
| `df.groupby(["day", "time"]).mean()`     | `df.groupby(["categoryA", "categoryB").aggregate_function()` |
| `df.groupby("day").agg(["min", "median", "max"])`    | `df.groupby("category").agg(["min", "median", "max"])`     |
| `df.groupby("day")[["total_bill", "tip"]].agg(["min", "median", "max"])`    | `df.groupby("category")[["numericA", "numericB"]].agg(["min", "median", "max"])`     |

# Esercitazione: Analisi camion con groupby()

In [7]:
import pandas as pd

df = pd.DataFrame([
    {"modello": "Iveco Daily", "categoria": "medio", "anno": 2022, "noleggio": 100},
    {"modello": "Mercedes Actros", "categoria": "pesante", "anno": 2021, "noleggio": 230},
    {"modello": "Fiat Ducato", "categoria": "leggero", "anno": 2022, "noleggio": 80},
    {"modello": "Tesla Semi", "categoria": "pesante", "anno": 2023, "noleggio": 210},
    {"modello": "Ford Transit", "categoria": "medio", "anno": 2021, "noleggio": 90},
    {"modello": "Renault Master", "categoria": "leggero", "anno": 2023, "noleggio": 95}
])

1. Calcola il noleggio medio per categoria
2. Calcola il noleggio massimo per ogni anno
3. Conta quanti camion ci sono per categoria
4. Calcola media e massimo del noleggio per categoria (con .agg())
5. Raggruppa per anno e categoria, somma il noleggio

In [8]:
df.groupby("categoria")["noleggio"].mean()

categoria
leggero     87.5
medio       95.0
pesante    220.0
Name: noleggio, dtype: float64

In [9]:
df.groupby("anno")["noleggio"].max()

anno
2021    230
2022    100
2023    210
Name: noleggio, dtype: int64

In [10]:
df.groupby("categoria")["modello"].count()

categoria
leggero    2
medio      2
pesante    2
Name: modello, dtype: int64

In [11]:
df.groupby("categoria")["noleggio"].agg(["mean", "max"])

Unnamed: 0_level_0,mean,max
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1
leggero,87.5,95
medio,95.0,100
pesante,220.0,230


In [12]:
df.groupby(["anno", "categoria"])["noleggio"].sum()

anno  categoria
2021  medio         90
      pesante      230
2022  leggero       80
      medio        100
2023  leggero       95
      pesante      210
Name: noleggio, dtype: int64

## Esercizi

- Usa il set di dati "mpg.csv" per creare un dataframe chiamato `mpg`

- Raggruppa per produttore e ottieni il più alto chilometraggio `hwy` per ogni produttore

- Raggruppa per produttore e ottieni il chilometraggio medio `hwy` e `cty`

- Raggruppa per numero di cilindri e ottieni la cilindrata media per ogni cilindro

- Raggruppa per classe del veicolo, quindi calcola la media e la deviazione standard del chilometraggio `hwy`

- Quale classe di veicoli ha la più grande deviazione standard del chilometraggio autostradale?

In [25]:
mpg = pd.read_csv("https://raw.githubusercontent.com/emilianoyoulysses/corso_python_fondazione_pico/refs/heads/DataFrames-%26-TimeSeries/mpg.csv")
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [26]:
mpg.groupby("manufacturer").hwy.max()

manufacturer
audi          31
chevrolet     30
dodge         24
ford          26
honda         36
hyundai       31
jeep          22
land rover    18
lincoln       18
mercury       19
nissan        32
pontiac       28
subaru        27
toyota        37
volkswagen    44
Name: hwy, dtype: int64

In [27]:
mpg.groupby("manufacturer")[["hwy", "cty"]].mean()

Unnamed: 0_level_0,hwy,cty
manufacturer,Unnamed: 1_level_1,Unnamed: 2_level_1
audi,26.444444,17.611111
chevrolet,21.894737,15.0
dodge,17.945946,13.135135
ford,19.36,14.0
honda,32.555556,24.444444
hyundai,26.857143,18.642857
jeep,17.625,13.5
land rover,16.5,11.5
lincoln,17.0,11.333333
mercury,18.0,13.25


In [28]:
mpg.groupby("cyl").displ.mean()

cyl
4    2.145679
5    2.500000
6    3.408861
8    5.132857
Name: displ, dtype: float64

In [29]:
mpg.groupby("class").hwy.agg(["mean", "std"])

Unnamed: 0_level_0,mean,std
class,Unnamed: 1_level_1,Unnamed: 2_level_1
2seater,24.8,1.30384
compact,28.297872,3.78162
midsize,27.292683,2.13593
minivan,22.363636,2.062655
pickup,16.878788,2.27428
subcompact,28.142857,5.375012
suv,18.129032,2.977973


In [30]:
mpg.groupby("class").hwy.agg(["mean", "std"]).sort_values(by="std", ascending=False)

Unnamed: 0_level_0,mean,std
class,Unnamed: 1_level_1,Unnamed: 2_level_1
subcompact,28.142857,5.375012
compact,28.297872,3.78162
suv,18.129032,2.977973
pickup,16.878788,2.27428
midsize,27.292683,2.13593
minivan,22.363636,2.062655
2seater,24.8,1.30384
