## Aggregazioni (group by)
Le aggregazioni possono essere eseguite con il metodo `groupby([colonne])`, in questo modo tutte le righe che avranno gli stessi valori sulle colonne indicate all’interno del metodo groupby verranno inclusi in un unico gruppo.
Le colonne usate per creare i gruppi verranno impostate come indice del nuovo dataframe creato, se si vuole reimpostare l’indice e metterle come colonne normali bisogna usare il metodo `reset_index()`.

Per visualizzare il risultato e ottenere un nuovo dataframe è necessario applicare una funzione di aggregazione in cascata al groupby.

Le funzioni di aggregazione sono disponibili nella dispensa.

La funzione viene applicata di default su tutti i campi non inclusi nella groupby su cui può essere applicata (generalmente i campi numerici). Se si vogliono mantenere solo alcuni campi si possono selezionare dopo aver creato i gruppi ma prima di applicare la funzione, ad esempio `df.groupby([colonne])[colonne su cui applicare la funzione].funzione_aggregazione()`


Vogliamo ottenere il totale di ogni ordine, possiamo fare


In [4]:
import pandas as pd
df = pd.DataFrame([(1, 3, 10, 20), (1, 2, 3, 5), (2, 5, 1, 25), (2, 4, 3, 4)], columns=["idO", "idP", "Qta", "Prezzo"])
df['TotRiga'] = df['Qta']*df['Prezzo']

df1 = df.groupby(['idO'])['TotRiga'].sum()

df1

Unnamed: 0_level_0,TotRiga
idO,Unnamed: 1_level_1
1,215
2,37


idO diventa a l’indice del nuovo dataframe df1, se si ha necessità di metterlo come colonna normale si può fare

In [5]:
df1 = df1.reset_index()
df1

Unnamed: 0,idO,TotRiga
0,1,215
1,2,37


È anche possibile applicare funzioni di aggregazione personalizzate oppure più funzioni di aggregazione contemporaneamente con il metodo agg(func).

func  può essere una funzione vera e propria, il nome o i nomi forniti come array di una delle funzioni di default riportate in Figura 1, o ancora un dictionary dove per ogni colonna si può specificare quale funzione applicare.


Possiamo calcolare la media e la somma contemporaneamente

In [6]:
df.groupby(['idO'])['TotRiga'].agg(['sum', 'mean'])

Unnamed: 0_level_0,sum,mean
idO,Unnamed: 1_level_1,Unnamed: 2_level_1
1,215,107.5
2,37,18.5


Possiamo applicare una funzione per vedere tutti i valori nel gruppo, si può usare list che crea una lista di valori (è come se si applicasse list(elenco valori nel gruppo))

In [7]:
df.groupby(['idO'])['TotRiga'].agg(list)

Unnamed: 0_level_0,TotRiga
idO,Unnamed: 1_level_1
1,"[200, 15]"
2,"[25, 12]"


Possiamo applicare funzioni di aggregazione differenziate su colonne diverse

In [8]:
 df.groupby(['idO']).agg({'TotRiga': 'sum', 'Prezzo': 'mean'})

Unnamed: 0_level_0,TotRiga,Prezzo
idO,Unnamed: 1_level_1,Unnamed: 2_level_1
1,215,12.5
2,37,14.5


# Ordinamento

I dati di un dataframe possono essere ordinati con l’istruzione `sort_values(by, ascending=True, inplace=False)`

* by consente di specificare la colonna o le colonne su cui eseguire l’ordinamento, se si mette più di una colonna farà l’ordinamento a più livelli, cioè se due valori nella prima colonna sono uguali, allora procederà con il secondo livello e così via.
* ascending indica se l’ordinamento deve essere fatto in ordine crescente (default), oppure decrescente imponendo ascending=False.
* inplace=False (default) indica che viene restituita una copia ordinata del dataframe, altrimenti se impostato a True ordina direttamente il dataframe originale.

In [9]:
df = pd.DataFrame([("Mario", "Rossi", "Modena"), ("Giuseppe", "Verdi", "Bologna"),("Maria", "Bianchi", "Milano")], columns=["Nome", "Cognome",	"Residenza"])
df.sort_values(['Cognome', 'Nome'])

Unnamed: 0,Nome,Cognome,Residenza
2,Maria,Bianchi,Milano
0,Mario,Rossi,Modena
1,Giuseppe,Verdi,Bologna


In [10]:
df.sort_values(['Cognome', 'Nome'], ascending=False)

Unnamed: 0,Nome,Cognome,Residenza
1,Giuseppe,Verdi,Bologna
0,Mario,Rossi,Modena
2,Maria,Bianchi,Milano


## Metodo explode
Il metodo `explode(colonna, ignore_index=False)` consente di esplodere i valori di una colonna che contiene elementi iterabili (tupla, array, set, etc.).

Data una riga i valori delle colonne su cui non viene applicato explode sono ripetuti tante volte quanti sono i singoli valori contenuti in quella colonna.
Impostando ignore_index=False (comportamento di default) l’indice di riga è lo stesso per ogni copia di quella riga, altrimenti viene ricalcolato un nuovo indice.

In [11]:
df = pd.DataFrame([("Giuseppe Verdi", ["0511234", "g.verdi@mail.com"]), ("Mario Rossi", ["0431234", "m.rossi@mail.com", "m.rossi@pec.it"])], columns=["Nominativo", "Contatti"])
df

Unnamed: 0,Nominativo,Contatti
0,Giuseppe Verdi,"[0511234, g.verdi@mail.com]"
1,Mario Rossi,"[0431234, m.rossi@mail.com, m.rossi@pec.it]"


In [12]:
df.explode('Contatti', ignore_index=False)

Unnamed: 0,Nominativo,Contatti
0,Giuseppe Verdi,0511234
0,Giuseppe Verdi,g.verdi@mail.com
1,Mario Rossi,0431234
1,Mario Rossi,m.rossi@mail.com
1,Mario Rossi,m.rossi@pec.it


In [13]:
df.explode('Contatti', ignore_index=True)

Unnamed: 0,Nominativo,Contatti
0,Giuseppe Verdi,0511234
1,Giuseppe Verdi,g.verdi@mail.com
2,Mario Rossi,0431234
3,Mario Rossi,m.rossi@mail.com
4,Mario Rossi,m.rossi@pec.it
