# Group by operations: split-apply-combine

**Raggruppare i valori del dataframe in base ad un campo scelto**

Ci sono 3 modi per raggruppare i valori: 

* **Suddivisione** dei dati in gruppi in base ad alcuni criteri.
* **Combinazione** dei risultati in una struttura dati.
* **Applicazione** di una funzione a ciascun gruppo in modo indipendente.

In [1]:
import pandas as pd

In [2]:
url = 'https://shanelynnwebsite-mid9n9g1q9y8tt.netdna-ssl.com/wp-content/uploads/2015/06/phone_data.csv'
df = pd.read_csv(url)

In [3]:
df

Unnamed: 0,index,date,duration,item,month,network,network_type
0,0,15/10/14 06:58,34.429,data,2014-11,data,data
1,1,15/10/14 06:58,13.000,call,2014-11,Vodafone,mobile
2,2,15/10/14 14:46,23.000,call,2014-11,Meteor,mobile
3,3,15/10/14 14:48,4.000,call,2014-11,Tesco,mobile
4,4,15/10/14 17:27,4.000,call,2014-11,Tesco,mobile
...,...,...,...,...,...,...,...
825,825,13/03/15 00:38,1.000,sms,2015-03,world,world
826,826,13/03/15 00:39,1.000,sms,2015-03,Vodafone,mobile
827,827,13/03/15 06:58,34.429,data,2015-03,data,data
828,828,14/03/15 00:13,1.000,sms,2015-03,world,world


`.groupby()` divide i dati in diversi gruppi a seconda del nome della colonna scelto. Ad esempio, l'espressione `df.groupby('month')` dividerà il nostro DataFrame corrente in base alla colonna **month**.

La funzione `.groupby()` restituisce un *oggetto GroupBy*. La variabile `.groups` dell'oggetto GroupBy è un dizionario le cui chiavi corrispondono alle colonne ed hanno come valore la lista dei campi della colonna.

In [4]:
print(type(df.groupby(['month'])))

print(df.groupby(['month']).groups.keys())

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>
dict_keys(['2014-11', '2014-12', '2015-01', '2015-02', '2015-03'])


Funzioni come `max()`, `min()`, `mean()`, `first()`, `last()` possono essere rapidamente applicate all'oggetto GroupBy per ottenere statistiche riassuntive per ogni gruppo.

In [5]:
# Mostra la prima riga per ogni campo raggruppato
df.groupby('month').first()

Unnamed: 0_level_0,index,date,duration,item,network,network_type
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2014-11,0,15/10/14 06:58,34.429,data,data,data
2014-12,228,13/11/14 06:58,34.429,data,data,data
2015-01,381,13/12/14 06:58,34.429,data,data,data
2015-02,577,13/01/15 06:58,34.429,data,data,data
2015-03,729,12/02/15 20:15,69.0,call,landline,landline


In [6]:
# Restituisce la somma dei campi raggruppati dove possibile
df.groupby('month')['duration'].sum()

month
2014-11    26639.441
2014-12    14641.870
2015-01    18223.299
2015-02    15522.299
2015-03    22750.441
Name: duration, dtype: float64

In [7]:
# Mostra il numero dei risultati totali per ogni campo raggruppato
df.groupby('month')['date'].count()

month
2014-11    230
2014-12    157
2015-01    205
2015-02    137
2015-03    101
Name: date, dtype: int64

In [8]:
# Vengono filtrate solo le chiamate, per ognuna viene mostrata la duarata totale delle chiamate per ogni compagnia telegonica
df[df['item'] == 'call'].groupby('network')['duration'].sum()

network
Meteor        7200.0
Tesco        13828.0
Three        36464.0
Vodafone     14621.0
landline     18433.0
voicemail     1775.0
Name: duration, dtype: float64

E' possibile raggruppare anche più di una colonna, rendendo i dati più precisi

In [9]:
# Mostra il numero di chiamate, sms, e numero di trasferimento dati per ogni mese
df.groupby(['month', 'item'])['date'].count()

month    item
2014-11  call    107
         data     29
         sms      94
2014-12  call     79
         data     30
         sms      48
2015-01  call     88
         data     31
         sms      86
2015-02  call     67
         data     31
         sms      39
2015-03  call     47
         data     29
         sms      25
Name: date, dtype: int64

## Statistiche multiple per gruppo
La funzione `.agg()` consente di calcolare più statistiche per gruppo in un unico calcolo.

### Applicare funzioni alle singole colonne nei gruppi
Le istruzioni per l'aggregazione sono fornite sotto forma di *dizionario* o *lista*. Le chiavi del dizionario vengono utilizzate per specificare le colonne su dove bisogna eseguire le operazioni e i valori del dizionario per specificare la funzione da eseguire.

In [10]:
operations = {
  'duration': sum,            # Restituisce la durata di ogni gruppo
  'network_type': "count",    # Restituisce il numero totali di connessioni
  'date': 'first'             # Restituisce la prima data per ogni gruppo
}

df.groupby(['month', 'item']).agg(operations)

Unnamed: 0_level_0,Unnamed: 1_level_0,duration,network_type,date
month,item,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2014-11,call,25547.0,107,15/10/14 06:58
2014-11,data,998.441,29,15/10/14 06:58
2014-11,sms,94.0,94,16/10/14 22:18
2014-12,call,13561.0,79,14/11/14 17:24
2014-12,data,1032.87,30,13/11/14 06:58
2014-12,sms,48.0,48,14/11/14 17:28
2015-01,call,17070.0,88,15/12/14 20:03
2015-01,data,1067.299,31,13/12/14 06:58
2015-01,sms,86.0,86,15/12/14 19:56
2015-02,call,14416.0,67,15/01/15 10:36


### Applicazione di più funzioni alle colonne nei gruppi
Per applicare più funzioni a una singola colonna nei dati raggruppati, bisogna inserire una lista come valore della chiave dei dati.

In [11]:
# Raggruppa i dati per mese e item ed per ciascun gruppo mostra il numero di statistiche
operations = {
  'duration': [min, max, sum],         # Restituisce il valore minimo, masimo e la somma dei dati della colonna "duration"
  'network_type': "count",             # Restituisce il numero di connessioni totali
  'date': ['first', 'nunique']         # Restituisce il valore minimo, il primo valore e il numero di valori univoci (valori che non si ripetono).
}

df.groupby(['month', 'item']).agg(operations)

Unnamed: 0_level_0,Unnamed: 1_level_0,duration,duration,duration,network_type,date,date,date
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,sum,count,min,first,nunique
month,item,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2014-11,call,1.0,1940.0,25547.0,107,01/11/14 15:13,15/10/14 06:58,104
2014-11,data,34.429,34.429,998.441,29,01/11/14 06:58,15/10/14 06:58,29
2014-11,sms,1.0,1.0,94.0,94,03/11/14 08:40,16/10/14 22:18,79
2014-12,call,2.0,2120.0,13561.0,79,02/12/14 11:40,14/11/14 17:24,76
2014-12,data,34.429,34.429,1032.87,30,01/12/14 06:58,13/11/14 06:58,30
2014-12,sms,1.0,1.0,48.0,48,01/12/14 12:51,14/11/14 17:28,41
2015-01,call,2.0,1859.0,17070.0,88,02/01/15 11:27,15/12/14 20:03,84
2015-01,data,34.429,34.429,1067.299,31,01/01/15 06:58,13/12/14 06:58,31
2015-01,sms,1.0,1.0,86.0,86,02/01/15 23:26,15/12/14 19:56,58
2015-02,call,1.0,1863.0,14416.0,67,01/02/15 13:33,15/01/15 10:36,67
