# Funzioni

In [12]:
import pandas as pd

## Funzioni aggregate (Serie)

Alcune funzioni possono essere applicate su una Serie intera. Ad esempio la funzione `len` permette di ottenere il numero di righe

In [28]:
len(incidenti)

1920

Sicuramente più interessanti sono le funzioni che calcolano minimo, massimo o la somma. Queste funzioni sono applicate a Serie.

In [29]:
incidenti['Feriti'].sum()

278952

In [30]:
incidenti['Feriti'].min()

22

In [31]:
incidenti['Feriti'].max()

557

Di particolare rilievo è che eventuali valori mancanti vengono gestiti correttamente (vengono ignorati)

## Funzioni aggregate (DataFrame)

Le stesse funzioni aggregate, se vengono invocate su un DataFrame, vengono applicate su tutte le colonne, incluse quelle che non contengono valori numerici.

Il risultato è sempre una Serie.

In [32]:
incidenti.min()

Anno         2001
Feriti         22
Incidenti      17
Mese            1
Morti           0
Zona            1
rapporto        1
prova           0
Zona_int        0
tipo            a
dtype: object

Se si vuole applicare la funzione solo alle colonne numeriche, bisogna usare l'opzione `numeric_only`.

In [33]:
incidenti.min(numeric_only = True)

Anno         2001.0
Feriti         22.0
Incidenti      17.0
Mese            1.0
Morti           0.0
Zona            1.0
rapporto        1.0
prova           0.0
Zona_int        0.0
dtype: float64

## Raggruppare righe

Talvolta il fatto che più righe condividano uno stesso valore può essere sfruttare per costruire gruppi di righe, che poi possono essere analizzati separatamente.

Ad esempio, nel dataset `incidenti`, vogliamo contare quanti incidenti abbiamo avuto per ogni zona.
Ciò richiede di raggruppare con una `groupby`.

In realtà andiamo a raggruppare per `Zona_int` solo per motivi estetici (non è gradevole vedere una zona con il punto decimale).

In [34]:
incidenti.groupby('Zona_int')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7f7d467103c8>

Il risultato di una `groupby` è un oggetto opaco, che può essere sfruttato tramite operatori su gruppi. 
Pertanto da solo non serve a molto. Ma diventa molto utile se abbinato a `count`, `min`, `max`, `mean`, `sum`

## Raggruppare righe con operatori

Per contare il numero di incidenti, dobbiamo sommare il valore della colonna `Incidenti`, distinguendo per ogni zona.


Notare in questo caso che le righe che hanno *Zona* mancante non vengono considerate nei raggruppamenti.

In [35]:
incidenti.groupby('Zona_int')['Incidenti'].sum()

Zona_int
0    11470
1    24846
2    13958
3    25470
4    20248
5    20000
6    17524
7    21432
8    25696
9    27392
Name: Incidenti, dtype: int64

## Estrarre un gruppo

Per estrarre un singolo gruppo si può usare il metodo `get_group`. Ad esempio, per estrarre tutti i dati relativi al gruppo della zona 3:

In [36]:
incidenti.groupby('Zona_int').get_group(3)

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona,rapporto,prova,Zona_int,tipo
3,2001,187,141,1,1,3.0,1.326241,0,3,b
13,2001,200,147,2,1,3.0,1.360544,0,3,b
23,2001,260,178,3,1,3.0,1.460674,0,3,c
33,2001,250,177,4,0,3.0,1.412429,0,3,c
43,2001,287,207,5,1,3.0,1.386473,0,3,b
53,2001,315,211,6,0,3.0,1.492891,0,3,c
63,2001,301,223,7,2,3.0,1.349776,0,3,b
73,2001,167,112,8,0,3.0,1.491071,0,3,c
83,2001,261,182,9,0,3.0,1.434066,0,3,c
93,2001,311,225,10,1,3.0,1.382222,0,3,b


## Operatori aggregati

L'elenco delle funzioni che possono essere applicate ad una `groupby` sono chiamati operatori aggregati. Sono:

*  `mean()` calcola il valore medio
*  `median()` calcola il valore mediano
*  `sum()`  calcola la somma
*  `size()` calcola il numero di elementi dei gruppi
*  `count()` calcola il numero di elementi non mancanti nei gruppi
*  `std()` calcola la deviazione standard
*  `var()` calcola la varianza
*  `sem()` calcola l'errore standard della media
*  `describe()` calcola le statistiche descrittive
*  `first()` calcola il primo valore di ogni gruppo
*  `last()` calcola l'ultimo valore di ogni gruppo
*  `nth()` estrae alcuni valori
*  `min()` calcola il minimo valore di ogni gruppo
*  `max()` calcola il massimo valore di ogni gruppo

## Size e Count

Ricordiamo che `count` esclude dal conteggio i valori mancanti, mentre `size` include i valori mancanti.
Andiamo a confrontare i risultati di queste operazioni, considerano solo la colonna `Zona`, visto che è l'unica a contenere valori mancanti.

Chiaramente ci aspettiamo che `count` restituisca valori minori di quelli calcolati da `size`.

In [37]:
incidenti.groupby('Anno')['Zona'].size()

Anno
2001    120
2002    120
2003    120
2004    120
2005    120
2006    120
2007    120
2008    120
2009    120
2010    120
2011    120
2012    120
2013    120
2014    120
2015    120
2016    120
Name: Zona, dtype: int64

In [38]:
incidenti.groupby('Anno')['Zona'].count()

Anno
2001    108
2002    108
2003    108
2004    108
2005    108
2006    108
2007    108
2008    108
2009    108
2010    108
2011    108
2012    108
2013    108
2014    108
2015    108
2016    108
Name: Zona, dtype: int64

## Raggruppare su più colonne

Possiamo utilizzare più di una colonna per raggruppare, fornendo una lista come argomento della `groupby`.

Ad esempio, andiamo a calcolare il numero totale di incidenti, diviso per zona e mese.

In [39]:
incidenti.groupby(['Zona', 'Mese']).sum()['Incidenti']

Zona  Mese
1.0   1       1909
      2       1755
      3       2164
      4       2036
      5       2466
      6       2218
      7       2182
      8        842
      9       2220
      10      2566
      11      2466
      12      2022
2.0   1       1006
      2        996
      3       1149
      4       1232
      5       1343
      6       1310
      7       1323
      8        694
      9       1194
      10      1402
      11      1217
      12      1092
3.0   1       1873
      2       1802
      3       2168
      4       2142
      5       2408
      6       2418
              ... 
7.0   7       1923
      8       1038
      9       1906
      10      2084
      11      1871
      12      1700
8.0   1       1882
      2       1743
      3       2248
      4       2135
      5       2535
      6       2377
      7       2325
      8       1179
      9       2251
      10      2517
      11      2430
      12      2074
9.0   1       2085
      2       1936
      3       2382
 

## Raggruppamenti e indice

Il comportamento di default è che le variabili indicate nella `groupby` diventino l'indice della Serie o del DataFrame risultante.

In [40]:
gruppi = incidenti.groupby(['Zona_int', 'Mese']).sum()
gruppi.index.names

FrozenList(['Zona_int', 'Mese'])

Se invece si vuole che siano nuove colonne del DataFrame risultante, bisogna usare l'opzione `as_index`

In [41]:
gruppi2 = incidenti.groupby(['Zona_int', 'Mese'], as_index = False).sum()
gruppi2.index.names

FrozenList([None])

Controlliamo esplicitamente che `Zona_int` e `Mese` siano colonne del DataFrame `gruppi2`

In [42]:
gruppi2.columns

Index(['Zona_int', 'Mese', 'Anno', 'Feriti', 'Incidenti', 'Morti', 'Zona',
       'rapporto', 'prova'],
      dtype='object')