## Statistiche descrittive

Consideriamo nuovamente il DataFrame degli [incidenti](http://dati.comune.milano.it/dataset/9f7bcc9c-20a4-4e48-a7cd-99b15ed11102/resource/38d2171d-1067-4252-9f96-02867a2cc617/download/ds177_trafficotrasporti_incidenti_stradali_persone_infortunate_mese_zona_2001-2016.json).

In [271]:
import pandas as pd
incidenti = pd.read_json("data/incidenti.json")

La funzione `describe` permette di iniziare l'esplorazione del dataset, calcolando alcune statistiche essenziali.

In [272]:
incidenti.describe()

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona
count,1920.0,1920.0,1920.0,1920.0,1920.0,1728.0
mean,2008.5,145.2875,108.352083,6.5,0.515104,5.0
std,4.610973,65.982854,48.726844,3.452952,0.752125,2.582736
min,2001.0,22.0,17.0,1.0,0.0,1.0
25%,2004.75,96.0,73.0,3.75,0.0,3.0
50%,2008.5,137.0,103.0,6.5,0.0,5.0
75%,2012.25,188.0,140.0,9.25,1.0,7.0
max,2016.0,557.0,439.0,12.0,4.0,9.0


Notare che `count` conta il numero di righe per cui la variabile non è nulla.

## Rimuovere valori mancanti

La presenza di valori mancanti può creare problemi. Per questo motivo possiamo usare `dropna` per rimuovere tutte le righe che contengono valori mancanti.

In [273]:
incidenti_puliti = incidenti.dropna()
incidenti_puliti.head(3)

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona
1,2001,209,171,1,0,1.0
2,2001,115,91,1,1,2.0
3,2001,187,141,1,1,3.0


Stiamo però attenti che il nuovo DataFrame potrebbe avere caratteristiche diverse dal DataFrame originale. Andiamo a calcolare il numero medio di `Feriti` e di `Incidenti` per i DataFrame `incidenti` e `incidenti_puliti`.

In [253]:
incidenti.describe()[['Feriti', 'Incidenti']].loc['mean']

Feriti       145.287500
Incidenti    108.352083
Name: mean, dtype: float64

In [262]:
incidenti_puliti.describe()[['Feriti', 'Incidenti']].loc['mean']

Feriti       152.524306
Incidenti    113.753472
Name: mean, dtype: float64

## Creare una nuova colonna

Per creare una nuova colonna a partire da altre già esistenti, bisogna scrivere l'espressione corrispondente. Ad esempio, per creare una colonna con il numero di feriti per incidente, bisogna scrivere

In [274]:
incidenti['rapporto'] = incidenti['Feriti'] / incidenti['Incidenti']

Come usuale, è opportuno verificare il risultato dell'operazione, guardando le prime righe del dataset.

In [275]:
incidenti.head(3)

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona,rapporto
0,2001,69,50,1,1,,1.38
1,2001,209,171,1,0,1.0,1.222222
2,2001,115,91,1,1,2.0,1.263736


## Assegnare valori ad una colonna

Un caso particolare si ha quando si vuole assegnare lo stesso valore a tutte le righe di un DataFrame. In questo caso assegnamo il valore `0` ad una nuova colonna che chiamiamo `prova`

In [276]:
incidenti['prova'] = 0

In [277]:
incidenti.head(5)

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona,rapporto,prova
0,2001,69,50,1,1,,1.38,0
1,2001,209,171,1,0,1.0,1.222222,0
2,2001,115,91,1,1,2.0,1.263736,0
3,2001,187,141,1,1,3.0,1.326241,0
4,2001,154,105,1,0,4.0,1.466667,0


## Convertire una colonna

Possiamo notare che la colonna `Zona` contiene numeri con virgola (*float*). Siccome in realtà `Zona` è un numero intero, convertiamo il numero usando il metodo `astype`.


In [278]:
incidenti_puliti.loc['Zona_int'] = incidenti_puliti.loc[:, 'Zona'].astype(int)
incidenti_puliti.head(3)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona
1,2001.0,209.0,171.0,1.0,0.0,1.0
2,2001.0,115.0,91.0,1.0,1.0,2.0
3,2001.0,187.0,141.0,1.0,1.0,3.0


In questo caso non è stato sufficiente indicare la colonna con `incidenti_puliti.loc['Zona_int']`, ma abbiamo dovuto utilizzare il metodo `loc`. Questo è dovuto al fatto che pandas preferisce non lavorare con una doppia indicizzazione (chiamata *chained indexing*). La presenza di una `loc` esplicita invece presenta una sola operazione di indicizzazione.

Però, `astype` richiede che i valori da convertire siano tutti non nulli: per questo motivo abbiamo lavorato su `incidenti_puliti`, invece che su `incidenti`. 

Cosa succede se si eseguono le stesse operazioni su `incidenti`?

## Operare solo su alcune righe

In [236]:
incidenti.loc[:, 'Zona_int'] = incidenti.loc[:, 'Zona'].astype(int)

ValueError: Cannot convert non-finite values (NA or inf) to integer

La presenza di valori mancanti rende impossibile l'esecuzione di `astype`. Possiamo sfruttare il fatto che `incidenti` e `incidenti_puliti` hanno lo stesso indice.

In [None]:
incidenti.loc[:, 'Zonaint'] = incidenti_puliti.loc[:, 'Zona'].astype(int)
incidenti.head(3)

La nuova colonna aggiunta (il risultato di `incidenti_puliti.loc[:, 'Zona'].astype(int)`) contiene solo alcune delle righe di `incidenti`. Ma pandas sfrutta gli indici di entrambi i DataFrame per aggiungere la colonna, mettendo valori mancanti dove non trova un indice corrispondente. Ad esempio, `indici_puliti` non ha una riga con indice `0`.
Notare che `Zonaint` non ha numeri interi. Ciò è dovuto alla presenza di valori nulli (`NaN`). Per avere interi dobbiamo eliminarli.

## Operare solo su alcune righe.

Se non si vuole passare per un DataFrame intermedio come `incidenti_puliti`, diventa necessario estendere la chiamata a `loc` esplicitando anche una selezione delle righe, per invocare `astype(int)` solo sulle righe in cui la zona non sia mancante.
Questo passo permette anche di gestire adeguatamente la zona mancante, che verrà posta a *0*.

In [None]:
incidenti['Zona_int'] = 0
incidenti.loc[incidenti['Zona'].notnull(), 'Zona_int'] = \
incidenti.loc[incidenti['Zona'].notnull(), 'Zona'].astype(int)
incidenti.head(3)

## Creare una categoria

Una colonna viene chiamata *categoria* se i suoi valori permettono di classificare le righe.
Adesso andremo a creare una nuova variabile `tipo` che ha tre valori:

*  `a` se il rapporto fra il numero di feriti e il numero di incidenti è minore di 1.3;
*  `b` se il rapporto è fra 1.3 (incluso) e 1.4 (escluso);
*  `c` se il rapporto è maggiore o uguale a 1.4;

Il modo più semplice, ma più lungo, è simile a quanto fatto in precedenza: per ogni valore possibile di `tipo`, si selezionano le righe e si cambia il valore solo di tali righe.

In [None]:
incidenti.loc[incidenti['rapporto'] < 1.3, 'tipo'] = 'a'
incidenti.loc[(incidenti['rapporto'] >= 1.3) & (incidenti['rapporto'] < 1.4), 'tipo'] = 'b'
incidenti.loc[incidenti['rapporto'] >= 1.4, 'tipo'] = 'c'
incidenti.head()

## Cancellare una colonna

In [None]:
del incidenti['Zonaint']

In [None]:
incidenti.head(3)

## Funzioni aggregate (Serie)

Alcune funzioni possono essere applicate su una Serie intera. Ad esempio la funzione `len` permette di ottenere il numero di righe

In [None]:
len(incidenti)

Sicuramente più interessanti sono le funzioni che calcolano minimo, massimo o la somma. Queste funzioni sono applicate a Serie.

In [None]:
incidenti['Feriti'].sum()

In [None]:
incidenti['Feriti'].min()

In [None]:
incidenti['Feriti'].max()

Di particolare rilievo è che eventuali valori mancanti vengono gestiti correttamente (vengono ignorati)

## Funzioni aggregate (DataFrame)

Le stesse funzioni aggregate, se vengono invocate su un DataFrame, vengono applicate su tutte le colonne, incluse quelle che non contengono valori numerici.

Il risultato è sempre una Serie.

In [None]:
incidenti.min()

Se si vuole applicare la funzione solo alle colonne numeriche, bisogna usare l'opzione `numeric_only`.

In [None]:
incidenti.min(numeric_only = True)

## Raggruppare righe

Talvolta il fatto che più righe condividano uno stesso valore può essere sfruttare per costruire gruppi di righe, che poi possono essere analizzati separatamente.

Ad esempio, nel dataset `incidenti`, vogliamo contare quanti incidenti abbiamo avuto per ogni zona.
Ciò richiede di raggruppare con una `groupby`.

In realtà andiamo a raggruppare per `Zona_int` solo per motivi estetici (non è gradevole vedere una zona con il punto decimale).

In [None]:
incidenti.groupby('Zona_int')

Il risultato di una `groupby` è un oggetto opaco, che può essere sfruttato tramite operatori su gruppi. 
Pertanto da solo non serve a molto. Ma diventa molto utile se abbinato a `count`, `min`, `max`, `mean`, `sum`

## Raggruppare righe con operatori

Per contare il numero di incidenti, dobbiamo sommare il valore della colonna `Incidenti`, distinguendo per ogni zona.


Notare in questo caso che le righe che hanno *Zona* mancante non vengono considerate nei raggruppamenti.

In [None]:
incidenti.groupby('Zona_int')['Incidenti'].sum()

## Estrarre un gruppo

Per estrarre un singolo gruppo si può usare il metodo `get_group`. Ad esempio, per estrarre tutti i dati relativi al gruppo della zona 3:

In [214]:
incidenti.groupby('Zona_int').get_group(3)

KeyError: 'Zona_int'

## Operatori aggregati

L'elenco delle funzioni che possono essere applicate ad una `groupby` sono chiamati operatori aggregati. Sono:

*  `mean()` calcola il valore medio
*  `median()` calcola il valore mediano
*  `sum()`  calcola la somma
*  `size()` calcola il numero di elementi dei gruppi
*  `count()` calcola il numero di elementi non mancanti nei gruppi
*  `std()` calcola la deviazione standard
*  `var()` calcola la varianza
*  `sem()` calcola l'errore standard della media
*  `describe()` calcola le statistiche descrittive
*  `first()` calcola il primo valore di ogni gruppo
*  `last()` calcola l'ultimo valore di ogni gruppo
*  `nth()` estrae alcuni valori
*  `min()` calcola il minimo valore di ogni gruppo
*  `max()` calcola il massimo valore di ogni gruppo

## Size e Count

Ricordiamo che `count` esclude dal conteggio i valori mancanti, mentre `size` include i valori mancanti.
Andiamo a confrontare i risultati di queste operazioni, considerano solo la colonna `Zona`, visto che è l'unica a contenere valori mancanti.

Chiaramente ci aspettiamo che `count` restituisca valori minori di quelli calcolati da `size`.

In [215]:
incidenti.groupby('Anno')['Zona'].size()

Anno
2001    120
2002    120
2003    120
2004    120
2005    120
2006    120
2007    120
2008    120
2009    120
2010    120
2011    120
2012    120
2013    120
2014    120
2015    120
2016    120
Name: Zona, dtype: int64

In [216]:
incidenti.groupby('Anno')['Zona'].count()

Anno
2001    108
2002    108
2003    108
2004    108
2005    108
2006    108
2007    108
2008    108
2009    108
2010    108
2011    108
2012    108
2013    108
2014    108
2015    108
2016    108
Name: Zona, dtype: int64

## Raggruppare su più colonne

Possiamo utilizzare più di una colonna per raggruppare, fornendo una lista come argomento della `groupby`.

Ad esempio, andiamo a calcolare il numero totale di incidenti, diviso per zona e mese.

In [217]:
incidenti.groupby(['Zona', 'Mese']).sum()['Incidenti']

Zona  Mese
1.0   1       1909
      2       1755
      3       2164
      4       2036
      5       2466
      6       2218
      7       2182
      8        842
      9       2220
      10      2566
      11      2466
      12      2022
2.0   1       1006
      2        996
      3       1149
      4       1232
      5       1343
      6       1310
      7       1323
      8        694
      9       1194
      10      1402
      11      1217
      12      1092
3.0   1       1873
      2       1802
      3       2168
      4       2142
      5       2408
      6       2418
              ... 
7.0   7       1923
      8       1038
      9       1906
      10      2084
      11      1871
      12      1700
8.0   1       1882
      2       1743
      3       2248
      4       2135
      5       2535
      6       2377
      7       2325
      8       1179
      9       2251
      10      2517
      11      2430
      12      2074
9.0   1       2085
      2       1936
      3       2382
 

## Raggruppamenti e indice

Il comportamento di default è che le variabili indicate nella `groupby` diventino l'indice della Serie o del DataFrame risultante.

In [218]:
gruppi = incidenti.groupby(['Zona_int', 'Mese']).sum()
gruppi.index.names

KeyError: 'Zona_int'

Se invece si vuole che siano nuove colonne del DataFrame risultante, bisogna usare l'opzione `as_index`

In [219]:
gruppi2 = incidenti.groupby(['Zona_int', 'Mese'], as_index = False).sum()
gruppi2.index.names

KeyError: 'Zona_int'

Controlliamo esplicitamente che `Zona_int` e `Mese` siano colonne del DataFrame `gruppi2`

In [220]:
gruppi2.columns

Index(['Zona_int', 'Mese', 'Anno', 'Feriti', 'Incidenti', 'Morti', 'Zona',
       'rapporto', 'prova'],
      dtype='object')

## Apply

Il metodo `apply` permette di applicare una qualunque funzione a tutte le righe (o, più raramente, le colonne) di un  DataFrame o di una Serie. La funzione riceve direttamente una riga del DataFrame.

Una forma più sofisticata permette di applicare una funzione che riceve in input un intero DataFrame.

Come primo esempio, costruiamo una nuova variabile `pericolo` che corrisponde al numero di incidenti, più il numero di feriti moltiplicato per 100. Il primo passo è costruire la funzione che calcola tale indice.

In [221]:
def calcola_p(riga):
    return riga['Incidenti'] + riga['Feriti'] * 100

Poi si può usare la `apply`

In [222]:
incidenti['pericolo'] = incidenti.apply(calcola_p, axis = 1)
incidenti.head()

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona,rapporto,prova,pericolo
0,2001,69,50,1,1,,1.38,0,6950.0
1,2001,209,171,1,0,1.0,1.222222,0,21071.0
2,2001,115,91,1,1,2.0,1.263736,0,11591.0
3,2001,187,141,1,1,3.0,1.326241,0,18841.0
4,2001,154,105,1,0,4.0,1.466667,0,15505.0


## Creare una categoria con apply

La soluzione che abbiamo visto in precedenza per creare la categoria `tipo` ha due difetti: è fragile (perchè il valore soglia *1.3* compare in due istruzioni diverse, quindi è più probabile scrivere un valore sbagliato) e richiede un'istruzione distinta per ogni valore possibile di `tipo`.

Quindi prima scriviamo una funzione che riceve in input un numero e calcola il valore della categoria.

In [None]:
def categoria(n):
    soglie = [('a', 1.3), ('b', 1.4), ('c', None)]
    for (categoria, soglia) in soglie:
        if soglia is None or n < soglia:
            return categoria

Poi è possibile *applicare* la funzione a `rapporto`

In [None]:
incidenti['tipo'] = incidenti['rapporto'].apply(categoria)
incidenti.head(5)

## Differenze

Nelle slide precedenti abbiamo visto due diverse tipologie di utilizzo di apply:

1.  `incidenti.apply(calcola_p, axis = 1)`
2.  `incidenti['rapporto'].apply(categoria)`

Nel caso 1 diventa essenziale l'opzione `axis = 1` che indica a pandas che la funzione deve essere invocata per ogni riga. In questo caso la funzione `calcola_p` riceve un argomento che è la riga di un DataFrame. Tecnicamente la riga è un dizionario con chiavi corrispondenti alle colonne del DataFrame.

Nel caso 2 invece la `apply` viene chiamata su una Serie. In questo caso la funzione `categoria` riceve un singolo valore in input e la parte `axis = 1` non è necessaria.

Un terzo caso prevede invece che la funzione riceva un intero DataFrame

## Calcolo percentuale

Aggiungiamo una colonna che contiene la percentuale del numero di incidenti in un certo mese rispetto a tutti quelli dell'anno nella zona di riferimento.

Tramite un raggruppamento, possiamo calcolare il numero totale di incidenti per ogni anno e zona.

In [213]:
incidenti.groupby(['Anno', 'Zona_int']).sum()['Incidenti']

KeyError: 'Zona_int'