## Statistiche descrittive

Consideriamo nuovamente il DataFrame degli [incidenti](http://dati.comune.milano.it/dataset/9f7bcc9c-20a4-4e48-a7cd-99b15ed11102/resource/38d2171d-1067-4252-9f96-02867a2cc617/download/ds177_trafficotrasporti_incidenti_stradali_persone_infortunate_mese_zona_2001-2016.json).

In [18]:
import pandas as pd
incidenti = pd.read_json("https://github.com/gdv/python-alfabetizzazione/raw/master/data/incidenti.json")

La funzione `describe` permette di iniziare l'esplorazione del dataset, calcolando alcune statistiche essenziali.

In [19]:
incidenti.describe()

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona
count,1920.0,1920.0,1920.0,1920.0,1920.0,1728.0
mean,2008.5,145.2875,108.352083,6.5,0.515104,5.0
std,4.610973,65.982854,48.726844,3.452952,0.752125,2.582736
min,2001.0,22.0,17.0,1.0,0.0,1.0
25%,2004.75,96.0,73.0,3.75,0.0,3.0
50%,2008.5,137.0,103.0,6.5,0.0,5.0
75%,2012.25,188.0,140.0,9.25,1.0,7.0
max,2016.0,557.0,439.0,12.0,4.0,9.0


Notare che `count` conta il numero di righe per cui la variabile non è nulla.

In [20]:
incidenti.head()

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona
0,2001,69,50,1,1,
1,2001,209,171,1,0,1.0
2,2001,115,91,1,1,2.0
3,2001,187,141,1,1,3.0
4,2001,154,105,1,0,4.0


## Rimuovere valori mancanti

La presenza di valori mancanti può creare problemi. Per questo motivo possiamo usare `dropna` per rimuovere tutte le righe che contengono valori mancanti.

In [49]:
incidenti_puliti = incidenti.dropna()
incidenti_puliti.head(3)

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona,rapporto
1,2001,209,171,1,0,1.0,1.222222
2,2001,115,91,1,1,2.0,1.263736
3,2001,187,141,1,1,3.0,1.326241


Stiamo però attenti che il nuovo DataFrame potrebbe avere caratteristiche diverse dal DataFrame originale. Andiamo a calcolare il numero medio di `Feriti` e di `Incidenti` per i DataFrame `incidenti` e `incidenti_puliti`.

In [50]:
incidenti.describe()[['Feriti', 'Incidenti']].loc['mean']

Feriti       145.287500
Incidenti    108.352083
Name: mean, dtype: float64

In [51]:
incidenti_puliti.describe()[['Feriti', 'Incidenti']].loc['mean']

Feriti       152.524306
Incidenti    113.753472
Name: mean, dtype: float64

## Creare una nuova colonna

Per creare una nuova colonna a partire da altre già esistenti, bisogna scrivere l'espressione corrispondente. Ad esempio, per creare una colonna con il numero di feriti per incidente, bisogna scrivere

In [52]:
incidenti['rapporto'] = incidenti['Feriti'] / incidenti['Incidenti']

Come usuale, è opportuno verificare il risultato dell'operazione, guardando le prime righe del dataset.

In [53]:
incidenti.head(3)

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona,rapporto
0,2001,69,50,1,1,,1.38
1,2001,209,171,1,0,1.0,1.222222
2,2001,115,91,1,1,2.0,1.263736


## Creare una colonna con funzioni predefinite

Possiamo notare che la colonna `Zona` contiene numeri con virgola (*float*). Siccome in realtà `Zona` è un numero intero, convertiamo il numero usando la funzione `int`.
Dobbiamo usare il metodo `apply` che permetter di applicare una qualsiasi funzione ad un DataFrame (anche se di solito viene applicata ad una colonna).

In [54]:
type(incidenti_puliti['Zona'])

pandas.core.series.Series

In [55]:
zone = incidenti_puliti['Zona'].copy()
zone.head()

1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
Name: Zona, dtype: float64

In [60]:
len(incidenti_puliti)

1728

In [59]:
zonep = zone.apply(int)
zonep

1       1
2       2
3       3
4       4
5       5
6       6
7       7
8       8
9       9
11      1
12      2
13      3
14      4
15      5
16      6
17      7
18      8
19      9
21      1
22      2
23      3
24      4
25      5
26      6
27      7
28      8
29      9
31      1
32      2
33      3
       ..
1887    7
1888    8
1889    9
1891    1
1892    2
1893    3
1894    4
1895    5
1896    6
1897    7
1898    8
1899    9
1901    1
1902    2
1903    3
1904    4
1905    5
1906    6
1907    7
1908    8
1909    9
1911    1
1912    2
1913    3
1914    4
1915    5
1916    6
1917    7
1918    8
1919    9
Name: Zona, Length: 1728, dtype: int64

In [57]:
incidenti_puliti['Zona int'] = zone.apply(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [36]:
incidenti.head(3)

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona,rapporto
0,2001,69,50,1,1,,1.38
1,2001,209,171,1,0,1.0,1.222222
2,2001,115,91,1,1,2.0,1.263736


## Creare una categoria

Una colonna viene chiamata *categoria* se i suoi valori permettono di classificare le righe.
Adesso andremo a creare una nuova variabile `tipo` che ha tre valori:

*  `a` se il rapporto fra il numero di feriti e il numero di incidenti è minore di 1;
*  `b` se il rapporto è fra 1 e 2;
*  `c` se il rapporto è maggiore di 2;

## Cancellare una colonna

In [11]:
del incidenti['Zona']

In [12]:
incidenti.head(3)

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,num medio,Zona int
0,2001,69,50,1,1,1.38,50
1,2001,209,171,1,0,1.222222,171
2,2001,115,91,1,1,1.263736,91


## Raggruppare righe

Talvolta il fatto che più righe condividano uno stesso valore può essere sfruttare per costruire gruppi di righe, che poi possono essere analizzati separatamente.

Ad esempio, nel dataset `incidenti`, vogliamo contare quanti incidenti abbiamo avuto per ogni zona.
Ciò richiede di raggruppare con una `groupby`.

In [23]:
incidenti.groupby('Zona')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7fb972b38e48>

Il risultato di una `groupby` è un oggetto opaco, che può essere sfruttato tramite operatori su gruppi. Ad esempio `count`. 

Notare in questo caso che le righe che hanno *Zona* mancante non vengono considerate nei raggruppamenti.

In [26]:
incidenti.groupby('Zona').count()

Unnamed: 0_level_0,Anno,Feriti,Incidenti,Mese,Morti
Zona,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1.0,192,192,192,192,192
2.0,192,192,192,192,192
3.0,192,192,192,192,192
4.0,192,192,192,192,192
5.0,192,192,192,192,192
6.0,192,192,192,192,192
7.0,192,192,192,192,192
8.0,192,192,192,192,192
9.0,192,192,192,192,192


Siccome vogliamo calcolare il numero di incidenti per zona, dobbiamo sommare (ovvero usare una `sum`).

In [31]:
incidenti.groupby('Zona').sum()['Incidenti']

Zona
1.0    24846
2.0    13958
3.0    25470
4.0    20248
5.0    20000
6.0    17524
7.0    21432
8.0    25696
9.0    27392
Name: Incidenti, dtype: int64

## Split --- apply --- combine

In Pandas l'effetto di una groupby è chiamato split-apply-combine, perchè equivale a:
1.  dividere il DataFrame in più parti (o gruppi)
2.  applicare una funzione su ogni gruppo (ad esempio calcolare un massimo)
3.  combinare i risultati per ottenere un unico DataFrame



In [40]:
incidenti.dropna?