(intro_Pandas_notebook)=
# Introduzione a Pandas

## Introduzione

La libreria [Pandas](https://Pandas.pydata.org/docs/index.html) è delegata alla gestione e lettura dei dati provenienti da sorgenti eterogenee, tra cui fogli Excel, file CSV, o anche JSON e database di tipo SQL. Pandas dipenda da due strutture dati principali: 

- il DataFrame, una sorta di tabella, strutturata su colonne dove i dati sono distribuiti per righe,
- la Series che viene utilizzata per rappresentare righe o colonne di un DataFrame (molto simile ad un NumPy array).

Lo scopo di questo capitolo è iniziare a prendere confidenza con i DataFrame ed imparare a manipolare i dati al loro interno. Iniziamo a caricare le librerie necessarie:

In [3]:
import pandas as pd
import numpy as np
import statistics as st
%load_ext nb_black

<IPython.core.display.Javascript object>

## Series
Un oggetto `Series` è un array monodimensionale contenente una sequenza di valori omogenei (di tipo simile ad un `ndarray`) accompagnato da un array di indici, denominato `index`. Mentre gli indici degli array Numpy sono sempre interi che partono da zero, gli oggetti `Series` supportano indici personalizzati (es., stringhe). Inoltre, negli oggetti `Series` possiamo avere dati mancanti, i quali vengono ignorati da diverse operazioni della classe.

Il modo più semplice di creare un oggetto `Series` è di convertire una lista. Per esempio:

In [7]:
grades = pd.Series([27, 30, 24, 18, 22, 20, 29])

<IPython.core.display.Javascript object>

È possibile ottenere la rappresentazione dell'oggetto `array` e l'oggetto `index` dell'oggetto oggetto `Series` tramite i suoi attributi `array` e `index`, rispettivamente:

In [8]:
grades.array

<PandasArray>
[27, 30, 24, 18, 22, 20, 29]
Length: 7, dtype: int64

<IPython.core.display.Javascript object>

In [9]:
grades.index

RangeIndex(start=0, stop=7, step=1)

<IPython.core.display.Javascript object>

L'attributo `array` è di tipo `PandasArray` e costituisce un array Numpy potenziato.

Per accedere agli elementi di un oggetto `Series` si usano le parentesi quadre contenenti un indice:

In [11]:
grades[0]

27

<IPython.core.display.Javascript object>

In [12]:
grades[0:3]

0    27
1    30
2    24
dtype: int64

<IPython.core.display.Javascript object>

È possibile filtrare gli elementi di un oggetto `Series` con un array booleano:

In [15]:
grades > 24

0     True
1     True
2    False
3    False
4    False
5    False
6     True
dtype: bool

<IPython.core.display.Javascript object>

In [14]:
grades[grades > 24]

0    27
1    30
6    29
dtype: int64

<IPython.core.display.Javascript object>

È possibile manipolare gli elementi di un oggetto `Series` con le normali operazioni aritmetiche:

In [16]:
grades / 10

0    2.7
1    3.0
2    2.4
3    1.8
4    2.2
5    2.0
6    2.9
dtype: float64

<IPython.core.display.Javascript object>

In [18]:
np.sqrt(grades)

0    5.196152
1    5.477226
2    4.898979
3    4.242641
4    4.690416
5    4.472136
6    5.385165
dtype: float64

<IPython.core.display.Javascript object>

Gli oggetti `Series` hanno diversi metodi per svolgere comuni operazioni, per esempio per ricavare alcune statistiche descrittive:

In [19]:
[
    grades.count()
    , grades.mean()
    , grades.min()
    , grades.max()
    , grades.std()
    , grades.sum()
]

[7, 24.285714285714285, 18, 30, 4.572172558506722, 170]

<IPython.core.display.Javascript object>

Molto utile è il metodo `.describe()`:

In [20]:
grades.describe()

count     7.000000
mean     24.285714
std       4.572173
min      18.000000
25%      21.000000
50%      24.000000
75%      28.000000
max      30.000000
dtype: float64

<IPython.core.display.Javascript object>

## DataFrame
Un oggetto DataFrame è un array bidimensionale di dati che contiene una sequenza ordinata di colonne, ciascuna delle quali ha un nome e può contenere dati di tipo diverso (numerico, stringa, booleano e così via). Il DataFrame ha sia un indice di riga che di colonna. Il DataFrame può essere pensato come un dizionario di oggetti `Series` che condividono tutti lo stesso indice.

Esistono molti modi per costruire un DataFrame. Il più semplice è quello di utilizzare un dizionario che include una o più liste o array Numpy di uguale lunghezza. Per esempio: 

In [25]:
data = {"name": ['Maria', 'Anna', 'Francesco', 'Cristina', 'Gianni', 'Gabriella', 'Stefano'],
        "sex": ['f', 'f', 'm', 'f', 'm', 'f', 'm'],
        "group": ['a', 'b', 'a', 'b', 'b', 'c', 'a'],
        "x": [1, 2, 3, 4, 5, 6, 7],
        "y": [8, 9, 10, 11, 12, 13, 14],
        "z": [15, 16, 17, 18, 19, 20, 21]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,name,sex,group,x,y,z
0,Maria,f,a,1,8,15
1,Anna,f,b,2,9,16
2,Francesco,m,a,3,10,17
3,Cristina,f,b,4,11,18
4,Gianni,m,b,5,12,19
5,Gabriella,f,c,6,13,20
6,Stefano,m,a,7,14,21


<IPython.core.display.Javascript object>

Un DataFrame può anche essere generato nel modo seguente:

In [24]:
lst1 = [1, 2, 3, 4, 5, 6, 7]
lst2 = [8, 9, 10, 11, 12, 13, 14]
lst3 = [14.4, 15.1, 16.7, 17.3, 18.9, 19.3, 20.2]
lst4 = ['a', 'b', 'a', 'b', 'b', 'c', 'a']
lst5 = ['f', 'f', 'm', 'f', 'm', 'f', 'm']
lst6 = ['Maria', 'Anna', 'Francesco', 'Cristina', 'Gianni', 'Gabriella', 'Stefano']

df = pd.DataFrame()

df['x'] = lst1
df['y'] = lst2
df['z'] = lst3
df['group'] = lst4
df['sex'] = lst5
df['name'] = lst6

df

Unnamed: 0,x,y,z,group,sex,name
0,1,8,14.4,a,f,Maria
1,2,9,15.1,b,f,Anna
2,3,10,16.7,a,m,Francesco
3,4,11,17.3,b,f,Cristina
4,5,12,18.9,b,m,Gianni
5,6,13,19.3,c,f,Gabriella
6,7,14,20.2,a,m,Stefano


<IPython.core.display.Javascript object>

Molto spesso un DataFrame viene creato dal caricamento di dati da file. Per fare un esempio, considereremo i dati *Palmer penguin* resi disponibili da [Kristen Gorman](https://www.uaf.edu/cfos/people/faculty/detail/kristen-gorman.php) e dalla [Palmer station, Antarctica LTER](https://pallter.marine.rutgers.edu/). Li leggo da un file CSV in un DataFrame:

In [27]:
df = pd.read_csv('data/penguins.csv')

<IPython.core.display.Javascript object>

Nel caso di DataFrame di grandi dimensioni, usiamo il metodo `.head()` per visualizzare le prime cinque righe. Per esempio:

In [28]:
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007


<IPython.core.display.Javascript object>

Visualizziamo le ultime 5 righe del DataFrame con `.tail()`:

In [30]:
df.tail()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009
343,Chinstrap,Dream,50.2,18.7,198.0,3775.0,female,2009


<IPython.core.display.Javascript object>

L'attributo `.dtypes` restituisce il tipo dei dati:

In [31]:
df.dtypes

species               object
island                object
bill_length_mm       float64
bill_depth_mm        float64
flipper_length_mm    float64
body_mass_g          float64
sex                   object
year                   int64
dtype: object

<IPython.core.display.Javascript object>

Gli attributi più comunemente usati sono elencati di seguito:

| Attributo	 | Ritorna |
| ---------- | ------- |
| `dtypes`	 | Il tipo di dati in ogni colonna |
| `shape`	 | Una tupla con le dimensioni del DataFrame object (numero di righe, numero di colonne) |
| `index`	 | L'oggetto `Index` lungo le righe del DataFrame |
| `columns`	 |  Il nome delle colonne  |
| `values`	 | I dati contenuti nel DataFrame |
| `empty`	 | Check if the DataFrame object is empty |

Per esempio, l'istruzione della cella seguente restituisce l'elenco con i nomi delle colonne del DataFrame `df`:

In [34]:
df.columns

Index(['species', 'island', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex', 'year'],
      dtype='object')

Per il DataFrame *Palmer penguis* il significato delle colonne è il seguente:

- `species`: a factor denoting penguin type (Adélie, Chinstrap and Gentoo)
- `island`: a factor denoting island in Palmer Archipelago, Antarctica (Biscoe, Dream or Torgersen)
- `bill_length_mm`: a number denoting bill length (millimeters)
- `bill_depth_mm`: a number denoting bill depth (millimeters)
- `flipper_length_mm`: an integer denoting flipper length (millimeters)
- `body_mass_g`: an integer denoting body mass (grams)
- `sex`: a factor denoting sexuality (female, male)
- `year`: the year of the study

L'attributo `.shape` ritorna le dimensioni del DataFrame:

In [35]:
df.shape

(344, 8)

Nel caso presente, abbiamo 344 righe e 8 colonne.

Al DataFrame possono essere applicati vari metodo. Per esempio, un sommario dei dati si ottiene con il metodo `.describe()`:

In [32]:
df.describe()

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
count,342.0,342.0,342.0,342.0,344.0
mean,43.92193,17.15117,200.915205,4201.754386,2008.02907
std,5.459584,1.974793,14.061714,801.954536,0.818356
min,32.1,13.1,172.0,2700.0,2007.0
25%,39.225,15.6,190.0,3550.0,2007.0
50%,44.45,17.3,197.0,4050.0,2008.0
75%,48.5,18.7,213.0,4750.0,2009.0
max,59.6,21.5,231.0,6300.0,2009.0


<IPython.core.display.Javascript object>

Una descrizione del DataFrame si ottiene con il metodo `.info()`:

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
 7   year               344 non-null    int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 21.6+ KB


```{warning}
Si noti che, alle volte, abbiamo utilizzato la sintassi `df.word` e talvolta la sintassi `df.word()`. Tecnicamente, la classe Pandas Dataframe ha sia attributi che metodi. Gli attributi sono `.word`, mentre i metodi sono `.word()` o `.word(arg1, arg2, ecc.)`. Per sapere se qualcosa è un metodo o un attributo è necessario leggere la documentazione.
```

### Gestione dei dati mancanti
Nell'output di `.info()` troviamo la colonna "Non-Null Count", ovvero il numero di dati non mancanti per ciascuna colonna del DataFrame. Da questo si nota che le colonne del DataFrame `df` contengono alcuni dati mancanti. La gestione dei dati mancanti è un argomento complesso. Per ora ci limitiamo ad escludere tutte le righe che, in qualche colonna, contengono dei dati mancanti.

Ottengo il numero di dati per ciascuna colonna del DataFrame:

In [111]:
df.isnull().sum()

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
year                  0
dtype: int64

Rimuovo ora i dati mancanti con il metodo `.dropna()`. L'argomento `inplace=True` specifica il DataFrame viene trasformato in maniera permanente.

In [33]:
df.dropna(inplace=True)

<IPython.core.display.Javascript object>

Verifico che i dati mancanti siano effettivamente stati rimossi:

In [34]:
df.shape

(333, 8)

<IPython.core.display.Javascript object>

### Rinominare le colonne 
È possibile rinominare tutte le colonne passando a `.rename()` un dizionario che specifica quali colonne devono essere mappate a cosa. Nell'esempio seguente cambiamo il nome della colonna `sex` in `gender` e rinominiamo `year` come `year_of_the_study`:

In [52]:
df1 = df

# rename(columns={"OLD_NAME": "NEW_NAME"})
df1 = df1.rename(columns={
    'sex': 'gender',
    'year': 'year_of_the_study'
    })
df1.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,gender,year_of_the_study
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,male,2007


<IPython.core.display.Javascript object>

```{warning}
Si noti che in Python valgono le seguenti regole.

- Il nome di una variabile deve iniziare con una lettera o con il trattino basso (*underscore*) `_`.
- Il nome di una variabile non può iniziare con un numero.
- Un nome di variabile può contenere solo caratteri alfanumerici e il trattino basso (A-z, 0-9 e _).
- I nomi delle variabili fanno distinzione tra maiuscole e minuscole (`age`, `Age` e `AGE` sono tre variabili diverse).

**Evitate** di usare spazi nel nome delle variabili e delle colonne del DataFrame.
```

### Estrarre i dati dal DataFrame

#### Colonne
È possibile estrarre una colonna da un DataFrame usando una notazione simile a quella che si usa per il dizionario (`DataFrame['word']`) o utilizzando la notazione `DataFrame.word`. Per esempio:

In [41]:
df['bill_length_mm']

0      39.1
1      39.5
2      40.3
4      36.7
5      39.3
       ... 
339    55.8
340    43.5
341    49.6
342    50.8
343    50.2
Name: bill_length_mm, Length: 333, dtype: float64

In [42]:
df.bill_length_mm

0      39.1
1      39.5
2      40.3
4      36.7
5      39.3
       ... 
339    55.8
340    43.5
341    49.6
342    50.8
343    50.2
Name: bill_length_mm, Length: 333, dtype: float64

Se tra parentesi quadre indichiamo una lista di colonne come `df[['bill_length_mm','species']]`otteniamo un nuovo DataFrame costituito da queste colonne:

In [43]:
df[['bill_length_mm','species']]

Unnamed: 0,bill_length_mm,species
0,39.1,Adelie
1,39.5,Adelie
2,40.3,Adelie
4,36.7,Adelie
5,39.3,Adelie
...,...,...
339,55.8,Chinstrap
340,43.5,Chinstrap
341,49.6,Chinstrap
342,50.8,Chinstrap


#### Righe

Ci sono vari metodi per estrarre sottoinsimi di righe da un DataFrame. È possibile fare riferimento ad un intervallo di righe mediante un indice di `slice`. Per esempio, possiamo ottenere le prime 3 righe del DataFrame `df` nel modo seguente:

In [44]:
df[0:3]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007


Si noti che in Python una sequenza è determinata dal valore iniziale e quello finale *ma si interrompe ad n-1*. Pertanto, per selezionare una singola riga (per esempio, la prima) dobbiamo procedere nel modo seguente: 

In [45]:
df[0:1]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007


#### Indicizzazione, selezione e filtraggio

Analogamente agli oggetti `Series`, il DataFrame possiede gli attributi `loc` e `iloc` per l'indicizzazione basata sui nomi (etichette) e sugli indici. Poiché l'oggetto DataFrame è bidimensionale, è possibile selezionare un sottoinsieme di righe e colonne con notazione utilizzando le etichette degli assi (`loc`) o gli indici delle righe (`iloc`).

Per esempio, usando l'attributo `iloc` posso selezionare la prima riga del DataFrame:

In [35]:
df.iloc[0]

species                 Adelie
island               Torgersen
bill_length_mm            39.1
bill_depth_mm             18.7
flipper_length_mm        181.0
body_mass_g             3750.0
sex                       male
year                      2007
Name: 0, dtype: object

<IPython.core.display.Javascript object>

La cella seguene seleziona le prime tre righe del DataFrame:

In [36]:
df.iloc[0:3]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007


<IPython.core.display.Javascript object>

L'attributo `loc` consente di selezionare simultaneamente righe e colonne per "nome". Il "nome" delle righe è l'indice di riga. Per esempio, visualizzo il quinto valore della colonna `body_mass_g`:

In [37]:
df.loc[4, 'body_mass_g']

3450.0

<IPython.core.display.Javascript object>

oppure, il quinto valore delle colonne `bill_length_mm`, `bill_depth_mm`, `flipper_length_mm`:

In [38]:
df.loc[4, ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm']]

bill_length_mm        36.7
bill_depth_mm         19.3
flipper_length_mm    193.0
Name: 4, dtype: object

<IPython.core.display.Javascript object>

Visualizzo ora le prime tre righe sulle tre colonne precedenti. Si noti l'uso di `:` per definire un intervallo di valori sull'indice di riga:

In [39]:
df.loc[0:2, ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm']]

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm
0,39.1,18.7,181.0
1,39.5,17.4,186.0
2,40.3,18.0,195.0


<IPython.core.display.Javascript object>

Una piccola variante della sintassi precedente si rivela molto utile. Qui, il segno di due punti (`:`) signfica "tutte le righe":

In [40]:
keep_cols = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm']
print(df.loc[:, keep_cols])

     bill_length_mm  bill_depth_mm  flipper_length_mm
0              39.1           18.7              181.0
1              39.5           17.4              186.0
2              40.3           18.0              195.0
4              36.7           19.3              193.0
5              39.3           20.6              190.0
..              ...            ...                ...
339            55.8           19.8              207.0
340            43.5           18.1              202.0
341            49.6           18.2              193.0
342            50.8           19.0              210.0
343            50.2           18.7              198.0

[333 rows x 3 columns]


<IPython.core.display.Javascript object>

#### Filtrare righe in maniera condizionale

In precedenza, usando `iloc`, abbiamo selezionato le righe in base alla loro posizione. Tuttavia, è molto più comune selezionare le righe del DataFrame in base a qualche condizione logica specificata rispetto alle colonne. 

Iniziamo con un semplice esempio che riguarda una condizione sui valori di una sola colonna. Quando applichiamo un operatore logico come >, <, ==, != ai valori di una colonna del DataFrame, il risultato è una sequenza di valori booleani (`True`, `False`), uno per ogni riga nel DataFrame, che indicano se la condizione è vera o falsa per quella riga. Ad esempio:

In [116]:
df['island'] == 'Torgersen'

0       True
1       True
2       True
4       True
5       True
       ...  
339    False
340    False
341    False
342    False
343    False
Name: island, Length: 333, dtype: bool

Utilizzando i valori booleani che sono stati ottenuti è possibile filtrare le righe del DataFrame, ovvero, ottenere un nuovo DataFrame nel quale la condizione logica specificata è vera su tutte le righe:

In [41]:
df1 = df[df['island'] == 'Torgersen']
df1.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,male,2007


<IPython.core.display.Javascript object>

In maniera equivalente, possiamo scrivere:

In [118]:
df.loc[df['island'] == 'Torgersen'].head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,male,2007


Per combinare più condizioni logiche usiamo gli operatori `&` (e), `|` (oppure). Ad esempio:

In [124]:
df.loc[(df['island'] == 'Torgersen') & (df['sex'] == 'female')].head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,female,2007
12,Adelie,Torgersen,41.1,17.6,182.0,3200.0,female,2007


È possibile semplificare l'instruzione precedente usando `.eval()`:

In [123]:
eval_string = "island == 'Torgersen' & sex == 'female'"
df.loc[df.eval(eval_string), :].head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,female,2007
12,Adelie,Torgersen,41.1,17.6,182.0,3200.0,female,2007


Dopo la virgola, `:` significa "tutte le colonne".

Nel seguente esempio filtriamo le righe con la condizione logica definita sopra e selezioniamo solo due colonne: 

In [122]:
df.loc[df.eval(eval_string), ['bill_depth_mm', 'flipper_length_mm']].head()

Unnamed: 0,bill_depth_mm,flipper_length_mm
1,17.4,186.0
2,18.0,195.0
4,19.3,193.0
6,17.8,181.0
12,17.6,182.0


Nella cella seguente filtriamo le righe escludendo anche le osservazioni raccolte nell'anno 2009:

In [71]:
eval_string = "island == 'Torgersen' & sex == 'female' & year != 2009"
df.loc[df.eval(eval_string), ['bill_depth_mm', 'flipper_length_mm']]

Unnamed: 0,bill_depth_mm,flipper_length_mm
1,17.4,186.0
2,18.0,195.0
4,19.3,193.0
6,17.8,181.0
12,17.6,182.0
15,17.8,185.0
16,19.0,195.0
18,18.4,184.0
68,16.6,190.0
70,19.0,190.0


Un altro modo per filtrare le righe di un DataFrame è quello di  usare il metodo `.query()`. Per esempio:

In [75]:
eval_string = "island == 'Torgersen' & sex == 'female' & year != 2009"
df.query(eval_string)[['bill_depth_mm', 'flipper_length_mm']]

Unnamed: 0,bill_depth_mm,flipper_length_mm
1,17.4,186.0
2,18.0,195.0
4,19.3,193.0
6,17.8,181.0
12,17.6,182.0
15,17.8,185.0
16,19.0,195.0
18,18.4,184.0
68,16.6,190.0
70,19.0,190.0


Un altro esempio usa la keyword `in`:

In [79]:
eval_string = "island in ['Torgersen', 'Dream']"
df.query(eval_string)[['bill_depth_mm', 'flipper_length_mm']]

Unnamed: 0,bill_depth_mm,flipper_length_mm
0,18.7,181.0
1,17.4,186.0
2,18.0,195.0
4,19.3,193.0
5,20.6,190.0
...,...,...
339,19.8,207.0
340,18.1,202.0
341,18.2,193.0
342,19.0,210.0


Il metodo `query()` può anche essere utilizzato per selezionare le righe di un DataFrame in base alle relazioni tra le colonne. Ad esempio,

In [80]:
df.query('bill_length_mm > 3*bill_depth_mm')[['bill_depth_mm', 'flipper_length_mm']]

Unnamed: 0,bill_depth_mm,flipper_length_mm
152,13.2,211.0
153,16.3,230.0
154,14.1,210.0
155,15.2,218.0
156,14.5,215.0
...,...,...
272,14.3,215.0
273,15.7,222.0
274,14.8,212.0
275,16.1,213.0


È anche possibile fare riferimento a variabili non contenute nel DataFrame usando il carattere `@`.

In [81]:
outside_var = 21
df.query('bill_depth_mm > @outside_var')[['bill_depth_mm', 'flipper_length_mm']]

Unnamed: 0,bill_depth_mm,flipper_length_mm
13,21.2,191.0
14,21.1,198.0
19,21.5,194.0
35,21.1,196.0
49,21.2,191.0
61,21.1,195.0


## Riepilogo dei dati e calcolo delle statistiche descrittive
Gli oggetti Pandas sono dotati di una serie di metodi matematici e statistici. La maggior parte di questi rientra nella categoria della riduzione di dati o delle statistiche descrittive. Rispetto ai metodi simili degli array NumPy, i metodi Pandas consentono la gestione dei dati mancanti. Alcuni dei metodi disponibili sono elencati di seguito.

| Method |	Description |
| --- | --- |
| count	| Number of non-NA values |
| describe	|Compute set of summary statistics|
| min, max	|Compute minimum and maximum values|
| argmin, argmax|	Compute index locations (integers) at which minimum or maximum value is obtained, respectively; not available on DataFrame objects|
| idxmin, idxmax|	Compute index labels at which minimum or maximum value is obtained, respectively|
| quantile|	Compute sample quantile ranging from 0 to 1 (default: 0.5)|
| sum	|Sum of values|
| mean	|Mean of values|
| median | Arithmetic median (50% quantile) of values|
| mad |	Mean absolute deviation from mean value|
| prod	|Product of all values|
| var	|Sample variance of values|
| std	|Sample standard deviation of values|
| skew|	Sample skewness (third moment) of values|
| kurt	|Sample kurtosis (fourth moment) of values|
| cumsum|	Cumulative sum of values|
| cummin, cummax	|Cumulative minimum or maximum of values, respectively|
| cumprod|	Cumulative product of values|
| diff	|Compute first arithmetic difference (useful for time series)|
| pct_change	|Compute percent changes|

Tali metodi possono essere applicati a tutto il DataFrame, oppure soltanto ad una o più colonne. Per esempio, usiamo `describe()` su tutto il DataFrame:

In [43]:
df.describe()

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
count,333.0,333.0,333.0,333.0,333.0
mean,43.992793,17.164865,200.966967,4207.057057,2008.042042
std,5.468668,1.969235,14.015765,805.215802,0.812944
min,32.1,13.1,172.0,2700.0,2007.0
25%,39.5,15.6,190.0,3550.0,2007.0
50%,44.5,17.3,197.0,4050.0,2008.0
75%,48.6,18.7,213.0,4775.0,2009.0
max,59.6,21.5,231.0,6300.0,2009.0


<IPython.core.display.Javascript object>

Trovo la media della colonna `bill_depth_mm`:

In [44]:
df['bill_depth_mm'].mean()

17.164864864864867

<IPython.core.display.Javascript object>

Per la deviazione standard uso il metodo `std()`. Si noti l'argomento opzionale `ddof`:

In [90]:
df['bill_length_mm'].std(ddof=1)

5.46866834264756

La cella seguente fornisce l'indice della riga nella quale la colonna `bill_length_mm` assume il suo valore massimo:

In [46]:
df['bill_length_mm'].idxmax()

185

<IPython.core.display.Javascript object>

La colonna `species` in `df` è una variabile a livello nominale. Ottengo la distribuzione di frequenza assoluta:

In [None]:
df['species'].value_counts()

Per le frequenze relative imposto l'argomento `normalize=True`:

In [None]:
print(df['species'].value_counts(normalize=True))

### Aggregazione dei dati

Il riepilogo di più valori in un unico indice va sotto il nome di "aggregazione" dei dati. Il metodo `aggregate()` può essere applicato ai DataFrame e restituisce un nuovo DataFrame più breve contenente solo i valori aggregati. Il primo argomento di `aggregate()` specifica quale funzione o quali funzioni devono essere utilizzate per aggregare i dati. Molte comuni funzioni di aggregazione sono disponibili nel modulo `statistics`:

- `median()`: la mediana;
- `mean()`: la media;
- `stdev()`: la deviazione standard;

Se vogliamo applicare più funzioni di aggregazione, allora è meglio raccogliere prima le funzioni in una lista e poi passare la lista ad `aggregate()`. 

In [95]:
summary_stats = [min, st.median, st.mean, st.stdev, max]
df.aggregate(summary_stats)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,gender,year_of_the_study
min,Adelie,Biscoe,32.1,13.1,172.0,2700.0,female,2007.0
median,Chinstrap,Dream,44.5,17.3,197.0,4050.0,male,2008.0
mean,,,43.992793,17.164865,200.966967,4207.057057,,2008.042042
stdev,,,5.468668,1.969235,14.015765,805.215802,,0.812944
max,Gentoo,Torgersen,59.6,21.5,231.0,6300.0,male,2009.0


Si noti che Pandas ha applicato le funzioni di riepilogo a ogni colonna, ma, per alcune colonne, le statistiche riassuntive non si possono calcolare, ovvero tutte le colonne che contengono stringhe anziché numeri. Di conseguenza, vediamo che alcuni dei risultati per tali colonne sono contrassegnati con "NaN". Questa è un'abbreviazione di "Not a Number", talvolta utilizzata nell'analisi dei dati per rappresentare valori mancanti o non definiti.

Molto spesso vogliamo calcolare le statistiche descrittive separatamente per ciascun gruppo di osservazioni -- per esempio, nel caso presente, in base alla specie. Questo risultato si ottiene con il metodo `.groupby()`. Per esempio, ragruppo le osservazioni in funzione della specie per poi calcolare le statistiche descrittive definite in precedenza. 

In [98]:
df.groupby(['species']).aggregate(summary_stats)

Unnamed: 0_level_0,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_length_mm,bill_depth_mm,bill_depth_mm,bill_depth_mm,bill_depth_mm,bill_depth_mm,...,body_mass_g,body_mass_g,body_mass_g,body_mass_g,body_mass_g,year_of_the_study,year_of_the_study,year_of_the_study,year_of_the_study,year_of_the_study
Unnamed: 0_level_1,min,median,mean,stdev,max,min,median,mean,stdev,max,...,min,median,mean,stdev,max,min,median,mean,stdev,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Adelie,32.1,38.85,38.823973,2.662597,46.0,15.5,18.4,18.34726,1.219338,21.5,...,2850.0,3700.0,3706.164384,458.620135,4775.0,2007,2008.0,2008.054795,0.811816,2009
Chinstrap,40.9,49.55,48.833824,3.339256,58.0,16.4,18.45,18.420588,1.135395,20.8,...,2700.0,3700.0,3733.088235,384.335081,4800.0,2007,2008.0,2007.970588,0.86336,2009
Gentoo,40.9,47.4,47.568067,3.106116,59.6,13.1,15.0,14.996639,0.985998,17.3,...,3950.0,5050.0,5092.436975,501.476154,6300.0,2007,2008.0,2008.067227,0.789025,2009


Oppure ottengo la media per ciascuna specie solo per `body_mass_g` e `flipper_length_mm`:

In [None]:
df.groupby("species")[["body_mass_g", "flipper_length_mm"]].mean()

Faccio la stessa cosa per la deviazione standard.

In [99]:
df.groupby("species")[["body_mass_g", "flipper_length_mm"]].std(ddof=1)

Unnamed: 0_level_0,body_mass_g,flipper_length_mm
species,Unnamed: 1_level_1,Unnamed: 2_level_1
Adelie,458.620135,6.521825
Chinstrap,384.335081,7.131894
Gentoo,501.476154,6.585431


Prestiamo attenzione alla seguente sintassi:

In [100]:
summary_stats = (df.loc[:, ['species', 'body_mass_g', 'flipper_length_mm']]
                         .groupby('species')
                         .aggregate(['mean', 'std', 'count']))
summary_stats

Unnamed: 0_level_0,body_mass_g,body_mass_g,body_mass_g,flipper_length_mm,flipper_length_mm,flipper_length_mm
Unnamed: 0_level_1,mean,std,count,mean,std,count
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Adelie,3706.164384,458.620135,146,190.10274,6.521825,146
Chinstrap,3733.088235,384.335081,68,195.823529,7.131894,68
Gentoo,5092.436975,501.476154,119,217.235294,6.585431,119


Nell'istruzione precedente `df.loc[:, ['species', 'body_mass_g', 'flipper_length_mm']]` seleziona tutte le righe (`:`) delle tre colonne di interesse. L'istruzione `.groupby('species')` ragruppa le righe secondo le modalità della variabile `species`. Infine `.aggregate(['mean', 'std', 'count'])` applica i metodi statistici elencati a ciascun gruppo di righe. Con questa sintassi la sequenza delle operazioni da eseguire diventa molto intuitiva.

È facile estendere l'esempio precedente a casi più complessi. Per esempio, possiamo analizzare simultaneamente i dati di più colonne, dopo avere ragruppato i dati in base alle modalità specificate da colonne multiple. Per l'esempio presente, calcolo le statistiche descrittive delle variabili `body_mass_g` e `bill_length_mm` separatamente per ciascuna isola e per ciascuna specie:

In [101]:
summary_stats = (df.loc[:, ['species', 'island', 'body_mass_g', 'bill_length_mm']]
                         .groupby(['species', 'island'])
                         .aggregate(['mean', 'std', 'count']))
summary_stats.round(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,body_mass_g,body_mass_g,body_mass_g,bill_length_mm,bill_length_mm,bill_length_mm
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count,mean,std,count
species,island,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Adelie,Biscoe,3709.7,487.7,44,39.0,2.5,44
Adelie,Dream,3701.4,448.8,55,38.5,2.5,55
Adelie,Torgersen,3708.5,451.8,47,39.0,3.0,47
Chinstrap,Dream,3733.1,384.3,68,48.8,3.3,68
Gentoo,Biscoe,5092.4,501.5,119,47.6,3.1,119


## Watermark

In [None]:
%load_ext watermark
%watermark -n -u -v -iv -w