(intro_Pandas_notebook)=
# Introduzione a Pandas

## Introduzione

La libreria Pandas, basata su NumPy, fornisce strutture e strumenti per caricare, manipolare e visualizzare dati in forma di tabella. La documentazione ufficiale di Pandas può essere trovata [qui](https://Pandas.pydata.org/docs/index.html). 

Pandas dipenda da due strutture dati principali: 

- il DataFrame, una sorta di tabella, strutturata su colonne dove i dati sono distribuiti per righe,
- la Series che viene utilizzata per rappresentare righe o colonne di un DataFrame (molto simile ad un NumPy array).

Lo scopo di questo capitolo è iniziare a prendere confidenza con i DataFrame ed imparare a manipolare i dati al loro interno.

## Series

Un oggetto `Series` è un array monodimensionale potenziato. Mentre gli indici degli array sono sempre interi che partono da zero, gli oggetti `Series` supportano la personalizzazione degli indici (es., indici non interi, come le stringhe). Offrono anche funzionalità aggiuntive che le rendono estremamente utili in molte operazioni orientate alla data science. Per esempio, negli oggetti `Series` possiamo avere dati mancanti, i quali vengono ignorati da diverse operazioni della classe.

In [19]:
import pandas as pd

grades = pd.Series([27, 30, 24])
grades

0    27
1    30
2    24
dtype: int64

È possibile creare una serie di elementi aventi tutti lo stesso valore:

In [20]:
pd.Series(9.6, range(4))

0    9.6
1    9.6
2    9.6
3    9.6
dtype: float64

Per accedere agli elementi di un oggetto Series si usano le parentesi quadre contenenti un indice:

In [21]:
grades[1]

30

Gli oggetti Series hanno diversi metodi per svolgere comuni operazioni, per esempio per ricavare alcune statistiche descrittive:

In [24]:
[
    grades.count()
    , grades.mean()
    , grades.min()
    , grades.max()
    , grades.std()
    , grades.sum()
]

[3, 27.0, 24, 30, 3.0, 81]

In [25]:
grades.describe()

count     3.0
mean     27.0
std       3.0
min      24.0
25%      25.5
50%      27.0
75%      28.5
max      30.0
dtype: float64

## DataFrame

Un oggetto DataFrame è un array bidimensionale potenziato. Come gli oggetti Series, i DataFrame possono avere indici personalizzati per righe e per colonne; offrono inoltre operazioni e funzionalità aggiuntive che li rendono utili nelle operazioni comuni nella data science. Anche gli oggetti DataFrame gestiscono dati mancanti. Ogni colonna in un oggetto DataFrame è un oggetto `Series`. Ogni colonna può contenere elementi di tipo diverso. 

## Caricamento di un DataFrame

Molto spesso un DataFrame viene creato dal caricamento di dati da file. Per esempio, dopo aver importato la libreria, possiamo richiederle il caricamento dei dati specificando se la prima riga siano intestazioni o meno:

```bash
pd.read_csv('file_dati.csv', header=None)
```

Leggo i dati sul restringimento delle calotte di ghiaccio in Groenlandia e in Antartide:

In [7]:
import pandas as pd

mydat = pd.read_csv('data/seaice.csv')
mydat.head()

Unnamed: 0,year,extent_north,extent_south
0,1979,12.328,11.7
1,1980,12.337,11.23
2,1981,12.127,11.435
3,1982,12.447,11.64
4,1983,12.332,11.389


In alternativa, un DataFrame può essere creato inserendo i dati manualmente. Per esempio:

In [12]:
x = [1, 2, 3, 4, 5, 6, 7]
y = [8, 9, 10, 11, 12, 13, 14]
z = [14.4, 15.1, 16.7, 17.3, 18.9, 19.3, 20.2]
group = ['a', 'b', 'a', 'b', 'b', 'c', 'a']
sex = ['f', 'f', 'm', 'f', 'm', 'f', 'm']
idx = ['s001', 's002', 's003', 's004', 's005', 's006', 's007']

df = pd.DataFrame()

df['idx'] = idx
df['sex'] = sex
df['group'] = group
df['x'] = x
df['y'] = y
df['z'] = z

df.head()

Unnamed: 0,idx,sex,group,x,y,z
0,s001,f,a,1,8,14.4
1,s002,f,b,2,9,15.1
2,s003,m,a,3,10,16.7
3,s004,f,b,4,11,17.3
4,s005,m,b,5,12,18.9


Questi sono gli *attributi* comunemente usati:

| Attributo	 | Ritorna |
| ---------- | ------- |
| `dtypes`	 | Il tipo di dati in ogni colonna |
| `shape`	 | Una tupla con le dimensioni del DataFrame object (numero di righe, numero di colonne) |
| `index`	 | L'oggetto `Index` lungo le righe del DataFrame |
| `columns`	 |  Il nome delle colonne  |
| `values`	 | I dati contenuti nel DataFrame |
| `empty`	 | Check if the DataFrame object is empty |

In [13]:
df.dtypes

idx       object
sex       object
group     object
x          int64
y          int64
z        float64
dtype: object

Il linguaggio Python utilizza la tipizzazione dinamica delle variabili. Questo significa che non è necessario dichiarare il tipo delle variabili (es. numerico, alfanumerico, ecc.) perché l'interprete lo riconosce automaticamente dal suo contenuto durante l'assegnazione. Nel caso presente, Pandas ha correttamente individuato il tipo delle variabili numeriche, ma ha assegnato il tipo `object` (non identificato) alle variabili qualitative.

Ottengo i nomi delle colonne:

In [14]:
df.columns

Index(['idx', 'sex', 'group', 'x', 'y', 'z'], dtype='object')

Abbiamo già visto che `df.head()` stampa le prime cinque righe. Le ultime cinque righe si ottengono con `df.tail()`.

In [9]:
df.tail()

Unnamed: 0,idx,sex,group,x,y,z
1,s002,f,b,2,8,14
2,s003,m,a,3,9,15
3,s004,f,b,4,10,16
4,s005,m,b,5,11,17
5,s006,f,c,6,12,18


Un sommario dei dati si ottiene nel modo seguente:

In [16]:
df.describe()

Unnamed: 0,x,y,z
count,7.0,7.0,7.0
mean,4.0,11.0,17.414286
std,2.160247,2.160247,2.179012
min,1.0,8.0,14.4
25%,2.5,9.5,15.9
50%,4.0,11.0,17.3
75%,5.5,12.5,19.1
max,7.0,14.0,20.2


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   idx     7 non-null      object 
 1   sex     7 non-null      object 
 2   group   7 non-null      object 
 3   x       7 non-null      int64  
 4   y       7 non-null      int64  
 5   z       7 non-null      float64
dtypes: float64(1), int64(2), object(3)
memory usage: 464.0+ bytes


Le dimensioni del DataFrame sono restituite da `.shape`:

In [7]:
df.shape

(7, 6)

```{warning}
Si noti che, alle volte, abbiamo utilizzato la sintassi `df.word` e talvolta la sintassi `df.word()`. Tecnicamente, la classe Pandas Dataframe ha sia attributi che metodi. Gli attributi sono `.word`, mentre i metodi sono `.word()` o `.word(arg1, arg2, ecc.)`. Per sapere se qualcosa è un metodo o un attributo è necessario leggere la documentazione.
```

## Estrarre i dati dal DataFrame

### Colonne

Si utilizzano le parentesi quadre per estrarre colonne da un DataFrame. Distinguiamo due casi. Se indichiamo il nome di una singola colonna tipo `df['nome']` otteniamo una
Series. 

In [29]:
print(mydat['extent_north'])

0     12.328
1     12.337
2     12.127
3     12.447
4     12.332
5     11.910
6     11.995
7     12.203
8     12.135
9     11.923
10    11.967
11    11.694
12    11.749
13    12.110
14    11.923
15    12.011
16    11.415
17    11.841
18    11.668
19    11.757
20    11.691
21    11.508
22    11.600
23    11.363
24    11.397
25    11.240
26    10.907
27    10.773
28    10.474
29    10.978
30    10.932
31    10.711
32    10.483
33    10.406
34    10.897
35    10.790
36    10.566
37    10.151
38    10.373
Name: extent_north, dtype: float64


oppure

In [30]:
mydat.extent_north

0     12.328
1     12.337
2     12.127
3     12.447
4     12.332
5     11.910
6     11.995
7     12.203
8     12.135
9     11.923
10    11.967
11    11.694
12    11.749
13    12.110
14    11.923
15    12.011
16    11.415
17    11.841
18    11.668
19    11.757
20    11.691
21    11.508
22    11.600
23    11.363
24    11.397
25    11.240
26    10.907
27    10.773
28    10.474
29    10.978
30    10.932
31    10.711
32    10.483
33    10.406
34    10.897
35    10.790
36    10.566
37    10.151
38    10.373
Name: extent_north, dtype: float64

Se tra parentesi quadre indichiamo una lista di colonne come `df[['group','x']]`otteniamo un nuovo DataFrame costituito da queste due colonne.

In [32]:
mydat[['year','extent_north']]

Unnamed: 0,year,extent_north
0,1979,12.328
1,1980,12.337
2,1981,12.127
3,1982,12.447
4,1983,12.332
5,1984,11.91
6,1985,11.995
7,1986,12.203
8,1987,12.135
9,1988,11.923


### Righe

Mentre estrarre le colonne da un `Pandas.DataFrame` è semplice, l'indicizzazione delle righe è più complicata. È possibile usare un indice di `slice` per ottenere un intervallo di righe. Per esempio, per le prime 3 righe abbiamo:

In [33]:
print(df[0:3])

    idx sex group  x   y     z
0  s001   f     a  1   8  14.4
1  s002   f     b  2   9  15.1
2  s003   m     a  3  10  16.7


Dato che in Python una sequenza è determinata dal valore iniziale e quello finale *ma si interrompe ad n-1*, per selezionare una singola riga dobbiamo procedere nel modo seguente. Supponiamo di volere selezionare la prima riga (indice: 0): 

In [6]:
print(df[0:1])

    idx sex group  x  y   z
0  s001   f     a  1  7  13


### Selezione di righe e di colonne simultaneamente

È anche possibile selezionare righe e colonne per nome. L'attributo che dobbiamo usare per questa operazione si chiama `loc`. Si noti che anche le righe, e non solo le colonne, hanno dei nomi: il nome di ciascuna riga corrisponde al suo indice di posizione -- l'indice di riga. (In alcuni rari casi alle righe vengono assegnati dei nomi diversi dagli indici di riga).

In [7]:
df.iloc[0]

idx      s001
sex         f
group       a
x           1
y           7
z          13
Name: 0, dtype: object

L'attributo `loc` consente di indicizzare simultaneamente righe e colonne (per nome). Per esempio, esaminiamo il quinto valore della colonna `z`:

In [8]:
df.loc[4, 'z']

17

oppure, il quinto valore delle colonne `x`, `y`, `z`:

In [9]:
df.loc[4, ['x', 'y', 'z']]

x     5
y    11
z    17
Name: 4, dtype: object

Estraiamo ora le prime tre righe sulle tre colonne precedenti. Si noti l'uso di `:` per definire un intervallo di valori dell'indice di riga:

In [10]:
df.loc[0:2, ['x', 'y', 'z']]

Unnamed: 0,x,y,z
0,1,7,13
1,2,8,14
2,3,9,15


Una piccola variante della sintassi precedente si rivela molto utile:

In [34]:
keep_cols = ['group', 'x', 'y']
print(df.loc[:, keep_cols])

  group  x   y
0     a  1   8
1     b  2   9
2     a  3  10
3     b  4  11
4     b  5  12
5     c  6  13
6     a  7  14


## Filtrare righe in maniera condizionale

In precedenza abbiamo selezionato le righe in base alla loro posizione, ma è molto più comune selezionare le righe del DataFrame in base a qualche condizione logica specificata rispetto alle altre colonne. Iniziamo con un semplice esempio che riguarda una condizione sui valori di una sola colonna. Quando applichiamo un operatore logico come >, <, ==, !=, il risultato è una sequenza di valori booleani (ovvero True o False), uno per ogni riga nel dataframe, che indica se la condizione è vera o falsa per quella riga.

In [39]:
df['group'] == 'b'

0    False
1     True
2    False
3     True
4     True
Name: group, dtype: bool

Utilizzando questi valori booleani possiamo "filtrare" le righe del DataFrame:

In [12]:
df[df['group'] == 'b']

Unnamed: 0,idx,sex,group,x,y,z
1,s002,f,b,2,8,14
3,s004,f,b,4,10,16
4,s005,m,b,5,11,17


Possiamo leggere la sintassi dell'istruzione precedente come: "considera solo le righe di `df` nelle quali la colonna `group` ha valore `b`". 

Per combinare più condizioni logiche usiamo gli operatori `&` (e) e `|` (oppure). Ad esempio, selezioniamo tutte le righe per le quali il valore di `group` è `a` e il valore di `sex` è `f`:

In [41]:
print(df[(df['group'] == 'b') & (df['sex'] == 'f')])

    idx sex group  x  y   z
1  s002   f     b  2  7  12
3  s004   f     b  4  9  14


È possibile semplificare l'instruzione precedente usando `.eval()`:

In [42]:
eval_string = "group == 'b' & sex == 'f'"
df.loc[df.eval(eval_string), :]

Unnamed: 0,idx,sex,group,x,y,z
1,s002,f,b,2,7,12
3,s004,f,b,4,9,14


Dopo la virgola, `:` significa "tutte le colonne".

Ecco un altro esempio nel quale abbiamo una condizione logica che si riferisce ad una colonna (`sex`). Il secondo argomento di `loc` contiene l'elenco delle colonne che vogliamo selezionare: 

In [43]:
df.loc[df['sex'] == 'f', ['x', 'z']]

Unnamed: 0,x,z
0,1,11
1,2,12
3,4,14


In un altro esempio, escludiamo i dati del grouppo `c` e consideriamo unicamente il genere femminile; vogliamo le osservazioni relative alle variabili `x` e `y`:

In [48]:
df.loc[(df["group"] != "c") & (df["sex"] == "f"), ["x", "y"]]

Unnamed: 0,x,y
0,1,7
1,2,8
3,4,10


Oppure:

In [13]:
eval_string = "group != 'c' & sex == 'f'"
df.loc[df.eval(eval_string), ["x", "y"]]

Unnamed: 0,x,y
0,1,7
1,2,8
3,4,10


Un altro modo per filtrare le righe di tutto un DataFrame (selezionando tutte le colonne) è quello di  usare il metodo `.query()`. Per esempio:

In [18]:
df.query("group != 'c' and sex == 'f'")

Unnamed: 0,idx,sex,group,x,y,z
0,s001,f,a,1,7,13
1,s002,f,b,2,8,14
3,s004,f,b,4,10,16


Il metodo `query()` può anche essere utilizzato per selezionare le righe di un DataFrame in base alle relazioni tra le colonne. Ad esempio,

In [29]:
df.query('4*x < z')

Unnamed: 0,idx,sex,group,x,y,z
0,s001,f,a,1,7,13
1,s002,f,b,2,8,14
2,s003,m,a,3,9,15


È anche possibile fare riferimento a variabili non contenute nel DataFrame usando il carattere `@`.

In [30]:
outside_var = 9
df.query('y > @outside_var')

Unnamed: 0,idx,sex,group,x,y,z
3,s004,f,b,4,10,16
4,s005,m,b,5,11,17
5,s006,f,c,6,12,18


## Rinominare le colonne con `.rename`

È possibile rinominare tutte le colonne passando una funzione a `.rename()`. Ad esempio `df.rename(columns=str.lower)` fà in modo che i nomi delle colonne siano tutti in minuscolo. 

In alternativa, si crea un dizionario che specifica quali colonne devono essere mappate a cosa. Nell'esempio seguente cambiamo il nome della colonna `sex` in `gender`:

In [31]:
# rename(columns={"OLD_NAME": "NEW_NAME"})
df = df.rename(columns={"sex": "gender"})
df.head()

Unnamed: 0,idx,gender,group,x,y,z
0,s001,f,a,1,7,13
1,s002,f,b,2,8,14
2,s003,m,a,3,9,15
3,s004,f,b,4,10,16
4,s005,m,b,5,11,17


## Watermark

In [None]:
%load_ext watermark
%watermark -n -u -v -iv -w