(intro_pandas_notebook)=
# Introduzione a pandas

## Introduzione

La libreria pandas, basata su NumPy, fornisce strutture e strumenti per caricare, manipolare e visualizzare dati in forma di tabella. La documentazione ufficiale di pandas può essere trovata [qui](https://pandas.pydata.org/docs/index.html). 

Pandas dipenda da due strutture dati principali: 

- il DataFrame, una sorta di tabella, strutturata su colonne dove i dati sono distribuiti per righe,
- la Series che viene utilizzata per rappresentare righe o colonne di un DataFrame (molto simile ad un NumPy array).

Lo scopo di questo capitolo è iniziare a prendere confidenza con i DataFrame ed imparare a manipolare i dati al loro interno.

## DataFrame

Un DataFrame è una struttura di dati bidimensionale che può memorizzare dati di diversi tipi (inclusi caratteri, numeri interi, dati categoriali, ...) in colonne. Un DataFrame è molto simile a una matrice. Come una matrice, un DataFrame memorizza i valori in una "griglia" di righe e colonne. Tecnicamente, il DataFrame ci fornisce una rappresentazione di una tabella formata da molti oggetti `NumPy.Series` che formano le colonne e da un oggetto `Index` condiviso che etichetta le righe.

Questi sono gli *attributi* comunemente usati:

| Attribute	 | Ritorna |
| ---------- | ------- |
| dtypes	 | The data types of each column |
| shape	     | Dimensions of the DataFrame object in a tuple of the form (number of rows, number of columns) |
| index	     | The Index object along the rows of the DataFrame object |
| columns	 |  The name of the columns (as an Index object) |
| values	 | The data in the DataFrame object |
| empty	     |Check if the DataFrame object is empty |


## Caricamento di un DataFrame

Molto spesso un DataFrame viene creato dal caricamento di dati da file. Per esempio, dopo aver importato la libreria:

In [2]:
import pandas as pd

possiamo richiederle il caricamento dei dati specificando se la prima riga siano intestazioni o meno:

```bash
pd.read_csv('file_dati.csv', header=None)
```

In alternativa, un DataFrame può essere creato partendo dai dati grezzi. Per esempio:

In [3]:
x = [1, 2, 3, 4, 5, 6, 7]
y = [8, 9, 10, 11, 12, 13, 14]
z = [14, 15, 16, 17, 18, 19, 20]
group = ['a', 'b', 'a', 'b', 'b', 'c', 'a']
sex = ['f', 'f', 'm', 'f', 'm', 'f', 'm']
idx = ['s001', 's002', 's003', 's004', 's005', 's006', 's007']

df = pd.DataFrame()

df['idx'] = idx
df['sex'] = sex
df['group'] = group
df['x'] = x
df['y'] = y
df['z'] = z
df

Unnamed: 0,idx,sex,group,x,y,z
0,s001,f,a,1,8,14
1,s002,f,b,2,9,15
2,s003,m,a,3,10,16
3,s004,f,b,4,11,17
4,s005,m,b,5,12,18
5,s006,f,c,6,13,19
6,s007,m,a,7,14,20


Ottengo i nomi delle colonne:

In [5]:
df.columns

Index(['idx', 'sex', 'group', 'x', 'y', 'z'], dtype='object')

Esaminiamo il contenuto di `df`.

In [6]:
df.head()

Unnamed: 0,idx,sex,group,x,y,z
0,s001,f,a,1,8,14
1,s002,f,b,2,9,15
2,s003,m,a,3,10,16
3,s004,f,b,4,11,17
4,s005,m,b,5,12,18


In [9]:
df.tail()

Unnamed: 0,idx,sex,group,x,y,z
1,s002,f,b,2,8,14
2,s003,m,a,3,9,15
3,s004,f,b,4,10,16
4,s005,m,b,5,11,17
5,s006,f,c,6,12,18


Un sommario dei dati si ottiene nel modo seguente:

In [16]:
df.describe()

Unnamed: 0,x,y,z
count,7.0,7.0,7.0
mean,4.0,11.0,17.0
std,2.160247,2.160247,2.160247
min,1.0,8.0,14.0
25%,2.5,9.5,15.5
50%,4.0,11.0,17.0
75%,5.5,12.5,18.5
max,7.0,14.0,20.0


In [7]:
df.shape

(7, 6)

```{warning}
Si noti che, alle volte, abbiamo utilizzato la sintassi `df.word` e talvolta la sintassi `df.word()`. Tecnicamente, la classe pandas Dataframe ha sia attributi che metodi. Gli attributi sono `.word`, mentre i metodi sono `.word()` o `.word(arg1, arg2, ecc.)`. Per sapere se qualcosa è un metodo o un attributo è necessario leggere la documentazione.
```

## Tipi di dati e dimensioni

Un pandas DataFrame può contenere dati di tipi diversi: 

In [None]:
df.info()

Le dimensioni del DataFrame si ottengono nel modo seguente (il primo indice si riferisce alle righe, il secondo alle colonne):

In [8]:
df.shape

(7, 6)

## Estrarre i dati dal DataFrame

### Colonne

Si utilizzano le parentesi quadre per estrarre colonne da un DataFrame. Distinguiamo due casi. Se indichiamo il nome di una singola colonna tipo `df['nome']` otteniamo una
Series. 

In [47]:
print(df['x'])

0    1
1    2
2    3
3    4
4    5
5    6
Name: x, dtype: int64


oppure

In [11]:
df.x

0    1
1    2
2    3
3    4
4    5
Name: x, dtype: int64

Se tra parentesi quadre indichiamo una lista di colonne come `df[['group','x']]`otteniamo un nuovo DataFrame costituito da queste due colonne.

In [4]:
df[['group','x']]

Unnamed: 0,group,x
0,a,1
1,b,2
2,a,3
3,b,4
4,b,5
5,c,6


### Righe

Mentre estrarre le colonne da un `pandas.DataFrame` è semplice, l'indicizzazione delle righe è più complicata. È possibile usare un indice di `slice` per ottenere un intervallo di righe. Per esempio, per le prime 3 righe abbiamo:

In [5]:
print(df[0:3])

    idx sex group  x  y   z
0  s001   f     a  1  7  13
1  s002   f     b  2  8  14
2  s003   m     a  3  9  15


Dato che in Python una sequenza è determinata dal valore iniziale e quello finale *ma si interrompe ad n-1*, per selezionare una singola riga dobbiamo procedere nel modo seguente. Supponiamo di volere selezionare la prima riga (indice: 0): 

In [6]:
print(df[0:1])

    idx sex group  x  y   z
0  s001   f     a  1  7  13


### Selezione di righe e di colonne simultaneamente

È anche possibile selezionare righe e colonne per nome. L'attributo che dobbiamo usare per questa operazione si chiama `loc`. Si noti che anche le righe, e non solo le colonne, hanno dei nomi: il nome di ciascuna riga corrisponde al suo indice di posizione -- l'indice di riga. (In alcuni rari casi alle righe vengono assegnati dei nomi diversi dagli indici di riga).

In [7]:
df.iloc[0]

idx      s001
sex         f
group       a
x           1
y           7
z          13
Name: 0, dtype: object

L'attributo `loc` consente di indicizzare simultaneamente righe e colonne (per nome). Per esempio, esaminiamo il quinto valore della colonna `z`:

In [8]:
df.loc[4, 'z']

17

oppure, il quinto valore delle colonne `x`, `y`, `z`:

In [9]:
df.loc[4, ['x', 'y', 'z']]

x     5
y    11
z    17
Name: 4, dtype: object

Estraiamo ora le prime tre righe sulle tre colonne precedenti. Si noti l'uso di `:` per definire un intervallo di valori dell'indice di riga:

In [10]:
df.loc[0:2, ['x', 'y', 'z']]

Unnamed: 0,x,y,z
0,1,7,13
1,2,8,14
2,3,9,15


Una piccola variante della sintassi precedente si rivela molto utile:

In [11]:
keep_cols = ['group', 'x', 'y']
print(df.loc[:, keep_cols])

  group  x   y
0     a  1   7
1     b  2   8
2     a  3   9
3     b  4  10
4     b  5  11
5     c  6  12


## Filtrare righe in maniera condizionale

In precedenza abbiamo selezionato le righe in base alla loro posizione, ma è molto più comune selezionare le righe del DataFrame in base a qualche condizione logica specificata rispetto alle altre colonne. Iniziamo con un semplice esempio che riguarda una condizione sui valori di una sola colonna. Quando applichiamo un operatore logico come >, <, ==, !=, il risultato è una sequenza di valori booleani (ovvero True o False), uno per ogni riga nel dataframe, che indica se la condizione è vera o falsa per quella riga.

In [39]:
df['group'] == 'b'

0    False
1     True
2    False
3     True
4     True
Name: group, dtype: bool

Utilizzando questi valori booleani possiamo "filtrare" le righe del DataFrame:

In [12]:
df[df['group'] == 'b']

Unnamed: 0,idx,sex,group,x,y,z
1,s002,f,b,2,8,14
3,s004,f,b,4,10,16
4,s005,m,b,5,11,17


Possiamo leggere la sintassi dell'istruzione precedente come: del DataFrame `df` considera solo le righe nelle quali la colonna `group` ha valore `b`. 

Per combinare più condizioni logiche usiamo gli operatori `&` (e) e `|` (oppure). Ad esempio, selezioniamo tutte le righe per le quali il valore di `group` è `a` e il valore di `sex` è `f`:

In [41]:
print(df[(df['group'] == 'b') & (df['sex'] == 'f')])

    idx sex group  x  y   z
1  s002   f     b  2  7  12
3  s004   f     b  4  9  14


È possibile semplificare l'instruzione precedente usando `.eval()`:

In [42]:
eval_string = "group == 'b' & sex == 'f'"
df.loc[df.eval(eval_string), :]

Unnamed: 0,idx,sex,group,x,y,z
1,s002,f,b,2,7,12
3,s004,f,b,4,9,14


Dopo la virgola, `:` significa "tutte le colonne".

Ecco un altro esempio nel quale abbiamo una condizione logica che si riferisce ad una colonna (`sex`). Il secondo argomento di `loc` contiene l'elenco delle colonne che vogliamo selezionare: 

In [43]:
df.loc[df['sex'] == 'f', ['x', 'z']]

Unnamed: 0,x,z
0,1,11
1,2,12
3,4,14


In un altro esempio, escludiamo i dati del grouppo `c` e consideriamo unicamente il genere femminile; vogliamo le osservazioni relative alle variabili `x` e `y`:

In [48]:
df.loc[(df["group"] != "c") & (df["sex"] == "f"), ["x", "y"]]

Unnamed: 0,x,y
0,1,7
1,2,8
3,4,10


Oppure:

In [13]:
eval_string = "group != 'c' & sex == 'f'"
df.loc[df.eval(eval_string), ["x", "y"]]

Unnamed: 0,x,y
0,1,7
1,2,8
3,4,10


Un altro modo per filtrare le righe di tutto un DataFrame (selezionando tutte le colonne) è quello di  usare il metodo `.query()`. Per esempio:

In [18]:
df.query("group != 'c' and sex == 'f'")

Unnamed: 0,idx,sex,group,x,y,z
0,s001,f,a,1,7,13
1,s002,f,b,2,8,14
3,s004,f,b,4,10,16


Il metodo `query()` può anche essere utilizzato per selezionare le righe di un DataFrame in base alle relazioni tra le colonne. Ad esempio,

In [29]:
df.query('4*x < z')

Unnamed: 0,idx,sex,group,x,y,z
0,s001,f,a,1,7,13
1,s002,f,b,2,8,14
2,s003,m,a,3,9,15


È anche possibile fare riferimento a variabili non contenute nel DataFrame usando il carattere `@`.

In [30]:
outside_var = 9
df.query('y > @outside_var')

Unnamed: 0,idx,sex,group,x,y,z
3,s004,f,b,4,10,16
4,s005,m,b,5,11,17
5,s006,f,c,6,12,18


## Rinominare le colonne con `.rename`

È possibile rinominare tutte le colonne passando una funzione a `.rename()`. Ad esempio `df.rename(columns=str.lower)` fà in modo che i nomi delle colonne siano tutti in minuscolo. In alternativa, si crea un dizionario che specifica quali colonne devono essere mappate a cosa. Nell'esempio seguente cambiamo il nome della colonna `sex` in `gender`:

In [31]:
# rename(columns={"OLD_NAME": "NEW_NAME"})
df = df.rename(columns={"sex": "gender"})
df.head()

Unnamed: 0,idx,gender,group,x,y,z
0,s001,f,a,1,7,13
1,s002,f,b,2,8,14
2,s003,m,a,3,9,15
3,s004,f,b,4,10,16
4,s005,m,b,5,11,17
