# Manipoolare i dati con pandas

* Installare [pandas](https://pandas.pydata.org/)
* Leggere i dati da un .csv o un url
* Visualizzare il dataset
* Accedere agli elementi - righe e colonne
* Creare nuove colonne
* Estrarre informazioni a colpo d'occhio sui dati
* Eliminare righe o colonne
* Raggruppare con GroupBy
* Unire dataset diversi con le join

## Documentazione e references

* [Corso introduttivo a pandas](https://www.kaggle.com/learn/pandas) su Kaggle
* [Tutorial introduttivi](https://pandas.pydata.org/docs/getting_started/index.html#getting-started) di pandas
* [Documentazione](https://pandas.pydata.org/docs/reference/index.html#api) di pandas
* Open access book scritto dall'[inventore di pandas](https://wesmckinney.com/book/), Wes McKinney
* [Video tutorial un po' vecchi ma ben fatti](https://www.youtube.com/watch?v=ZyhVh-qRZPA&list=PL-osiE80TeTsWmV9i9c58mdDCSskIFdDS) per vedere le cose passo passo.

## Installare e importare pandas

Come abbiamo visto con numpy:
- Togliere il # per chi non ha pandas
- Importare pandas

In [1]:
# !pip install pandas
import pandas as pd

print(pd.__version__)

1.4.2


## Caricare un dataset

In [2]:
iris_dataset = pd.read_csv("https://raw.githubusercontent.com/baggiponte/statistics-for-big-data/main/lezione_08/iris.csv")

## Visualizzare un dataset

In [3]:
iris_dataset.head(2 + 3)  # <- qualunque cosa che ritorni un numero. Defaults to 5

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [4]:
iris_dataset.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


## Modificare indici e nomi delle colonne

In [5]:
iris_dataset.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

Vedere quante colonne ci sono:

In [6]:
iris_dataset.columns.shape

(5,)

Sovrascrivere i nomi delle colonne:

In [7]:
iris_dataset.columns = ["lunghezza_sepale", "larghezza_sepale", "lunghezza_petalo", "larghezza_petalo", "specie"]

In [8]:
iris_dataset.head()

Unnamed: 0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo,specie
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


E anche l'indice:

In [9]:
iris_dataset.index.name = "numero_osservazione"

In [10]:
iris_dataset.head()

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo,specie
numero_osservazione,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Possiamo anche cambiare l'indice di un DataFrame. In questo caso non ha molta utilità perché non esiste un identificatore univoco per le righe, a parte un numero. Altri indici utili potrebbero essere delle date.

In [22]:
iris_dataset.set_index("specie").head()

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo
specie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.1,3.5,1.4,0.2
Iris-setosa,4.9,3.0,1.4,0.2
Iris-setosa,4.7,3.2,1.3,0.2
Iris-setosa,4.6,3.1,1.5,0.2
Iris-setosa,5.0,3.6,1.4,0.2


## Accedere agli elementi usando l'indicizzazione (come per le liste):

Come per le liste:

In [12]:
lista = [1,2,3,4,5,6,7,8,5,1,23,12,35]
lista[1:6]

[2, 3, 4, 5, 6]

In [13]:
iris_dataset[100:105]

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo,specie
numero_osservazione,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
100,6.3,3.3,6.0,2.5,Iris-virginica
101,5.8,2.7,5.1,1.9,Iris-virginica
102,7.1,3.0,5.9,2.1,Iris-virginica
103,6.3,2.9,5.6,1.8,Iris-virginica
104,6.5,3.0,5.8,2.2,Iris-virginica


Ma possiamo usare questa notazione solo per accedere a blocchi di righe. Per accedere a una riga sola, dobbiamo fare così:

```
iris_dataset[100:101]
```

E non possiamo selezionare le colonne, ad esempio così:

```
iris_dataset[100:105, "specie"]
```

Vediamo le alternative migliori:

## Accedere alle colonne

In [21]:
iris_dataset["specie"].head()

numero_osservazione
0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: specie, dtype: object

Possiamo usare la notazione degli attributi (e.g. `iris_dataset.columns`):

In [20]:
iris_dataset.specie.head() # <- solo una alla volta

numero_osservazione
0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: specie, dtype: object

Per selezionare più di una colonna dobbiamo usare le parentesi quadre:

In [19]:
iris_dataset[["lunghezza_petalo", "lunghezza_sepale"]].head() # <- anche più di una

Unnamed: 0_level_0,lunghezza_petalo,lunghezza_sepale
numero_osservazione,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1.4,5.1
1,1.4,4.9
2,1.3,4.7
3,1.5,4.6
4,1.4,5.0


O usare il metodo `filter()`:

In [18]:
iris_dataset.filter(["lunghezza_petalo", "lunghezza_sepale"]).head()

Unnamed: 0_level_0,lunghezza_petalo,lunghezza_sepale
numero_osservazione,Unnamed: 1_level_1,Unnamed: 2_level_1
0,1.4,5.1
1,1.4,4.9
2,1.3,4.7
3,1.5,4.6
4,1.4,5.0


## Accedere sia a righe che a colonne

In [17]:
iris_dataset.loc[4]

lunghezza_sepale            5.0
larghezza_sepale            3.6
lunghezza_petalo            1.4
larghezza_petalo            0.2
specie              Iris-setosa
Name: 4, dtype: object

In [18]:
iris_dataset.loc[4, "specie"]

'Iris-setosa'

In [19]:
iris_dataset.loc[4, ["lunghezza_petalo", "larghezza_petalo"]]

lunghezza_petalo    1.4
larghezza_petalo    0.2
Name: 4, dtype: object

In [20]:
iris_dataset.loc[[2,4], "specie"]

numero_osservazione
2    Iris-setosa
4    Iris-setosa
Name: specie, dtype: object

In [21]:
iris_dataset.loc[range(10), "specie"]

numero_osservazione
0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
5    Iris-setosa
6    Iris-setosa
7    Iris-setosa
8    Iris-setosa
9    Iris-setosa
Name: specie, dtype: object

## Operazioni sulle colonne 

In [22]:
iris_dataset["area_petalo"] = iris_dataset["lunghezza_petalo"] * iris_dataset["larghezza_petalo"]

In [44]:
iris_dataset["lunghezza_petalo_per_due"] = iris_dataset["lunghezza_petalo"] * 2

In [45]:
iris_dataset.head()

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo,specie,area_petalo,lunghezza_petalo_per_due
numero_osservazione,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,5.1,3.5,1.4,0.2,Iris-setosa,0.28,2.8
1,4.9,3.0,1.4,0.2,Iris-setosa,0.28,2.8
2,4.7,3.2,1.3,0.2,Iris-setosa,0.26,2.6
3,4.6,3.1,1.5,0.2,Iris-setosa,0.3,3.0
4,5.0,3.6,1.4,0.2,Iris-setosa,0.28,2.8


In [51]:
# iris_dataset.drop(["area_petalo", "lunghezza_petalo_per_due"], axis=1)
iris_dataset.drop(columns=["area_petalo", "lunghezza_petalo_per_due"], inplace=True)

## Informazioni sul dataset

In [52]:
iris_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   lunghezza_sepale  150 non-null    float64
 1   larghezza_sepale  150 non-null    float64
 2   lunghezza_petalo  150 non-null    float64
 3   larghezza_petalo  150 non-null    float64
 4   specie            150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [23]:
descrizione_iris = iris_dataset.describe()

In [24]:
descrizione_iris

Unnamed: 0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## Eliminare righe o colonne dal dataset

Di base il metodo `.drop()` elimina le righe.

In [58]:
descrizione_iris.drop(index="count") # esempio di drop delle righe

Unnamed: 0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Così otterremmo la stessa cosa, ma non è chiaro che cosa stiamo eliminando: si tratta di una riga o di una colonna? Siate sempre espliciti!

```
descrizione_iris.drop("count") # <- poco chiaro
descrizione_iris.drop(index="count") # righe
descrizione_iris.drop(columns="lunghezza_sepale") # colonne
```

E qui vediamo come accedere ad alcune righe e colonne con i metodi che abbiamo visto prima:

In [27]:
descrizione_iris[0:1]

Unnamed: 0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo,area_petalo
count,150.0,150.0,150.0,150.0,150.0


In [28]:
descrizione_iris.lunghezza_petalo

count    150.000000
mean       3.758667
std        1.764420
min        1.000000
25%        1.600000
50%        4.350000
75%        5.100000
max        6.900000
Name: lunghezza_petalo, dtype: float64

In [29]:
descrizione_iris["lunghezza_petalo"]

count    150.000000
mean       3.758667
std        1.764420
min        1.000000
25%        1.600000
50%        4.350000
75%        5.100000
max        6.900000
Name: lunghezza_petalo, dtype: float64

In [30]:
descrizione_iris.loc["mean", ["lunghezza_petalo", "larghezza_petalo"]]

lunghezza_petalo    3.758667
larghezza_petalo    1.198667
Name: mean, dtype: float64

## Tre modi equivalenti

Alla fine combinando i metodi visti sopra possiamo fare la stessa cosa in diversi modi:

In [26]:
descrizione_iris.loc["mean", "lunghezza_petalo"]

3.758666666666666

In [27]:
descrizione_iris["lunghezza_petalo"].loc["mean"]

3.758666666666666

In [28]:
descrizione_iris.lunghezza_petalo.loc["mean"]

3.758666666666666

Un altro modo equivalente per accedere a una colonna:

In [33]:
descrizione_iris.lunghezza_petalo

count    150.000000
mean       3.758667
std        1.764420
min        1.000000
25%        1.600000
50%        4.350000
75%        5.100000
max        6.900000
Name: lunghezza_petalo, dtype: float64

In [31]:
descrizione_iris.loc[:, "lunghezza_petalo"]

count    150.000000
mean       3.758667
std        1.764420
min        1.000000
25%        1.600000
50%        4.350000
75%        5.100000
max        6.900000
Name: lunghezza_petalo, dtype: float64

Usate quello che si adegua meglio al contesto, ma è meglio restare consistenti e usare la stessa notazione.

In [35]:
descrizione_iris["lunghezza_petalo"]

count    150.000000
mean       3.758667
std        1.764420
min        1.000000
25%        1.600000
50%        4.350000
75%        5.100000
max        6.900000
Name: lunghezza_petalo, dtype: float64

## Approfondimento `[]` vs `[[]]`

Usare una o due `[]` restituisce due output diversi:

In [39]:
descrizione_iris["lunghezza_petalo"]

count    150.000000
mean       3.758667
std        1.764420
min        1.000000
25%        1.600000
50%        4.350000
75%        5.100000
max        6.900000
Name: lunghezza_petalo, dtype: float64

In [40]:
descrizione_iris[["lunghezza_petalo"]]

Unnamed: 0,lunghezza_petalo
count,150.0
mean,3.758667
std,1.76442
min,1.0
25%,1.6
50%,4.35
75%,5.1
max,6.9


E la seconda è meglio formattata. Ma che differenza c'è? Usando `["lunghezza_petalo"]` e non `"lunghezza_petalo"` dentro le prime quadre,
abbiamo passato una lista e non una stringa. Per questo pandas di base costruisce un DataFrame (una tabella a più colonne) e non una Series (una colonna sola).
Possiamo vederlo anche ispezionando i tipi:

In [36]:
print(
    type(descrizione_iris["lunghezza_petalo"]),
    type(descrizione_iris[["lunghezza_petalo"]])
)

<class 'pandas.core.series.Series'> <class 'pandas.core.frame.DataFrame'>


Che differenza fa? I DataFrame sono composti da diverse Series. La differenza è dunque minima nella maggior parte dei casi.

## Indicizzazione più "granulare"

Possiamo anche filtrare le colonne. **reminder: il primo argomento di `data.loc[]` sono sempre le righe! dopo la virgola, invece, si filtrano le colonne**.

In [34]:
iris_dataset.loc[iris_dataset["lunghezza_petalo"] > 3.758666666666666]

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo,specie,area_petalo
numero_osservazione,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
50,7.0,3.2,4.7,1.4,Iris-versicolor,6.58
51,6.4,3.2,4.5,1.5,Iris-versicolor,6.75
52,6.9,3.1,4.9,1.5,Iris-versicolor,7.35
53,5.5,2.3,4.0,1.3,Iris-versicolor,5.20
54,6.5,2.8,4.6,1.5,Iris-versicolor,6.90
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,11.96
146,6.3,2.5,5.0,1.9,Iris-virginica,9.50
147,6.5,3.0,5.2,2.0,Iris-virginica,10.40
148,6.2,3.4,5.4,2.3,Iris-virginica,12.42


Qui vediamo che possiamo filtrare sulla base di una colonna e restituire solo i valori di una o più colonne diverse:

In [41]:
iris_dataset.loc[iris_dataset["lunghezza_petalo"] > 3.758666666666666, "larghezza_petalo"]

numero_osservazione
50     1.4
51     1.5
52     1.5
53     1.3
54     1.5
      ... 
145    2.3
146    1.9
147    2.0
148    2.3
149    1.8
Name: larghezza_petalo, Length: 93, dtype: float64

In [42]:
iris_dataset.loc[iris_dataset["lunghezza_petalo"] > 3.758666666666666, ["larghezza_petalo"]]

Unnamed: 0_level_0,larghezza_petalo
numero_osservazione,Unnamed: 1_level_1
50,1.4
51,1.5
52,1.5
53,1.3
54,1.5
...,...
145,2.3
146,1.9
147,2.0
148,2.3


Ma possiamo anche inserire variabili:

In [46]:
lunghezza_media_petalo = iris_dataset["lunghezza_petalo"].mean()
lunghezza_media_petalo

3.758666666666666

In [36]:
iris_dataset.loc[iris_dataset["lunghezza_petalo"] > lunghezza_media_petalo]

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo,specie,area_petalo
numero_osservazione,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
50,7.0,3.2,4.7,1.4,Iris-versicolor,6.58
51,6.4,3.2,4.5,1.5,Iris-versicolor,6.75
52,6.9,3.1,4.9,1.5,Iris-versicolor,7.35
53,5.5,2.3,4.0,1.3,Iris-versicolor,5.20
54,6.5,2.8,4.6,1.5,Iris-versicolor,6.90
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,11.96
146,6.3,2.5,5.0,1.9,Iris-virginica,9.50
147,6.5,3.0,5.2,2.0,Iris-virginica,10.40
148,6.2,3.4,5.4,2.3,Iris-virginica,12.42


E salvare nuovi dataset una volta che siamo soddisfatti del nostro risultato:

In [48]:
versicolor_above_average = (
    iris_dataset
    .loc[iris_dataset["specie"] == "Iris-versicolor"]
    .loc[iris_dataset["lunghezza_petalo"] > lunghezza_media_petalo]
)

In [49]:
versicolor_above_average.head()

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo,specie
numero_osservazione,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
50,7.0,3.2,4.7,1.4,Iris-versicolor
51,6.4,3.2,4.5,1.5,Iris-versicolor
52,6.9,3.1,4.9,1.5,Iris-versicolor
53,5.5,2.3,4.0,1.3,Iris-versicolor
54,6.5,2.8,4.6,1.5,Iris-versicolor


E anche salvarlo localmente (== sul nostro computer):

In [50]:
versicolor_above_average.to_csv("./solo_versicolor.csv")

Il `./` indica il percorso sul nostro computer. In particolare, il `.` indica la cartella dove ci troviamo.
Se scrivessimo `../test.csv` salverebbe un `.csv` chiamato `test` nella cartella superiore (in inglese, *parent*) rispetto a dove stiamo eseguendo il codice.

## Aggregazione / GroupBy

In [66]:
iris_mean_by_species = iris_dataset.groupby("specie").mean()
iris_mean_by_species

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo
specie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.006,3.418,1.464,0.244
Iris-versicolor,5.936,2.77,4.26,1.326
Iris-virginica,6.588,2.974,5.552,2.026


In [67]:
iris_std_by_species = iris_dataset.groupby("specie").std()
iris_std_by_species

Unnamed: 0_level_0,lunghezza_sepale,larghezza_sepale,lunghezza_petalo,larghezza_petalo
specie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,0.35249,0.381024,0.173511,0.10721
Iris-versicolor,0.516171,0.313798,0.469911,0.197753
Iris-virginica,0.63588,0.322497,0.551895,0.27465


## Join

In [71]:
iris_mean_by_species.join(iris_std_by_species, lsuffix="_mean", rsuffix="_std")[["lunghezza_sepale_mean", "lunghezza_sepale_std"]]

Unnamed: 0_level_0,lunghezza_sepale_mean,lunghezza_sepale_std
specie,Unnamed: 1_level_1,Unnamed: 2_level_1
Iris-setosa,5.006,0.35249
Iris-versicolor,5.936,0.516171
Iris-virginica,6.588,0.63588
