# Pandas
`pandas` è la principale library di data analysis di Python. La feature che l'ha resa tale è l'implementazione dei *Data Frame*, e delle operazioni su di essi.

## Cheatsheets

## Esercizi
Questi esercizi ci permetteranno di familiarizzare con i fondamenti della library. Se non sei sicuro della sintassi, fai riferimento al [Pandas cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).

### Esercizio
Importa la library e verificane la versione

In [1]:
import pandas as pd

print(pd.__version__)

1.2.0


### Esercizio
Definisci un *DataFrame* come il seguente, ed assegnalo alla variabile `df`. 

|    | a   |   b |   c |
|---:|:----|----:|----:|
|  0 | i0  |   7 |  10 |
|  1 | i1  |   8 |  11 |
|  2 | i2  |   9 |  12 |
|  3 | i3  |   0 |   0 |
|  4 | i4  |   1 |   0 |

Ispezionane poi il contenuto.

In [2]:
df = pd.DataFrame({"a" : ['i0' ,'i1', 'i2', 'i3', 'i4'],
                   "b" : [7, 8, 9, 0, 1],
                   "c" : [10, 11, 12, 0, 0]})
df

Unnamed: 0,a,b,c
0,i0,7,10
1,i1,8,11
2,i2,9,12
3,i3,0,0
4,i4,1,0


### Esercizio (bonus)
Estrai nomi di indici e colonne del *DataFrame*, ed assegnali rispettivamente alle variabili `idx` e `cols`. Ispezionane poi il tipo ed il contenuto.

In [3]:
idx, cols = df.index, df.columns
print(type(idx), type(cols))

<class 'pandas.core.indexes.range.RangeIndex'> <class 'pandas.core.indexes.base.Index'>


### Esercizio
Il *contenuto* di un *DataFrame* può essere semplicemente estratto dal suo contesto tramite. Estrai il contenuto di `df` accedendo al suo campo `values` ed assegnandolo alla variabile `vals`. Di che tipo è `vals`? Per approfondire [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.values.html).

In [4]:
vals = df.values
print(vals)
print(type(vals))

[['i0' 7 10]
 ['i1' 8 11]
 ['i2' 9 12]
 ['i3' 0 0]
 ['i4' 1 0]]
<class 'numpy.ndarray'>


### Esercizio
Ottieni trasposto del *DataFrame* precedente, ed assegnalo alla variabile `df`. Ispezionane poi il contenuto.

In [5]:
df = df.transpose()
df

Unnamed: 0,0,1,2,3,4
a,i0,i1,i2,i3,i4
b,7,8,9,0,1
c,10,11,12,0,0


### Esercizio
Sfruttando l'indice, estrai la riga `'a'` ed asegnala alla variabile `idx_a`. Ispezionane il tipo ed il contenuto

In [6]:
idx_a = df.loc['a']
print(type(idx_a))
idx_a

<class 'pandas.core.series.Series'>


0    i0
1    i1
2    i2
3    i3
4    i4
Name: a, dtype: object

### Esercizio
Estrai da `df` l'elemento in posizione `['a', 0]`.

In [7]:
a = df.loc['a', 0]
print(type(a))
a

<class 'str'>


'i0'

### Esercizio (bonus)
Senza sfruttare il nome dell'indice, estrai l'ultima riga di `df`. Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html).

In [8]:
df.iloc[-1]

0    10
1    11
2    12
3     0
4     0
Name: c, dtype: object

### Esercizio
Crea un *DataFrame* come il seguente (attenzione ai *missing values*).

|    |   age | name     |
|---:|------:|:---------|
|  0 |    18 | Carl     |
|  1 |    22 | John     |
|  2 | \<NA> | Peter    |
|  3 |    19 | Margaret |
|  4 |    14 | Judy     |
|  5 |    17 |  \<NA>   |

Aggiungi poi una colonna chiamata `'id'` contenente identificativi univoci (di tipo `str`) e rendila l'indice de tuo *DataFrame*. Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html)

In [9]:
df = pd.DataFrame({
    'age': [18, 22, pd.NA, 19, 14, 17],
    'name': ['Carl', 'John', 'Peter', 'Margaret', 'Judy', pd.NA]
})
df['id'] = [f'id_{i}' for i in range(len(df))]
df = df.set_index('id')
df

Unnamed: 0_level_0,age,name
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id_0,18.0,Carl
id_1,22.0,John
id_2,,Peter
id_3,19.0,Margaret
id_4,14.0,Judy
id_5,17.0,


### Esercizio
Aggiungi al *DataFrame* una colonna dal nome `'new_col'` contenente 0 in ogni riga.

In [10]:
df['new_col'] = 0
df

Unnamed: 0_level_0,age,name,new_col
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
id_0,18.0,Carl,0
id_1,22.0,John,0
id_2,,Peter,0
id_3,19.0,Margaret,0
id_4,14.0,Judy,0
id_5,17.0,,0


### Esercizio
Riempi i valori mancanti seguendo questa politica:
* la stringa `'Paul'`, per la colonna `'name'`
* la media della colonna, per la colonna `'age'`

In [11]:
df['name'].fillna('Paul', inplace=True)
df['age'].fillna(df['age'].mean(), inplace=True)
df

Unnamed: 0_level_0,age,name,new_col
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
id_0,18.0,Carl,0
id_1,22.0,John,0
id_2,18.0,Peter,0
id_3,19.0,Margaret,0
id_4,14.0,Judy,0
id_5,17.0,Paul,0


## Caricamento dati

### Esercizio
`pandas` offre una potentissima suite di funzionalità di input/output per dataset nei più vari formati. Iniziamo a vederne alcuni tra i più comuni. Carica in memoria il file `data/intel_1.csv`, contenente codice modello e prezzo di alcuni microprocessori, ed assegnalo alla variabile `data1`. Ispeziona le prime righe della tabella ottenuta. Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [12]:
data1 = pd.read_csv('../data/intel_1.csv')
data1.head()

Unnamed: 0,Model,Price
0,i9-10900K,$488
1,i9-10900KF,$463
2,i9-10900,$439
3,i9-10900E,
4,i9-10900F,$422


### Esercizio
`pandas` può essere usato per combinare informazioni tra più tabelle. Informalmente possiamo immaginare che tutto ciò che è possibile fare in `SQL`, trova un corrispettivo in questa library.

Carica in memoria il file `''data/intel_2.xlsx''`, contenente hai codice del modello, numero di cores e di threads, ed assegnalo alla variabile `data2`. Ispeziona il contenuto di `data2` e scopri come ottienere un unico *DataFrame* riassuntivo con tutte le informazioni affiancate. 

Per approfondire [link](https://pandas.pydata.org/docs/user_guide/merging.html), [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html). 

In [13]:
data2 = pd.read_excel('../data/intel_2.xlsx')
data2.head()

Unnamed: 0,Model,Cores,Threads
0,i9-10900K,10,20
1,i9-10900KF,10,20
2,i9-10900,10,20
3,i9-10900E,10,20
4,i9-10900F,10,20


In [14]:
data = pd.merge(data1,
                data2,
                left_on='Model',
                right_on='Model')
data.head()

Unnamed: 0,Model,Price,Cores,Threads
0,i9-10900K,$488,10,20
1,i9-10900KF,$463,10,20
2,i9-10900,$439,10,20
3,i9-10900E,,10,20
4,i9-10900F,$422,10,20


### Esercizio
Dal *DataFrame* dell'esercizio precedente, elimina le righe contenenti *missing values*.
Estrai la colonna `'Price'` dal *DataFrame* precedente, e trasformane il contenuto in `float`.

Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html), [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html).

In [15]:
data = data.dropna()
data['Price'] = data['Price'].apply(lambda x: float(x.replace('$', '')))
data.head()

Unnamed: 0,Model,Price,Cores,Threads
0,i9-10900K,488.0,10,20
1,i9-10900KF,463.0,10,20
2,i9-10900,439.0,10,20
4,i9-10900F,422.0,10,20
5,i9-10900T,439.0,10,20


### Esercizio
Ordina il *DataFrame* dell'esercizio precedente per prezzo, dal più economico al più costoso.

In [16]:
data.sort_values(by='Price', ascending=True)

Unnamed: 0,Model,Price,Cores,Threads
30,i3-10100F,79.0,4,8
28,i3-10100,122.0,4,8
31,i3-10100T,122.0,4,8
32,i3-10100TE,125.0,4,8
29,i3-10100E,125.0,4,8
27,i3-10300T,143.0,4,8
26,i3-10300,143.0,4,8
25,i3-10320,154.0,4,8
23,i5-10400F,155.0,6,12
24,i5-10400T,182.0,6,12


### Esercizio
Nell'analisi di dati di grossa mole, ti ritroverai spesso ad avere a che fare con file di tipo [parquet](https://en.wikipedia.org/wiki/Apache_Parquet). Prova ad esempio a caricare in memoria il dataset nel file `data/mat-students.parquet`, a determinarne la dimensione e ad ispezionarne le prime righe. Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html).

In [17]:
df = pd.read_parquet('../data/mat-students.parquet')
print(df.shape)
df.head()

(395, 33)


Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


### Esercizio (bonus)
Hai necessità di analizzare i dati dell'esrcizio precedente tramite da un sistema legacy che è in grado di leggere solo file in formato *json*. Come puoi risolvere questo problema? Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html).

In [18]:
df.to_json('../data/mat-students.json')

### Esercizio
Inizi ad esplorare il *DataFrame*, di che tipo sono i dati contenuti in ciascuna colonna?

In [19]:
df.dtypes

school        object
sex           object
age            int64
address       object
famsize       object
Pstatus       object
Medu           int64
Fedu           int64
Mjob          object
Fjob          object
reason        object
guardian      object
traveltime     int64
studytime      int64
failures       int64
schoolsup     object
famsup        object
paid          object
activities    object
nursery       object
higher        object
internet      object
romantic      object
famrel         int64
freetime       int64
goout          int64
Dalc           int64
Walc           int64
health         int64
absences       int64
G1             int64
G2             int64
G3             int64
dtype: object

### Esercizio
Prosegui nell'esplorazione, calcola statistiche descrittive (quali media, varianza, ecc) di ogni colonna numerica. Per approfondire [link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html).

In [20]:
df.describe()

Unnamed: 0,age,Medu,Fedu,traveltime,studytime,failures,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
count,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0
mean,16.696203,2.749367,2.521519,1.448101,2.035443,0.334177,3.944304,3.235443,3.108861,1.481013,2.291139,3.55443,5.708861,10.908861,10.713924,10.41519
std,1.276043,1.094735,1.088201,0.697505,0.83924,0.743651,0.896659,0.998862,1.113278,0.890741,1.287897,1.390303,8.003096,3.319195,3.761505,4.581443
min,15.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,3.0,0.0,0.0
25%,16.0,2.0,2.0,1.0,1.0,0.0,4.0,3.0,2.0,1.0,1.0,3.0,0.0,8.0,9.0,8.0
50%,17.0,3.0,2.0,1.0,2.0,0.0,4.0,3.0,3.0,1.0,2.0,4.0,4.0,11.0,11.0,11.0
75%,18.0,4.0,3.0,2.0,2.0,0.0,5.0,4.0,4.0,2.0,3.0,5.0,8.0,13.0,13.0,14.0
max,22.0,4.0,4.0,4.0,4.0,3.0,5.0,5.0,5.0,5.0,5.0,5.0,75.0,19.0,19.0,20.0


### Esercizio
Inizi ad interessarti alla colonna `'internet'`, e sei curioso di sapere quali valori può assumere. Come sono distribuite le frequenze assolute su quei valori?

In [21]:
df['internet'].value_counts()

yes    329
no      66
Name: internet, dtype: int64

### Esercizio
Ti interessi ora alla colonna `'absences'`, quale range di valori può assumere? Quanti valori unici sono presenti?

In [22]:
df['absences'].agg(['min', 'max'])

min     0
max    75
Name: absences, dtype: int64

In [23]:
len(df['absences'].unique())

34

### Esercizio (bonus)
Vorresti avere un'idea della distribuzione dei valori della colonna `'absences'`, tuttavia l'alto numero di valori unici ti preclude dall'agire come per l'Es. 11. Decidi quindi di effettuare un *binning* preliminare 4 gruppi di pari lunghezza, e di ispezionare poi le frequenze assolute dei valori così trasformati. Come potresti agire? Per approfondire [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html).

In [24]:
pd.cut(df['absences'], 4).value_counts()

(-0.075, 18.75]    375
(18.75, 37.5]       15
(37.5, 56.25]        4
(56.25, 75.0]        1
Name: absences, dtype: int64

### Esercizio
L'analisi prosegue ed inizi a chiederti se, in media, gli studenti con accesso ad internet facciano più ore di assenza. Come puoi verificarlo? Per approfondire [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).

In [25]:
df.groupby('internet')['absences'].mean()

internet
no     3.893939
yes    6.072948
Name: absences, dtype: float64

### Esercizio
Ora che hai capito come funziona il metodo `groupby`, sapresti applicarlo per ottenere media e standard deviation dell'età per ogni sesso per ogni scuola di apparteneneza?

In [26]:
df.groupby(['school', 'sex'])['age'].agg(['mean', 'std'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,std
school,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
GP,F,16.579235,1.173426
GP,M,16.457831,1.263005
MS,F,17.84,0.746101
MS,M,18.238095,0.995227


### Esercizio
Sapendo che i dati sono stati raccolti in data 27-11-2014, vuoi ricavare l'anno di nascita degli studenti.

In [27]:
2014 - df['age']

0      1996
1      1997
2      1999
3      1999
4      1998
       ... 
390    1994
391    1997
392    1993
393    1996
394    1995
Name: age, Length: 395, dtype: int64

### Esercizio
Sapendo che le colonne `'G1', 'G2', 'G3'` riportano dei tre trimestri, rispondi alle seguenti domande.

* In quale range di valori sono espressi i voti?
* Quanti studenti sono peggiorati tra `'G1'` e `'G2'`?
* Quanti sono sempre migliorati?
* Per quanti il voto non è mai cambiato?
* Quali sono il più alto ed il più basso tra i voti medio complessivo per ogni studente?

In [28]:
df[['G1', 'G2', 'G3']].agg(['min', 'max'])

Unnamed: 0,G1,G2,G3
min,3,0,0
max,19,19,20


In [29]:
df[df['G1'] > df['G2']].shape[0]

150

In [30]:
df[(df['G1'] < df['G2']) & (df['G2'] < df['G3'])].shape[0]

33

In [31]:
df[(df['G1'] == df['G2']) & (df['G2'] == df['G3'])].shape[0]

55

In [32]:
df[['G1', 'G2', 'G3']].mean(axis=1).agg(['max', 'min'])

max    19.333333
min     1.333333
dtype: float64

### Esercizio
Non sei abituato a ragionare con voti tra in ventesimi. Decidi quindi di applicare una trasformazione lineare alle colonne `'G1', 'G2', 'G3'` per portare le valutazioni in trentesimi.

In [33]:
df[['G1', 'G2', 'G3']].transform(lambda x: 30 * x / 20)

Unnamed: 0,G1,G2,G3
0,7.5,9.0,9.0
1,7.5,7.5,9.0
2,10.5,12.0,15.0
3,22.5,21.0,22.5
4,9.0,15.0,15.0
...,...,...,...
390,13.5,13.5,13.5
391,21.0,24.0,24.0
392,15.0,12.0,10.5
393,16.5,18.0,15.0
