# Pandas
`pandas` è la principale library di data analysis di Python. La feature che l'ha resa tale è l'implementazione dei *Data Frame*, e delle operazioni su di essi.

## Esercizi
Questi esercizi ci permetteranno di familiarizzare con i fondamenti della library. Se non sei sicuro della sintassi, fai riferimento al [Pandas cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).

### Esercizio
Importa la library e verificane la versione

In [None]:
import pandas as pd

print(pd.__version__)

### Esercizio
Definisci un *DataFrame* come il seguente, ed assegnalo alla variabile `df`. 

|    | a   |   b |   c |
|---:|:----|----:|----:|
|  0 | i0  |   7 |  10 |
|  1 | i1  |   8 |  11 |
|  2 | i2  |   9 |  12 |
|  3 | i3  |   0 |   0 |
|  4 | i4  |   1 |   0 |

Ispezionane poi il contenuto.

### Esercizio (bonus)
Estrai nomi di indici e colonne del *DataFrame*, ed assegnali rispettivamente alle variabili `idx` e `cols`. Ispezionane poi il tipo ed il contenuto.

### Esercizio
Il *contenuto* di un *DataFrame* può essere semplicemente estratto dal suo contesto tramite. Estrai il contenuto di `df` accedendo al suo campo `values` ed assegnandolo alla variabile `vals`. Di che tipo è `vals`? Per approfondire [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.values.html).

### Esercizio
Ottieni trasposto del *DataFrame* precedente, ed assegnalo alla variabile `df`. Ispezionane poi il contenuto.

### Esercizio
Sfruttando l'indice, estrai la riga `'a'` ed asegnala alla variabile `idx_a`. Ispezionane il tipo ed il contenuto

### Esercizio
Estrai da `df` l'elemento in posizione `['a', 0]`.

### Esercizio (bonus)
Senza sfruttare il nome dell'indice, estrai l'ultima riga di `df`. Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html).

### Esercizio
Crea un *DataFrame* come il seguente (attenzione ai *missing values*).

|    |   age | name     |
|---:|------:|:---------|
|  0 |    18 | Carl     |
|  1 |    22 | John     |
|  2 | \<NA> | Peter    |
|  3 |    19 | Margaret |
|  4 |    14 | Judy     |
|  5 |    17 |  \<NA>   |

Aggiungi poi una colonna chiamata `'id'` contenente identificativi univoci (di tipo `str`) e rendila l'indice de tuo *DataFrame*. Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html)

### Esercizio
Aggiungi al *DataFrame* una colonna dal nome `'new_col'` contenente 0 in ogni riga.

### Esercizio
Riempi i valori mancanti seguendo questa politica:
* la stringa `'Paul'`, per la colonna `'name'`
* la media della colonna, per la colonna `'age'`

### Esercizio
`pandas` offre una potentissima suite di funzionalità di input/output per dataset nei più vari formati. Iniziamo a vederne alcuni tra i più comuni. Carica in memoria il file `data/intel_1.csv`, contenente codice modello e prezzo di alcuni microprocessori, ed assegnalo alla variabile `data1`. Ispeziona le prime righe della tabella ottenuta. Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

### Esercizio
`pandas` può essere usato per combinare informazioni tra più tabelle. Informalmente possiamo immaginare che tutto ciò che è possibile fare in `SQL`, trova un corrispettivo in questa library.

Carica in memoria il file `''data/intel_2.xlsx''`, contenente hai codice del modello, numero di cores e di threads, ed assegnalo alla variabile `data2`. Ispeziona il contenuto di `data2` e scopri come ottienere un unico *DataFrame* riassuntivo con tutte le informazioni affiancate. 

Per approfondire [link](https://pandas.pydata.org/docs/user_guide/merging.html), [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html). 

### Esercizio
Dal *DataFrame* dell'esercizio precedente, elimina le righe contenenti *missing values*.
Estrai la colonna `'Price'` dal *DataFrame* precedente, e trasformane il contenuto in `float`.

Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html), [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html).

### Esercizio
Ordina il *DataFrame* dell'esercizio precedente per prezzo, dal più economico al più costoso.

### Esercizio
Nell'analisi di dati di grossa mole, ti ritroverai spesso ad avere a che fare con file di tipo [parquet](https://en.wikipedia.org/wiki/Apache_Parquet). Prova ad esempio a caricare in memoria il dataset nel file `data/mat-students.parquet`, a determinarne la dimensione e ad ispezionarne le prime righe. Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html).

### Esercizio (bonus)
Hai necessità di analizzare i dati dell'esrcizio precedente tramite da un sistema legacy che è in grado di leggere solo file in formato *json*. Come puoi risolvere questo problema? Per approfondire: [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html).

### Esercizio
Inizi ad esplorare il *DataFrame*, di che tipo sono i dati contenuti in ciascuna colonna?

### Esercizio
Prosegui nell'esplorazione, calcola statistiche descrittive (quali media, varianza, ecc) di ogni colonna numerica. Per approfondire [link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html).

### Esercizio
Inizi ad interessarti alla colonna `'internet'`, e sei curioso di sapere quali valori può assumere. Come sono distribuite le frequenze assolute su quei valori?

### Esercizio
Ti interessi ora alla colonna `'absences'`, quale range di valori può assumere? Quanti valori unici sono presenti?

### Esercizio (bonus)
Vorresti avere un'idea della distribuzione dei valori della colonna `'absences'`, tuttavia l'alto numero di valori unici ti preclude dall'agire come per l'Es. 11. Decidi quindi di effettuare un *binning* preliminare 4 gruppi di pari lunghezza, e di ispezionare poi le frequenze assolute dei valori così trasformati. Come potresti agire? Per approfondire [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html).

### Esercizio
L'analisi prosegue ed inizi a chiederti se, in media, gli studenti con accesso ad internet facciano più ore di assenza. Come puoi verificarlo? Per approfondire [link](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).

### Esercizio
Ora che hai capito come funziona il metodo `groupby`, sapresti applicarlo per ottenere media e standard deviation dell'età per ogni sesso per ogni scuola di apparteneneza?

### Esercizio
Sapendo che i dati sono stati raccolti in data 27-11-2014, vuoi ricavare l'anno di nascita degli studenti.

### Esercizio
Sapendo che le colonne `'G1', 'G2', 'G3'` riportano dei tre trimestri, rispondi alle seguenti domande.

* In quale range di valori sono espressi i voti?
* Quanti studenti sono peggiorati tra `'G1'` e `'G2'`?
* Quanti sono sempre migliorati?
* Per quanti il voto non è mai cambiato?
* Quali sono il più alto ed il più basso tra i voti medio complessivo per ogni studente?

### Esercizio
Non sei abituato a ragionare con voti tra in ventesimi. Decidi quindi di applicare una trasformazione lineare alle colonne `'G1', 'G2', 'G3'` per portare le valutazioni in trentesimi.

### Esercizio
Prosegui con l'esplorazione del dataset, cerca di ottenere *insight* interessanti e discutine con il resto della classe.