## Pandas

Pandas è una libreria open source che fornisce due funzionalità fondamentali:
1.  la capacità di leggere un file dati strutturato (ad esempio, in formato CSV)
2.  la capacità di trattare dati in formato tabellare (DataFrame o Serie)

Anaconda include Pandas, però deve essere importata. Di conseguenza la prima istruzione sarà:

In [67]:
import pandas as pd

Adesso la libreria pandas è disponibile come `pd`.

## Formati di file

Alcuni formati di file sono più comuni da trovare:
*  CSV (comma separated values). I dati sono separati da virgole o da altri caratteri (spazio, punto e virgola)
*  XLS. I dati sono memorizzati in un foglio di calcolo di Excel
*  JSON. E' un formato pensato per scambiare dati fra computer. Non è semplice da leggere direttamente
 
Per ognuno di questi formati avremo una istruzione specifica che permette la lettura. 

Un esempio di file CSV si trova all'indirizzo [https://github.com/gdv/foundationsCS-2018/raw/master/ex-data/f1-db/results.csv](https://github.com/gdv/foundationsCS-2018/raw/master/ex-data/f1-db/results.csv) e viene riportato sotto.

```
resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
1,18,1,1,22,1,1,1,1,10,58,34:50.6,5690616,39,2,01:27.5,218.3,1
2,18,2,2,3,5,2,2,2,8,58,5.478,5696094,41,3,01:27.7,217.586,1
3,18,3,3,7,7,3,3,3,6,58,8.163,5698779,41,5,01:28.1,216.719,1
```

In questo caso la virgola è il separatore fra campi diversi e viene usato il punto decimale per dividere la parte intera da quella frazionaria.

Inoltre la prima riga riporta i nomi dei vari campi.

## File JSON

JSON è un formato testuale di dati utilizzato principalmente per lo scambio di dati. Mentre il formato CSV è pensato per rappresentare dati in formato tabellare, il formato JSON permette di rappresentare dati gerarchici e con schema flessibile.

Il seguente esempio di file JSON è rielaborato da [Wikipedia](https://it.wikipedia.org/wiki/JavaScript_Object_Notation) e riporta i dati di due persone:

```
{
	"name": "Mario",
	"surname": "Rossi",
	"birthday": {
		"day": 1,
		"month": 1,
		"year": 2000
	},
}
{
	"name": "Giovanna",
	"surname": "Verdi",
}
```

## Leggere file JSON

Per leggere un file JSON e importare i dati in un DataFrame bisogna usare l'istruzione `read_json` che richiede come argomento il nome del file da leggere, oppure l'indirizzo https(s) (*URL*) del file, nel caso in cui sia disponibile per il download.

Leggiamo adesso i dati 

In [70]:
incidenti = pd.read_json("https://git.io/fhmXn")
incidenti

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona
0,2001,69,50,1,1,
1,2001,209,171,1,0,1.0
2,2001,115,91,1,1,2.0
3,2001,187,141,1,1,3.0
4,2001,154,105,1,0,4.0
5,2001,173,118,1,0,5.0
6,2001,133,98,1,0,6.0
7,2001,186,140,1,3,7.0
8,2001,189,141,1,1,8.0
9,2001,275,178,1,1,9.0


E' buona prassi verificare visualmente, anche in modo sommario, che il DataFrame sia stato importato correttamente. Per vedere il DataFrame è sufficiente scrivere il nome del DataFrame come unica istruzione.

## Lettura dati

Il caso appena mostrato ha scaricato i dati dall'URL indicato. Un'altra possibilità è fornire il percorso completo del file da leggere. Il percorso può essere sia assoluto che parziale. Le due istruzioni che seguono hanno lo stesso effetto dell'istruzione precedente (la prima usa un percorso assoluto, la seconda un percorso relativo).

In [None]:
incidenti = pd.read_json("/home/utente/python/data/incidenti.json")

In [71]:
incidenti = pd.read_json("data/incidenti.json")

I due percorsi sono da intendersi come indicativi, in quanto il percorso reale dipende dalla cartella in cui si sono salvati i dati e da cui si è fatto partire Jupyter.

Inoltre come specificare il percorso dipende dal sistema operativo utilizzato. In particolare, sebbene Windows normalmente richieda di usare il carattere `\` (backslash) per separare le cartelle, in Jupyter bisogna usare il carattere `/` (sbarra).

## Lettura foglio di calcolo

Per leggere un foglio di calcolo di Excel, bisogna usare l'istruzione `read_excel`. Esattamente come la `read_json`, bisogna fornire un argomento che è il percorso del file o l'URL del file da importare.

In [72]:
lavoro = pd.read_excel("http://www2.census.gov/prod2/statcomp/usac/excel/CLF01.xls")
lavoro

Unnamed: 0,Areaname,STCOU,CLF010190F,CLF010190D,CLF010190N1,CLF010190N2,CLF010191F,CLF010191D,CLF010191N1,CLF010191N2,...,CLF010197N1,CLF010197N2,CLF010198F,CLF010198D,CLF010198N1,CLF010198N2,CLF010199F,CLF010199D,CLF010199N1,CLF010199N2
0,UNITED STATES,0,0,125840000,0,0,0,126346000,0,0,...,0,0,0,137673000,0,0,0,139368000,0,0
1,ALABAMA,1000,0,1888744,0,0,0,1907068,0,0,...,0,0,0,2156494,0,0,0,2140872,0,0
2,"Autauga, AL",1001,0,16742,0,0,0,16810,0,0,...,0,0,0,21844,0,0,0,22439,0,0
3,"Baldwin, AL",1003,0,46350,0,0,0,49090,0,0,...,0,0,0,69990,0,0,0,70920,0,0
4,"Barbour, AL",1005,0,11380,0,0,0,11543,0,0,...,0,0,0,12943,0,0,0,13370,0,0
5,"Bibb, AL",1007,0,7361,0,0,0,7462,0,0,...,0,0,0,7822,0,0,0,7188,0,0
6,"Blount, AL",1009,0,18980,0,0,0,19002,0,0,...,0,0,0,23846,0,0,0,23972,0,0
7,"Bullock, AL",1011,0,4367,0,0,0,4503,0,0,...,0,0,0,4580,0,0,0,4459,0,0
8,"Butler, AL",1013,0,8759,0,0,0,8644,0,0,...,0,0,0,10086,0,0,0,9884,0,0
9,"Calhoun, AL",1015,0,51020,0,0,0,51750,0,0,...,0,0,0,54870,0,0,0,54380,0,0


In questo caso ci si attende che la prima riga del file xls contenga i nomi delle colonne.

## Lettura file CSV

Buona parte dei dataset vengono distribuiti in formati CSV perchè sono semplici da produrre e da leggere e si prestano ad essere compressi.

L'istruzione da utilizzare è `read_csv` di cui possiamo vedere un esempio.

In [74]:
f1 = pd.read_csv("https://git.io/fpdnm")
f1

Unnamed: 0,resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
0,1,18,1,1,22.0,1,1.0,1,1,10.0,58,34:50.6,5690616.0,39.0,2.0,01:27.5,218.3,1
1,2,18,2,2,3.0,5,2.0,2,2,8.0,58,5.478,5696094.0,41.0,3.0,01:27.7,217.586,1
2,3,18,3,3,7.0,7,3.0,3,3,6.0,58,8.163,5698779.0,41.0,5.0,01:28.1,216.719,1
3,4,18,4,4,5.0,11,4.0,4,4,5.0,58,17.181,5707797.0,58.0,7.0,01:28.6,215.464,1
4,5,18,5,1,23.0,3,5.0,5,5,4.0,58,18.014,5708630.0,43.0,1.0,01:27.4,218.385,1
5,6,18,6,3,8.0,13,6.0,6,6,3.0,57,,,50.0,14.0,01:29.6,212.974,11
6,7,18,7,5,14.0,17,7.0,7,7,2.0,55,,,22.0,12.0,01:29.5,213.224,5
7,8,18,8,6,1.0,15,8.0,8,8,1.0,53,,,20.0,4.0,01:27.9,217.18,5
8,9,18,9,2,4.0,2,,R,9,0.0,47,,,15.0,9.0,01:28.8,215.1,4
9,10,18,10,7,12.0,18,,R,10,0.0,43,,,23.0,13.0,01:29.6,213.166,3
