## Pandas

Pandas è una libreria open source che fornisce due funzionalità fondamentali:
1.  la capacità di leggere un file dati strutturato (ad esempio, in formato CSV)
2.  la capacità di trattare dati in formato tabellare (DataFrame o Serie)

Anaconda include Pandas, però deve essere importata. Di conseguenza la prima istruzione sarà:

In [2]:
import pandas as pd

Adesso la libreria pandas è disponibile come `pd`.

## Formati di file

Alcuni formati di file sono più comuni da trovare:
*  CSV (comma separated values). I dati sono separati da virgole o da altri caratteri (spazio, punto e virgola)
*  XLS. I dati sono memorizzati in un foglio di calcolo di Excel
*  JSON. E' un formato pensato per scambiare dati fra computer. Non è semplice da leggere direttamente
 
Per ognuno di questi formati avremo una istruzione specifica che permette la lettura. 

Un esempio di file CSV si trova all'indirizzo [https://github.com/gdv/foundationsCS-2018/raw/master/ex-data/f1-db/results.csv](https://github.com/gdv/foundationsCS-2018/raw/master/ex-data/f1-db/results.csv) e viene riportato sotto.

```
resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
1,18,1,1,22,1,1,1,1,10,58,34:50.6,5690616,39,2,01:27.5,218.3,1
2,18,2,2,3,5,2,2,2,8,58,5.478,5696094,41,3,01:27.7,217.586,1
3,18,3,3,7,7,3,3,3,6,58,8.163,5698779,41,5,01:28.1,216.719,1
```

In questo caso la virgola è il separatore fra campi diversi e viene usato il punto decimale per dividere la parte intera da quella frazionaria.

Inoltre la prima riga riporta i nomi dei vari campi.

## File JSON

JSON è un formato testuale di dati utilizzato principalmente per lo scambio di dati. Mentre il formato CSV è pensato per rappresentare dati in formato tabellare, il formato JSON permette di rappresentare dati gerarchici e con schema flessibile.

Il seguente esempio di file JSON è rielaborato da [Wikipedia](https://it.wikipedia.org/wiki/JavaScript_Object_Notation) e riporta i dati di due persone:

```
{
	"name": "Mario",
	"surname": "Rossi",
	"birthday": {
		"day": 1,
		"month": 1,
		"year": 2000
	},
}
{
	"name": "Giovanna",
	"surname": "Verdi",
}
```

## Leggere file JSON

Per leggere un file JSON e importare i dati in un DataFrame bisogna usare l'istruzione `read_json` che richiede come argomento il nome del file da leggere, oppure l'indirizzo https(s) (*URL*) del file, nel caso in cui sia disponibile per il download.

Leggiamo adesso i dati 

In [3]:
incidenti = pd.read_json("http://dati.comune.milano.it/dataset/9f7bcc9c-20a4-4e48-a7cd-99b15ed11102/resource/38d2171d-1067-4252-9f96-02867a2cc617/download/ds177_trafficotrasporti_incidenti_stradali_persone_infortunate_mese_zona_2001-2016.json")
incidenti

Unnamed: 0,Anno,Feriti,Incidenti,Mese,Morti,Zona
0,2001,69,50,1,1,
1,2001,209,171,1,0,1.0
2,2001,115,91,1,1,2.0
3,2001,187,141,1,1,3.0
4,2001,154,105,1,0,4.0
5,2001,173,118,1,0,5.0
6,2001,133,98,1,0,6.0
7,2001,186,140,1,3,7.0
8,2001,189,141,1,1,8.0
9,2001,275,178,1,1,9.0


E' buona prassi verificare visualmente, anche in modo sommario, che il DataFrame sia stato importato correttamente. Per vedere il DataFrame è sufficiente scrivere il nome del DataFrame come unica istruzione.

## Lettura dati

Il caso appena mostrato ha scaricato i dati dall'URL indicato. Un'altra possibilità è fornire il percorso completo del file da leggere. Il percorso può essere sia assoluto che parziale. Le due istruzioni che seguono hanno lo stesso effetto dell'istruzione precedente (la prima usa un percorso assoluto, la seconda un percorso relativo).

In [None]:
incidenti = pd.read_json("/home/utente/python/data/incidenti.json")

In [5]:
incidenti = pd.read_json("data/incidenti.json")

I due percorsi sono da intendersi come indicativi, in quanto il percorso reale dipende dalla cartella in cui si sono salvati i dati e da cui si è fatto partire Jupyter.

Inoltre come specificare il percorso dipende dal sistema operativo utilizzato. In particolare, sebbene Windows normalmente richieda di usare il carattere `\` (backslash) per separare le cartelle, in Jupyter bisogna usare il carattere `/` (sbarra).

## Lettura foglio di calcolo

Per leggere un foglio di calcolo di Excel, bisogna usare l'istruzione `read_excel`. Esattamente come la `read_json`, bisogna fornire un argomento che è il percorso del file o l'URL del file da importare.

In [7]:
lavoro = pd.read_excel("http://www2.census.gov/prod2/statcomp/usac/excel/CLF01.xls")
lavoro

Unnamed: 0,Areaname,STCOU,CLF010190F,CLF010190D,CLF010190N1,CLF010190N2,CLF010191F,CLF010191D,CLF010191N1,CLF010191N2,...,CLF010197N1,CLF010197N2,CLF010198F,CLF010198D,CLF010198N1,CLF010198N2,CLF010199F,CLF010199D,CLF010199N1,CLF010199N2
0,UNITED STATES,0,0,125840000,0,0,0,126346000,0,0,...,0,0,0,137673000,0,0,0,139368000,0,0
1,ALABAMA,1000,0,1888744,0,0,0,1907068,0,0,...,0,0,0,2156494,0,0,0,2140872,0,0
2,"Autauga, AL",1001,0,16742,0,0,0,16810,0,0,...,0,0,0,21844,0,0,0,22439,0,0
3,"Baldwin, AL",1003,0,46350,0,0,0,49090,0,0,...,0,0,0,69990,0,0,0,70920,0,0
4,"Barbour, AL",1005,0,11380,0,0,0,11543,0,0,...,0,0,0,12943,0,0,0,13370,0,0
5,"Bibb, AL",1007,0,7361,0,0,0,7462,0,0,...,0,0,0,7822,0,0,0,7188,0,0
6,"Blount, AL",1009,0,18980,0,0,0,19002,0,0,...,0,0,0,23846,0,0,0,23972,0,0
7,"Bullock, AL",1011,0,4367,0,0,0,4503,0,0,...,0,0,0,4580,0,0,0,4459,0,0
8,"Butler, AL",1013,0,8759,0,0,0,8644,0,0,...,0,0,0,10086,0,0,0,9884,0,0
9,"Calhoun, AL",1015,0,51020,0,0,0,51750,0,0,...,0,0,0,54870,0,0,0,54380,0,0


In questo caso ci si attende che la prima riga del file xls contenga i nomi delle colonne.

## Lettura file CSV

Buona parte dei dataset vengono distribuiti in formati CSV perchè sono semplici da produrre e da leggere e si prestano ad essere compressi.

L'istruzione da utilizzare è `read_csv` di cui possiamo vedere un esempio.

In [7]:
f1 = pd.read_csv("https://git.io/fpdnm")

f1

Unnamed: 0,resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
0,1,18,1,1,22.0,1,1.0,1,1,10.0,58,34:50.6,5690616.0,39.0,2.0,01:27.5,218.3,1
1,2,18,2,2,3.0,5,2.0,2,2,8.0,58,5.478,5696094.0,41.0,3.0,01:27.7,217.586,1
2,3,18,3,3,7.0,7,3.0,3,3,6.0,58,8.163,5698779.0,41.0,5.0,01:28.1,216.719,1
3,4,18,4,4,5.0,11,4.0,4,4,5.0,58,17.181,5707797.0,58.0,7.0,01:28.6,215.464,1
4,5,18,5,1,23.0,3,5.0,5,5,4.0,58,18.014,5708630.0,43.0,1.0,01:27.4,218.385,1
5,6,18,6,3,8.0,13,6.0,6,6,3.0,57,,,50.0,14.0,01:29.6,212.974,11
6,7,18,7,5,14.0,17,7.0,7,7,2.0,55,,,22.0,12.0,01:29.5,213.224,5
7,8,18,8,6,1.0,15,8.0,8,8,1.0,53,,,20.0,4.0,01:27.9,217.18,5
8,9,18,9,2,4.0,2,,R,9,0.0,47,,,15.0,9.0,01:28.8,215.1,4
9,10,18,10,7,12.0,18,,R,10,0.0,43,,,23.0,13.0,01:29.6,213.166,3


# `Read_csv` in dettaglio

## `read_csv` 

La `read_csv` è una istruzione centrale in pandas: sarà la modalità principale con cui leggeremo i dati da importare in un DataFrame. Per questo motivo dedicheremo spazio a descrivere diverse opzioni a disposizione.
Ogni volta che vogliamo leggere un nuovo file di dati, dobbiamo capire quali opzioni dobbiamo utilizzare.

In [8]:
nani = pd.read_csv("data/7-nani.csv")
nani

Unnamed: 0,Brontolo
0,Cucciolo
1,Dotto
2,Eolo
3,Gongolo
4,Mammolo
5,Pisolo


Il file dati `7-nani.csv` non contiene una riga con i nomi di colonna e contiene solo i nomi dei nani. Di conseguenza la `read_csv` senza opzioni non permette di leggere correttamente i dati: infatti nel DataFrame `nani`, il nome della colonna diventa `Brontolo` (che invece dovrebbe essere un dato), e `nani` è un DataFrame sebbene contenga solo una colonna di dati (quindi dovrebbe essere una Serie).

## `names`

L'opzione `names` permette di specificare i nomi delle colonne da leggere. L'opzione permette di specificare la lista dei nomi da utilizzare. Inoltre assume che la prima riga del file contenga dei dati da inserire nel DataFrame.

In [9]:
nani = pd.read_csv("data/7-nani.csv", 
                   names = ['Nome'])
nani

Unnamed: 0,Nome
0,Brontolo
1,Cucciolo
2,Dotto
3,Eolo
4,Gongolo
5,Mammolo
6,Pisolo


## `squeeze`

Per ottenere una Serie dal file `7-nani.csv` dobbiamo usare l'opzione `squeeze`, che è dedicata allo scopo: se i dati presentano una sola colonna, il risultato è una Serie.

In [10]:
nani = pd.read_csv("data/7-nani.csv", 
                   names = ['Nome'], squeeze = True)
nani

0    Brontolo
1    Cucciolo
2       Dotto
3        Eolo
4     Gongolo
5     Mammolo
6      Pisolo
Name: Nome, dtype: object

## `delimiter`

La virgola è il carattere più utilizzato per separare i campi, ma non è l'unico. Un altro carattere utilizzato spesso il il punto e virgole (`;`), soprattutto per i file ottenuti esportando da Excel.
Questo delimitatore è i default in Italia, perchè la virgola viene utilizzata per separare la parte intera di un numero dalla parte frazionaria (ad esempio *12,345*).

L'opzione `delimiter` (o l'equivalente `sep`) permettono di specificare il carattere da usare come separatore. Vediamo un esempio.

In [13]:
iscritti = pd.read_csv("data/2009-2013_iscritti.csv", delimiter = ';')
iscritti

Unnamed: 0,ANNO_ACCADEMICO,COD_ATENEO,NOME_ATENEO,CODICE_ISCRIZIONE,DESCRIZIONE_ISCRIZIONE,ISCRITTI_LAUREA,ISCRITTI_DOTTORATO,ISCRITTI_SPECIALIZZAZIONE,ISCRITTI_MASTER_PERFEZIONAMENTO
0,2008-2009,101,Torino - Università degli studi,T1,Totale iscritti,63494.0,1255.0,1982.0,1227.0
1,2008-2009,102,Torino - Politecnico,T1,Totale iscritti,25399.0,689.0,30.0,260.0
2,2008-2009,201,Vercelli - Università degli studi del Piemonte...,T1,Totale iscritti,9470.0,182.0,267.0,175.0
3,2008-2009,401,Bra (CN) - Università di Scienze Gastronomiche,T1,Totale iscritti,229.0,0.0,0.0,24.0
4,2008-2009,701,Aosta - Università degli studi,T1,Totale iscritti,1083.0,0.0,22.0,13.0
5,2008-2009,1001,Genova - Università degli studi,T1,Totale iscritti,35151.0,1030.0,1306.0,626.0
6,2008-2009,1201,"Castellanza - Università ""Carlo Cattaneo""",T1,Totale iscritti,1872.0,14.0,0.0,490.0
7,2008-2009,1202,Varese - Università dell' Insubria,T1,Totale iscritti,9240.0,237.0,407.0,115.0
8,2008-2009,1301,"Novedrate (CO) - Università telematica ""e-Campus""",T1,Totale iscritti,2219.0,0.0,0.0,2.0
9,2008-2009,1501,Milano - Università degli studi,T1,Totale iscritti,58093.0,1548.0,3072.0,1513.0


In casi più rari, è possibile specificare anche stringhe di separazione, invece di singoli caratteri.  Un caso particolare si ha quando il separatore è formato da una sequenza di spazi e/o tabulazione: ciò corrisponde all'opzione `delim_whitespace`.

## `skiprows`

In alcuni file di dati le prime righe vengono utilizzate per scrivere dei commenti (tipicamente una descrizione dei dati). L'opzione `skiprows` permette di indicare quante righe del file contengono commenti e devono essere saltate in fase di lettura. Questa opzione normalmente viene utilizzata insieme all'opzione `names` per indicare i nomi delle colonne.

In [14]:
kidney = pd.read_csv("data/kidney.txt",
                    delim_whitespace = True,
                    skiprows = 17,
                    names = ['paziente', 'tempo', 'genere', 'età', 'tipo', 'diagnosi'])
kidney

Unnamed: 0,paziente,tempo,genere,età,tipo,diagnosi
1,8,1,28,1,3,2.3
1,16,1,28,1,3,2.3
2,23,1,48,2,0,1.9
2,13,0,48,2,0,1.9
3,22,1,32,1,3,1.2
3,28,1,32,1,3,1.2
4,447,1,31,2,3,0.5
4,318,1,32,2,3,0.5
5,30,1,10,1,3,1.5
5,12,1,10,1,3,1.5


Un'alternativa, nel caso in cui il commento contenga i nomi delle colonne, è l'opzione `header` che permette di specificare il numero di riga che contiene i nomi delle colonne.

## Dati Europei

Abbiamo accennato in precedenza al fatto che in Italia (e in Europa) si preferisca utilizzare la virgola per separare la parte intera da quella frazionaria di un numero.

Un'altra differenza fra lo standard americano e quello europeo è nel separatore delle migliaia: in Europa si usa lo spazio oppure il punto (*67.891.123*), mentre lo standard americano è la virgola (*67,891,123*).

Per gestire entrambi questi casi, abbiamo rispettivamente le opzioni `decimal` e `thousands`. Per quest'ultima opzione, il valore di default è la stringa vuota: di conseguenza l'opzione `thousands` deve essere utilizzata anche per numeri che usano la virgola come separatore delle migliaia.

In [15]:
gettito = pd.read_csv("data/2009-2013_gettito_contribuzione.csv", delimiter = ';', decimal = ',')
gettito

Unnamed: 0,ANNO_SOLARE,COD_Ateneo,NOME_ATENEO,CODICE_GETTITO,DESCRIZIONE_GETTITO,CONSUNTIVO
0,2008,101,Torino - Università degli studi,01,"Gettito relativo a corsi di laurea, corsi di l...",64704277.0
1,2008,101,Torino - Università degli studi,02,Gettito relativo a corsi di dottorato,5633.0
2,2008,101,Torino - Università degli studi,03,Gettito relativo a corsi di specializzazione,2154686.0
3,2008,101,Torino - Università degli studi,04,Gettito relativo a corsi di perfezionamento e ...,1441594.0
4,2008,101,Torino - Università degli studi,04a,Gettito relativo ad altri corsi,209748.0
5,2008,101,Torino - Università degli studi,05,Tassa regionale per il DSU (se riscossa da uni...,0.0
6,2008,101,Torino - Università degli studi,06a,"Gettito esami di stato, tirocini e test pre-im...",751038.0
7,2008,101,Torino - Università degli studi,07,Altre entrate non necessarie per l'iscrizione,3222493.0
8,2008,101,Torino - Università degli studi,08,"Altro da studenti, non costituente gettito",919166.0
9,2008,102,Torino - Politecnico,01,"Gettito relativo a corsi di laurea, corsi di l...",22492524.0


## File di grandi dimensioni

I file di dati di grandi dimensioni presentano due problematiche distinte:
1.  i tempi di calcolo si allungano;
2.  le procedure usate da pandas per inferire l'organizzazione dei dati (in particolare i tipi delle colonne) non sono precise.

Ancora una volta, abbiamo alcune opzioni di pandas per limitare questi problemi:
1.  `nrows`: specifica il numero di righe del file che devono essere lette;
2.  `low_memory = False`: permette a pandas di usare una maggiore quantità di memoria per inferire l'organizzazione dei dati.

Un'altra caratteristica di pandas che lo rende adatto alla gestione di dati di grandi dimensioni è il fatto che riesce a leggere file compressi. Vediamo una lettura di file di grandi dimensioni che non utilizza nessuna delle opzioni indicate e vediamo l'avviso che ci segnala un possibile problema in fase di inferenza dei tipi di dati.

In [17]:
bandi = pd.read_csv("data/scpbandinew.csv.bz2")

## File di grandi dimensioni (2)

Vediamo adesso la lettura dello stesso file, utilizzando l'opzione `low_memory`.

In [18]:
bandi = pd.read_csv("data/scpbandinew.csv.bz2", low_memory = False)
bandi

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,imp_sicurezza,imp_lotto,cup,cpv,categoria_prevalente,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,url_bando,data_pubblicazione_scp
0,59433,Recupero dell'immobile di proprietà comunale d...,"""0""",,,381544.90,1,,,"""83503450153""",...,22080.66,381544.90,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
1,59434,Realizzazione del collettore fognario e impian...,"""0""",,,748862.50,1,,,"""81003550522""",...,6197.48,748862.50,,"""45232400""",OG6,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
2,59435,Ristrutturazione Cimitero nella frazione di Cà...,"""0""",,,275241.04,1,,,,...,13763.58,275241.04,,"""45215400""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-27T22:00:00.000Z"""
3,59436,TELEPOSTO MONTE SETTEPANI - MIGLIORAMENTO DEL...,"""0""",,,184375.11,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,5370.15,184375.11,,"""45512100""",OG11,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
4,59437,CIMA PAGANELLA - RISTRUTTURAZIONE STAZIONE MET...,"""0""",,,149772.50,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,4648.11,149772.50,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
5,59438,C.A.M.M. MONTE CIMONE - CONDUZIONE E MANUTENZI...,"""0""",,,152871.24,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,4586.14,152871.24,,"""45512100""",OS4,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
6,59439,LINATE - RISTRUTTURAZIONE INTERNA AUTOREPARTO ...,"""0""",,,107454.02,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,2169.12,107454.02,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
7,59440,PIACENZA - COMPLETAMENTO DELLE OPERE DI REALIZ...,"""0""",,,185924.48,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,5415.28,185924.48,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
8,59441,LAVORI DI SISTEMAZIONE ARCHITETTONICA DI PIAZZ...,"""0""",,,137472.17,1,Giorgi Stefano,GRGSFN67D13G687S,"""00262320419""",...,5852.37,137472.17,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-21T22:00:00.000Z"""
9,59442,"Lavori in Comune di Borgo S. Giacomo, loc. Acq...","""0""",,,426593.40,1,,,,...,10329.14,426593.40,,"""45211000""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-24T22:00:00.000Z"""


Con `nrows`

In [20]:
bandi = pd.read_csv("data/scpbandinew.csv.bz2", nrows=100)
bandi

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,imp_sicurezza,imp_lotto,cup,cpv,categoria_prevalente,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,url_bando,data_pubblicazione_scp
0,59433,Recupero dell'immobile di proprietà comunale d...,"""0""",,,381544.90,1,,,"""83503450153""",...,22080.66,381544.90,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
1,59434,Realizzazione del collettore fognario e impian...,"""0""",,,748862.50,1,,,"""81003550522""",...,6197.48,748862.50,,"""45232400""",OG6,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
2,59435,Ristrutturazione Cimitero nella frazione di Cà...,"""0""",,,275241.04,1,,,,...,13763.58,275241.04,,"""45215400""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-27T22:00:00.000Z"""
3,59436,TELEPOSTO MONTE SETTEPANI - MIGLIORAMENTO DEL...,"""0""",,,184375.11,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,5370.15,184375.11,,"""45512100""",OG11,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
4,59437,CIMA PAGANELLA - RISTRUTTURAZIONE STAZIONE MET...,"""0""",,,149772.50,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,4648.11,149772.50,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
5,59438,C.A.M.M. MONTE CIMONE - CONDUZIONE E MANUTENZI...,"""0""",,,152871.24,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,4586.14,152871.24,,"""45512100""",OS4,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
6,59439,LINATE - RISTRUTTURAZIONE INTERNA AUTOREPARTO ...,"""0""",,,107454.02,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,2169.12,107454.02,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
7,59440,PIACENZA - COMPLETAMENTO DELLE OPERE DI REALIZ...,"""0""",,,185924.48,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,5415.28,185924.48,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
8,59441,LAVORI DI SISTEMAZIONE ARCHITETTONICA DI PIAZZ...,"""0""",,,137472.17,1,Giorgi Stefano,GRGSFN67D13G687S,"""00262320419""",...,5852.37,137472.17,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-21T22:00:00.000Z"""
9,59442,"Lavori in Comune di Borgo S. Giacomo, loc. Acq...","""0""",,,426593.40,1,,,,...,10329.14,426593.40,,"""45211000""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-24T22:00:00.000Z"""


L'opzione `nrows` è molto utile in fase iniziale di sviluppo, perchè permette di controllare la correttezza del codice su dati facilmente gestibili. Però non può essere usata per fare un'analisi dei dati.

La strategia migliore è usarla solo nelle prime fasi di sviluppo e solo se i dati sono troppo difficoltosi da gestire a causa della loro dimensione.

# Ancora `read_csv`

## Gestione date e orari

La lettura di date e orari presenta diverse problematiche. In particolare:

1.  Oltre agli usuali concetti di data e orario, abbiamo anche il concetto di *timestamp* (detto anche istante temporale o datetime), che è essenzialmente formato da una data e un orario (ore, minuti, secondi e spesso anche frazione di secondo).
2.  La data può essere in formato Europeo (giorno/mese/anno) o americano (mese/giorno/anno).
3.  Il separatore fra giorno, mese, anno non è univoco. Normalmente si usa `/` o `-`, ma altri caratteri sono talvolta utilizzati (ad esempio `.`).
4.  L'indicazione di un timestamp è precisa solo quando viene specificato anche il fuso orario di riferimento (se il file è ottenuto come output di un programma, il fuso orario di default è `UTC` che corrisponde al fuso orario di Greenwich).

Tutti questi aspetti contribuiscono a rendere la lettura di date e ore particolamente difficoltosa.

## `parse_dates`

L'opzione `parse_dates` esplicita quali colonne contengono date (o timestamp).

In [24]:
strutture = pd.read_csv("data/2009-2013_strutture.csv", delimiter = ';',
                       parse_dates = [0] )
strutture

Unnamed: 0,DATA,COD_Ateneo,NOME_ATENEO,CODICE_STRUTTURA,DESCRIZIONE_STRUTTURA,NUMERO_STRUTTURE,POSTI_DISPONIBILI
0,2009-01-11,101,Torino - Università degli studi,01,Mense,0.0,0
1,2009-01-11,101,Torino - Università degli studi,02,Residenze,0.0,0
2,2009-01-11,102,Torino - Politecnico,01,Mense,0.0,0
3,2009-01-11,102,Torino - Politecnico,02,Residenze,0.0,0
4,2009-01-11,201,Vercelli - Università degli studi del Piemonte...,01,Mense,0.0,0
5,2009-01-11,201,Vercelli - Università degli studi del Piemonte...,02,Residenze,0.0,0
6,2009-01-11,401,Bra (CN) - Università di Scienze Gastronomiche,01,Mense,0.0,0
7,2009-01-11,401,Bra (CN) - Università di Scienze Gastronomiche,02,Residenze,0.0,0
8,2009-01-11,701,Aosta - Università degli studi,01,Mense,0.0,0
9,2009-01-11,701,Aosta - Università degli studi,02,Residenze,0.0,0


Il comportamento di default è però leggere le date in formato americano. Per il formato europeo dobbiamo utilizzare l'opzione `dayfirst`. Quindi l'istruzione corretta diventa:

In [25]:
strutture = pd.read_csv("data/2009-2013_strutture.csv", delimiter = ';',
                       parse_dates = [0], dayfirst = True )
strutture

Unnamed: 0,DATA,COD_Ateneo,NOME_ATENEO,CODICE_STRUTTURA,DESCRIZIONE_STRUTTURA,NUMERO_STRUTTURE,POSTI_DISPONIBILI
0,2009-11-01,101,Torino - Università degli studi,01,Mense,0.0,0
1,2009-11-01,101,Torino - Università degli studi,02,Residenze,0.0,0
2,2009-11-01,102,Torino - Politecnico,01,Mense,0.0,0
3,2009-11-01,102,Torino - Politecnico,02,Residenze,0.0,0
4,2009-11-01,201,Vercelli - Università degli studi del Piemonte...,01,Mense,0.0,0
5,2009-11-01,201,Vercelli - Università degli studi del Piemonte...,02,Residenze,0.0,0
6,2009-11-01,401,Bra (CN) - Università di Scienze Gastronomiche,01,Mense,0.0,0
7,2009-11-01,401,Bra (CN) - Università di Scienze Gastronomiche,02,Residenze,0.0,0
8,2009-11-01,701,Aosta - Università degli studi,01,Mense,0.0,0
9,2009-11-01,701,Aosta - Università degli studi,02,Residenze,0.0,0


## Valori mancanti

L'utilizzo di valori specifici, detti *sentinelle*, per rappresentare valori mancanti è piuttosto frequente, ma è dipendente dal contesto. In questi casi è opportuno usare alcune opzioni in fase di lettura:
1.  `na_values`: una lista di stringhe che vengono interpretati come valori mancanti
2.  `keep_default_na`: un booleano che indica se  continuare ad interpretare le stringhe `NaN`, `nan`, `N/A`, `null` per rappresentare valori mancanti.

Quando queste opzioni vengono utilizzate, è opportuno aggiungere anche `verbose = True`: in questo modo vengono calcolati il numero di valori mancanti nelle colonne non-numeriche. Ciò permette di controllare che le stringhe che codificano i valori mancanti non abbiano introdotti altri problemi.

La presenza di valori mancanti è un aspetto fondamentale nella lettura dei file di dati: purtroppo ciò viene spesso sottovalutato.

## Encoding

L'encoding è una questione tecnica che indica come caratteri e simboli siano rappresentati dal computer come numero binario (sequenza di 0 e 1).

Purtroppo, l'encoding più utilizzato (ASCII) non permette di rappresentare le lettere accentate ed altri caratteri utilizzati in lingue diverse dall'Inglese. Ciò comporta alcuni problemi nel leggere file di dati con caratteri accentati che possono essere superati solo specificando l'encoding utilizzato nella creazione del file: per quanto riguarda i file con scritte in Italiano, gli encoding normalmente utilizzati sono `iso-8859-1` e `utf-8`.

Quando si cerca di leggere un file usando un encoding errato, si incorre in un errore che viene immediatamente segnalato da pandas con un messaggio `can't decode byte` oppure `UnicodeDecodeError`. Vediamo adesso un caso in cui è necessario specificare l'encoding.

In [32]:
num_interventi = pd.read_csv("data/2009-2013_numero_interventi.csv", delimiter = ';')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe0 in position 18: invalid continuation byte

In [33]:
num_interventi = pd.read_csv("data/2009-2013_numero_interventi.csv", delimiter = ';', encoding = 'iso-8859-1')

## Esempio

Nel file `data/latest_bid.csv`, le colonne `decreto_data` e `decreto_data_datetime` contengono delle date.

In [39]:
bid = pd.read_csv("data/latest_bid.csv", 
                  parse_dates = ['decreto_data', 'decreto_data_datetime'])
bid

Unnamed: 0,m_bene,s_bene,genere,regione,provincia,comune,indirizzo,ufficio,distretto,procedura,...,decreto_numero,decreto_anno,decreto_data,decreto_data_datetime,NomeComuneValidato,NomeRegioneValidato,CODISTAT,NomeProvinciaValidato,CODISTATPROV,CODISTATREG
0,I-CE-297247,I-CE-37295-S,immobili,Campania,Caserta,Casal di Principe,"VI BOCCACCIO, 5",Procura della Repubblica,SANTA MARIA CAPUA VETERE,9/1998,...,29470,2015,2015-10-08,1993-09-20,CASAL DI PRINCIPE,CAMPANIA,61019.0,Caserta,61,15
1,I-RC-319551,I-RC-9620-S,immobili,Calabria,Reggio Calabria,Reggio di Calabria,VIA MISSORI 25,Tribunale,Reggio Calabria,73/2010,...,32820,2018,2018-07-16,1997-12-15,REGGIO DI CALABRIA,CALABRIA,80063.0,Reggio di Calabria,80,18
2,I-RM-217556,I-RM-9030-S,immobili,Lazio,Roma,Roma,Via Roccabernarda n. 15,Tribunale,Roma,98/2008,...,32476,2018,2018-12-07,2008-11-26,ROMA,LAZIO,58091.0,Roma,58,12
3,I-RM-217529,I-RM-9028-S,immobili,Lazio,Roma,Roma,Via Roccabernarda n. 15,Tribunale,Roma,98/2008,...,32476,2018,2018-12-07,2008-11-26,ROMA,LAZIO,58091.0,Roma,58,12
4,I-MI-161404,I-MI-16266-S,immobili,Lombardia,Milano,Milano,VIA VALLAZZE N.26,Tribunale,MILANO,38/2005,...,421,2008,2008-10-13,1999-07-08,MILANO,LOMBARDIA,15146.0,Milano,15,3
5,I-CE-297644,I-CE-37338-S,immobili,Campania,Caserta,Santa Maria la Fossa,LOCALIT? SCARRUPATA,Procura della Repubblica,Santa Maria Capua Vetere,9/1998,...,11055,2015,2015-03-26,1995-11-12,SANTA MARIA LA FOSSA,CAMPANIA,61084.0,Caserta,61,15
6,I-CE-297645,I-CE-37339-S,immobili,Campania,Caserta,Santa Maria la Fossa,LOCALITÀ SCARRUPATA,Procura della Repubblica,SANTA MARIA CAPUA VETERE,9/1998,...,11055,2015,2015-03-26,1997-12-11,SANTA MARIA LA FOSSA,CAMPANIA,61084.0,Caserta,61,15
7,I-CE-297646,I-CE-37340-S,immobili,Campania,Caserta,Santa Maria la Fossa,LOCALITÀ SCARRUPATA,Procura della Repubblica,SANTA MARIA CAPUA VETERE,9/1998,...,11055,2015,2015-03-26,1993-12-17,SANTA MARIA LA FOSSA,CAMPANIA,61084.0,Caserta,61,15
8,I-CE-297647,I-CE-37341-S,immobili,Campania,Caserta,Santa Maria la Fossa,LOCALITÀ SCARRUPATA,Procura della Repubblica,SANTA MARIA CAPUA VETERE,9/1998,...,11055,2015,2015-03-26,1996-07-18,SANTA MARIA LA FOSSA,CAMPANIA,61084.0,Caserta,61,15
9,I-CE-297648,I-CE-37342-S,immobili,Campania,Caserta,Santa Maria la Fossa,LOCALITÀ SCARRUPATA,Procura della Repubblica,SANTA MARIA CAPUA VETERE,9/1998,...,11055,2015,2015-03-26,2004-01-12,SANTA MARIA LA FOSSA,CAMPANIA,61084.0,Caserta,61,15


## Esempio 2

Il file `data/farmaci.csv.gz` presenta diverse caratteristiche che devono essere gestite opportunamente nella `read_csv`:
*  il delimitatore è il punto e virgola;
*  l'encoding è `iso-8859-1`;
*  il file ha grandi dimensioni;
*  alcune colonne contengono una data e la data `9999-12-31` rappresenta un valore mancante

In [46]:
farmaci = pd.read_csv("data/farmaci.csv.gz", 
                      delimiter = ';',
                      encoding = 'iso-8859-1',
                      low_memory = False, 
                      na_values = '9999-12-31',
                  parse_dates = ['INIZIO_VALIDITA', 
                                 'FINE_VALIDITA'.
                                'DATAFINE_COMMERCIO'])
farmaci

Unnamed: 0,TIPO,PROGRESSIVO_DM_ASS,DATA_PRIMA_PUBBLICAZIONE,DM_RIFERIMENTO,GRUPPO_DM_SIMILI,ISCRIZIONE_REPERTORIO,INIZIO_VALIDITA,FINE_VALIDITA,FABBRICANTE_ASSEMBLATORE,CODICE_FISCALE,PARTITA_IVA_VATNUMBER,CODICE_CATALOGO_FABBR_ASS,DENOMINAZIONE_COMMERCIALE,CLASSIFICAZIONE_CND,DESCRIZIONE_CND,DATAFINE_COMMERCIO
0,1,1221,2007-08-19,,,S,2013-06-25,NaT,ID&CO S.R.L.,09018810151,09018810151,PD01R,PENNARELLI DERMOGRAFICI,V9004,MATITE DERMOGRAFICHE,
1,1,1241,2007-07-06,,,S,2007-07-06,NaT,JOHNSON & JOHNSON MEDICAL HOLDING S.P.A.,00421430588,,V400,VACUDRAIN,A060299,SISTEMI DI DRENAGGIO PERCUTANEO - ALTRI,2010-03-16
2,1,1262,2007-09-19,,,S,2007-09-19,NaT,BUERKI INNO MED,,,BSD 500/510/560,CANNULE IRRIGAZIONE/ASPIRAZIONE PER TECNICA BI...,K01020110,CANNULE MONOUSO PER ASPIRAZIONE/IRRIGAZIONE IN...,
3,1,1281,2007-09-14,,,N,2007-09-14,NaT,ACTIMEX SRL,00988830329,00988830329,ACDM-01-07,RINOCICLINA SPRAY NASALE,Q030199,DISPOSITIVI NASOFARINGEI - ALTRI,
4,1,1301,2007-07-06,,,S,2007-07-06,NaT,JOHNSON & JOHNSON MEDICAL HOLDING S.P.A.,00421430588,,V410,VACUDRAIN,A060299,SISTEMI DI DRENAGGIO PERCUTANEO - ALTRI,2010-03-16
5,1,1302,2007-07-06,,,S,2007-07-06,NaT,JOHNSON & JOHNSON MEDICAL HOLDING S.P.A.,00421430588,,V420,VACUDRAIN,A060299,SISTEMI DI DRENAGGIO PERCUTANEO - ALTRI,2010-03-16
6,1,1321,2007-08-31,,,S,2007-08-31,NaT,BUERKI INNO MED,,,SL100 SL110 SL115 SL116 SL120 SL130 SL140 SL17...,CANNULE IRRIGAZIONE ASPIRAZIONE,L1799,STRUMENTARIO PER OFTALMOLOGIA - ALTRO,
7,1,1324,2007-08-31,,,S,2007-08-31,NaT,BUERKI INNO MED,,,UBH200-300 UBI 120-121-125-126-127-128-400 UBA...,CANNULE IRRIGAZIONE ASPIRAZIONE PER TECNICA BI...,L1799,STRUMENTARIO PER OFTALMOLOGIA - ALTRO,
8,1,1341,2008-04-10,,,S,2018-03-19,NaT,VASCUTEK LTD,,806391432,63XXXXP,GELSOFT PLUS RETTE,P070102010101,PROTESI VASCOLARI RETTE IN DACRON MAGLIA,
9,1,1362,2007-08-11,,,N,2007-08-11,NaT,PERFETTI VAN MELLE ITALIA SRL,05023760969,,01,HAPPYDENT WHITE TECH,Q010199,DISPOSITIVI PER ODONTOIATRIA CONSERVATIVA ED E...,


## Esempio 3

L'ultimo esempio che trattiamo è una dataset di opere d'arte. La principale caratteristica del file è che il delimitatore è il punto e virgola.

Una seconda caratteristica è che alcuni campi alfanumerici sono racchiusi fra virgolette (`"`) perchè contengono a loro volta dei punti e virgola che devono essere interpretati come punteggiatura, non come delimitatore. In questo caso pandas legge correttamente il file, ma questo caso è spesso problematico e deve essere gestito

In [65]:
arte = pd.read_csv("data/arte.csv.gz", 
                   delimiter = ';')
arte

Unnamed: 0,IMG,BENE_CULTURALE,TITOLO,SOGGETTO,TIPO_SCHEDA,CODICE_UNIVOCO,LOCALIZZAZIONE,CONTENITORE,DATAZIONE,AMBITO_CULTURALE,...,STIMA,RAPPORTO,ALTRI_CODICI,ENTE_SCHEDATORE,ENTE_COMPETENTE,AUTORI,ANNO_CREAZIONE,ANNO_MODIFICA,LAT,LON
0,http://www.sigecweb.beniculturali.it/images/fu...,"legatura piena, opera isolata",,,OA_3.00,01 00367776,"ITALIA, Piemonte, TO, TorinoPiazza Carlo Alber...","biblioteca, statale, Biblioteca Nazionale Univ...",XVI seconda metà; 1561 - 1599 [analisi storica],ambito francese(analisi stilistica),...,,,,R01SBL,S195,Compilatore scheda: Faccin S.; ; Funzionario r...,2013,,45.068369,7.685884
1,http://www.sigecweb.beniculturali.it/images/fu...,"dipinto, elemento d'insieme",,motivi decorativi vegetali con uccelli,OA_3.00,01 00201839 - 3,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XVIII metà; 1740 - 1760 [bibliografia],,...,,,,S67,S67,Compilatore scheda: Arena R.; Funzionario resp...,2000,2007,45.072658,7.686346
2,http://www.sigecweb.beniculturali.it/images/fu...,"dipinto, elemento d'insieme",,paesaggio lacustre con figure,OA_3.00,01 00201840 - 3,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XVIII metà; 1740 - 1760 [bibliografia],,...,,,,S67,S67,Compilatore scheda: Arena R.; Funzionario resp...,2000,2007,45.072658,7.686346
3,http://www.sigecweb.beniculturali.it/images/fu...,"dipinto, elemento d'insieme",,motivi decorativi vegetali con uccelli,OA_3.00,01 00201841 - 3,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XVIII metà; 1740 - 1760 [bibliografia],,...,,,,S67,S67,Compilatore scheda: Arena R.; Funzionario resp...,2000,2007,45.072658,7.686346
4,http://www.sigecweb.beniculturali.it/images/fu...,"dipinto, elemento d'insieme",,motivi decorativi vegetali con uccelli,OA_3.00,01 00201842 - 3,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XVIII metà; 1740 - 1760 [bibliografia],,...,,,,S67,S67,Compilatore scheda: Arena R.; Funzionario resp...,2000,2007,45.072658,7.686346
5,,"dipinto, opera isolata",,ritratto di Arrigo di Susa detto il Cardinale ...,OA_3.00,01 00201153,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XIX secondo quarto; 1840 - 1840 [documen...,,...,,,,S67,S67,Compilatore scheda: Manchinu P.; Funzionario r...,2000,2007,45.072658,7.686346
6,,"dipinto, opera isolata",,ritratto di Giovanni Gersen,OA_3.00,01 00201154,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XIX secondo quarto; 1840 - 1840 [documen...,,...,,,,S67,S67,Compilatore scheda: Manchinu P.; Funzionario r...,2000,2007,45.072658,7.686346
7,,"dipinto, opera isolata",,beato Angelo Carletti,OA_3.00,01 00201155,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XIX secondo quarto; 1840 - 1840 [documen...,,...,,,,S67,S67,Compilatore scheda: Manchinu P.; Funzionario r...,2000,2007,45.072658,7.686346
8,,"dipinto, opera isolata",,ritratto di Cassiano Dal Pozzo,OA_3.00,01 00201163,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XIX secondo quarto; 1840 - 1840 [documen...,,...,,,,S67,S67,Compilatore scheda: Manchinu P.; Funzionario r...,2000,2007,45.072658,7.686346
9,,"dipinto, opera isolata",,ritratto di Pietro Belli,OA_3.00,01 00201164,"Italia, Piemonte, TO, TorinoPiazzetta Reale","reggia, museo, Palazzo Reale, Piazzetta Reale,...",sec. XIX secondo quarto; 1840 - 1840 [documen...,,...,,,,S67,S67,Compilatore scheda: Manchinu P.; Funzionario r...,2000,2007,45.072658,7.686346
