# `Read_csv` in dettaglio

In [67]:
import pandas as pd

## `read_csv` 

La `read_csv` è una istruzione centrale in pandas: sarà la modalità principale con cui leggeremo i dati da importare in un DataFrame. Per questo motivo dedicheremo spazio a descrivere diverse opzioni a disposizione.
Ogni volta che vogliamo leggere un nuovo file di dati, dobbiamo capire quali opzioni dobbiamo utilizzare.

In [75]:
nani = pd.read_csv("data/7-nani.csv")
nani

Unnamed: 0,Brontolo
0,Cucciolo
1,Dotto
2,Eolo
3,Gongolo
4,Mammolo
5,Pisolo


Il file dati `7-nani.csv` non contiene una riga con i nomi di colonna e contiene solo i nomi dei nani. Di conseguenza la `read_csv` senza opzioni non permette di leggere correttamente i dati: infatti nel DataFrame `nani`, il nome della colonna diventa `Brontolo` (che invece dovrebbe essere un dato), e `nani` è un DataFrame sebbene contenga solo una colonna di dati (quindi dovrebbe essere una Serie).

## `names`

L'opzione `names` permette di specificare i nomi delle colonne da leggere. L'opzione permette di specificare la lista dei nomi da utilizzare. Inoltre assume che la prima riga del file contenga dei dati da inserire nel DataFrame.

In [76]:
nani = pd.read_csv("data/7-nani.csv", 
                   names = ['Nome'])
nani

Unnamed: 0,Nome
0,Brontolo
1,Cucciolo
2,Dotto
3,Eolo
4,Gongolo
5,Mammolo
6,Pisolo


## `squeeze`

Per ottenere una Serie dal file `7-nani.csv` dobbiamo usare l'opzione `squeeze`, che è dedicata allo scopo: se i dati presentano una sola colonna, il risultato è una Serie.

In [77]:
nani = pd.read_csv("data/7-nani.csv", 
                   names = ['Nome'], squeeze = True)
nani

0    Brontolo
1    Cucciolo
2       Dotto
3        Eolo
4     Gongolo
5     Mammolo
6      Pisolo
Name: Nome, dtype: object

## `delimiter`

La virgola è il carattere più utilizzato per separare i campi, ma non è l'unico. Un altro carattere utilizzato spesso il il punto e virgole (`;`), soprattutto per i file ottenuti esportando da Excel.
Questo delimitatore è i default in Italia, perchè la virgola viene utilizzata per separare la parte intera di un numero dalla parte frazionaria (ad esempio *12,345*).

L'opzione `delimiter` (o l'equivalente `sep`) permettono di specificare il carattere da usare come separatore. Vediamo un esempio.

In [78]:
iscritti = pd.read_csv("data/2009-2013_iscritti.csv", delimiter = ';')
iscritti

Unnamed: 0,ANNO_ACCADEMICO,COD_ATENEO,NOME_ATENEO,CODICE_ISCRIZIONE,DESCRIZIONE_ISCRIZIONE,ISCRITTI_LAUREA,ISCRITTI_DOTTORATO,ISCRITTI_SPECIALIZZAZIONE,ISCRITTI_MASTER_PERFEZIONAMENTO
0,2008-2009,101,Torino - Università degli studi,T1,Totale iscritti,63494.0,1255.0,1982.0,1227.0
1,2008-2009,102,Torino - Politecnico,T1,Totale iscritti,25399.0,689.0,30.0,260.0
2,2008-2009,201,Vercelli - Università degli studi del Piemonte...,T1,Totale iscritti,9470.0,182.0,267.0,175.0
3,2008-2009,401,Bra (CN) - Università di Scienze Gastronomiche,T1,Totale iscritti,229.0,0.0,0.0,24.0
4,2008-2009,701,Aosta - Università degli studi,T1,Totale iscritti,1083.0,0.0,22.0,13.0
5,2008-2009,1001,Genova - Università degli studi,T1,Totale iscritti,35151.0,1030.0,1306.0,626.0
6,2008-2009,1201,"Castellanza - Università ""Carlo Cattaneo""",T1,Totale iscritti,1872.0,14.0,0.0,490.0
7,2008-2009,1202,Varese - Università dell' Insubria,T1,Totale iscritti,9240.0,237.0,407.0,115.0
8,2008-2009,1301,"Novedrate (CO) - Università telematica ""e-Campus""",T1,Totale iscritti,2219.0,0.0,0.0,2.0
9,2008-2009,1501,Milano - Università degli studi,T1,Totale iscritti,58093.0,1548.0,3072.0,1513.0


In casi più rari, è possibile specificare anche stringhe di separazione, invece di singoli caratteri.  Un caso particolare si ha quando il separatore è formato da una sequenza di spazi e/o tabulazione: ciò corrisponde all'opzione `delim_whitespace`.

## `skiprows`

In alcuni file di dati le prime righe vengono utilizzate per scrivere dei commenti (tipicamente una descrizione dei dati). L'opzione `skiprows` permette di indicare quante righe del file contengono commenti e devono essere saltate in fase di lettura. Questa opzione normalmente viene utilizzata insieme all'opzione `names` per indicare i nomi delle colonne.

In [79]:
kidney = pd.read_csv("data/kidney.txt",
                    delim_whitespace = True,
                    skiprows = 17,
                    names = ['paziente', 'tempo', 'genere', 'età', 'tipo', 'diagnosi'])
kidney

Unnamed: 0,paziente,tempo,genere,età,tipo,diagnosi
1,8,1,28,1,3,2.3
1,16,1,28,1,3,2.3
2,23,1,48,2,0,1.9
2,13,0,48,2,0,1.9
3,22,1,32,1,3,1.2
3,28,1,32,1,3,1.2
4,447,1,31,2,3,0.5
4,318,1,32,2,3,0.5
5,30,1,10,1,3,1.5
5,12,1,10,1,3,1.5


Un'alternativa, nel caso in cui il commento contenga i nomi delle colonne, è l'opzione `header` che permette di specificare il numero di riga che contiene i nomi delle colonne.

## Dati Europei

Abbiamo accennato in precedenza al fatto che in Italia (e in Europa) si preferisca utilizzare la virgola per separare la parte intera da quella frazionaria di un numero.

Un'altra differenza fra lo standard americano e quello europeo è nel separatore delle migliaia: in Europa si usa lo spazio oppure il punto (*67.891.123*), mentre lo standard americano è la virgola (*67,891,123*).

Per gestire entrambi questi casi, abbiamo rispettivamente le opzioni `decimal` e `thousands`. Per quest'ultima opzione, il valore di default è la stringa vuota: di conseguenza l'opzione `thousands` deve essere utilizzata anche per numeri che usano la virgola come separatore delle migliaia.

In [80]:
gettito = pd.read_csv("data/2009-2013_gettito_contribuzione.csv", delimiter = ';', decimal = ',')
gettito

Unnamed: 0,ANNO_SOLARE,COD_Ateneo,NOME_ATENEO,CODICE_GETTITO,DESCRIZIONE_GETTITO,CONSUNTIVO
0,2008,101,Torino - Università degli studi,01,"Gettito relativo a corsi di laurea, corsi di l...",64704277.0
1,2008,101,Torino - Università degli studi,02,Gettito relativo a corsi di dottorato,5633.0
2,2008,101,Torino - Università degli studi,03,Gettito relativo a corsi di specializzazione,2154686.0
3,2008,101,Torino - Università degli studi,04,Gettito relativo a corsi di perfezionamento e ...,1441594.0
4,2008,101,Torino - Università degli studi,04a,Gettito relativo ad altri corsi,209748.0
5,2008,101,Torino - Università degli studi,05,Tassa regionale per il DSU (se riscossa da uni...,0.0
6,2008,101,Torino - Università degli studi,06a,"Gettito esami di stato, tirocini e test pre-im...",751038.0
7,2008,101,Torino - Università degli studi,07,Altre entrate non necessarie per l'iscrizione,3222493.0
8,2008,101,Torino - Università degli studi,08,"Altro da studenti, non costituente gettito",919166.0
9,2008,102,Torino - Politecnico,01,"Gettito relativo a corsi di laurea, corsi di l...",22492524.0


## File di grandi dimensioni

I file di dati di grandi dimensioni presentano due problematiche distinte:
1.  i tempi di calcolo si allungano;
2.  le procedure usate da pandas per inferire l'organizzazione dei dati (in particolare i tipi delle colonne) non sono precise.

Ancora una volta, abbiamo alcune opzioni di pandas per limitare questi problemi:
1.  `nrows`: specifica il numero di righe del file che devono essere lette;
2.  `low_memory = False`: permette a pandas di usare una maggiore quantità di memoria per inferire l'organizzazione dei dati.

Un'altra caratteristica di pandas che lo rende adatto alla gestione di dati di grandi dimensioni è il fatto che riesce a leggere file compressi. Vediamo una lettura di file di grandi dimensioni che non utilizza nessuna delle opzioni indicate e vediamo l'avviso che ci segnala un possibile problema in fase di inferenza dei tipi di dati.

In [81]:
bandi = pd.read_csv("data/scpbandinew.csv.bz2")

  interactivity=interactivity, compiler=compiler, result=result)


## File di grandi dimensioni (2)

Vediamo adesso la lettura dello stesso file, utilizzando l'opzione `low_memory`.

In [82]:
bandi = pd.read_csv("data/scpbandinew.csv.bz2", low_memory = False)
bandi

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,imp_sicurezza,imp_lotto,cup,cpv,categoria_prevalente,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,url_bando,data_pubblicazione_scp
0,59433,Recupero dell'immobile di proprietà comunale d...,"""0""",,,381544.90,1,,,"""83503450153""",...,22080.66,381544.90,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
1,59434,Realizzazione del collettore fognario e impian...,"""0""",,,748862.50,1,,,"""81003550522""",...,6197.48,748862.50,,"""45232400""",OG6,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
2,59435,Ristrutturazione Cimitero nella frazione di Cà...,"""0""",,,275241.04,1,,,,...,13763.58,275241.04,,"""45215400""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-27T22:00:00.000Z"""
3,59436,TELEPOSTO MONTE SETTEPANI - MIGLIORAMENTO DEL...,"""0""",,,184375.11,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,5370.15,184375.11,,"""45512100""",OG11,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
4,59437,CIMA PAGANELLA - RISTRUTTURAZIONE STAZIONE MET...,"""0""",,,149772.50,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,4648.11,149772.50,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
5,59438,C.A.M.M. MONTE CIMONE - CONDUZIONE E MANUTENZI...,"""0""",,,152871.24,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,4586.14,152871.24,,"""45512100""",OS4,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
6,59439,LINATE - RISTRUTTURAZIONE INTERNA AUTOREPARTO ...,"""0""",,,107454.02,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,2169.12,107454.02,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
7,59440,PIACENZA - COMPLETAMENTO DELLE OPERE DI REALIZ...,"""0""",,,185924.48,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,5415.28,185924.48,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
8,59441,LAVORI DI SISTEMAZIONE ARCHITETTONICA DI PIAZZ...,"""0""",,,137472.17,1,Giorgi Stefano,GRGSFN67D13G687S,"""00262320419""",...,5852.37,137472.17,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-21T22:00:00.000Z"""
9,59442,"Lavori in Comune di Borgo S. Giacomo, loc. Acq...","""0""",,,426593.40,1,,,,...,10329.14,426593.40,,"""45211000""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-24T22:00:00.000Z"""


Con `nrows`

In [83]:
bandi = pd.read_csv("data/scpbandinew.csv.bz2", nrows=100)
bandi

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,imp_sicurezza,imp_lotto,cup,cpv,categoria_prevalente,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,url_bando,data_pubblicazione_scp
0,59433,Recupero dell'immobile di proprietà comunale d...,"""0""",,,381544.90,1,,,"""83503450153""",...,22080.66,381544.90,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
1,59434,Realizzazione del collettore fognario e impian...,"""0""",,,748862.50,1,,,"""81003550522""",...,6197.48,748862.50,,"""45232400""",OG6,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
2,59435,Ristrutturazione Cimitero nella frazione di Cà...,"""0""",,,275241.04,1,,,,...,13763.58,275241.04,,"""45215400""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-27T22:00:00.000Z"""
3,59436,TELEPOSTO MONTE SETTEPANI - MIGLIORAMENTO DEL...,"""0""",,,184375.11,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,5370.15,184375.11,,"""45512100""",OG11,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
4,59437,CIMA PAGANELLA - RISTRUTTURAZIONE STAZIONE MET...,"""0""",,,149772.50,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,4648.11,149772.50,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
5,59438,C.A.M.M. MONTE CIMONE - CONDUZIONE E MANUTENZI...,"""0""",,,152871.24,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,4586.14,152871.24,,"""45512100""",OS4,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
6,59439,LINATE - RISTRUTTURAZIONE INTERNA AUTOREPARTO ...,"""0""",,,107454.02,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,2169.12,107454.02,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
7,59440,PIACENZA - COMPLETAMENTO DELLE OPERE DI REALIZ...,"""0""",,,185924.48,1,CICERO FRANCESCO,CCRFNC52R27C351U,"""97250110158""",...,5415.28,185924.48,,"""45512100""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-20T22:00:00.000Z"""
8,59441,LAVORI DI SISTEMAZIONE ARCHITETTONICA DI PIAZZ...,"""0""",,,137472.17,1,Giorgi Stefano,GRGSFN67D13G687S,"""00262320419""",...,5852.37,137472.17,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-21T22:00:00.000Z"""
9,59442,"Lavori in Comune di Borgo S. Giacomo, loc. Acq...","""0""",,,426593.40,1,,,,...,10329.14,426593.40,,"""45211000""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-24T22:00:00.000Z"""


L'opzione `nrows` è molto utile in fase iniziale di sviluppo, perchè permette di controllare la correttezza del codice su dati facilmente gestibili. Però non può essere usata per fare un'analisi dei dati.

La strategia migliore è usarla solo nelle prime fasi di sviluppo e solo se i dati sono troppo difficoltosi da gestire a causa della loro dimensione.