# Fondere DataFrame

## Fondere DataFrame

Una caratteristica fondamentale dei DataFrame ben formati è che corrispondono a *tabelle normalizzate*.
In particolare ogni cella di un DataFrame corrisponde a ad un singolo valore, non a liste, dizionari o DataFrame.

Di conseguenza i nostri dati potrebbero essere suddivisi in più tabelle (o DataFrame) che sono collegabili sfruttando campi comuni.

I questa lezione utilizzeremo alcuni dati provenienti dal [Prezzario dei Lavori Pubblici della Toscana](http://dati.toscana.it/dataset/prezzario-lavori-pubblici). Iniziamo a leggere la tabella delle gare non terminate.

In [211]:
import pandas as pd

gare_no = pd.read_csv("data/scpgarenonaggnew.csv.bz2", index_col = 'id_gara')
gare_no.head(1)

Unnamed: 0_level_0,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,codice_istat_stazione_appaltante,...,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,num_ordine,tipo_atto_o_documento,data_pubblicazione,data_provvedimento,num_provvedimento,data_pubblicazione_scp,url_esito
id_gara,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
41762,ID13FAR001/3 procedura negoziata ai sensi art....,"""0""",Ordinario,Contratto di concessione di servizi e/o forniture,23345484.14,1,MANIAGO ANNA MARIA,MNGNMR54L43A456Z,"""02801630308""","""006030129""",...,,6000000.0,,1,Provvedimento di gara non aggiudicata o deserta,"""2015-08-05T22:00:00.000Z""",,,"""2015-08-05T22:00:00.000Z""",https://www.serviziocontrattipubblici.it/SPInA...


In [212]:
gare_no.columns

Index(['oggetto_della_gara', 'numero_gara_anac', 'settore',
       'modalita_realizzazione', 'importo_gara', 'num_tot_lotti', 'rup',
       'cf_rup', 'codice_fiscale_stazione_appaltante',
       'codice_istat_stazione_appaltante', 'denominazione_stazione_appaltante',
       'provincia_stazione_appaltante', 'ufficio',
       'la_sa_agisce_per_conto_di_altro_soggetto',
       'soggetto_per_cui_agisce_la_sa', 'id_lotto', 'cig', 'oggetto_lotto',
       'nr_lotto', 'somma_urgenza', 'tipo_appalto', 'tipo_procedura',
       'criterio_aggiudicazione', 'imp_lotto_netto_sicurezza', 'imp_sicurezza',
       'imp_lotto', 'cup', 'cpv', 'categoria_prevalente', 'classifica',
       'luogo_esecuzione_istat', 'luogo_esecuzione_nuts', 'num_ordine',
       'tipo_atto_o_documento', 'data_pubblicazione', 'data_provvedimento',
       'num_provvedimento', 'data_pubblicazione_scp', 'url_esito'],
      dtype='object')

## Tabelle Prezzario

I dati da leggere per la tabella dei bandi sono particolarmente grandi. Per questo motivo dobbiamo utilizzare l'opzione `low_memory=False`, altrimenti pandas non riuscirà a calcolare correttamente il tipo di dati contenuto in alcune colonne.

In [213]:
bandi = pd.read_csv("data/scpbandinew.csv.bz2", low_memory = False)
bandi.head(3)

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,imp_sicurezza,imp_lotto,cup,cpv,categoria_prevalente,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,url_bando,data_pubblicazione_scp
0,59433,Recupero dell'immobile di proprietà comunale d...,"""0""",,,381544.9,1,,,"""83503450153""",...,22080.66,381544.9,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
1,59434,Realizzazione del collettore fognario e impian...,"""0""",,,748862.5,1,,,"""81003550522""",...,6197.48,748862.5,,"""45232400""",OG6,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
2,59435,Ristrutturazione Cimitero nella frazione di Cà...,"""0""",,,275241.04,1,,,,...,13763.58,275241.04,,"""45215400""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-27T22:00:00.000Z"""


In [214]:
bandi.columns

Index(['id_gara', 'oggetto_della_gara', 'numero_gara_anac', 'settore',
       'modalita_realizzazione', 'importo_gara', 'num_tot_lotti', 'rup',
       'cf_rup', 'codice_fiscale_stazione_appaltante',
       'codice_istat_stazione_appaltante', 'denominazione_stazione_appaltante',
       'provincia_stazione_appaltante', 'ufficio',
       'la_sa_agisce_per_conto_di_altro_soggetto',
       'soggetto_per_cui_agisce_la_sa', 'data_pubblicazione_bando',
       'data_scadenza_bando', 'id_lotto', 'cig', 'oggetto_lotto', 'nr_lotto',
       'somma_urgenza', 'tipo_appalto', 'tipo_procedura',
       'criterio_aggiudicazione', 'imp_lotto_netto_sicurezza', 'imp_sicurezza',
       'imp_lotto', 'cup', 'cpv', 'categoria_prevalente', 'classifica',
       'luogo_esecuzione_istat', 'luogo_esecuzione_nuts', 'url_bando',
       'data_pubblicazione_scp'],
      dtype='object')

## Tabella Esiti

Leggiamo adesso la tabelle degli esiti delle gare.

In [215]:
esiti = pd.read_csv("data/scpesitinew.csv.bz2", low_memory = False)
esiti.head(3)

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
0,40607,Affidamento dei servizi di manutenzione evolut...,"""0""",Ordinario,Contratto di concessione di servizi e/o forniture,92739.0,1,Troccoli Emilia,TRCMLE65S58H703N,"""97231970589""",...,0.0,,92739.0,"""2016-03-21T23:00:00.000Z""","""2016-05-22T22:00:00.000Z""",,,Gesinf srl,01633591001,https://www.serviziocontrattipubblici.it/SPInA...
1,40608,lavori di Ristrutturazione Edilizia Edificio S...,"""0""",Ordinario,Contratto d'appalto,626991.12,1,Marenco Elvio,MRNLVE76R13A145G,"""00335810040""",...,0.0,,568337.26,"""2016-02-16T23:00:00.000Z""","""2016-05-04T22:00:00.000Z""",,,Impresa Soda Costruzioni S.r.l.,***********,https://www.serviziocontrattipubblici.it/SPInA...
2,40609,Servizio di repertimento e collocamento di per...,"""0""",Ordinario,Contratto di concessione di servizi e/o forniture,250000.0,1,Mannari Leonardo,MNNLRD73D04E625N,"""01098200494""",...,0.0,,250000.0,"""2016-05-01T22:00:00.000Z""","""2016-05-05T22:00:00.000Z""",,,GI Group Spa,11629770154,https://www.serviziocontrattipubblici.it/SPInA...


In [216]:
bandi.columns

Index(['id_gara', 'oggetto_della_gara', 'numero_gara_anac', 'settore',
       'modalita_realizzazione', 'importo_gara', 'num_tot_lotti', 'rup',
       'cf_rup', 'codice_fiscale_stazione_appaltante',
       'codice_istat_stazione_appaltante', 'denominazione_stazione_appaltante',
       'provincia_stazione_appaltante', 'ufficio',
       'la_sa_agisce_per_conto_di_altro_soggetto',
       'soggetto_per_cui_agisce_la_sa', 'data_pubblicazione_bando',
       'data_scadenza_bando', 'id_lotto', 'cig', 'oggetto_lotto', 'nr_lotto',
       'somma_urgenza', 'tipo_appalto', 'tipo_procedura',
       'criterio_aggiudicazione', 'imp_lotto_netto_sicurezza', 'imp_sicurezza',
       'imp_lotto', 'cup', 'cpv', 'categoria_prevalente', 'classifica',
       'luogo_esecuzione_istat', 'luogo_esecuzione_nuts', 'url_bando',
       'data_pubblicazione_scp'],
      dtype='object')

In [217]:
esiti.columns

Index(['id_gara', 'oggetto_della_gara', 'numero_gara_anac', 'settore',
       'modalita_realizzazione', 'importo_gara', 'num_tot_lotti', 'rup',
       'cf_rup', 'codice_fiscale_stazione_appaltante',
       'codice_istat_stazione_appaltante', 'denominazione_stazione_appaltante',
       'provincia_stazione_appaltante', 'ufficio',
       'la_sa_agisce_per_conto_di_altro_soggetto',
       'soggetto_per_cui_agisce_la_sa', 'id_lotto', 'cig', 'oggetto_lotto',
       'nr_lotto', 'somma_urgenza', 'tipo_appalto', 'tipo_procedura',
       'criterio_aggiudicazione', 'imp_lotto_netto_sicurezza', 'imp_sicurezza',
       'imp_lotto', 'cup', 'cpv', 'categoria_prevalente', 'classifica',
       'luogo_esecuzione_istat', 'luogo_esecuzione_nuts', 'num_ordine',
       'tipo_atto_o_documento', 'data_pubblicazione_esito',
       'ribasso_di_aggiudicazione', 'offerta_in_aumento',
       'imp_di_aggiudicazione', 'data_aggiudicazione_definitiva',
       'data_pubblicazione_scp', 'id_gruppo', 'ruolo', 'aggiudica

## Fondere DataFrame

Il campo `id_gara` permette di incrociare i dati presenti nei tre DataFrame: l'istruzione per questa operazione è la `merge`.

In [218]:
fusione = pd.merge(bandi, esiti, on = 'id_gara')
fusione.head()

Unnamed: 0,id_gara,oggetto_della_gara_x,numero_gara_anac_x,settore_x,modalita_realizzazione_x,importo_gara_x,num_tot_lotti_x,rup_x,cf_rup_x,codice_fiscale_stazione_appaltante_x,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp_y,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
0,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,15.423,,1768351.07,"""2005-07-20T22:00:00.000Z""","""2012-01-08T23:00:00.000Z""",,,COGEMA COSTRUZIONI,3444941219,https://www.serviziocontrattipubblici.it/SPInA...
1,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,ARMAFER DEL DOTT. MICHELE MORELLI SRL,433180759,https://www.serviziocontrattipubblici.it/SPInA...
2,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,GECOPRA SRL,5614550639,https://www.serviziocontrattipubblici.it/SPInA...
3,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandataria,A.T.I. CIPEA,591631205,https://www.serviziocontrattipubblici.it/SPInA...
4,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,CONSORZIO NAZIONALE COOPERATIVE DI PRODUZIONE ...,966060378,https://www.serviziocontrattipubblici.it/SPInA...


Notiamo che `bandi` e `esiti` condividono diversi nomi di colonne: dobbiamo vedere quale è l'effetto. Calcoliamo i nomi condivisi da entrambi i DataFrame.

In [219]:
print(set(bandi.columns).intersection(set(esiti.columns)))

{'importo_gara', 'id_lotto', 'settore', 'num_tot_lotti', 'tipo_appalto', 'data_pubblicazione_scp', 'cig', 'tipo_procedura', 'numero_gara_anac', 'luogo_esecuzione_istat', 'la_sa_agisce_per_conto_di_altro_soggetto', 'nr_lotto', 'oggetto_della_gara', 'rup', 'modalita_realizzazione', 'cf_rup', 'imp_sicurezza', 'imp_lotto_netto_sicurezza', 'oggetto_lotto', 'somma_urgenza', 'id_gara', 'soggetto_per_cui_agisce_la_sa', 'luogo_esecuzione_nuts', 'denominazione_stazione_appaltante', 'classifica', 'ufficio', 'categoria_prevalente', 'cpv', 'provincia_stazione_appaltante', 'codice_fiscale_stazione_appaltante', 'codice_istat_stazione_appaltante', 'cup', 'imp_lotto', 'criterio_aggiudicazione'}


## Risultato della fusione: colonne

Analizziamo i nomi delle colonne del nuovo DataFrame `fusione`.

In [220]:
fusione.columns

Index(['id_gara', 'oggetto_della_gara_x', 'numero_gara_anac_x', 'settore_x',
       'modalita_realizzazione_x', 'importo_gara_x', 'num_tot_lotti_x',
       'rup_x', 'cf_rup_x', 'codice_fiscale_stazione_appaltante_x',
       'codice_istat_stazione_appaltante_x',
       'denominazione_stazione_appaltante_x',
       'provincia_stazione_appaltante_x', 'ufficio_x',
       'la_sa_agisce_per_conto_di_altro_soggetto_x',
       'soggetto_per_cui_agisce_la_sa_x', 'data_pubblicazione_bando',
       'data_scadenza_bando', 'id_lotto_x', 'cig_x', 'oggetto_lotto_x',
       'nr_lotto_x', 'somma_urgenza_x', 'tipo_appalto_x', 'tipo_procedura_x',
       'criterio_aggiudicazione_x', 'imp_lotto_netto_sicurezza_x',
       'imp_sicurezza_x', 'imp_lotto_x', 'cup_x', 'cpv_x',
       'categoria_prevalente_x', 'classifica_x', 'luogo_esecuzione_istat_x',
       'luogo_esecuzione_nuts_x', 'url_bando', 'data_pubblicazione_scp_x',
       'oggetto_della_gara_y', 'numero_gara_anac_y', 'settore_y',
       'modalita_rea

Siccome sia `bandi` che `esiti` hanno una colonna `num_tot_lotti`, nel DataFrame `fusione` si trovano le colonne `num_tot_lotti_x` (che si riferisce a `num_tot_lotti` di `bandi`) e `num_tot_lotti_y` (che si riferisce a `num_tot_lotti` di `esiti`).

## Risultato della fusione: righe

Ogni riga del DataFrame `fusione` consiste di:
*  una riga di `bandi`
*  una riga di `esiti`.

Più precisamente, le righe di `fusione` corrispondono a **tutte** le coppie di righe, una di `bandi` e una di `esiti` che condividono lo stesso valore della colonna `id_gara`.

Andiamo ad analizzare alcune righe di `fusione`, partendo da quelle con `id_gara` uguale a 70411.

In [221]:
bandi[bandi['id_gara'] == 70411]

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,imp_sicurezza,imp_lotto,cup,cpv,categoria_prevalente,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,url_bando,data_pubblicazione_scp
10978,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,169000.0,2060000.0,G84B03000070002,"""45000000-7""",OG1,VIII,11042000.0,,https://www.serviziocontrattipubblici.it/SPInA...,"""2012-01-08T23:00:00.000Z"""


In [222]:
esiti[esiti['id_gara'] == 70411]

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
22303,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,15.423,,1768351.07,"""2005-07-20T22:00:00.000Z""","""2012-01-08T23:00:00.000Z""",,,COGEMA COSTRUZIONI,3444941219,https://www.serviziocontrattipubblici.it/SPInA...


In [223]:
fusione[fusione['id_gara'] == 70411]

Unnamed: 0,id_gara,oggetto_della_gara_x,numero_gara_anac_x,settore_x,modalita_realizzazione_x,importo_gara_x,num_tot_lotti_x,rup_x,cf_rup_x,codice_fiscale_stazione_appaltante_x,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp_y,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
0,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,15.423,,1768351.07,"""2005-07-20T22:00:00.000Z""","""2012-01-08T23:00:00.000Z""",,,COGEMA COSTRUZIONI,3444941219,https://www.serviziocontrattipubblici.it/SPInA...


In questo caso, sia `bandi` che  `esiti` hanno una sola riga con `id_gara` 70411: di conseguenza anche `fusione` ha una sola riga con tale `id_gara`.

## Risultato della  fusione: righe (2)

Controlliamo adesso un altro caso: `id_gara` uguale a 70517. Ancora una volta calcoliamo quante righe di `bandi`, `esiti`, e `fusione` abbiamo con questo valore di `id_gara`.

In [224]:
list(bandi['id_gara'] == 70517).count(True)

1

In [225]:
list(esiti['id_gara'] == 70517).count(True)

4

In [226]:
list(fusione['id_gara'] == 70517).count(True)

4

Questo è il caso più frequente: il valore è presente in una sola riga di una tabella, ma in più righe della seconda tabella.

## Risultato della  fusione: righe (3)

Cerchiamo il valore di `id_gara` che è presente nel numero massimo di righe di `bandi`. Questo richiede di utilizzare un raggruppamento e una `idxmax`. Iniziamo con contare, per ogni valore di `id_gara`, quante righe di `bandi` hanno tale valore.

In [227]:
conteggio = bandi.groupby('id_gara').count()['numero_gara_anac']

Adesso passiamo a calcolare l'indice della riga di `bandi` che realizza il massimo.

In [228]:
caso = conteggio.idxmax()
caso

149259

Infine controlliamo quante righe dei vari DataFrame hanno 149259 come `id_gara`

In [229]:
list(bandi['id_gara'] == caso).count(True)

2135

In [230]:
list(esiti['id_gara'] == caso).count(True)

1428

In [231]:
list(fusione['id_gara'] == caso).count(True)

3048780

# Ancora fusione

## Fusione con ordinamento

Siccome il calcolo della fusione è un'operazione che richiede risorse computazionali, pandas cercherà di svolgere l'operazione nel modo più veloce possibile anche se questo porta ad ottenere un ordine delle righe del risultato non intuitivo.

Talvolta vogliamo invece essere sicuri che le righe del risultato compaiano in un ordine specifico: per questo scopo abbiamo a disposizione l'opzione `sort` che ordina il risultato rispetto alle colonne specificate nella `on`.

In [232]:
fusione_sort = pd.merge(bandi, esiti, on = 'id_gara', sort = True)
fusione_sort.head()

Unnamed: 0,id_gara,oggetto_della_gara_x,numero_gara_anac_x,settore_x,modalita_realizzazione_x,importo_gara_x,num_tot_lotti_x,rup_x,cf_rup_x,codice_fiscale_stazione_appaltante_x,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp_y,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
0,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,15.423,,1768351.07,"""2005-07-20T22:00:00.000Z""","""2012-01-08T23:00:00.000Z""",,,COGEMA COSTRUZIONI,3444941219,https://www.serviziocontrattipubblici.it/SPInA...
1,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,ARMAFER DEL DOTT. MICHELE MORELLI SRL,433180759,https://www.serviziocontrattipubblici.it/SPInA...
2,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,GECOPRA SRL,5614550639,https://www.serviziocontrattipubblici.it/SPInA...
3,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandataria,A.T.I. CIPEA,591631205,https://www.serviziocontrattipubblici.it/SPInA...
4,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,CONSORZIO NAZIONALE COOPERATIVE DI PRODUZIONE ...,966060378,https://www.serviziocontrattipubblici.it/SPInA...


## Fusione con ordinamento: Attenzione

L'opzione `sort` può aumentare il tempo di calcolo. Confrontiamo i tempi di esecuzione della stessa operazione `merge` con e senza la `sort`.

In [233]:
%timeit fusione_sort = pd.merge(bandi, esiti, on = 'id_gara', sort = True)

39.9 s ± 1.72 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [234]:
%timeit fusione = pd.merge(bandi, esiti, on = 'id_gara')

38.9 s ± 171 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Come è possibile notare, attivare l'opzione 'sort' comporta un **raddoppio** dei tempi di calcolo.

## Fusione con indice

La procedura `merge` vista in precedenza sfrutta l'opzione `on` per indicare quali colonne vengono sfruttate per fondere i DataFrame: queste colonne devono avere lo stesso nome in entrambi i DataFrame.

Se vogliamo fondere `gare_no` e `bandi` la stessa procedura non funziona, perchè `id_gara` è l'indice di `gare_no`, non una colonna. In questo caso dobbiamo utilizzare l'opzione `index_left` (o `index_right`).

In [235]:
fusione2 = pd.merge(gare_no, bandi, left_index = True, right_on = 'id_gara')
fusione2.head()

Unnamed: 0,oggetto_della_gara_x,numero_gara_anac_x,settore_x,modalita_realizzazione_x,importo_gara_x,num_tot_lotti_x,rup_x,cf_rup_x,codice_fiscale_stazione_appaltante_x,codice_istat_stazione_appaltante_x,...,imp_sicurezza_y,imp_lotto_y,cup_y,cpv_y,categoria_prevalente_y,classifica_y,luogo_esecuzione_istat_y,luogo_esecuzione_nuts_y,url_bando,data_pubblicazione_scp_y
15028,"Lavori di ""Sistemazione della strada rurale S....","""0""",,,189805.2,1,,,"""00555180652""","""015065036""",...,0.0,189805.2,,"""0""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2007-03-04T23:00:00.000Z"""
15148,Lavori di realizzazione della nuova sede e dep...,"""0""",,,9380850.0,1,,,"""00104330493""","""009049009""",...,0.0,9380850.0,,"""0""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2007-03-29T22:00:00.000Z"""
17162,"Gara 859 - Lavori di ampliamento, potenziament...","""0""",,,2600000.0,1,,,"""05394801004""","""012058091""",...,0.0,2600000.0,,"""0""",OG6,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2007-05-15T22:00:00.000Z"""
20594,gestione archivi cartacei dell'INAIL,"""0""",,,24800000.0,1,,,"""01165400589""","""020092009""",...,0.0,24800000.0,,"""0""",fornitura di servizi,,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2007-08-08T22:00:00.000Z"""
20594,gestione archivi cartacei dell'INAIL,"""0""",,,24800000.0,1,,,"""01165400589""","""020092009""",...,0.0,24800000.0,,"""0""",fornitura di servizi,,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2007-08-08T22:00:00.000Z"""


## Fusione su colonne diverse

Per fondere due DataFrame sfruttando colonne che hanno nomi diversi, bisogna sfruttare le opzioni `left_on` e `right_on` per indicare i due nomi di colonne.

Per vedere un esempio, dobbiamo leggere alcuni dati su [Contribuzione e interventi atenei](http://dati.ustat.miur.it/dataset/2019-2013-contribuzione-e-interventi-atenei)

In [236]:
gettito = pd.read_csv("data/2009-2013_gettito_contribuzione.csv", delimiter = ';', decimal = ',')
iscritti = pd.read_csv("data/2009-2013_iscritti.csv", delimiter = ';')
num_interventi = pd.read_csv("data/2009-2013_numero_interventi.csv", delimiter = ';', encoding = 'iso-8859-1')
spesa = pd.read_csv("data/2009-2013_spesa_interventi.csv", delimiter = ';', encoding = 'iso-8859-1')
strutture = pd.read_csv("data/2009-2013_strutture.csv", delimiter = ';')

I DataFrame `gettito` e `strutture` hanno una colonna `COD_Ateneo`, mentre gli altri DataFrame hanno una colonna `COD_ATENEO`. Desideriamo fondere `spesa` e `struttre`.

In [237]:
pd.merge(spesa, strutture, left_on = 'COD_ATENEO', right_on = 'COD_Ateneo')

Unnamed: 0,ANNO_SOLARE,COD_ATENEO,NOME_ATENEO_x,CODICE_SPESA,DESCRIZIONE_SPESA,SPESA_TOTALE,SPESA_DI_CUI_REGIONALE,DATA,COD_Ateneo,NOME_ATENEO_y,CODICE_STRUTTURA,DESCRIZIONE_STRUTTURA,NUMERO_STRUTTURE,POSTI_DISPONIBILI
0,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/09,101,Torino - Università degli studi,01,Mense,0.0,0
1,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/09,101,Torino - Università degli studi,02,Residenze,0.0,0
2,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/10,101,Torino - Università degli studi,01,Mense,0.0,0
3,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/10,101,Torino - Università degli studi,02,Residenze,0.0,0
4,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/11,101,Torino - Università degli studi,01,Mense,0.0,0
5,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/11,101,Torino - Università degli studi,02,Residenze,0.0,0
6,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/12,101,Torino - Università degli studi,01,Mense,0.0,0
7,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/12,101,Torino - Università degli studi,02,Residenze,0.0,0
8,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/13,101,Torino - Università degli studi,01,Mense,0.0,0
9,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/13,101,Torino - Università degli studi,02,Residenze,0.0,0


## Fusione con righe non corrispondenti

Finora abbiamo fuso DataFrame dove ogni riga del primo DataFrame aveva almeno una riga corrispondente nel secondo DataFrame (e viceversa).

Andiamo adesso ad analizzare alcuni dati da [Open Re.G.I.O.](https://www.confiscatibene.it/dataset/openregio) che contiene l'elenco dei beni confiscati.

In [238]:
bid = pd.read_csv("data/latest_bid.csv")
big = pd.read_csv("data/latest_big.csv")

Controlliamo quante righe contengono i DataFrame e il risultato della fusione.

In [239]:
len(bid)

14874

In [240]:
len(big)

17453

In [241]:
len(pd.merge(bid, big, on = 's_bene'))

34

Possiamo quindi notare che il risultato della fusione contiene un numero di righe decisamente minore rispetto a quello dei DataFrame di partenza.
Ciò è dovuto al fatto che molte righe non trovano una corrispondenza nell'altro DataFrame

## Fusione con righe non corrispondenti 2

Per garantire che tutte le righe di un DataFrame siano presenti nel risultato della fusione, è necessario utilizzare l'opzione `how`

In [242]:
fusione_beni = pd.merge(bid, big, on = 's_bene', how = 'left')
fusione_beni.head(4)

Unnamed: 0,m_bene,s_bene,genere_x,regione,provincia,comune,indirizzo,ufficio,distretto_x,procedura,...,quota_confiscata,ufficio_giudiziario,distretto_y,tipologia_procedura,NomeComuneValidato_y,NomeRegioneValidato_y,CODISTAT_y,NomeProvinciaValidato_y,CODISTATPROV_y,CODISTATREG_y
0,I-CE-297247,I-CE-37295-S,immobili,Campania,Caserta,Casal di Principe,"VI BOCCACCIO, 5",Procura della Repubblica,SANTA MARIA CAPUA VETERE,9/1998,...,,,,,,,,,,
1,I-RC-319551,I-RC-9620-S,immobili,Calabria,Reggio Calabria,Reggio di Calabria,VIA MISSORI 25,Tribunale,Reggio Calabria,73/2010,...,,,,,,,,,,
2,I-RM-217556,I-RM-9030-S,immobili,Lazio,Roma,Roma,Via Roccabernarda n. 15,Tribunale,Roma,98/2008,...,,,,,,,,,,
3,I-RM-217529,I-RM-9028-S,immobili,Lazio,Roma,Roma,Via Roccabernarda n. 15,Tribunale,Roma,98/2008,...,,,,,,,,,,


In questo caso il valore `'left'` assegnato a `how` garantisce che tutte le righe del primo DataFrame (`bid`) siano presenti nella fusione.

## Fusione con righe non corrispondenti 3

Dare il valore `outer` all'opzione `how` garantisce che le righe di entrambi i DataFrame siano presenti nella soluzione. Confrontiamo il numero di righe presenti nei vari risultati della fusione.

In [243]:
fusione_beni_outer = pd.merge(bid, big, on = 's_bene', how = 'outer')
len(fusione_beni_outer)

32293

In [244]:
len(fusione_beni)

14874

Per identificare facilmente se una riga della fusione contiene dati del primo DataFrame, del secondo DataFrame, o di entrambi, possiamo usare l'opzione `indicator`, che crea una nuova colonna `_merge` riportante questa indicazione.

In [245]:
fusione_beni_outer2 = pd.merge(bid, big, on = 's_bene', how = 'outer', indicator = True)
fusione_beni_outer2['_merge'].head(1)

0    left_only
Name: _merge, dtype: category
Categories (3, object): [left_only, right_only, both]

In [246]:
fusione_beni_outer2['_merge'].tail(1)

32292    right_only
Name: _merge, dtype: category
Categories (3, object): [left_only, right_only, both]

In [247]:
fusione_beni_outer2.loc[3633, '_merge']

'both'

## Controllo corrispondenze

Per verificare se i DataFrame rispettano le corrispondenze attese, è possibile usare l'opzione `validate` che prende uno dei seguenti valori:

*  `1:1` controlla se entrambe le colonne usate per la fusione non presentano valori duplicati;
*  `1:m` controlla se la colonna del primo DataFrame usata per la fusione non presenta valori duplicati;
*  `m:1` controlla se la colonna del secondo DataFrame usata per la fusione non presenta valori duplicati.

Il DataFrame `big` non presenta valori duplicati di `s_bene`, mentre `bid` ha valori duplicati, come si può evincere dai seguenti risultati.

In [248]:
fusione_beni = pd.merge(bid, big, on = 's_bene', how = 'outer', validate = 'm:1')

In [249]:
fusione_beni = pd.merge(bid, big, on = 's_bene', how = 'outer', validate = '1:1')

MergeError: Merge keys are not unique in left dataset; not a one-to-one merge

# Caso di studio

## Caso di studio

Spesso è necessario fondere più DataFrame per estrarre informazioni dai dati. Vedremo adesso alcuni casi esemplificativi sui dati relativi al sistema universitario.

Calcoliamo, per ogni Ateneo, il rapporto fra il totale delle spese e il numero totali di studenti iscritti. Solo alcune righe di `iscritti` riportano il numero totale di studenti iscritte, le altre righe non sono interessanti per questa analisi. Controlliamo i valori presenti nella colonna `DESCRIZIONE_ISCRIZIONE` per capire come selezionare le righe che interessano.

In [None]:
iscritti['DESCRIZIONE_ISCRIZIONE'].unique()

Quindi dobbiamo selezionare le righe dove `DESCRIZIONE_ISCRIZIONE` è uguale a `Totale iscritti`.

## Iscritti di ogni Ateneo

Selezioniamo gli studenti iscritti di ogni Ateneo

In [None]:
iscritti_ateneo = iscritti[iscritti['DESCRIZIONE_ISCRIZIONE'] == 'Totale iscritti']
iscritti_ateneo.head(2)

Una veloce  analisi del nuovo DataFrame (ad esempio guardando l'insieme delle colonne) mostra che esistono 4 tipologie di iscritti e che ogni Ateneo è presente in più righe, una per ogni anno.

Per evitare di avere un'analisi influenzata eccessivamente questo ultimo aspetto (ad esempio, l'università *Roma - Link Campus University* compare in una sola riga):
1.  costruiamo una nuova colonna `iscritti` con il totale degli iscritti;
2.  calcoliamo il numero medio di iscritti per ogni ateneo.

In [None]:
iscritti_ateneo.loc[:, 'iscritti'] = iscritti_ateneo.loc[:, 'ISCRITTI_LAUREA'] + \
                              iscritti_ateneo.loc[:, 'ISCRITTI_DOTTORATO'] + \
                              iscritti_ateneo.loc[:, 'ISCRITTI_SPECIALIZZAZIONE'] + \
                              iscritti_ateneo.loc[:, 'ISCRITTI_MASTER_PERFEZIONAMENTO']

## Numero medio di iscritti

Adesso possiamo calcolare il numero medio di iscritti per ogni Ateneo

In [None]:
iscritti_medio = iscritti_ateneo.groupby('COD_ATENEO', as_index = False).mean()[['COD_ATENEO', 'iscritti']]
iscritti_medio.head()

Passiamo ad analizzare il DataFrame `gettito`, a partire dalle sue colonne.

In [None]:
gettito.columns

## Gettito medio

Per coerenza con quanto fatto per gli iscritti, andiamo a calcolare per ogni Ateneo, il gettito medio (calcolando la media sugli anni solari), in modo da rendere omogenei i dati su Atenei diversi.

Ciò richiede due passaggio:
1.  per ogni Ateneo e ogni anno, calcolare il gettito totale
2.  per ogni Ateneo, calcolare il gettito medio. Questo punto richiede che `COD_Ateneo` sia una variabile, non parte dell'indice, del DataFrame ottenuto al punto precedente.

In [None]:
gettito_totale = gettito.groupby(['COD_Ateneo', 'ANNO_SOLARE'], as_index = False).sum()[['COD_Ateneo', 'ANNO_SOLARE', 'CONSUNTIVO']]

In [None]:
gettito_medio = gettito_totale.groupby('COD_Ateneo', as_index = False).mean()[['COD_Ateneo', 'CONSUNTIVO']]

In [None]:
gettito_medio.head()

## Calcolo rapporto

Per calcolare il rapporto desiderato, dobbiamo fondere i DataFrame. Sul risultato possiamo poi aggiungere la nuova colonna.

In [None]:
gettito_fuso = pd.merge(gettito_medio, iscritti_medio, left_on = 'COD_Ateneo', right_on = 'COD_ATENEO')
gettito_fuso.head(3)

In [None]:
gettito_fuso['rapporto'] = gettito_fuso['CONSUNTIVO'] / gettito_fuso['iscritti']
gettito_fuso.head(3)

## Verifica fusione

E' sempre opportuno verificare la correttezza di una `merge`: in questo caso quella che ha prodotto il DataFrame `gettito_fuso`.

In particolare, bisogna:
1.  eseguire la merge con `how` uguale a `outer` per verificare che non ci siano atenei non presenti in `gettito_fuso`
2.  aggiungere l'opzione `validate` per verificare che non ci siano atenei presenti in più righe.
3.  controllare che il risultato di questa nuova `merge` abbia lo stesso numero di righe di `gettito_fuso`

In [None]:
completo = pd.merge(gettito_medio, iscritti_medio, left_on = 'COD_Ateneo', right_on = 'COD_ATENEO',
                    validate = '1:1',
                    how = 'outer')
len(gettito_fuso) == len(completo)

## Completamento risultati

Il DataFrame `gettito_fuso` ha il rapporto desiderato ma, nei vari passaggi, abbiamo perso traccia dei nomi degli Atenei (abbiamo solo il codice). Diventa necessaria una nuova fusione per reperire questi dati.

Siccome non abbiamo un DataFrame con i soli nomi degli Atenei, dobbiamo crearlo a partire (ad esempio) dal DataFrame `iscritti`.

In [None]:
atenei = iscritti[['COD_ATENEO', 'NOME_ATENEO']].drop_duplicates()
atenei.head()

Controlliamo se esistono due righe riferite allo stesso codice di Ateneo.

In [None]:
atenei.groupby('COD_ATENEO').count().max()

Siccome esiste almeno un Ateneo memorizzato con due nomi diversi, dobbiamo ulteriormente modificare `atenei` per associare un singolo nome ad ogni codice.

## Completamento risultati 2

Per associare un singolo nome ad ogni codice possiamo usare la funzione `first` che estrae la prima riga di ogni gruppo.

In [None]:
atenei_puliti = atenei.groupby('COD_ATENEO').first()
atenei_puliti.head()

Finalmente possiamo fondere `atenei_puliti` con `gettito_fuso` e tenere solo le colonne interessanti.

In [None]:
risultato = pd.merge(atenei_puliti, gettito_fuso, left_index = True, right_on = 'COD_ATENEO')
del(risultato['COD_Ateneo'])
del(risultato['COD_ATENEO'])
risultato.head()

## Completamento risultati 3

Per completare lo studio, andiamo ad identificare gli atenei che hanno rapporto massimo e minimo, oltre a calcolare le statistiche descrittive su `risultato`.

In [None]:
risultato.loc[risultato['rapporto'].idxmax()]

In [None]:
risultato.loc[risultato['rapporto'].idxmin()]

In [None]:
risultato.describe()