# Fondere DataFrame

## Fondere DataFrame

Una caratteristica fondamentale dei DataFrame ben formati è che corrispondono a *tabelle normalizzate*.
In particolare ogni cella di un DataFrame corrisponde a ad un singolo valore, non a liste, dizionari o DataFrame.

Di conseguenza i nostri dati potrebbero essere suddivisi in più tabelle (o DataFrame) che sono collegabili sfruttando campi comuni.

I questa lezione utilizzeremo alcuni dati provenienti dal [Prezzario dei Lavori Pubblici della Toscana](http://dati.toscana.it/dataset/prezzario-lavori-pubblici). Iniziamo a leggere la tabella delle gare non terminate.

In [22]:
import pandas as pd

gare_no = pd.read_csv("data/scpgarenonaggnew.csv.bz2", index_col = 'id_gara')
gare_no.head(1)

Unnamed: 0_level_0,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,codice_istat_stazione_appaltante,...,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,num_ordine,tipo_atto_o_documento,data_pubblicazione,data_provvedimento,num_provvedimento,data_pubblicazione_scp,url_esito
id_gara,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
41762,ID13FAR001/3 procedura negoziata ai sensi art....,"""0""",Ordinario,Contratto di concessione di servizi e/o forniture,23345484.14,1,MANIAGO ANNA MARIA,MNGNMR54L43A456Z,"""02801630308""","""006030129""",...,,6000000.0,,1,Provvedimento di gara non aggiudicata o deserta,"""2015-08-05T22:00:00.000Z""",,,"""2015-08-05T22:00:00.000Z""",https://www.serviziocontrattipubblici.it/SPInA...


In [11]:
gare_no.columns

Index(['id_gara', 'oggetto_della_gara', 'numero_gara_anac', 'settore',
       'modalita_realizzazione', 'importo_gara', 'num_tot_lotti', 'rup',
       'cf_rup', 'codice_fiscale_stazione_appaltante',
       'codice_istat_stazione_appaltante', 'denominazione_stazione_appaltante',
       'provincia_stazione_appaltante', 'ufficio',
       'la_sa_agisce_per_conto_di_altro_soggetto',
       'soggetto_per_cui_agisce_la_sa', 'id_lotto', 'cig', 'oggetto_lotto',
       'nr_lotto', 'somma_urgenza', 'tipo_appalto', 'tipo_procedura',
       'criterio_aggiudicazione', 'imp_lotto_netto_sicurezza', 'imp_sicurezza',
       'imp_lotto', 'cup', 'cpv', 'categoria_prevalente', 'classifica',
       'luogo_esecuzione_istat', 'luogo_esecuzione_nuts', 'num_ordine',
       'tipo_atto_o_documento', 'data_pubblicazione', 'data_provvedimento',
       'num_provvedimento', 'data_pubblicazione_scp', 'url_esito'],
      dtype='object')

## Tabelle Prezzario

I dati da leggere per la tabella dei bandi sono particolarmente grandi. Per questo motivo dobbiamo utilizzare l'opzione `low_memory=False`, altrimenti pandas non riuscirà a calcolare correttamente il tipo di dati contenuto in alcune colonne.

In [17]:
bandi = pd.read_csv("data/scpbandinew.csv.bz2", low_memory = False)
bandi.head(3)

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,imp_sicurezza,imp_lotto,cup,cpv,categoria_prevalente,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,url_bando,data_pubblicazione_scp
0,59433,Recupero dell'immobile di proprietà comunale d...,"""0""",,,381544.9,1,,,"""83503450153""",...,22080.66,381544.9,,"""45233100""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
1,59434,Realizzazione del collettore fognario e impian...,"""0""",,,748862.5,1,,,"""81003550522""",...,6197.48,748862.5,,"""45232400""",OG6,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-19T22:00:00.000Z"""
2,59435,Ristrutturazione Cimitero nella frazione di Cà...,"""0""",,,275241.04,1,,,,...,13763.58,275241.04,,"""45215400""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2001-06-27T22:00:00.000Z"""


In [18]:
bandi.columns

Index(['id_gara', 'oggetto_della_gara', 'numero_gara_anac', 'settore',
       'modalita_realizzazione', 'importo_gara', 'num_tot_lotti', 'rup',
       'cf_rup', 'codice_fiscale_stazione_appaltante',
       'codice_istat_stazione_appaltante', 'denominazione_stazione_appaltante',
       'provincia_stazione_appaltante', 'ufficio',
       'la_sa_agisce_per_conto_di_altro_soggetto',
       'soggetto_per_cui_agisce_la_sa', 'data_pubblicazione_bando',
       'data_scadenza_bando', 'id_lotto', 'cig', 'oggetto_lotto', 'nr_lotto',
       'somma_urgenza', 'tipo_appalto', 'tipo_procedura',
       'criterio_aggiudicazione', 'imp_lotto_netto_sicurezza', 'imp_sicurezza',
       'imp_lotto', 'cup', 'cpv', 'categoria_prevalente', 'classifica',
       'luogo_esecuzione_istat', 'luogo_esecuzione_nuts', 'url_bando',
       'data_pubblicazione_scp'],
      dtype='object')

## Tabella Esiti

Leggiamo adesso la tabelle degli esiti delle gare.

In [19]:
esiti = pd.read_csv("data/scpesitinew.csv.bz2", low_memory = False)
esiti.head(3)

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
0,40607,Affidamento dei servizi di manutenzione evolut...,"""0""",Ordinario,Contratto di concessione di servizi e/o forniture,92739.0,1,Troccoli Emilia,TRCMLE65S58H703N,"""97231970589""",...,0.0,,92739.0,"""2016-03-21T23:00:00.000Z""","""2016-05-22T22:00:00.000Z""",,,Gesinf srl,01633591001,https://www.serviziocontrattipubblici.it/SPInA...
1,40608,lavori di Ristrutturazione Edilizia Edificio S...,"""0""",Ordinario,Contratto d'appalto,626991.12,1,Marenco Elvio,MRNLVE76R13A145G,"""00335810040""",...,0.0,,568337.26,"""2016-02-16T23:00:00.000Z""","""2016-05-04T22:00:00.000Z""",,,Impresa Soda Costruzioni S.r.l.,***********,https://www.serviziocontrattipubblici.it/SPInA...
2,40609,Servizio di repertimento e collocamento di per...,"""0""",Ordinario,Contratto di concessione di servizi e/o forniture,250000.0,1,Mannari Leonardo,MNNLRD73D04E625N,"""01098200494""",...,0.0,,250000.0,"""2016-05-01T22:00:00.000Z""","""2016-05-05T22:00:00.000Z""",,,GI Group Spa,11629770154,https://www.serviziocontrattipubblici.it/SPInA...


In [14]:
bandi.columns

Index(['id_gara', 'oggetto_della_gara', 'numero_gara_anac', 'settore',
       'modalita_realizzazione', 'importo_gara', 'num_tot_lotti', 'rup',
       'cf_rup', 'codice_fiscale_stazione_appaltante',
       'codice_istat_stazione_appaltante', 'denominazione_stazione_appaltante',
       'provincia_stazione_appaltante', 'ufficio',
       'la_sa_agisce_per_conto_di_altro_soggetto',
       'soggetto_per_cui_agisce_la_sa', 'data_pubblicazione_bando',
       'data_scadenza_bando', 'id_lotto', 'cig', 'oggetto_lotto', 'nr_lotto',
       'somma_urgenza', 'tipo_appalto', 'tipo_procedura',
       'criterio_aggiudicazione', 'imp_lotto_netto_sicurezza', 'imp_sicurezza',
       'imp_lotto', 'cup', 'cpv', 'categoria_prevalente', 'classifica',
       'luogo_esecuzione_istat', 'luogo_esecuzione_nuts', 'url_bando',
       'data_pubblicazione_scp'],
      dtype='object')

In [20]:
esiti.columns

Index(['id_gara', 'oggetto_della_gara', 'numero_gara_anac', 'settore',
       'modalita_realizzazione', 'importo_gara', 'num_tot_lotti', 'rup',
       'cf_rup', 'codice_fiscale_stazione_appaltante',
       'codice_istat_stazione_appaltante', 'denominazione_stazione_appaltante',
       'provincia_stazione_appaltante', 'ufficio',
       'la_sa_agisce_per_conto_di_altro_soggetto',
       'soggetto_per_cui_agisce_la_sa', 'id_lotto', 'cig', 'oggetto_lotto',
       'nr_lotto', 'somma_urgenza', 'tipo_appalto', 'tipo_procedura',
       'criterio_aggiudicazione', 'imp_lotto_netto_sicurezza', 'imp_sicurezza',
       'imp_lotto', 'cup', 'cpv', 'categoria_prevalente', 'classifica',
       'luogo_esecuzione_istat', 'luogo_esecuzione_nuts', 'num_ordine',
       'tipo_atto_o_documento', 'data_pubblicazione_esito',
       'ribasso_di_aggiudicazione', 'offerta_in_aumento',
       'imp_di_aggiudicazione', 'data_aggiudicazione_definitiva',
       'data_pubblicazione_scp', 'id_gruppo', 'ruolo', 'aggiudica

## Fondere DataFrame

Il campo `id_gara` permette di incrociare i dati presenti nei tre DataFrame: l'istruzione per questa operazione è la `merge`.

In [16]:
fusione = pd.merge(bandi, esiti, on = 'id_gara')
fusione.head()

Unnamed: 0,id_gara,oggetto_della_gara_x,numero_gara_anac_x,settore_x,modalita_realizzazione_x,importo_gara_x,num_tot_lotti_x,rup_x,cf_rup_x,codice_fiscale_stazione_appaltante_x,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp_y,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
0,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,15.423,,1768351.07,"""2005-07-20T22:00:00.000Z""","""2012-01-08T23:00:00.000Z""",,,COGEMA COSTRUZIONI,3444941219,https://www.serviziocontrattipubblici.it/SPInA...
1,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,ARMAFER DEL DOTT. MICHELE MORELLI SRL,433180759,https://www.serviziocontrattipubblici.it/SPInA...
2,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,GECOPRA SRL,5614550639,https://www.serviziocontrattipubblici.it/SPInA...
3,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandataria,A.T.I. CIPEA,591631205,https://www.serviziocontrattipubblici.it/SPInA...
4,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,CONSORZIO NAZIONALE COOPERATIVE DI PRODUZIONE ...,966060378,https://www.serviziocontrattipubblici.it/SPInA...


Notiamo che `bandi` e `esiti` condividono diversi nomi di colonne: dobbiamo vedere quale è l'effetto. Calcoliamo i nomi condivisi da entrambi i DataFrame.

In [28]:
print(set(bandi.columns).intersection(set(esiti.columns)))

{'imp_sicurezza', 'imp_lotto', 'luogo_esecuzione_istat', 'denominazione_stazione_appaltante', 'categoria_prevalente', 'cup', 'settore', 'imp_lotto_netto_sicurezza', 'soggetto_per_cui_agisce_la_sa', 'somma_urgenza', 'id_gara', 'cf_rup', 'rup', 'data_pubblicazione_scp', 'ufficio', 'oggetto_della_gara', 'num_tot_lotti', 'criterio_aggiudicazione', 'provincia_stazione_appaltante', 'codice_istat_stazione_appaltante', 'importo_gara', 'codice_fiscale_stazione_appaltante', 'cig', 'id_lotto', 'nr_lotto', 'tipo_procedura', 'tipo_appalto', 'cpv', 'la_sa_agisce_per_conto_di_altro_soggetto', 'luogo_esecuzione_nuts', 'modalita_realizzazione', 'oggetto_lotto', 'classifica', 'numero_gara_anac'}


## Risultato della fusione: colonne

Analizziamo i nomi delle colonne del nuovo DataFrame `fusione`.

In [53]:
fusione.columns

Index(['id_gara', 'oggetto_della_gara_x', 'numero_gara_anac_x', 'settore_x',
       'modalita_realizzazione_x', 'importo_gara_x', 'num_tot_lotti_x',
       'rup_x', 'cf_rup_x', 'codice_fiscale_stazione_appaltante_x',
       'codice_istat_stazione_appaltante_x',
       'denominazione_stazione_appaltante_x',
       'provincia_stazione_appaltante_x', 'ufficio_x',
       'la_sa_agisce_per_conto_di_altro_soggetto_x',
       'soggetto_per_cui_agisce_la_sa_x', 'data_pubblicazione_bando',
       'data_scadenza_bando', 'id_lotto_x', 'cig_x', 'oggetto_lotto_x',
       'nr_lotto_x', 'somma_urgenza_x', 'tipo_appalto_x', 'tipo_procedura_x',
       'criterio_aggiudicazione_x', 'imp_lotto_netto_sicurezza_x',
       'imp_sicurezza_x', 'imp_lotto_x', 'cup_x', 'cpv_x',
       'categoria_prevalente_x', 'classifica_x', 'luogo_esecuzione_istat_x',
       'luogo_esecuzione_nuts_x', 'url_bando', 'data_pubblicazione_scp_x',
       'oggetto_della_gara_y', 'numero_gara_anac_y', 'settore_y',
       'modalita_rea

Siccome sia `bandi` che `esiti` hanno una colonna `num_tot_lotti`, nel DataFrame `fusione` si trovano le colonne `num_tot_lotti_x` (che si riferisce a `num_tot_lotti` di `bandi`) e `num_tot_lotti_y` (che si riferisce a `num_tot_lotti` di `esiti`).

## Risultato della fusione: righe

Ogni riga del DataFrame `fusione` consiste di:
*  una riga di `bandi`
*  una riga di `esiti`.

Più precisamente, le righe di `fusione` corrispondono a **tutte** le coppie di righe, una di `bandi` e una di `esiti` che condividono lo stesso valore della colonna `id_gara`.

Andiamo ad analizzare alcune righe di `fusione`, partendo da quelle con `id_gara` uguale a 70411.

In [54]:
bandi[bandi['id_gara'] == 70411]

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,imp_sicurezza,imp_lotto,cup,cpv,categoria_prevalente,classifica,luogo_esecuzione_istat,luogo_esecuzione_nuts,url_bando,data_pubblicazione_scp
10978,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,169000.0,2060000.0,G84B03000070002,"""45000000-7""",OG1,VIII,11042000.0,,https://www.serviziocontrattipubblici.it/SPInA...,"""2012-01-08T23:00:00.000Z"""


In [55]:
esiti[esiti['id_gara'] == 70411]

Unnamed: 0,id_gara,oggetto_della_gara,numero_gara_anac,settore,modalita_realizzazione,importo_gara,num_tot_lotti,rup,cf_rup,codice_fiscale_stazione_appaltante,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
22303,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,15.423,,1768351.07,"""2005-07-20T22:00:00.000Z""","""2012-01-08T23:00:00.000Z""",,,COGEMA COSTRUZIONI,3444941219,https://www.serviziocontrattipubblici.it/SPInA...


In [56]:
fusione[fusione['id_gara'] == 70411]

Unnamed: 0,id_gara,oggetto_della_gara_x,numero_gara_anac_x,settore_x,modalita_realizzazione_x,importo_gara_x,num_tot_lotti_x,rup_x,cf_rup_x,codice_fiscale_stazione_appaltante_x,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp_y,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
0,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,15.423,,1768351.07,"""2005-07-20T22:00:00.000Z""","""2012-01-08T23:00:00.000Z""",,,COGEMA COSTRUZIONI,3444941219,https://www.serviziocontrattipubblici.it/SPInA...


In questo caso, sia `bandi` che  `esiti` hanno una sola riga con `id_gara` 70411: di conseguenza anche `fusione` ha una sola riga con tale `id_gara`.

## Risultato della  fusione: righe (2)

Controlliamo adesso un altro caso: `id_gara` uguale a 70517. Ancora una volta calcoliamo quante righe di `bandi`, `esiti`, e `fusione` abbiamo con questo valore di `id_gara`.

In [57]:
(bandi['id_gara'] == 70517).sum()

1

In [58]:
(esiti['id_gara'] == 70517).sum()

4

In [59]:
(fusione['id_gara'] == 70517).sum()

4

## Risultato della  fusione: righe (3)

Controlliamo adesso un altro caso: `id_gara` uguale a 70517. Ancora una volta calcoliamo quante righe di `bandi`, `esiti`, e `fusione` abbiamo con questo valore di `id_gara`.

In [60]:
conteggio = bandi.groupby('id_gara').count()['numero_gara_anac']

In [61]:
caso = conteggio.idxmax()

In [62]:
(bandi['id_gara'] == caso).sum()

2135

In [63]:
(esiti['id_gara'] == caso).sum()

1428

In [64]:
(fusione['id_gara'] == caso).sum()

3048780