# Ancora fusione

In [1]:
import pandas as pd

## Fusione con ordinamento

Siccome il calcolo della fusione è un'operazione che richiede risorse computazionali, pandas cercherà di svolgere l'operazione nel modo più veloce possibile anche se questo porta ad ottenere un ordine delle righe del risultato non intuitivo.

Talvolta vogliamo invece essere sicuri che le righe del risultato compaiano in un ordine specifico: per questo scopo abbiamo a disposizione l'opzione `sort` che ordina il risultato rispetto alle colonne specificate nella `on`.

In [9]:
fusione_sort = pd.merge(bandi, esiti, on = 'id_gara', sort = True)
fusione_sort.head()

Unnamed: 0,id_gara,oggetto_della_gara_x,numero_gara_anac_x,settore_x,modalita_realizzazione_x,importo_gara_x,num_tot_lotti_x,rup_x,cf_rup_x,codice_fiscale_stazione_appaltante_x,...,ribasso_di_aggiudicazione,offerta_in_aumento,imp_di_aggiudicazione,data_aggiudicazione_definitiva,data_pubblicazione_scp_y,id_gruppo,ruolo,aggiudicatario,cf_aggiudicatario,url_esito
0,70411,LAVORI COSTRUZIONE DI N. 2 EDIFICI PER COMPLES...,"""0""",Speciale,Contratto di concessione di lavori,2060000.0,1,Anaclerio Gustavo,NCLGTV63C07F839Z,"""02573290422""",...,15.423,,1768351.07,"""2005-07-20T22:00:00.000Z""","""2012-01-08T23:00:00.000Z""",,,COGEMA COSTRUZIONI,3444941219,https://www.serviziocontrattipubblici.it/SPInA...
1,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,ARMAFER DEL DOTT. MICHELE MORELLI SRL,433180759,https://www.serviziocontrattipubblici.it/SPInA...
2,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,GECOPRA SRL,5614550639,https://www.serviziocontrattipubblici.it/SPInA...
3,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandataria,A.T.I. CIPEA,591631205,https://www.serviziocontrattipubblici.it/SPInA...
4,70517,"Appalto integrato, di realizzazione lavori, pr...","""0""",Speciale,Contratto di concessione di lavori,13457469.56,1,AVAGLIANO CARMINE,VGLCMN56D14C361A,"""03070190651""",...,20.498,,10806489.05,"""2006-06-29T22:00:00.000Z""","""2010-01-11T23:00:00.000Z""",1.0,Mandante,CONSORZIO NAZIONALE COOPERATIVE DI PRODUZIONE ...,966060378,https://www.serviziocontrattipubblici.it/SPInA...


## Fusione con indice

La procedura `merge` vista in precedenza sfrutta l'opzione `on` per indicare quali colonne vengono sfruttate per fondere i DataFrame: queste colonne devono avere lo stesso nome in entrambi i DataFrame.

Se vogliamo fondere `gare_no` e `bandi` la stessa procedura non funziona, perchè `id_gara` è l'indice di `gare_no`, non una colonna. In questo caso dobbiamo utilizzare l'opzione `index_left` (o `index_right`).

In [34]:
fusione2 = pd.merge(gare_no, bandi, left_index = True, right_on = 'id_gara')
fusione2.head(3)

Unnamed: 0,oggetto_della_gara_x,numero_gara_anac_x,settore_x,modalita_realizzazione_x,importo_gara_x,num_tot_lotti_x,rup_x,cf_rup_x,codice_fiscale_stazione_appaltante_x,codice_istat_stazione_appaltante_x,...,imp_sicurezza_y,imp_lotto_y,cup_y,cpv_y,categoria_prevalente_y,classifica_y,luogo_esecuzione_istat_y,luogo_esecuzione_nuts_y,url_bando,data_pubblicazione_scp_y
15028,"Lavori di ""Sistemazione della strada rurale S....","""0""",,,189805.2,1,,,"""00555180652""","""015065036""",...,0.0,189805.2,,"""0""",OG3,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2007-03-04T23:00:00.000Z"""
15148,Lavori di realizzazione della nuova sede e dep...,"""0""",,,9380850.0,1,,,"""00104330493""","""009049009""",...,0.0,9380850.0,,"""0""",OG1,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2007-03-29T22:00:00.000Z"""
17162,"Gara 859 - Lavori di ampliamento, potenziament...","""0""",,,2600000.0,1,,,"""05394801004""","""012058091""",...,0.0,2600000.0,,"""0""",OG6,I,,,https://www.serviziocontrattipubblici.it/SPInA...,"""2007-05-15T22:00:00.000Z"""


## Fusione su colonne diverse

Per fondere due DataFrame sfruttando colonne che hanno nomi diversi, bisogna sfruttare le opzioni `left_on` e `right_on` per indicare i due nomi di colonne.

Per vedere un esempio, dobbiamo leggere alcuni dati su [Contribuzione e interventi atenei](http://dati.ustat.miur.it/dataset/2019-2013-contribuzione-e-interventi-atenei)

In [12]:
gettito = pd.read_csv("data/2009-2013_gettito_contribuzione.csv", delimiter = ';', decimal = ',')
iscritti = pd.read_csv("data/2009-2013_iscritti.csv", delimiter = ';')
num_interventi = pd.read_csv("data/2009-2013_numero_interventi.csv", delimiter = ';', encoding = 'iso-8859-1')
spesa = pd.read_csv("data/2009-2013_spesa_interventi.csv", delimiter = ';', encoding = 'iso-8859-1')
strutture = pd.read_csv("data/2009-2013_strutture.csv", delimiter = ';')

I DataFrame `gettito` e `strutture` hanno una colonna `COD_Ateneo`, mentre gli altri DataFrame hanno una colonna `COD_ATENEO`. Desideriamo fondere `spesa` e `struttre`.

In [13]:
pd.merge(spesa, strutture, left_on = 'COD_ATENEO', right_on = 'COD_Ateneo')

Unnamed: 0,ANNO_SOLARE,COD_ATENEO,NOME_ATENEO_x,CODICE_SPESA,DESCRIZIONE_SPESA,SPESA_TOTALE,SPESA_DI_CUI_REGIONALE,DATA,COD_Ateneo,NOME_ATENEO_y,CODICE_STRUTTURA,DESCRIZIONE_STRUTTURA,NUMERO_STRUTTURE,POSTI_DISPONIBILI
0,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/09,101,Torino - Università degli studi,01,Mense,0.0,0
1,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/09,101,Torino - Università degli studi,02,Residenze,0.0,0
2,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/10,101,Torino - Università degli studi,01,Mense,0.0,0
3,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/10,101,Torino - Università degli studi,02,Residenze,0.0,0
4,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/11,101,Torino - Università degli studi,01,Mense,0.0,0
5,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/11,101,Torino - Università degli studi,02,Residenze,0.0,0
6,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/12,101,Torino - Università degli studi,01,Mense,0.0,0
7,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/12,101,Torino - Università degli studi,02,Residenze,0.0,0
8,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/13,101,Torino - Università degli studi,01,Mense,0.0,0
9,2008,101,Torino - Università degli studi,S300,INTERVENTI A FAVORE DEGLI STUDENTI - TOTALE IN...,54922496,0,01/11/13,101,Torino - Università degli studi,02,Residenze,0.0,0


## Fusione con righe non corrispondenti

Finora abbiamo fuso DataFrame dove ogni riga del primo DataFrame aveva almeno una riga corrispondente nel secondo DataFrame (e viceversa).

Andiamo adesso ad analizzare alcuni dati da [Open Re.G.I.O.](https://www.confiscatibene.it/dataset/openregio) che contiene l'elenco dei beni confiscati.

In [14]:
bid = pd.read_csv("data/latest_bid.csv", 
                  parse_dates = ['decreto_data', 'decreto_data_datetime'])
big = pd.read_csv("data/latest_big.csv")

Controlliamo quante righe contengono i DataFrame e il risultato della fusione.

In [15]:
len(bid)

14874

In [16]:
len(big)

17453

In [17]:
len(pd.merge(bid, big, on = 's_bene'))

34

Possiamo quindi notare che il risultato della fusione contiene un numero di righe decisamente minore rispetto a quello dei DataFrame di partenza.
Ciò è dovuto al fatto che molte righe non trovano una corrispondenza nell'altro DataFrame

## Fusione con righe non corrispondenti 2

Per garantire che tutte le righe di un DataFrame siano presenti nel risultato della fusione, è necessario utilizzare l'opzione `how`

In [35]:
fusione_beni = pd.merge(bid, big, on = 's_bene', how = 'left')
fusione_beni.head(3)

Unnamed: 0,m_bene,s_bene,genere_x,regione,provincia,comune,indirizzo,ufficio,distretto_x,procedura,...,quota_confiscata,ufficio_giudiziario,distretto_y,tipologia_procedura,NomeComuneValidato_y,NomeRegioneValidato_y,CODISTAT_y,NomeProvinciaValidato_y,CODISTATPROV_y,CODISTATREG_y
0,I-CE-297247,I-CE-37295-S,immobili,Campania,Caserta,Casal di Principe,"VI BOCCACCIO, 5",Procura della Repubblica,SANTA MARIA CAPUA VETERE,9/1998,...,,,,,,,,,,
1,I-RC-319551,I-RC-9620-S,immobili,Calabria,Reggio Calabria,Reggio di Calabria,VIA MISSORI 25,Tribunale,Reggio Calabria,73/2010,...,,,,,,,,,,
2,I-RM-217556,I-RM-9030-S,immobili,Lazio,Roma,Roma,Via Roccabernarda n. 15,Tribunale,Roma,98/2008,...,,,,,,,,,,


In questo caso il valore `'left'` assegnato a `how` garantisce che tutte le righe del primo DataFrame (`bid`) siano presenti nella fusione.

## Fusione con righe non corrispondenti 3

Dare il valore `outer` all'opzione `how` garantisce che le righe di entrambi i DataFrame siano presenti nella soluzione. Confrontiamo il numero di righe presenti nei vari risultati della fusione.

In [19]:
fusione_beni_outer = pd.merge(bid, big, on = 's_bene', how = 'outer')
len(fusione_beni_outer)

32293

In [20]:
len(fusione_beni)

14874

Per identificare facilmente se una riga della fusione contiene dati del primo DataFrame, del secondo DataFrame, o di entrambi, possiamo usare l'opzione `indicator`, che crea una nuova colonna `_merge` riportante questa indicazione.

## Fusione con righe non corrispondenti 4

In [21]:
fusione_beni_outer2 = pd.merge(bid, big, on = 's_bene', how = 'outer', indicator = True)
fusione_beni_outer2['_merge'].head(1)

0    left_only
Name: _merge, dtype: category
Categories (3, object): [left_only, right_only, both]

In [22]:
fusione_beni_outer2['_merge'].tail(1)

32292    right_only
Name: _merge, dtype: category
Categories (3, object): [left_only, right_only, both]

In [23]:
fusione_beni_outer2.loc[3633, '_merge']

'both'

## Controllo corrispondenze

Per verificare se i DataFrame rispettano le corrispondenze attese, è possibile usare l'opzione `validate` che prende uno dei seguenti valori:

*  `1:1` controlla se entrambe le colonne usate per la fusione non presentano valori duplicati;
*  `1:m` controlla se la colonna del primo DataFrame usata per la fusione non presenta valori duplicati;
*  `m:1` controlla se la colonna del secondo DataFrame usata per la fusione non presenta valori duplicati.

Il DataFrame `big` non presenta valori duplicati di `s_bene`, mentre `bid` ha valori duplicati, come si può evincere dai seguenti risultati.

In [36]:
fusione_beni = pd.merge(bid, big, on = 's_bene', how = 'outer', validate = 'm:1')

In [25]:
fusione_beni = pd.merge(bid, big, on = 's_bene', how = 'outer', validate = '1:1')

MergeError: Merge keys are not unique in left dataset; not a one-to-one merge

## Calcolo percentuale

Adesso vogliamo aggiungere una colonna che contiene la percentuale del numero di incidenti in un certo mese rispetto a tutti quelli dell'anno nella zona di riferimento. Questo calcolo richiede più passi.

Tramite un raggruppamento, possiamo calcolare il numero totale di incidenti per ogni anno e zona.

In [26]:
incidenti = pd.read_json("data/incidenti.json")
incidenti_mese = incidenti.groupby(['Anno', 'Mese', 'Zona'], 
                                   as_index = False).sum()[['Anno', 'Mese', 'Zona', 'Incidenti']]
incidenti_mese.head()

Unnamed: 0,Anno,Mese,Zona,Incidenti
0,2001,1,1.0,171
1,2001,1,2.0,91
2,2001,1,3.0,141
3,2001,1,4.0,105
4,2001,1,5.0,118


## Calcolo percentuale 2

Adesso possiamo calcolare il numero totale di incidenti per anno e fondere questo DataFrame con `incidenti_mese`: in questo modo avremo una riga per ogni mese e una colonna con il numero di incidenti nel mese e il numero di incidenti nell'anno. Prima calcoliamo i totali.

In [27]:
incidenti_anno = incidenti_mese.groupby(['Anno', 'Zona'], as_index = False).sum()
incidenti_anno.head()

Unnamed: 0,Anno,Zona,Mese,Incidenti
0,2001,1.0,78,2207
1,2001,2.0,78,1171
2,2001,3.0,78,2176
3,2001,4.0,78,1782
4,2001,5.0,78,1693


## Controllo percentuale 3

Adesso fondiamo i DataFrame

In [28]:
incidenti_completo = pd.merge(incidenti_anno, incidenti_mese, 
                              on = ['Anno', 'Zona'])
incidenti_completo.head(3)

Unnamed: 0,Anno,Zona,Mese_x,Incidenti_x,Mese_y,Incidenti_y
0,2001,1.0,78,2207,1,171
1,2001,1.0,78,2207,2,161
2,2001,1.0,78,2207,3,190


## Calcolo percentuale 4

Infine possiamo calcolare la percentuale desiderata.

In [38]:
incidenti_completo['percentuale'] = \
incidenti_completo['Incidenti_y'] / incidenti_completo['Incidenti_x'] \
* 100
incidenti_completo.head()

Unnamed: 0,Anno,Zona,Mese_x,Incidenti_x,Mese_y,Incidenti_y,percentuale
0,2001,1.0,78,2207,1,171,7.748074
1,2001,1.0,78,2207,2,161,7.294971
2,2001,1.0,78,2207,3,190,8.608971
3,2001,1.0,78,2207,4,164,7.430902
4,2001,1.0,78,2207,5,205,9.288627
