# Data cleaning and aggregation

### Libraries

In [144]:
import pandas as pd
from os import listdir
from os.path import isfile, join
from tqdm import tqdm

print("Libraries Imported")

Libraries Imported


## CIG

In [145]:
def importCIG(cig_path):
    df = pd.read_csv(cig_path, sep=";", low_memory=False)
    return df

In [146]:
test_path = "../application/datasets/cig/cig_csv_2020_01.csv"
gen_2020_df = importCIG(test_path)

In [147]:
def cleanCIG(cig_df):

    # Operation 1 - Select only meaningful columns
    meaningful_cols = ["cig", "numero_gara","importo_complessivo_gara", "n_lotti_componenti", "importo_lotto", "settore", "data_pubblicazione", "tipo_scelta_contraente", "modalita_realizzazione", "denominazione_amministrazione_appaltante", "sezione_regionale", "descrizione_cpv"]

    cig_df = cig_df[meaningful_cols]

    # Operation 2 - Remove all rows with at least 1 NAs
    cig_df = cig_df.dropna()

    # Restituisco dataset pulito
    return cig_df

In [148]:
gen_2020_df_clean = cleanCIG(gen_2020_df)

In [149]:
def mergeCIG(cigs_path):

    # get the list of file names to import
    file_names = [f for f in listdir(cigs_path) if isfile(join(cigs_path, f))]

    # create placeholder dataset
    final_df = pd.DataFrame()

    # iterate over every CIG dataset
    for file_name in tqdm(file_names):

        # get the path
        temp_cig_path = cigs_path + file_name
        
        # import the CIG df
        temp_cig_df = importCIG(temp_cig_path)

        # clean the CIG df
        temp_cleaned_cig_df = cleanCIG(temp_cig_df)

        # add it to the final df
        frames = [final_df, temp_cleaned_cig_df]
        final_df = pd.concat(frames)

    # return the complete and cleaned dataset
    return final_df

In [150]:
cigs_path = "../application/datasets/cig/"
all_cigs_df = mergeCIG(cigs_path)

100%|██████████| 36/36 [00:14<00:00,  2.56it/s]


In [151]:
all_cigs_df

Unnamed: 0,cig,numero_gara,importo_complessivo_gara,n_lotti_componenti,importo_lotto,settore,data_pubblicazione,tipo_scelta_contraente,modalita_realizzazione,denominazione_amministrazione_appaltante,sezione_regionale,descrizione_cpv
0,7409526648,7018127,1139994.00,9.0,126666.00,SETTORI SPECIALI,2018-01-31,AFFIDAMENTO DIRETTO IN ADESIONE AD ACCORDO QUA...,CONTRATTO DAPPALTO DISCENDENTE DA ACCORDO QUAD...,HERA SPA,SEZIONE REGIONALE CENTRALE,SERVIZI DI ASSISTENZA INFORMATICA
1,7339269C5D,6954408,192327.87,1.0,192327.87,SETTORI ORDINARI,2018-01-04,PROCEDURA NEGOZIATA SENZA PREVIA PUBBLICAZIONE,ACCORDO QUADRO/CONVENZIONE,ESTAR (ENTE DI SUPPORTO TECNICO AMMINISTRATIVO...,SEZIONE REGIONALE TOSCANA,SERVIZI DI VIGILANZA DI EDIFICI
2,7542219403,7129021,440833.44,4.0,63279.00,SETTORI ORDINARI,2018-01-24,PROCEDURA NEGOZIATA SENZA PREVIA INDIZIONE DI ...,CONTRATTO DAPPALTO,AZIENDA UNITA SANITARIA LOCALE N.1 SASSARI,SEZIONE REGIONALE SARDEGNA,PRODOTTI DIETETICI
3,73460876C3,6959626,821709.03,1.0,821709.03,SETTORI ORDINARI,2018-01-17,PROCEDURA NEGOZIATA SENZA PREVIA PUBBLICAZIONE,CONTRATTO D'APPALTO,COMUNE DI FIUMICINO,SEZIONE REGIONALE LAZIO,"LAVORI DI COSTRUZIONE, DI FONDAZIONE E DI SUPE..."
4,735538715F,6967363,138186.00,1.0,138186.00,SETTORI ORDINARI,2018-01-24,PROCEDURA APERTA,CONTRATTO DAPPALTO,CENTRALE UNICA DI COMMITTENZA FRA I COMUNI DI ...,SEZIONE REGIONALE EMILIA ROMAGNA,SERVIZI DI GESTIONE DI IMPIANTI SPORTIVI
...,...,...,...,...,...,...,...,...,...,...,...,...
32207,8605315296,8026194,2400000.00,1.0,2400000.00,SETTORI ORDINARI,2020-12-24,AFFIDAMENTO DIRETTO,CONTRATTO D'APPALTO,COMUNE DI ALBENGA,SEZIONE REGIONALE LIGURIA,SERVIZI DI RACCOLTA DI RIFIUTI SOLIDI URBANI
32208,8527188A23,7954894,3286020.00,42.0,15800.00,SETTORI ORDINARI,2020-12-02,PROCEDURA APERTA,ACCORDO QUADRO,AZIENDA SANITARIA LOCALE 1 DI AVEZZANO-SULMONA...,SEZIONE REGIONALE ABRUZZO,AGHI PER BIOPSIA
32209,86017092D2,8022794,3328261.52,30.0,100761.54,SETTORI ORDINARI,2020-12-29,PROCEDURA NEGOZIATA SENZA PREVIA PUBBLICAZIONE,CONTRATTO D'APPALTO,AZIENDA REGIONALE PER L EMERGENZA SANITARIA AR...,SEZIONE REGIONALE LAZIO,SERVIZI DI AMBULANZA
32210,8597747D43,8019421,59640.00,1.0,59640.00,SETTORI ORDINARI,2020-12-18,PROCEDURA NEGOZIATA PER AFFIDAMENTI SOTTO SOGLIA,CONTRATTO D'APPALTO,AZIENDA SANITARIA LOCALE BT,SEZIONE REGIONALE PUGLIA,MEDICINALI VARI


## Aggiudicatari

In [152]:
def importAggiudicatari(agg_path):
    df = pd.read_csv(agg_path, sep=";", low_memory=False)
    return df

In [153]:
test_path = "../application/datasets/aggiudicatari/aggiudicatari_csv_0.csv"
aggiudicatari_df = importAggiudicatari(test_path)

In [154]:
aggiudicatari_df

Unnamed: 0,cig,ruolo,codice_fiscale,denominazione,tipo_soggetto,id_aggiudicazione
0,74117387AE,,00737420158,ITALFARMACO SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",1335652
1,04751401EE,,00076670595,ABBOTT S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",155129
2,6819935466,,06903050018,STUDIO PROFESSIONALE I.P.A.C. DI PANFILI P. & ...,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",1224653
3,5806422B01,,00748940160,S.I.R. SISTEMI ITALIANI RISTORAZIONE SRL,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",616872
4,5140928BFB,,06112461006,CONSORZIO LOGISTICA PACCHI S.C.P.A.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",471378
...,...,...,...,...,...,...
1736261,5504060DFC,,12844250154,SRA INSTRUMENTS SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",678843
1736262,51493745D9,,00350200226,GEOROCCE S.N.C. DI TOMASONI ANGELO & F.LLI,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",608917
1736263,56186955CA,,00212840235,GLAXOSMITHKLINE,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",1034944
1736264,83412866F5,,09331210154,SMITH & NEPHEW S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC...",1892177


In [155]:
def cleanAggiudicatari(agg_df):
    # Operation 1 - Select only meaningful columns
    meaningful_cols = ["cig", "denominazione", "tipo_soggetto"]
    agg_df = agg_df[meaningful_cols]

    # Operation 2 - Renaming of columns (for clarity)
    agg_df = agg_df.rename(columns={"denominazione": "aggiudicatario", "tipo_soggetto": "tipo_aggiudicatario"})

    # Operation 3 - Remove all rows with at least 1 NAs
    agg_df = agg_df.dropna()

    # Return clean df
    return agg_df

In [156]:
aggiudicatari_clean_df = cleanAggiudicatari(aggiudicatari_df)
aggiudicatari_clean_df

Unnamed: 0,cig,aggiudicatario,tipo_aggiudicatario
0,74117387AE,ITALFARMACO SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1,04751401EE,ABBOTT S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
2,6819935466,STUDIO PROFESSIONALE I.P.A.C. DI PANFILI P. & ...,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
3,5806422B01,S.I.R. SISTEMI ITALIANI RISTORAZIONE SRL,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
4,5140928BFB,CONSORZIO LOGISTICA PACCHI S.C.P.A.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
...,...,...,...
1736261,5504060DFC,SRA INSTRUMENTS SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1736262,51493745D9,GEOROCCE S.N.C. DI TOMASONI ANGELO & F.LLI,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1736263,56186955CA,GLAXOSMITHKLINE,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1736264,83412866F5,SMITH & NEPHEW S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."


In [157]:
def mergeAggiudicatari(aggiudicatari_path):

    # get the list of file names to import
    file_names = [f for f in listdir(aggiudicatari_path) if isfile(join(aggiudicatari_path, f))]

    # create placeholder dataset
    final_df = pd.DataFrame()

    # iterate over every Aggiudicatari dataset
    for file_name in tqdm(file_names):

        # get the path
        temp_agg_path = aggiudicatari_path + file_name
        
        # import the Aggiudicatari df
        temp_agg_df = importAggiudicatari(temp_agg_path)

        # clean the Aggiudicatari df
        temp_cleaned_agg_df = cleanAggiudicatari(temp_agg_df)

        # add it to the final df
        frames = [final_df, temp_cleaned_agg_df]
        final_df = pd.concat(frames)

    # return the complete and cleaned dataset
    return final_df

In [158]:
agg_path = "../application/datasets/aggiudicatari/"
agg_df = mergeAggiudicatari(agg_path)

agg_df

100%|██████████| 1/1 [00:03<00:00,  3.63s/it]


Unnamed: 0,cig,aggiudicatario,tipo_aggiudicatario
0,74117387AE,ITALFARMACO SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1,04751401EE,ABBOTT S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
2,6819935466,STUDIO PROFESSIONALE I.P.A.C. DI PANFILI P. & ...,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
3,5806422B01,S.I.R. SISTEMI ITALIANI RISTORAZIONE SRL,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
4,5140928BFB,CONSORZIO LOGISTICA PACCHI S.C.P.A.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
...,...,...,...
1736261,5504060DFC,SRA INSTRUMENTS SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1736262,51493745D9,GEOROCCE S.N.C. DI TOMASONI ANGELO & F.LLI,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1736263,56186955CA,GLAXOSMITHKLINE,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1736264,83412866F5,SMITH & NEPHEW S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."


## Join of the two cleaned dataframes

In [159]:
def joinCIGAggiudicatari(cig_df, agg_df):

    # join the datasets on cig (inner join)
    full_df = pd.merge(cig_df, agg_df, on='cig', how='inner')

    # return the complete dataframe
    return full_df

In [160]:
df = joinCIGAggiudicatari(all_cigs_df, agg_df)

In [161]:
df

Unnamed: 0,cig,numero_gara,importo_complessivo_gara,n_lotti_componenti,importo_lotto,settore,data_pubblicazione,tipo_scelta_contraente,modalita_realizzazione,denominazione_amministrazione_appaltante,sezione_regionale,descrizione_cpv,aggiudicatario,tipo_aggiudicatario
0,7409526648,7018127,1139994.00,9.0,126666.00,SETTORI SPECIALI,2018-01-31,AFFIDAMENTO DIRETTO IN ADESIONE AD ACCORDO QUA...,CONTRATTO DAPPALTO DISCENDENTE DA ACCORDO QUAD...,HERA SPA,SEZIONE REGIONALE CENTRALE,SERVIZI DI ASSISTENZA INFORMATICA,TECHEDGE S.P.A.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1,7409526648,7018127,1139994.00,9.0,126666.00,SETTORI SPECIALI,2018-01-31,AFFIDAMENTO DIRETTO IN ADESIONE AD ACCORDO QUA...,CONTRATTO DAPPALTO DISCENDENTE DA ACCORDO QUAD...,HERA SPA,SEZIONE REGIONALE CENTRALE,SERVIZI DI ASSISTENZA INFORMATICA,EVERIS ITALIA SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
2,7409526648,7018127,1139994.00,9.0,126666.00,SETTORI SPECIALI,2018-01-31,AFFIDAMENTO DIRETTO IN ADESIONE AD ACCORDO QUA...,CONTRATTO DAPPALTO DISCENDENTE DA ACCORDO QUAD...,HERA SPA,SEZIONE REGIONALE CENTRALE,SERVIZI DI ASSISTENZA INFORMATICA,ATOS ITALIA S.P.A.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
3,7409526648,7018127,1139994.00,9.0,126666.00,SETTORI SPECIALI,2018-01-31,AFFIDAMENTO DIRETTO IN ADESIONE AD ACCORDO QUA...,CONTRATTO DAPPALTO DISCENDENTE DA ACCORDO QUAD...,HERA SPA,SEZIONE REGIONALE CENTRALE,SERVIZI DI ASSISTENZA INFORMATICA,CAPGEMINI ITALIA S.P.A.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
4,7409526648,7018127,1139994.00,9.0,126666.00,SETTORI SPECIALI,2018-01-31,AFFIDAMENTO DIRETTO IN ADESIONE AD ACCORDO QUA...,CONTRATTO DAPPALTO DISCENDENTE DA ACCORDO QUAD...,HERA SPA,SEZIONE REGIONALE CENTRALE,SERVIZI DI ASSISTENZA INFORMATICA,CLUSTER REPLY ROMA S.R.L.,CONSORZIO (CONSORZI TRA SOCIETACOOPERATIVE DI ...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
484297,8520768830,7950935,210270.25,1.0,210270.25,SETTORI ORDINARI,2020-12-11,PROCEDURA NEGOZIATA PER AFFIDAMENTI SOTTO SOGLIA,CONTRATTO D'APPALTO,COMUNE DI BOLOGNA,SEZIONE REGIONALE EMILIA ROMAGNA,ALTRI LAVORI DI COMPLETAMENTO DI EDIFICI,ES SRL PROGETTI E SISTEMI,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
484298,8518114A09,7948581,128000.00,1.0,128000.00,SETTORI SPECIALI,2020-12-21,AFFIDAMENTO DIRETTO,CONTRATTO D'APPALTO,ACQUEVENETE S.P.A.,SEZIONE REGIONALE VENETO,"GESTIONE DEL PARCO MACCHINE, SERVIZI DI RIPARA...",TUTTODIESEL S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
484299,85756290ED,8000896,122781.00,1.0,122781.00,SETTORI ORDINARI,2020-12-24,PROCEDURA NEGOZIATA SENZA PREVIA PUBBLICAZIONE,CONTRATTO D'APPALTO,COMUNE DI BOVOLONE,SEZIONE REGIONALE VENETO,SERVIZI DI TRASPORTO PUBBLICO TERRESTRE,CONSORZIO EUROBUS VERONA SOC. COOP.,CONSORZIO (CONSORZI TRA SOCIETA'COOPERATIVE DI...
484300,8540474E16,7969348,40000.00,1.0,40000.00,SETTORI SPECIALI,2020-12-01,PROCEDURA NEGOZIATA PER AFFIDAMENTI SOTTO SOGLIA,CONTRATTO D'APPALTO,UNARETI S.P.A.,SEZIONE REGIONALE LOMBARDIA,APPARECCHIATURA DI CONTROLLO E STRUMENTAZIONE,OTTOTECNICA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
