# Obtaining the data

### Libraries

In [2]:
import pandas as pd
from sklearn import neighbors
import numpy as np

print("Libraries Imported")

Libraries Imported


### Exploration of the data

In [3]:
df = pd.read_csv("../../application/datasets/clean_data/appalti_aggiudicatari.csv", sep=";")

print("Number of rows in data =", df.shape[0])
print("Number of columns in data =", df.shape[1])

print("\nSample data:")
df.head()

Number of rows in data = 1514852
Number of columns in data = 14

Sample data:


Unnamed: 0,cig,numero_gara,importo_complessivo_gara,n_lotti_componenti,importo_lotto,settore,data_pubblicazione,tipo_scelta_contraente,modalita_realizzazione,denominazione_amministrazione_appaltante,sezione_regionale,descrizione_cpv,aggiudicatario,tipo_aggiudicatario
0,43786532C3,4334605,273971.0,1.0,273971.0,SETTORI SPECIALI,2007-01-02,AFFIDAMENTO DIRETTO,CONTRATTO D'APPALTO,ACEA ATO 5 S.P.A.,SEZIONE REGIONALE LAZIO,LAVORI DI COSTRUZIONE PER OPERE IDRAULICHE.,WALTER FREZZA COSTRUZIONI SRL,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1,326325398E,3283009,1680000.0,8.0,130000.0,SETTORI ORDINARI,2007-01-10,PROCEDURA APERTA,CONTRATTO DAPPALTO,ASL TARANTO,SEZIONE REGIONALE PUGLIA,SISTEMA DI DIAGNOSI RADIOLOGICA.,SISMED S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
2,32173300B5,3237166,60000.0,1.0,60000.0,SETTORI ORDINARI,2007-01-26,PROCEDURA NEGOZIATA SENZA PREVIA PUBBLICAZIONE,CONTRATTO DAPPALTO,AZIENDA ULSS N. 3 SERENISSIMA,SEZIONE REGIONALE VENETO,PRESIDI MEDICO-SANITARI VARI.,JOHNSON & JOHNSON - SOCIETA PER AZIONI,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
3,270171990A,2759518,900000.0,5.0,220000.0,SETTORI ORDINARI,2007-01-24,PROCEDURA RISTRETTA,CONTRATTO D'APPALTO,CONSER V.C.O. SPA,SEZIONE REGIONALE PIEMONTE,AUTOVEICOLI PER LA RACCOLTA DI RIFIUTI CON COM...,TECNOINDUSTRIE MERLO SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
4,0941878E4C,979021,56160.0,1.0,56160.0,SETTORI ORDINARI,2007-01-09,AFFIDAMENTO IN ECONOMIA - COTTIMO FIDUCIARIO,ACQUISIZIONE IN ECONOMIA,MINISTERO DELLE INFRASTRUTTURE E DEI TRASPORTI...,SEZIONE REGIONALE CENTRALE,RIPARAZIONE E MANUTENZIONE DI IMPIANTI.,COGEI COSTRUZIONI SRL - IN LIQUIDAZIONE,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."


### Obtain all possible values for the columns

In [11]:
def createConfigPossibleChoices(df, cols_list):
    sol_dict = {}
    for c in cols_list:
        unique_values = list(set(df[c]))
        sol_dict[c] = unique_values
    return sol_dict

In [12]:
cols_list = ["settore", "tipo_scelta_contraente"]

choices = createConfigPossibleChoices(df, cols_list)
choices

{'settore': ['SETTORI SPECIALI', 'SETTORI ORDINARI'],
 'tipo_scelta_contraente': ['CONFRONTO COMPETITIVO IN ADESIONE AD ACCORDO QUADRO/CONVENZIONE',
  'PROCEDURA NEGOZIATA CON PREVIA INDIZIONE DI GARA (SETTORI SPECIALI)',
  'PROCEDURA RISTRETTA',
  "AFFIDAMENTO DIRETTO A SOCIETA' RAGGRUPPATE/CONSORZIATE O CONTROLLATE NELLE CONCESSIONI E NEI PARTENARIATI",
  'PROCEDURA RISTRETTA DERIVANTE DA AVVISI CON CUI SI INDICE UNA GARA',
  'PROCEDURA ART.16 COMMA 2-BIS DPR 380/2001 PER OPERE URBANIZZAZIONE A SCOMPUTO PRIMARIE SOTTO SOGLIA COMUNITARIA',
  'AFFIDAMENTO DIRETTO EX ART.5 DELLA LEGGE N.381/91',
  'PROCEDURA SELETTIVA EX ART. 238 C.7, D.LGS. 163/2006',
  "AFFIDAMENTO DIRETTO A SOCIETA' IN HOUSE",
  'AFFIDAMENTO DIRETTO PER LAVORI, SERVIZI O FORNITURE SUPPLEMENTARI',
  'PROCEDURA NEGOZIATA',
  'PROCEDURA NEGOZIATA DERIVANTE DA AVVISI CON CUI SI INDICE UNA GARA',
  'PROCEDURA RISTRETTA DERIVANTE DA AVVISI CON CUI SI INDICE LA GARA',
  'PROCEDURA NEGOZIATA PREVIA PUBBLICAZIONE',
  'PROCEDU

In [5]:
tipo_scelta_contraente_choices = set(df["tipo_scelta_contraente"])
tipo_scelta_contraente_choices

{'ACCORDO QUADRO',
 'AFFIDAMENTO DIRETTO',
 "AFFIDAMENTO DIRETTO A SOCIETA' IN HOUSE",
 "AFFIDAMENTO DIRETTO A SOCIETA' RAGGRUPPATE/CONSORZIATE O CONTROLLATE NELLE CONCESSIONI E NEI PARTENARIATI",
 'AFFIDAMENTO DIRETTO EX ART.5 DELLA LEGGE N.381/91',
 'AFFIDAMENTO DIRETTO IN ADESIONE AD ACCORDO QUADRO/CONVENZIONE',
 'AFFIDAMENTO DIRETTO PER LAVORI, SERVIZI O FORNITURE SUPPLEMENTARI',
 "AFFIDAMENTO DIRETTO PER VARIANTE SUPERIORE AL 20% DELL'IMPORTO CONTRATTUALE",
 'AFFIDAMENTO IN ECONOMIA - COTTIMO FIDUCIARIO',
 'AFFIDAMENTO RISERVATO',
 'CONFRONTO COMPETITIVO IN ADESIONE AD ACCORDO QUADRO/CONVENZIONE',
 'DIALOGO COMPETITIVO',
 'PARTERNARIATO PER L’INNOVAZIONE',
 'PROCEDURA AI SENSI DEI REGOLAMENTI DEGLI ORGANI COSTITUZIONALI',
 'PROCEDURA APERTA',
 'PROCEDURA ART.16 COMMA 2-BIS DPR 380/2001 PER OPERE URBANIZZAZIONE A SCOMPUTO PRIMARIE SOTTO SOGLIA COMUNITARIA',
 'PROCEDURA COMPETITIVA CON NEGOZIAZIONE',
 'PROCEDURA NEGOZIATA',
 'PROCEDURA NEGOZIATA CON PREVIA INDIZIONE DI GARA (SETTORI

### Test

In [25]:
d = {'tipo_aggiudicatario': ["IMPRESA' SINGOLA' (IMPRENDITORI INDIVIDUALI)", "IMPRESA' SINGOLA (IMPRENDITORI INDIVIDUALI)"], 'denominazione_amministrazione_appaltante': ["   '''    AZIENDA   ULSS N. 3 SERENISSIMA   && ", "    333 ()----..   AZIENDA   ULSS N. 3 SERENISSIMA   && "]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,tipo_aggiudicatario,denominazione_amministrazione_appaltante
0,IMPRESA' SINGOLA' (IMPRENDITORI INDIVIDUALI),''' AZIENDA ULSS N. 3 SERENISSIMA &&
1,IMPRESA' SINGOLA (IMPRENDITORI INDIVIDUALI),333 ()----.. AZIENDA ULSS N. 3 SERENIS...


In [26]:
import re

In [27]:
def cleanDenominazioneAppaltante(string):

    # remove all symbols (but not numbers)
    string = re.sub(r'[^\w]', ' ', string)

    # remove more than one consecutive space char
    string = re.sub(' +', ' ', string)

    # remove the spaces from the start and the end of the string
    string = string.strip(" ")
    return string

In [28]:
df["denominazione_amministrazione_appaltante"] = df["denominazione_amministrazione_appaltante"].apply(lambda x: cleanDenominazioneAppaltante(x))

df

Unnamed: 0,tipo_aggiudicatario,denominazione_amministrazione_appaltante
0,IMPRESA' SINGOLA' (IMPRENDITORI INDIVIDUALI),AZIENDA ULSS N 3 SERENISSIMA
1,IMPRESA' SINGOLA (IMPRENDITORI INDIVIDUALI),333 AZIENDA ULSS N 3 SERENISSIMA


### Test

In [41]:
df = pd.read_csv("../../application/datasets_2_test/clean_data/appalti_aggiudicatari.csv", sep=";")

print("Number of rows in data =", df.shape[0])
print("Number of columns in data =", df.shape[1])

print("\nSample data:")
df.head()

Number of rows in data = 3952
Number of columns in data = 14

Sample data:


Unnamed: 0,cig,numero_gara,importo_complessivo_gara,n_lotti_componenti,importo_lotto,settore,data_pubblicazione,tipo_scelta_contraente,modalita_realizzazione,denominazione_amministrazione_appaltante,sezione_regionale,descrizione_cpv,aggiudicatario,tipo_aggiudicatario
0,861021917F,8030391,269859.19,1,269859.19,SETTORI ORDINARI,2021-01-27,PROCEDURA NEGOZIATA SENZA PREVIA PUBBLICAZIONE,CONTRATTO D APPALTO,AZIENDA SANITARIA LOCALE DI CASERTA,CAMPANIA,MEDICINALI VARI,AMRYT PHARMACEUTICALS D.A.C.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
1,8579110987,8004084,39271.2,1,39271.2,SETTORI SPECIALI,2021-01-12,PROCEDURA NEGOZIATA SENZA PREVIA INDIZIONE DI ...,CONTRATTO D APPALTO,TRENITALIA SPA,CENTRALE,PARTI DI RICAMBIO DI LOCOMOTIVE O MATERIALE RO...,MTF SRL,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
2,858740679B,8011655,71111.88,1,71111.88,SETTORI ORDINARI,2021-01-07,AFFIDAMENTO DIRETTO,CONTRATTO D APPALTO,TRENTINO DIGITALE SPA,PROVINCIA AUTONOMA DI TRENTO,SERVIZI DI MANUTENZIONE DI SISTEMI E DI ASSIST...,ARGENTEA S.R.L.,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
3,8595727A4F,8018632,57969.2,1,57969.2,SETTORI ORDINARI,2021-01-14,AFFIDAMENTO DIRETTO,CONTRATTO D APPALTO,FONDAZIONE ENASARCO,CENTRALE,SERVIZI DI MANUTENZIONE DI ASCENSORI,MAR.AS SRL,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."
4,86338416FB,8051528,91400.0,1,91400.0,SETTORI ORDINARI,2021-01-20,AFFIDAMENTO DIRETTO,CONTRATTO D APPALTO,AZIENDA OSPEDALIERA BIANCHI MELACRINO MORELLI,CALABRIA,SERVIZI DI ASSISTENZA INFORMATICA E DI SUPPORTO,TESI ELETTRONICA E SISTEMI INFORMATIVI SPA,"IMPRESA SINGOLA (IMPRENDITORI INDIVIDUALI, ANC..."


In [56]:
col = "tipo_aggiudicatario"

min = 100
max = 0
for elem in df[col]:
    if len(str(elem)) < min:
        min = len(str(elem))
    if len(str(elem)) > max:
        max = len(str(elem))

print(min)
print(max)

25
116


In [44]:
cols_cleaned = ["settore", "tipo_scelta_contraente", "modalita_realizzazione", "denominazione_amministrazione_appaltante", "sezione_regionale", "descrizione_cpv"]

for col in cols_cleaned[5:6]:
    print(col)
    temp_set = set(df[col])
    for el in temp_set:
        print(" > ", el)
    print("=====================")

NICA INFORMATICA
 >  ARREDO URBANO
 >  LAVORI DI LASTRICATURA E ASFALTATURA
 >  VALVOLE DI SICUREZZA
 >  LAVORI DI FALEGNAMERIA
 >  SERVIZI DI GESTIONE DI ATTREZZATURE INFORMATICHE
 >  LAVORI DI INSTALLAZIONE DI PERSIANE
 >  MANUTENZIONE DI IMPIANTI DI ILLUMINAZIONE PUBBLICA E SEMAFORI
 >  APPARECCHI PER OSTEOSINTESI
 >  RETE DI TELECOMUNICAZIONI
 >  ANTIVIRALI PER USO SISTEMICO
 >  SERVIZI DI ISPEZIONE INDUSTRIALE
 >  SERVIZI DI SVILUPPO DI SOFTWARE PERSONALIZZATI
 >  MATERIALE FERROVIARIO ROTABILE
 >  PACCHETTI SOFTWARE DI PIANIFICAZIONE DELLE RISORSE DELLE IMPRESE
 >  SERVIZI DI RIPARAZIONE E MANUTENZIONE DI POMPE PER LIQUIDI
 >  VARI SERVIZI DI INGEGNERIA
 >  SERVIZI DI BIBLIOTECHE
 >  SERVIZI DI BALLO E DI INTRATTENIMENTO
 >  MACCHINARI PER MOVIMENTO TERRA
 >  PACCHETTI SOFTWARE PER RETI
 >  SERVIZI PRESTATI DA PERSONALE MEDICO
 >  SERVIZI DI PRODUZIONE TELEVISIVA
 >  MATERIALI PER COSTRUZIONE
 >  LAVORI DI COSTRUZIONE PER RINNOVO DI PONTI
 >  TAVOLI
 >  PRODUZIONE DI FILM PER INT