# Conoscenza interente il dataset
Un bando di gara è suddiviso in lotti. 
Per ciascun lotto si assegnano uno o più contratti a un vincitore.


# italiano : english
bando : public call, public tender
lotto : lot

In [1]:
import numpy as np
import pandas as pd
from os import path

data_directory = "synData28June"
lotti_fn = "export_lotti_veneto_2016_2018_giulio.csv"
vincitori_fn = "export_vincitori_veneto_2016_2018_giulio.csv"

lotti = pd.read_csv(path.join(data_directory, lotti_fn))
vincitori = pd.read_csv(path.join(data_directory, vincitori_fn))

## lotti attributi
1. **id lotto** identificatore del lotto di gara attribuito da Synapta
2. **oggetto** oggetto del contratto del lotto di gara
3. **id_scelta_contraente** identificatore numerico del metodo di assegnazione del lotto #(26)
4. **id_cpv** *common procurement vocabulary* sistema di classificazione europeo per categorizzare l'oggetto dei contratti pubblici d'acquisto
5. **importo** importo da pagare all'azienda fornitrice come definito dal contratto
6. **importo_base_asta** importo massimo per l'asta a ribasso per il dato lotto
7. **importo liquidato** importo effettivamente liquidato
8. **data inizio** data d'inizio d'esecuzione del contratto
9. **data fine** data di fine esecuzione del contratto
10. **data inferita calcolata** booleano; se vero, la/le data/e sono state inferite da ?
11. **id_lsf** identificatore lavoro, servizio, fornitura {1: lavoro, 2: servizio, 3: fornitura}
12. **id_mod_realizz** modalilità realizzazione; specifica in funzione del contratto evenutalmente rimovibile#(12)
13. **id_formagiuridica** identificatore della forma giuridica del committente
14. **md5** hash(tipo di centrale di committenza)

In [2]:
lotti.head()

Unnamed: 0,id_lotto,oggetto,id_scelta_contraente,id_cpv,importo,importo_base_asta,importo_liquidato,data_inizio,data_fine,data_inferita_calcolata,id_lsf,id_mod_realizz,id_forma_giuridica,md5
0,887826082,2017_OG1 OPERE EDILI - MANUTENZIONE ORDINARIA ...,27.0,7161.0,60000.0,,,2017-09-01,2017-12-30,True,1.0,13.0,154,1f2eac73c875ee65907ba4d8681a7d2a
1,14913388,SONDA PER PH METRIA ID 18P001,23.0,,640.0,,640.0,2018-08-09,2018-08-09,True,3.0,,139,4c9f18d34d17b903f078e45bc25d54b1
2,13973004,CAT MOUNT GIREVOLE PED,23.0,,27.5,,27.45,2018-05-28,2018-05-28,True,3.0,,135,4c9f18d34d17b903f078e45bc25d54b1
3,18037021,Servizio di ristorazione in occasione della 53...,23.0,,4545.46,,3190.91,2016-03-16,2016-04-21,True,2.0,,75,380ded385c850cdd5f5aa90c91f9a0a9
4,11263465,Acquisto toner,23.0,,79.0,,79.0,2017-02-16,2017-05-12,True,3.0,,103,e2d0bdd808a492fe24340a00f8cd6f7a


In [3]:
print("how many missing variable in lotti.id_lotto?")
np.sum(pd.isna(lotti.id_lotto))

how many missing variable in lotti.id_lotto?


0

In [4]:
lotti.id_scelta_contraente.unique()
print("how many lots contain NaNs in id_scelta_contraente?")

how many lots contain NaNs in id_scelta_contraente?


In [5]:
print("which lots do not have a id_scelta_contraente?")
lotti[pd.isna(lotti.id_scelta_contraente)]

which lots do not have a id_scelta_contraente?


Unnamed: 0,id_lotto,oggetto,id_scelta_contraente,id_cpv,importo,importo_base_asta,importo_liquidato,data_inizio,data_fine,data_inferita_calcolata,id_lsf,id_mod_realizz,id_forma_giuridica,md5
1609,11972362,SERVIZI DI TRASPORTO PUBBLICO LOCALE: ACCERTAM...,,,1.384415e+08,,51705735.13,2017-06-30,2025-12-31,True,,,14,47a78836496a7a97994acb6aef0d8cbf
26022,3469444,Contratto di Servizio per il trasporto pubblic...,,,2.226800e+09,,105000.00,2018-01-01,2032-12-31,True,,,19,47a78836496a7a97994acb6aef0d8cbf
40783,2316458,TRIZIVIR*60CPR RIV ABACAVIR/LAMIVUDINA/ZIDOVUD...,,,,,0.00,2016-05-23,,True,,,139,4c9f18d34d17b903f078e45bc25d54b1
45428,18345252,GARA REGIONALE CIG MASTER,,,,,,2016-07-01,2019-06-30,True,,,135,4c9f18d34d17b903f078e45bc25d54b1
49270,14164374,MIMPARA*28CPR RIV CINACALCET CLORIDRATO 2-E 20...,,,,,0.00,2016-05-24,,True,,,139,4c9f18d34d17b903f078e45bc25d54b1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
895045,17637222,MEROPENEM HOS*EV POLV 10FL 1G MEROPENEM L. 288...,,,,,0.00,2016-05-24,,True,,,139,4c9f18d34d17b903f078e45bc25d54b1
905129,3342376,CHIROCAINE*10F 10ML LEVOBUPIVACAINA CLORIDRATO...,,,,,0.00,2016-05-25,,True,,,139,4c9f18d34d17b903f078e45bc25d54b1
905183,4372333,ISENTRESS*FL 60CPR RIV 400MG RALTEGRAVIR POTAS...,,,,,0.00,2016-05-25,,True,,,139,4c9f18d34d17b903f078e45bc25d54b1
922577,1753859,ZYVOXID LINEZOLID 2-E 2015/N.35 DEL 27 MARZO L...,,,,,0.00,2016-05-24,,True,,,139,4c9f18d34d17b903f078e45bc25d54b1


In [6]:
print("how many types of provisioning?")
lotti.id_mod_realizz.unique()

how many types of provisioning?


array([13., nan,  3.,  1., 14., 11.,  4.,  9., 10.,  5.,  7.,  6.,  8.])

In [7]:
print("what percentage of records do not have a specified type of provisioning?")
np.round(np.sum(lotti.id_mod_realizz.isna()) / lotti.shape[0], 2)

what percentage of records do not have a specified type of provisioning?


0.95

In [15]:
print("how many rows does are duplicate in lotti dataset?")
np.sum(lotti.duplicated())

how many rows does are duplicate in lotti dataset?


0

## vincitori attributes
1. **id_lotto** identificatore del lotto di gara
2. **ruolo** ruolo del vincitore di gara, e.g. "mandante", "mandataria", "capogruppo" etc
3. **id_be** identificatore della business entity
3. **id_forma_giuridica** identificatore della forma giuridica del vincitore e.g. srl, sas, spa...
4. **mdg** hash(centrale di committenza)

In [8]:
vincitori.head()

Unnamed: 0,id_lotto,ruolo,id_be,id_forma_giuridica,md5
0,887826082,,90464,154,1f2eac73c875ee65907ba4d8681a7d2a
1,14913388,,85208,176,1f2eac73c875ee65907ba4d8681a7d2a
2,13973004,,89811,155,1f2eac73c875ee65907ba4d8681a7d2a
3,18037021,,265228,175,1f2eac73c875ee65907ba4d8681a7d2a
4,11263465,,356115,174,1f2eac73c875ee65907ba4d8681a7d2a


In [9]:
print("how many non-unique id_lotto in vincitori dataframe?")
vincitori.shape[0] - np.unique(vincitori.id_lotto).shape[0]

how many non-unique id_lotto in vincitori dataframe?


19039

In [10]:
print("duplicated items in vincitori.id_lotto")
vincitori[vincitori.id_lotto.duplicated()]

duplicated items in vincitori.id_lotto


Unnamed: 0,id_lotto,ruolo,id_be,id_forma_giuridica,md5
39,16418031,,600910,171,1f2eac73c875ee65907ba4d8681a7d2a
68,933784192,,95012,174,1f2eac73c875ee65907ba4d8681a7d2a
239,15751142,,89503,154,1f2eac73c875ee65907ba4d8681a7d2a
341,8814713,,151995,154,1f2eac73c875ee65907ba4d8681a7d2a
342,8814713,,371725,154,1f2eac73c875ee65907ba4d8681a7d2a
...,...,...,...,...,...
916461,277772,,407113,154,1f2eac73c875ee65907ba4d8681a7d2a
916528,11843948,,91850,154,1f2eac73c875ee65907ba4d8681a7d2a
916578,14728230,,110530,154,1f2eac73c875ee65907ba4d8681a7d2a
917049,18316161,01-MANDANTE,91964,154,1f2eac73c875ee65907ba4d8681a7d2a


In [11]:
print("how many rows are duplicate in vincitori dataset?")
np.sum(vincitori.duplicated())

how many rows does are duplicate in vincitori dataset?


9

And we shall get rid of them. 
Davide spiega che succede perché alcune PA attribuiscono la vittoria di una gara alla medesima azienda sia in qualità di capogruppo di aziende che come singola.

In [16]:
print("how many vincitori.id_lotto are duplicated?")
np.sum(vincitori.id_lotto.duplicated())

how many vincitori.id_lotto are duplicated?


19039

this means that the same lot is won by more than one tender

In [19]:
vincitori[vincitori.id_lotto.duplicated(keep=False)]

Unnamed: 0,id_lotto,ruolo,id_be,id_forma_giuridica,md5
38,16418031,,3079,176,1f2eac73c875ee65907ba4d8681a7d2a
39,16418031,,600910,171,1f2eac73c875ee65907ba4d8681a7d2a
67,933784192,,93326,154,1f2eac73c875ee65907ba4d8681a7d2a
68,933784192,,95012,174,1f2eac73c875ee65907ba4d8681a7d2a
238,15751142,,1699255,6,eaf4ac8f35faf9443c6b08dd0eee6399
...,...,...,...,...,...
916578,14728230,,110530,154,1f2eac73c875ee65907ba4d8681a7d2a
917048,18316161,02-MANDATARIA,16739,176,1f2eac73c875ee65907ba4d8681a7d2a
917049,18316161,01-MANDANTE,91964,154,1f2eac73c875ee65907ba4d8681a7d2a
917269,4927733,,90274,154,1f2eac73c875ee65907ba4d8681a7d2a


In [22]:
vincitori[vincitori.id_lotto.duplicated(keep=False)][vincitori.ruolo.notna()]

  vincitori[vincitori.id_lotto.duplicated(keep=False)][vincitori.ruolo.notna()]


Unnamed: 0,id_lotto,ruolo,id_be,id_forma_giuridica,md5
654,5912215,03-ASSOCIATA,334337,155,1f2eac73c875ee65907ba4d8681a7d2a
655,5912215,04-CAPOGRUPPO,449509,152,1f2eac73c875ee65907ba4d8681a7d2a
804,14265562,04-CAPOGRUPPO,97782,176,1f2eac73c875ee65907ba4d8681a7d2a
805,14265562,03-ASSOCIATA,314379,154,1f2eac73c875ee65907ba4d8681a7d2a
1786,9094048,01-MANDANTE,85377,176,1f2eac73c875ee65907ba4d8681a7d2a
...,...,...,...,...,...
915843,2796660,MANDANTE,100237,154,1f2eac73c875ee65907ba4d8681a7d2a
915844,2796660,MANDANTE,107370,154,1f2eac73c875ee65907ba4d8681a7d2a
915845,2796660,MANDATARIA,133365,165,1f2eac73c875ee65907ba4d8681a7d2a
917048,18316161,02-MANDATARIA,16739,176,1f2eac73c875ee65907ba4d8681a7d2a


In [None]:
print("how many lots do not have an assigned winner?")
lotti.shape[0] - vincitori.shape[0]

how many lots do not have an assigned winner?


30197

and this is not ok, Davide said. We should investigate why.

# Lotti left-join vincitori

In [13]:
df = lotti.merge(vincitori,how="left", on="id_lotto")
df.shape

(966536, 18)

In [14]:
print("there are more call-winner than lots")
df.shape[0] - lotti.shape[0] 

there are more call-winner


19039