# Analisi ANAC legge 190

Per il momento, le analisi riportate su questo notebook sono effettuate su un campione di dati in attesa di ricevere i dati completi. 

__Ad oggi non compare l'analisi della qualità dei dati in quanto si attende di ricevere maggiori informazioni rispetto i campi. Tali informazioni sono cruciali per la presenza di anomalie nei dati stessi.__

##### ToC

1. [Incidenza % in volume degli affidamenti diretti di importo >= 40.000 € sul totale degli appalti per stazione appaltante](#pt1)
2. [Analisi geografica del flusso finanziario dalla localizzazione della fonte (stazione appaltante) alla localizzazione della destinazione (operatore economico)](#pt2)


In [1]:
import os
import math


import json
import folium
import pycountry
import pandas as pd
from IPython.display import display
from bokeh.io import output_notebook
from collections import defaultdict
from bokeh.plotting import figure, show
from ipywidgets import widgets, interactive
from ipywidgets import interact, interactive, fixed, interact_manual


from src.classes import Gara, StazioneAppaltante
from src.utils import aggregate_importi

In [2]:
# Get the list of json files in the folder
list_files = ['data/' + f for f in os.listdir('data/') if f.endswith('.json')]

In [3]:
# Get the unique dataframe
list_df = [pd.read_json(file) for file in list_files]
df = pd.concat(list_df, ignore_index=True)

In [4]:
df.rename(index=str, 
          columns= {'CF_AMMINISTRAZIONE': 'CodiceFiscaleAmministrazione',
                    'SA_cap': 'CapStazioneAppaltante',
                    'SA_citta': 'CittaStazioneAppaltante',
                    'SA_descrizione_natura_giuridica': 'NaturaGiuridicaStazioneAppaltante',
                    'SA_indirizzo': 'IndirizzoStazioneAppaltante',
                    'SA_provincia': 'ProvianciaStazioneAppaltante',
                    'URL': 'UrlPubblicazione',
                    'categoriaPrevalente_BDNCP': 'CategoriaPrevalente',
                    'cig': 'CIG',
                    'cig_accordoQuadro': 'CigAccordoQuadro',
                    'cpv_BDNCP': 'CPV' ,
                    'denominazione_amministrazione': 'DenominazioneStazioneAppaltante',
                    'denominazione_cc': 'DenominazioneStazioneAppaltante_cc',
                    'fakecig': 'EsisteCIG',
                    'importoAggiudicazione': 'ImportoAggiudicazioneGara',
                    'importoAggiudicazione_bdncp': 'ImportoAggiudicazioneGara_2' ,
                    'importoSommeLiquidate': 'ImportoSommeLiquidate',
                    'localita_BDNCP': 'Localita',
                    'n_aggiudicatari': 'NumeroAggiudicatari',
                    'n_partecipanti': 'NumeroPartecipanti',
                    'numero_gara': 'NumeroGara',
                    'oggetto_gara': 'OggettoGara',
                    'oggetto_lotto': 'OggettoLotto',
                    'partecipanti': 'Partecipanti',
                    'sceltaContraente': 'SceltaContraente',
                    'sceltaContraente_BDNCP': 'SceltaContraente_2'}, 
         inplace=True)

In [5]:
df.head(3)

Unnamed: 0,CodiceFiscaleAmministrazione,CapStazioneAppaltante,CittaStazioneAppaltante,NaturaGiuridicaStazioneAppaltante,IndirizzoStazioneAppaltante,ProvianciaStazioneAppaltante,UrlPubblicazione,CategoriaPrevalente,CIG,CigAccordoQuadro,...,Localita,NumeroAggiudicatari,NumeroPartecipanti,NumeroGara,OggettoGara,OggettoLotto,Partecipanti,SceltaContraente,SceltaContraente_2,ts
0,157770918,8014,BIRORI,ENTI PUBBLICI NON ECONOMICI,VIA S ANDREA 18,IT-NU,tbd,,X86111F3CA,,...,,1,1,,,"L.R. 20.09.2006, n. 14, art. 21, comma 2, lett...","[{'aggiudicatario': '1', 'gruppo': 'n.a.', 'ru...",04-PROCEDURA NEGOZIATA SENZA PREVIA PUBBLICAZI...,,2018-09-16 04:41:30.143
1,224110098,17043,CARCARE,ENTI PUBBLICI NON ECONOMICI,P CAVARADOSSI 26,IT-SV,tbd,,ZF01B137BD,,...,tdb,1,1,ZF01B137BD,ACQUISTO 2 REGISTRI UNIONI CIVILI E 1 REGISTRO...,ACQUISTO 2 REGISTRI UNIONI CIVILI E 1 REGISTRO...,"[{'aggiudicatario': '1', 'gruppo': 'n.a.', 'ru...",23-AFFIDAMENTO IN ECONOMIA - AFFIDAMENTO DIRETTO,AFFIDAMENTO IN ECONOMIA - AFFIDAMENTO DIRETTO,2018-09-16 05:20:25.69
2,224110098,17043,CARCARE,ENTI PUBBLICI NON ECONOMICI,P CAVARADOSSI 26,IT-SV,tbd,,ZD01C7AC6D,,...,tdb,1,1,ZD01C7AC6D,Nuovo allaccio energia elettrica,Nuovo allaccio energia elettrica,"[{'aggiudicatario': '1', 'gruppo': 'n.a.', 'ru...",23-AFFIDAMENTO IN ECONOMIA - AFFIDAMENTO DIRETTO,AFFIDAMENTO IN ECONOMIA - AFFIDAMENTO DIRETTO,2018-09-16 05:20:27.453


* Rimozione delle righe duplicate non tenendo in considerazione la lista dei partecipanti ed il time stamp

In [6]:
lista_attr_esluso_partecipanti = list(df.columns)
lista_attr_esluso_partecipanti.remove('Partecipanti')
lista_attr_esluso_partecipanti.remove('ts')

prev_len = df.shape[0]
df.drop_duplicates(lista_attr_esluso_partecipanti, inplace=True)

print ("""Il numero di righe duplicate è pari a """, prev_len - len(df))

Il numero di righe duplicate è pari a  127


## Incidenza % in volume degli affidamenti diretti di importo maggiore o uguale a 40.000 € sul totale degli appalti per stazione appaltante <a  id='pt1' />

Definiamo l'elenco di tipologie di scelta del contraente che corrispondono agli affidamenti diretti.

In [7]:
affidamenti_diretti = ['23-AFFIDAMENTO IN ECONOMIA - AFFIDAMENTO DIRETTO',
                       '26-AFFIDAMENTO DIRETTO IN ADESIONE AD ACCORDO QUADRO/CONVENZIONE',
                       '17-AFFIDAMENTO DIRETTO EX ART. 5 DELLA LEGGE N.381/91',
                       "24-AFFIDAMENTO DIRETTO A SOCIETA' IN HOUSE",
                       "25-AFFIDAMENTO DIRETTO A SOCIETA' RAGGRUPPATE/CONSORZIATE O CONTROLLATE NELLE CONCESSIONI DI LL.PP"]

Quindi, per ogni stazione appaltante si musura la percentuale di appalti, sul totale della stazione, con affidamento diretto ed importo maggiore di 40.000€.

In [8]:
SA_perc = []
for sa in df.CodiceFiscaleAmministrazione.unique():
    SA = StazioneAppaltante(df, sa)
    den = SA.__dict__['denominazione']
    if len(str(den)) != 0:
        perc = SA._percentuale_appalti_tipologia_y_su_totale_appalti(affidamenti_diretti, 40000)
        SA_perc += [(sa, den, perc)]    

In [9]:
sorted_SA_perc = sorted(SA_perc, key=lambda x: x[2], reverse=True)

In [10]:
denominazioni = [d[1] for d in sorted_SA_perc][:10]
percentuali = [d[2] for d in sorted_SA_perc][:10]

# output to static HTML file
output_notebook()

# create a new plot with a title and axis labels
p = figure(x_range=denominazioni,
           plot_height=700,
           plot_width=700,
           #toolbar_location=None,
           #tools="",
           title="% volume di appalti >= 40.000€ con assegnazione diretta", 
           x_axis_label='Denominazione Stazione Appaltante',
           y_axis_label='Percentuale (%)')


p.vbar(x=denominazioni,
       top=percentuali,
       width=0.5)

p.xgrid.grid_line_color = None
p.y_range.start = 0
p.xaxis.major_label_orientation = 45
p.xaxis.major_label_text_font_size = "5pt"
# show the results
show(p)

## Analisi geografica del flusso finanziario dalla localizzazione della fonte (stazione appaltante) alla localizzazione della destinazione (operatore economico) <a  id='pt2' />

In [11]:
#partecipanti_occorrenze_SA = {}
#partecipanti_importi_SA = {}
#for sa in df.CodiceFiscaleAmministrazione.unique():
#    stazione = StazioneAppaltante(df, sa)
#    partecipanti_i, partecipanti_o = stazione._elenco_partecipanti_stazione_appaltante()
#    try:      
#        prov = pycountry.subdivisions.get(code=stazione.__dict__['provincia']).name
#        partecipanti_occorrenze_SA[(sa, prov)] = partecipanti_o
#        partecipanti_importi_SA[(sa, prov)] = partecipanti_i
#    except KeyError:
#        prov = stazione.__dict__['provincia']
#        partecipanti_occorrenze_SA[(sa, prov)] = partecipanti_o
#        partecipanti_importi_SA[(sa, prov)] = partecipanti_i

Definizione di una struttura dati che per ogni stazione appaltante:
* Conta il numero di aggiudicazioni gara in ogni provincia
* Somma gli importi deglle gare vinte dagli aggiudizatari della provincia

In [12]:
aggiudicatari_occorrenze_SA = {}
aggiudicatari_importi_SA = {}
for sa in df.CodiceFiscaleAmministrazione.unique():
    stazione = StazioneAppaltante(df, sa)
    aggiudicatari_i, aggiudicatari_o = stazione._elenco_aggiudicatari_stazione_appaltante()
    try:      
        prov = pycountry.subdivisions.get(code=stazione.__dict__['provincia']).name
        aggiudicatari_occorrenze_SA[(sa, prov)] = aggiudicatari_o
        aggiudicatari_importi_SA[(sa, prov)] = aggiudicatari_i
    except KeyError:
        prov = stazione.__dict__['provincia']
        aggiudicatari_occorrenze_SA[(sa, prov)] = aggiudicatari_o
        aggiudicatari_importi_SA[(sa, prov)] = aggiudicatari_i

Si riporta in formato di dataframe l'informazione ottenuta dalla precedente elaborazione. In particolare segnamo il totale degli importi di gara per le province aggiudicatarie.

In [13]:
df_importi_agg = []
for sa, list_aggiudicatari in aggiudicatari_importi_SA.items():
    for a, v in list_aggiudicatari.items():
        df_importi_agg += [(sa[0], sa[1], a, v)]

df_importi_agg = pd.DataFrame(df_importi_agg, columns=['StazioneAppaltante', 'ProvinciaSA', 'ProvinciaAggiudicatario', 'Importo'])
df_importi_agg.head()

Unnamed: 0,StazioneAppaltante,ProvinciaSA,ProvinciaAggiudicatario,Importo
0,157770918,Nuoro,Nuoro,3354.06
1,224110098,Savona,Rimini,213.0
2,224110098,Savona,Vercelli,440.0
3,224110098,Savona,Genova,2650.0
4,224110098,Savona,Cuneo,1802.0


##### Aggregazione degli importi per la provincia dell'aggiudicatario e visualizzazione su mappa`

In [14]:
state_geo_path = r'geojson/province.geojson'
geo_json_data = json.load(open(state_geo_path))
rome_coord = [41.8919300, 12.5113300]


list_province_geo = geo_json_data['features']
province_geo = []

for i in range(len(list_province_geo)):
    province_geo += [list_province_geo[i]['properties']['NOME_PRO']]

In [15]:
tot_province = set(df_importi_agg.ProvinciaAggiudicatario).union(set(df_importi_agg.ProvinciaSA))
tot_province_bis = set(tot_province).intersection(set(province_geo))
items = sorted(list(df_importi_agg.ProvinciaSA.unique()))


def view(x=''):
    to_map, to_map_zeros = aggregate_importi(x, df_importi_agg, tot_province_bis)
    us_map = folium.Map(location=rome_coord, zoom_start=6)

    
    us_map.choropleth(geo_data=geo_json_data, data=to_map_zeros,
                 columns=['Provincia', 'Importo'],
                 key_on='feature.properties.NOME_PRO',
                 threshold_scale = [0,  
                                    to_map.Importo.quantile(0.25),
                                    to_map.Importo.quantile(0.5),
                                    to_map.Importo.quantile(0.75),
                                    to_map.Importo.quantile(1)],
                 fill_color='PuBuGn',
                 legend_name='Importo totale gare vinte nella provincia',
                 highlight=True)

    return us_map
    

w = widgets.Select(options=items)
interact(view, x=w)

<function __main__.view>