# Analisi Costi Servizi Regioni



In [13]:
import numpy as np
import pandas as pd

# set the max number of columns to display
pd.options.display.max_columns = 98

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(color_codes=True)

import plotly.offline as py
import plotly.plotly as py_on
import plotly.graph_objs as go
from plotly import tools
import plotly.figure_factory as ff
py.init_notebook_mode(connected=True)

from IPython.display import Image
from IPython.display import display

In [50]:
df = pd.read_csv('./data/opencivitas_spesa_storica_dati_irpef.csv')
df.shape

(26799, 86)

## Quali sono i costi medi/cittadino per regione per l'erogazione dei servizi primari?

Dati i serivizi primari:

- entrate tributarie
- ufficio tecnico
- anagrafe, stato civile, leva e servizio statistico
- altri servizi generali
- polizia locale
- istruzione pubblica
- viabilita'
- trasporto pubblico e servizi connessi
- gestione del territorio
- ambiente
- settore sociale
- asili nido

i grafici sotto mostrano i costi per servizio nelle varie regioni mediati per il periodo 2010-2013

In [315]:
#group by Regione
df_regioni = df.groupby(["Regione"]).sum().reset_index()

# select the columns
dimensioni = ['Regione', 'tot_contribuenti']
costi_columns = [c for c in df.columns if c.startswith('costo')]
costi_columns.remove('costo spesa totale')

#apply the selection
df_costi = df_regioni[dimensioni + costi_columns]

# divide the cost values for the number of tax payers
df_costi_medi = df_costi.copy()
df_costi_medi[costi_columns] = df_costi_medi[costi_columns].div(df_costi_medi['tot_contribuenti'], axis='index')

df_costi_medi = df_costi_medi.drop('tot_contribuenti', axis=1)
df_costi_medi['costo spesa totale'] = df_costi_medi[costi_columns].sum(axis=1)

costi_columns.append('costo spesa totale')
df_costi_medi.sort_values('costo spesa totale')

Unnamed: 0,Regione,costo riscossione tributi,costo ufficio tecnico,"costo anagrafe, stato civile",costo altri servizi,costo polizia locale,costo istruzione,costo viabilita',costo trasporti,costo territorio,costo ambiente,costo sociale,costo asili nido,costo spesa totale
14,VENETO,11.066791,31.689799,14.759061,146.247591,48.67578,84.65025,61.381176,11.209525,39.664089,184.865224,126.965655,20.998212,782.173155
9,MOLISE,20.629573,39.344185,21.319472,193.085556,54.367638,72.233437,79.765573,7.207589,60.224729,155.11085,80.98224,10.013914,794.284756
8,MARCHE,14.55142,29.808208,15.472993,153.112484,51.647383,81.687737,77.512617,7.131765,41.818966,193.447908,129.452846,25.789938,821.434265
2,CALABRIA,20.452651,38.135488,23.950141,186.91038,61.62868,71.739269,80.749484,2.206211,55.836742,209.060655,77.129278,2.225974,830.024954
11,PUGLIA,18.677372,21.928073,16.793989,140.794487,70.843484,64.332549,52.563186,15.645182,41.063315,251.067461,130.37286,14.812705,838.894661
7,LOMBARDIA,14.825448,24.34936,15.088572,152.969375,67.93672,116.808578,62.903171,19.875902,39.496424,181.164853,146.968808,32.488596,874.875806
10,PIEMONTE,15.20088,32.801388,17.802954,154.332304,74.276349,102.968546,77.45422,6.473341,36.469002,213.014395,128.657229,27.366327,886.816935
13,UMBRIA,14.420277,27.99854,14.468847,176.44305,58.753779,80.047587,73.495909,33.844629,57.403077,238.708006,103.746107,30.66345,909.993258
1,BASILICATA,15.401712,46.817467,22.482263,187.699284,63.287966,90.883341,68.572758,33.047221,54.215608,201.299996,120.613182,12.092843,916.413642
4,EMILIA-ROMAGNA,14.308776,23.066809,12.883202,153.942942,60.392137,119.594868,72.050241,7.348358,54.595794,202.241881,155.988887,42.845685,919.25958


La tabella mostra come la regione con in costi piu' bassi in base al numero dei contribuenti sia il **Veneto** mentre quella con i costi piu' alti sia il **Lazio**.

In [359]:
data = []

for c in df_costi_medi_per_regione.columns[:-1]:
    trace = go.Bar(
        x = df_costi_medi_per_regione.index.values,
        y = df_costi_medi_per_regione[c],
        name = c
    )
    data.append(trace)

layout = go.Layout(
    barmode='stack',
    title = 'Costi Servizi'
)

fig = go.Figure(data=data, layout=layout)
py.iplot(fig)

# path = py.plot(fig, include_plotlyjs=True, auto_open=False)
# from IPython.core.display import HTML
# with open(path.replace('file://',''),'r') as f:
#     h = HTML(f.read())
# display(h)

Da questo bar chart possiamo osservare come la Regione piu' costosa sia il Lazio mentre quella piu' economica sia il Veneto. Nel grafico interattivo possiamo deselezionare le varie voci dalla legenda e analizzare i costi in dettaglio.

E' interessante notare che per:

1. i **Tributi Lazio**, Molise e Calabria sono le Regioni con maggiore costo
2. Per il **Sociale** l'Abruzzo e la Regione con i costi maggiori seguita dal Lazio
3. Per gli **Asili Nido** il Lazio ha un coso per contribuente doppio rispetto alle altre Regioni
4. per **l'Ambiente** Lazio e Campania sono le Regioni con costi maggiori
5. per i **Trasporti** il Lazio spende il doppio delle altre Regioni
6. per la **Polizia Locale** il Lazio e' seguito dalla Campania come costi.

A questo punto sarebbe interessante fare una analisi di dettaglio per capire quali sono le province con i costi maggiori nel Lazio.

## Analisi Costi per il Lazio

In [335]:
df_lazio = df[df['Regione'] == 'LAZIO']

#group by Provincia
df_lazio_prov = df_lazio.groupby(["Provincia"]).sum()

# select the columns
dimensioni = ['tot_contribuenti']
costi_columns = [c for c in df.columns if c.startswith('costo')]
costi_columns.remove('costo spesa totale')

# #apply the selection
df_lazio_prov = df_lazio_prov[costi_columns + dimensioni]

# divide the cost values for the number of tax payers
df_lazio_prov_media = df_lazio_prov.copy()
df_lazio_prov_media[costi_columns] = df_lazio_prov_media[costi_columns].div(df_lazio_prov_media['tot_contribuenti'], axis='index')

df_lazio_prov_media = df_lazio_prov_media.drop('tot_contribuenti', axis=1)
df_lazio_prov_media['costo spesa totale'] = df_lazio_prov_media[costi_columns].sum(axis=1)
df_lazio_prov_media = df_lazio_prov_media.sort_values('costo spesa totale')

costi_columns.append('costo spesa totale')
df_lazio_prov_media

Unnamed: 0_level_0,costo riscossione tributi,costo ufficio tecnico,"costo anagrafe, stato civile",costo altri servizi,costo polizia locale,costo istruzione,costo viabilita',costo trasporti,costo territorio,costo ambiente,costo sociale,costo asili nido,costo spesa totale
Provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
FR,14.368566,30.531978,18.943457,163.237985,59.607444,79.253591,68.628952,10.384909,29.392966,199.326252,104.207954,12.506955,790.391009
VT,20.108004,31.183918,17.065518,159.03647,63.360561,62.35775,69.878446,11.670293,38.656451,206.320948,156.331572,14.309743,850.279672
LT,13.046113,26.03346,13.300336,158.584555,72.398823,61.477361,50.304912,21.567984,47.669537,255.509881,144.025108,14.660211,878.578282
RI,17.742476,46.780257,25.882965,230.801063,86.490439,102.415379,94.966857,9.251918,38.983718,238.572038,142.066395,35.356287,1069.309793
RM,22.984084,40.454558,18.173646,243.040604,160.297707,182.233157,82.058329,142.925395,74.975246,368.863482,185.436977,102.87305,1624.316237


In [340]:
data = []

for c in df_lazio_prov_media.columns[:-1]:
    trace = go.Bar(
        x = df_lazio_prov_media.index.values,
        y = df_lazio_prov_media[c],
        name = c,
    )
    data.append(trace)

layout = go.Layout(
    barmode='stack'
)

fig = go.Figure(data=data, layout=layout)
py.iplot(fig)

Si puo' notare come la provincia di Roma sia quelle che contribuisce maggiormente come costi.