# Criminalità Italia - Data Analysis

## KPI

1. Distribuzione omicidi volontari per Regione
2. Distribuzione omicidi volontari per Città Italiana
3. Distribuzione omicidi volontari per Paese zona Euro
4. Distribuzione omicidi volontari per Città zona Euro

## Open Data
1. Istat
    - http://dati.istat.it/Index.aspx
2. Eurostat
    - http://ec.europa.eu/eurostat/data/database
    - http://ec.europa.eu/eurostat/web/json-and-unicode-web-services/getting-started/query-builder
    - http://ec.europa.eu/eurostat/ramon/nomenclatures/index.cfm?TargetUrl=LST_CLS_DLD&StrNom=CL_METROREG&StrLanguageCode=EN&StrLayoutCode=HIERARCHIC
   
   
## Librerie
1. Jsonstat
    - (ISTAT) http://jsonstatpy.readthedocs.io/en/latest/notebooks/istat_house_price_index.html
    - (EUROSTAT) https://github.com/26fe/jsonstat.py/blob/master/docs/notebooks/eurostat.rst


In [33]:
# Importo librerie per analisi dati (Pandas) e dati Isata
import os
import pandas as pd
import numpy as np
from IPython.core.display import HTML
import istat
import jsonstat

In [8]:
# Imposto cache dir per velocizzare analisi in locale
cache_dir = os.path.abspath(os.path.join("..", "tmp", "istat_cached"))
istat.cache_dir(cache_dir)
istat.lang(0)  # lingua italiano
print("cache_dir is '{}'".format(istat.cache_dir()))

cache_dir is '/home/acesarini/opendata/tmp/istat_cached'


In [9]:
# Lista delle aree di analisi disponibili
# istat.areas()

In [10]:
# Seleziono AREA Giustizia e Sicurezza
istat_area_lab = istat.area('JUS')
# Lista dei datasets dell'area
# istat_area_lab.datasets()

In [11]:
# DATASET delitti http://dati.istat.it/Index.aspx?DataSetCode=dccv_delittips
istat_dataset_taxdisoccu = istat_area_lab.dataset('DCCV_DELITTIPS')
istat_dataset_taxdisoccu

nr,name,nr. values,values (first 3 values)
0,Territorio,148,"1:'Italia', 3:'Nord', 4:'Nord-ovest' ..."
1,Tipo dato,3,"1:'numero di delitti denunciati dalle forze di polizia all'autorità giudiziaria', 2:'delitti di cui si è scoperto l'autore nel corso dell'anno di riferimento (valori percentuali sul totale dei delitti dell'anno di riferimento)', 3:'delitti denunciati dalle forze di polizia all'autorità giudiziaria (valori per 100.000 abitanti)' ..."
2,Tipo di delitto,56,"1:'strage', 2:'omicidi volontari consumati', 3:'omicidi volontari consumati a scopo di furto o rapina' ..."
3,Identità autore nota,2,"2:'si', 3:'totale'"
4,Periodo del commesso delitto,3,"1:'prima dell'anno di riferimento', 2:'durante l'anno di riferimento', 3:'prima o durante l'anno di riferimento' ..."
5,Anno,9,"2129:'2012', 2034:'2007', 2148:'2013' ..."


In [12]:
# Lista di tutte le Dimensioni
# istat_dataset_taxdisoccu.dimensions()

In [13]:
# es. spec: Numero crimini registrati dalla polizia(Data Type) per Anno 2014 (Year) su tutto il Territorio Italia (Territory), Omicidi Intenzionali (Type of crime)
spec = {
    "Tipo dato":1,                      # 1 -> number of crimes reported by the police forces to the judicial authority (per 100.000 abitanti)
    "Anno":2167,                        # 2167 -> 2014
    #"Territory":,                      # 0 -> ALL
    #"Type of crime":,                  # 0 -> ALL   
    "Identità autore nota":3,           # 3 Total
    "Periodo del commesso delitto":2    # 2 -> during the reference year
}

collection = istat_dataset_taxdisoccu.getvalues(spec)

In [14]:
# Lista dei dataset presenti nella collection
# collection

In [15]:
# Leggo il primo e unico dataset
ds = collection.dataset(0)
# ds

In [16]:
# Trasformo il dataset in DataFrame
df = ds.to_data_frame('Territorio')

In [17]:
# Tengo solo Omicidi Volontari, perchè sono gli stessi comunicati in EURO
df_fil = df[
            #(df['Tipo di delitto']=='strage') | 
            #(df['Tipo di delitto']=='infanticidi') |
            # (df['Tipo di delitto']=='omicidi preterintenzionali') |
            (df['Tipo di delitto'].str.contains('omicidi volontari'))
            # (df['Tipo di delitto'].str.contains('omicidi colposi'))
           ]
df_fil = df_fil.drop('Tipo di delitto', 1)

In [18]:
# df_fil.head()

In [19]:
# df_fil.info()

In [20]:
# Reset index per group-by
df_fil.reset_index(level=0, inplace=True)

In [21]:
# Raggruppo i valori per Territorio 
df_fil_agg = df_fil.groupby('Territorio',as_index=False)
df_fil_agg = df_fil_agg.agg({'Value' : np.max})

In [22]:
# writer = pd.ExcelWriter('TerritorioItalia.xlsx')
# df_fil_agg.to_excel(writer,'territorio')
# writer.save()

### 1. Dataset -  Numero Omicidi Italia 2014

In [23]:
# Directory dove salvare i file, da utilizzare in data_visualization
dir_df = os.path.join(os.path.abspath(''),'stg')

In [24]:
df_ita=df_fil_agg[(df_fil_agg['Territorio']=='Italia')]
# df_ita

In [25]:
df_ita_filename = r'df_ita.pkl'
df_ita_fullpath = os.path.join(dir_df, df_ita_filename)
df_ita.to_pickle(df_ita_fullpath)

### 2. Dataset - Numero Omicidi Regioni 2014

In [26]:
df_reg=df_fil_agg[(df_fil_agg['Territorio']=='Abruzzo') |
                  (df_fil_agg['Territorio']=='Basilicata') |
                  (df_fil_agg['Territorio']=='Calabria') |
                  (df_fil_agg['Territorio']=='Campania') |
                  (df_fil_agg['Territorio']=='Emilia-Romagna') |
                  (df_fil_agg['Territorio']=='Friuli-Venezia Giulia') |
                  (df_fil_agg['Territorio']=='Lazio') |
                  (df_fil_agg['Territorio']=='Liguria') |
                  (df_fil_agg['Territorio']=='Lombardia') |
                  (df_fil_agg['Territorio']=='Marche') |
                  (df_fil_agg['Territorio']=='Molise') |
                  (df_fil_agg['Territorio']=='Piemonte') |
                  (df_fil_agg['Territorio']=='Puglia') |
                  (df_fil_agg['Territorio']=='Sardegna') |
                  (df_fil_agg['Territorio']=='Sicilia') |
                  (df_fil_agg['Territorio']=='Toscana') |
                  (df_fil_agg['Territorio']=='Umbria') |
                  (df_fil_agg['Territorio']=='Veneto') |
                  (df_fil_agg['Territorio'].str.contains('Trentino Alto Adige')) |
                  (df_fil_agg['Territorio'].str.contains('''Valle d'Aosta'''))
                 ]
# df_reg.sum()

In [27]:
df_reg_filename = r'df_reg.pkl'
df_reg_fullpath = os.path.join(dir_df, df_reg_filename)
df_reg.to_pickle(df_reg_fullpath)

In [28]:
# Directory dove salvare gli output per il Sito
dir_out = os.path.join(os.path.abspath(''),'output')
df_reg.to_csv(os.path.join(dir_out,r'regioni.csv'))

### 3. Dataset - Numero Omicidi Città 2014

In [29]:
df_cit=df_fil_agg[(df_fil_agg['Territorio']!='Abruzzo') &
                  (df_fil_agg['Territorio']!='Basilicata') &
                  (df_fil_agg['Territorio']!='Calabria') &
                  (df_fil_agg['Territorio']!='Campania') &
                  (df_fil_agg['Territorio']!='Emilia-Romagna') &
                  (df_fil_agg['Territorio']!='Friuli-Venezia Giulia') &
                  (df_fil_agg['Territorio']!='Lazio') &
                  (df_fil_agg['Territorio']!='Liguria') &
                  (df_fil_agg['Territorio']!='Lombardia') &
                  (df_fil_agg['Territorio']!='Marche') &
                  (df_fil_agg['Territorio']!='Molise') &
                  (df_fil_agg['Territorio']!='Piemonte') &
                  (df_fil_agg['Territorio']!='Puglia') &
                  (df_fil_agg['Territorio']!='Sardegna') &
                  (df_fil_agg['Territorio']!='Sicilia') &
                  (df_fil_agg['Territorio']!='Toscana') &
                  (df_fil_agg['Territorio']!='Veneto') &
                  (df_fil_agg['Territorio']!='Umbria') &
                  (df_fil_agg['Territorio']!='Italia') &
                  (df_fil_agg['Territorio']!='Nord-ovest') &
                  (df_fil_agg['Territorio']!='Sud') &
                  (df_fil_agg['Territorio']!='Centro') &
                  (df_fil_agg['Territorio']!='Nord-est') &
                  (df_fil_agg['Territorio']!='Isole')
                 ]

In [30]:
# Top 10 Città pericolose
df_cit_top10per=df_cit.sort_values(by='Value',ascending=False).head(10)
df_cit_top10per

Unnamed: 0,Territorio,Value
71,Napoli,49.0
100,Roma,47.0
67,Milano,30.0
25,Catania,18.0
114,Torino,16.0
75,Nuoro,13.0
39,Foggia,11.0
8,Bari,11.0
38,Firenze,10.0
96,Reggio di Calabria,10.0


In [31]:
# Top 10 Città sicure
df_cit_top10sic=df_cit.sort_values(by='Value',ascending=True).head(10)
df_cit_top10sic

Unnamed: 0,Territorio,Value
112,Teramo,1.0
87,Pistoia,1.0
117,Trentino Alto Adige / Südtirol,1.0
118,Trento,1.0
107,Siena,1.0
23,Campobasso,1.0
105,Savona,1.0
82,Pesaro e Urbino,1.0
120,Trieste,1.0
109,Sondrio,1.0


### 3. Dataset - Numero Omicidi Paesi Euro

In [45]:
# url costruito via Query Builder di Euro Stat
url_1 = 'http://ec.europa.eu/eurostat/wdds/rest/data/v1.1/json/en/crim_off_cat?precision=1&iccs=ICCS0101&unit=NR'
file_name_1 = r'eurostat-omicidi.json'
file_path_1 = os.path.join(dir_df, file_name_1)
jsonstat.download(url_1, file_path_1)

'{"crim_off_cat":{"wsVersion":"V1_1","code":"crim_off_cat","language":"EN","title":"Recorded offences by offence category - police data","subTitle":null,"description":null,"lastUpdateDate":1465941600000,"status":{"value":[null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,":",null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null

In [46]:
collection_1 = jsonstat.from_file(file_path_1)
collection_1

0,1
pos,dataset
0,'crim_off_cat'


In [47]:
crim_off_cat = collection_1.dataset('crim_off_cat')
crim_off_cat

0,1,2,3,4
pos,id,label,size,role
0,iccs,iccs,1,
1,unit,unit,1,
2,geo,geo,41,
3,time,time,7,


In [51]:
# Dimensioni Geo e Time
df_eur = crim_off_cat.to_table(content='id',rtype=pd.DataFrame)

In [56]:
# Filtro solo 2014
df_eur=df_eur[(df_eur['time']=='2014')]
# df_eur.head(10)

Unnamed: 0,iccs,unit,geo,time,Value
6,ICCS0101,NR,AL,2014,98.0
13,ICCS0101,NR,AT,2014,40.0
20,ICCS0101,NR,BA,2014,49.0
27,ICCS0101,NR,BE,2014,202.0
34,ICCS0101,NR,BG,2014,116.0
41,ICCS0101,NR,CH,2014,41.0
48,ICCS0101,NR,CY,2014,10.0
55,ICCS0101,NR,CZ,2014,84.0
62,ICCS0101,NR,DE,2014,645.0
69,ICCS0101,NR,DK,2014,58.0


In [57]:
#writer = pd.ExcelWriter('ZonaEuro.xlsx')
#df_eur.to_excel(writer,'Euro')
#writer.save()

In [58]:
df_eur = df_eur.drop('iccs', 1)
df_eur = df_eur.drop('unit', 1)
df_eur = df_eur.drop('time', 1)

In [60]:
df_eur_filename = r'df_eur.pkl'
df_eur_fullpath = os.path.join(dir_df, df_eur_filename)
df_eur.to_pickle(df_eur_fullpath)

### 4. Dataset Omicidi volontari principali città Europee

In [61]:
# url costruito via Query Builder di Euro Stat
url_2 = 'http://ec.europa.eu/eurostat/wdds/rest/data/v1.1/json/en/crim_hom_ocit?unit=NR&precision=1'
file_name_2 = r'eurostat-omicidi_citta.json'
file_path_2 = os.path.join(dir_df, file_name_2)
jsonstat.download(url_2, file_path_2)

'{"crim_hom_ocit":{"wsVersion":"V1_1","code":"crim_hom_ocit","language":"EN","title":"Intentional homicide offences in largest cities","subTitle":null,"description":null,"lastUpdateDate":1464127200000,"status":{"value":[null,null,null,null,null,null,null,null,null,null,null,null,null,":",":",null,null,null,null,null,null,null,":",null,null,null,null,null,null,null,null,null,null,null,":",":",null,null,null,null,null,null,null,null,null,null,null,null,":",":",null,null,null,null,null,null,":",null,null,null,null,null,null,null,null,null,null,null,null,":",":",null,null,null,null,null,null,null,null,null,null,null,null,":",":",null,null,null,null,null,null,null,null,null,null,null,null,":",":",null,null,null,null,null,null,":",":",":",":",null,null,":",":",":",":",":",null,null,null,null,null,null,null,null,":",":",":",null,null,null,null,null,null,null,null,null,null,null,null,":",":",null,null,null,null,null,null,null,null,null,null,null,null,":",":",null,null,null,null,null,null,null,

In [62]:
collection_2 = jsonstat.from_file(file_path_2)
collection_2

0,1
pos,dataset
0,'crim_hom_ocit'


In [64]:
crim_hom_ocit = collection_2.dataset('crim_hom_ocit')
crim_hom_ocit

0,1,2,3,4
pos,id,label,size,role
0,unit,unit,1,
1,cities,cities,65,
2,time,time,7,


In [65]:
# Dimensioni Geo e Time
df_eur_cit = crim_hom_ocit.to_table(content='id',rtype=pd.DataFrame)

In [69]:
# Filtro solo 2014
df_eur_cit=df_eur_cit[(df_eur_cit['time']=='2014')]

In [70]:
df_eur_cit = df_eur_cit.drop('time', 1)
df_eur_cit = df_eur_cit.drop('unit', 1)

In [85]:
# Top 5 Città pericolose
df_eur_cit_top10per=df_eur_cit.sort_values(by='Value',ascending=False).head(10)
df_eur_cit_top10per

Unnamed: 0,cities,Value
104,DE001C1,47.0
370,RS001C,43.0
174,FR001C1,43.0
251,LT001C1,41.0
132,EL001C1,40.0
41,BE001C1,39.0
230,IT001C1,35.0
279,LV001C1,30.0
202,HU001C1,28.0
55,BG001C1,25.0


In [81]:
df_name = pd.read_csv(os.path.join(dir_df, 'CL_METROREG_20161208_194738.csv'), sep=';')

In [82]:
#df_name.head(5)

In [83]:
df_name = df_name.drop('Order', 1)
df_name = df_name.drop('Level', 1)
df_name = df_name.drop('Parent', 1)
df_name = df_name.drop('Remark', 1)
df_name = df_name.drop('Sorting code', 1)

In [84]:
df_name.head(5)

Unnamed: 0,Code,Description
0,,<B> CONCEPT: </B> The EU metro regions are NUT...
1,BE001MC,Bruxelles / Brussel
2,BE001MC_10,Bruxelles / Brussel (NUTS 2010)
3,BE002M,Antwerpen
4,BE003M,Gent


In [89]:
df = pd.merge(df_eur_cit_top10per, df_name, how='left',left_on='cities', right_on='Code')
df

Unnamed: 0,cities,Value,Code,Description
0,DE001C1,47.0,,
1,RS001C,43.0,,
2,FR001C1,43.0,,
3,LT001C1,41.0,,
4,EL001C1,40.0,,
5,BE001C1,39.0,,
6,IT001C1,35.0,,
7,LV001C1,30.0,,
8,HU001C1,28.0,,
9,BG001C1,25.0,,
