# Criminalità Italia - Data Analysis

## KPI

1. Distribuzione omicidi per Regione

## Open Data
1. Istat
    - http://dati.istat.it/Index.aspx
   
   
## Librerie
1. Jsonstat
    - http://jsonstatpy.readthedocs.io/en/latest/notebooks/istat_house_price_index.html


In [26]:
# Importo librerie per analisi dati (Pandas) e dati Isata
import os
import pandas as pd
import numpy as np
from IPython.core.display import HTML
import istat

In [27]:
# Imposto cache dir per velocizzare analisi in locale
cache_dir = os.path.abspath(os.path.join("..", "tmp", "istat_cached"))
istat.cache_dir(cache_dir)
istat.lang(0)  # lingua italiano
print("cache_dir is '{}'".format(istat.cache_dir()))

cache_dir is '/home/acesarini/opendata/tmp/istat_cached'


In [28]:
# Lista delle aree di analisi disponibili
# istat.areas()

In [29]:
# Seleziono AREA Giustizia e Sicurezza
istat_area_lab = istat.area('JUS')
# Lista dei datasets dell'area
# istat_area_lab.datasets()

In [30]:
# DATASET delitti http://dati.istat.it/Index.aspx?DataSetCode=dccv_delittips
istat_dataset_taxdisoccu = istat_area_lab.dataset('DCCV_DELITTIPS')
istat_dataset_taxdisoccu

nr,name,nr. values,values (first 3 values)
0,Territorio,148,"1:'Italia', 3:'Nord', 4:'Nord-ovest' ..."
1,Tipo dato,3,"1:'numero di delitti denunciati dalle forze di polizia all'autorità giudiziaria', 2:'delitti di cui si è scoperto l'autore nel corso dell'anno di riferimento (valori percentuali sul totale dei delitti dell'anno di riferimento)', 3:'delitti denunciati dalle forze di polizia all'autorità giudiziaria (valori per 100.000 abitanti)' ..."
2,Tipo di delitto,56,"1:'strage', 2:'omicidi volontari consumati', 3:'omicidi volontari consumati a scopo di furto o rapina' ..."
3,Identità autore nota,2,"2:'si', 3:'totale'"
4,Periodo del commesso delitto,3,"1:'prima dell'anno di riferimento', 2:'durante l'anno di riferimento', 3:'prima o durante l'anno di riferimento' ..."
5,Anno,9,"2129:'2012', 2034:'2007', 2148:'2013' ..."


In [31]:
# Lista di tutte le Dimensioni
# istat_dataset_taxdisoccu.dimensions()

In [32]:
# es. spec: Numero crimini registrati dalla polizia(Data Type) per Anno 2014 (Year) su tutto il Territorio Italia (Territory), Omicidi Intenzionali (Type of crime)
spec = {
    "Tipo dato":1,                      # 1 -> number of crimes reported by the police forces to the judicial authority (per 100.000 abitanti)
    "Anno":2167,                        # 2167 -> 2014
    #"Territory":,                      # 0 -> ALL
    #"Type of crime":,                  # 0 -> ALL   
    "Identità autore nota":3,           # 3 Total
    "Periodo del commesso delitto":2    # 2 -> during the reference year
}

collection = istat_dataset_taxdisoccu.getvalues(spec)

In [33]:
# Lista dei dataset presenti nella collection
# collection

In [34]:
# Leggo il primo e unico dataset
ds = collection.dataset(0)
# ds

In [35]:
# Trasformo il dataset in DataFrame
df = ds.to_data_frame('Territorio')

In [36]:
# Tengo solo Omicidi (verifica se possibile filtrare le dimensioni su jsonstat)
df_fil = df[(df['Tipo di delitto']=='strage') | 
            (df['Tipo di delitto']=='infanticidi') |
            (df['Tipo di delitto']=='omicidi preterintenzionali') |
            (df['Tipo di delitto'].str.contains('omicidi volontari')) |
            (df['Tipo di delitto'].str.contains('omicidi colposi'))
           ]
df_fil = df_fil.drop('Tipo di delitto', 1)

In [37]:
# df_fil.head()

In [38]:
# df_fil.info()

In [39]:
# Reset index per group-by
df_fil.reset_index(level=0, inplace=True)

In [40]:
# Raggruppo i valori per Territorio 
df_fil_agg = df_fil.groupby('Territorio',as_index=False)
df_fil_agg = df_fil_agg.agg({'Value' : np.max})

In [45]:
# writer = pd.ExcelWriter('TerritorioItalia.xlsx')
# df_fil_agg.to_excel(writer,'territorio')
# writer.save()

### 1. Dataset -  Numero Omicidi Italia 2014

In [17]:
# Directory dove salvare i file, da utilizzare in data_visualization
dir_df = os.path.join(os.path.abspath(''),'stg')

In [18]:
df_ita=df_fil_agg[(df_fil_agg['Territorio']=='Italia')]
# df_ita

In [19]:
df_ita_filename = r'df_ita.pkl'
df_ita_fullpath = os.path.join(dir_df, df_ita_filename)
df_ita.to_pickle(df_ita_fullpath)

### 2. Dataset - Numero Omicidi Regioni 2014

In [20]:
df_reg=df_fil_agg[(df_fil_agg['Territorio']=='Abruzzo') |
                  (df_fil_agg['Territorio']=='Basilicata') |
                  (df_fil_agg['Territorio']=='Calabria') |
                  (df_fil_agg['Territorio']=='Campania') |
                  (df_fil_agg['Territorio']=='Emilia-Romagna') |
                  (df_fil_agg['Territorio']=='Friuli-Venezia Giulia') |
                  (df_fil_agg['Territorio']=='Lazio') |
                  (df_fil_agg['Territorio']=='Liguria') |
                  (df_fil_agg['Territorio']=='Lombardia') |
                  (df_fil_agg['Territorio']=='Marche') |
                  (df_fil_agg['Territorio']=='Molise') |
                  (df_fil_agg['Territorio']=='Piemonte') |
                  (df_fil_agg['Territorio']=='Puglia') |
                  (df_fil_agg['Territorio']=='Sardegna') |
                  (df_fil_agg['Territorio']=='Sicilia') |
                  (df_fil_agg['Territorio']=='Toscana') |
                  (df_fil_agg['Territorio']=='Umbria') |
                  (df_fil_agg['Territorio']=='Veneto') |
                  (df_fil_agg['Territorio'].str.contains('Trentino Alto Adige')) |
                  (df_fil_agg['Territorio'].str.contains('''Valle d'Aosta'''))
                 ]
# df_reg.sum()

In [21]:
df_reg_filename = r'df_reg.pkl'
df_reg_fullpath = os.path.join(dir_df, df_reg_filename)
df_reg.to_pickle(df_reg_fullpath)

In [22]:
# Directory dove salvare gli output per il Sito
dir_out = os.path.join(os.path.abspath(''),'output')
df_reg.to_csv(os.path.join(dir_out,r'regioni.csv'))

### 3. Dataset - Numero Omicidi Città 2014

In [50]:
df_cit=df_fil_agg[(df_fil_agg['Territorio']!='Abruzzo') &
                  (df_fil_agg['Territorio']!='Basilicata') &
                  (df_fil_agg['Territorio']!='Calabria') &
                  (df_fil_agg['Territorio']!='Campania') &
                  (df_fil_agg['Territorio']!='Emilia-Romagna') &
                  (df_fil_agg['Territorio']!='Friuli-Venezia Giulia') &
                  (df_fil_agg['Territorio']!='Lazio') &
                  (df_fil_agg['Territorio']!='Liguria') &
                  (df_fil_agg['Territorio']!='Lombardia') &
                  (df_fil_agg['Territorio']!='Marche') &
                  (df_fil_agg['Territorio']!='Molise') &
                  (df_fil_agg['Territorio']!='Piemonte') &
                  (df_fil_agg['Territorio']!='Puglia') &
                  (df_fil_agg['Territorio']!='Sardegna') &
                  (df_fil_agg['Territorio']!='Sicilia') &
                  (df_fil_agg['Territorio']!='Toscana') &
                  (df_fil_agg['Territorio']!='Veneto') &
                  (df_fil_agg['Territorio']!='Umbria') &
                  (df_fil_agg['Territorio']!='Italia') &
                  (df_fil_agg['Territorio']!='Nord-ovest') &
                  (df_fil_agg['Territorio']!='Sud') &
                  (df_fil_agg['Territorio']!='Centro') &
                  (df_fil_agg['Territorio']!='Nord-est') &
                  (df_fil_agg['Territorio']!='Isole')
                 ]

In [51]:
# Top 10 Città pericolose
df_cit_top10per=df_cit.sort_values(by='Value',ascending=False).head(10)
df_cit_top10per

Unnamed: 0,Territorio,Value
100,Roma,133.0
67,Milano,77.0
17,Brescia,69.0
71,Napoli,49.0
78,Palermo,41.0
15,Bologna,38.0
13,Bergamo,36.0
119,Treviso,34.0
30,Cosenza,30.0
129,Verona,29.0


In [52]:
# Top 10 Città sicure
df_cit_top10sic=df_cit.sort_values(by='Value',ascending=True).head(10)
df_cit_top10sic

Unnamed: 0,Territorio,Value
51,La Spezia,1.0
5,Ascoli Piceno,2.0
105,Savona,2.0
58,Lodi,2.0
90,Prato,3.0
35,Enna,3.0
6,Asti,3.0
55,Lecco,3.0
14,Biella,3.0
109,Sondrio,4.0
