# Criminalidad en España 2015-2020

## Importación de librerias

A continuación se importan las librerias que se van a utilizar:

In [80]:
import pandas as pd
import numpy as np
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

## Carga de los datos

### Fuente

Los datos se han obtenido de:
* [Portal Estadístico de Criminalidad (Ministerio del Interior)](https://estadisticasdecriminalidad.ses.mir.es/publico/portalestadistico/portal/balances.html)

### Pre-tratamiento de los datos

Los datos sobre criminalidad descargados no tienen un formato que se pueda tratar directamente, como puede verse en el documento descargado (../data/2016_1sc.csv), hay información que hay que desechar y la disposición en tablas no es la adecuada para su lectura. Para ello, se hace un formateo del fichero a través de el script treatCSV (../scripts/treatCSV.py), que modifica su estructura creando un nuevo archivo csv, haciendola más manejable, como se puede ver en ../data/2016_1scclean.csv.

### Carga de los datos

Una vez se han tratado los datos descargados, ya los podemos caragar en DataFrames de pandas

In [81]:


df_2016_1 = pd.read_csv('../data/2016_1scclean.csv', sep=";")
df_2016_2 = pd.read_csv('../data/2016_2scclean.csv', sep=";")
df_2016_3 = pd.read_csv('../data/2016_3scclean.csv', sep=";")
df_2016_4 = pd.read_csv('../data/2016_4scclean.csv', sep=";")

df_2017_1 = pd.read_csv('../data/2017_1scclean.csv', sep=";")
df_2017_2 = pd.read_csv('../data/2017_2scclean.csv', sep=";")
df_2017_3 = pd.read_csv('../data/2017_3scclean.csv', sep=";")
df_2017_4 = pd.read_csv('../data/2017_4scclean.csv', sep=";")

df_2018_1 = pd.read_csv('../data/2018_1scclean.csv', sep=";")
df_2018_2 = pd.read_csv('../data/2018_2scclean.csv', sep=";")
df_2018_3 = pd.read_csv('../data/2018_3scclean.csv', sep=";")
df_2018_4 = pd.read_csv('../data/2018_4scclean.csv', sep=";")

df_2019_1 = pd.read_csv('../data/2019_1scclean.csv', sep=";")
df_2019_2 = pd.read_csv('../data/2019_2scclean.csv', sep=";")
df_2019_3 = pd.read_csv('../data/2019_3scclean.csv', sep=";")
df_2019_4 = pd.read_csv('../data/2019_4scclean.csv', sep=";")

df_2020_1 = pd.read_csv('../data/2020_1scclean.csv', sep=";")
df_2020_2 = pd.read_csv('../data/2020_2scclean.csv', sep=";")
df_2020_3 = pd.read_csv('../data/2020_3scclean.csv', sep=";")
df_2020_4 = pd.read_csv('../data/2020_4scclean.csv', sep=";")

df_lista =[df_2016_1, df_2016_2, df_2016_3, df_2016_4,
            df_2017_1, df_2017_2, df_2017_3, df_2017_4,
            df_2018_1, df_2018_2, df_2018_3, df_2018_4,
            df_2019_1, df_2019_2, df_2019_3, df_2019_4,
            df_2020_1, df_2020_2, df_2020_3, df_2020_4]

Compruebo que los campos están limpios y que más o menos siguen un patrón en su estructura.

In [82]:
for df in df_lista:
    df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832 entries, 0 to 1831
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Comunidad              1832 non-null   object 
 1   Provincia              1408 non-null   object 
 2   Municipio              1168 non-null   object 
 3   code                   1832 non-null   int64  
 4   Delito                 1832 non-null   object 
 5   Enero-marzo 2015       1832 non-null   float64
 6   Enero-marzo 2016       1832 non-null   float64
 7   Variación % 2016/2015  1832 non-null   float64
 8   Nivel                  1832 non-null   object 
dtypes: float64(3), int64(1), object(5)
memory usage: 128.9+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832 entries, 0 to 1831
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Comunidad              1832 non-null   obje

El número de registros va creciendo cuando cambiamos de año, compruebo las comunidades de cada archivo

In [83]:
for df in df_lista:
    print(len(df.groupby('Comunidad').Comunidad))

21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21


Compruebo el número de provincias

In [84]:
for df in df_lista:
    print(len(df.groupby('Provincia').Provincia))

62
62
62
62
63
63
63
63
63
63
63
63
63
63
63
63
63
63
63
63


Compruebo el número de municipios

In [85]:
for df in df_lista:
    print(len(df.groupby('Municipio').Municipio))

146
146
146
146
246
246
246
248
248
248
248
248
253
253
253
253
253
253
253
253


In [86]:
for df in df_lista:
    print(len(df.groupby('code').code))

8
8
8
8
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14


Los datos de 2016 difieren bastante de los años posteriores. Parece que del primer año al segundo hay un aumento de más de 100 municipios, el número de códigos utilizado para definir los delitos son diferentes. Definitivamente el dato 2015/2016 no lo voy a usar.

In [87]:
df_lista[5].columns

Index(['Comunidad', 'Provincia', 'Municipio', 'code', 'Delito',
       'Enero-junio 2016', 'Enero-junio 2017', 'Variación % 2017/2016',
       'Nivel'],
      dtype='object')

Voy a añadir todas las columnas en un dataset a través de los campos 'Comunidad', 'Provincia', 'Municipio', 'code', 'Delito'. Me quedaré con las columnas que hacen referencia al acumulado trimestral. 

In [88]:
result =df_lista[4]#añado el primer df
for df in df_lista[5:]:
    result = pd.merge(result,df, how ='outer' ,on=['Comunidad', 'Provincia', 'Municipio', 'code','Delito','Nivel'])

print('Tamaño de la tabla final',len( result),'filas')
result


Tamaño de la tabla final 5083 filas


Unnamed: 0,Comunidad,Provincia,Municipio,code,Delito,Enero-marzo 2016,Enero-marzo 2017_x,Variación % 2017/2016_x,Nivel,Enero-junio 2016,...,Variación % 2020/2019_x,Enero-junio 2019_y,Enero-junio 2020,Variación % 2020/2019_y,Enero-septiembre 2019_y,Enero-septiembre 2020,Variación % 2020/2019_x.1,Enero-diciembre 2019_y,Enero-diciembre 2020,Variación % 2020/2019_y.1
0,ANDALUCÍA,,,1,Homicidios dolosos y asesinatos consumados,16.0,12.0,-25.0,Comunidad,24.0,...,13.3,34.0,29.0,-14.7,60.0,47.0,-21.7,82.0,60.0,-26.8
1,ANDALUCÍA,,,2,Homicidios dolosos y asesinatos en grado tenta...,45.0,59.0,31.1,Comunidad,112.0,...,66.7,71.0,116.0,63.4,111.0,190.0,71.2,156.0,238.0,52.6
2,ANDALUCÍA,,,3,Delitos graves y menos graves de lesiones y ri...,644.0,681.0,5.7,Comunidad,1361.0,...,6.1,1499.0,1355.0,-9.6,2558.0,2315.0,-9.5,3474.0,3054.0,-12.1
3,ANDALUCÍA,,,4,Secuestro,3.0,1.0,-66.7,Comunidad,7.0,...,-50.0,24.0,12.0,-50.0,26.0,18.0,-30.8,31.0,23.0,-25.8
4,ANDALUCÍA,,,5,Delitos contra la libertad e indemnidad sexual,416.0,516.0,24.0,Comunidad,926.0,...,-11.2,1214.0,1009.0,-16.9,1886.0,1665.0,-11.7,2510.0,2215.0,-11.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5078,MADRID (COMUNIDAD DE),,Arroyomolinos,8,Hurtos,,,,Municipio,,...,-12.5,790.0,416.0,-47.3,1158.0,659.0,-43.1,1621.0,1015.0,-37.4
5079,MADRID (COMUNIDAD DE),,Arroyomolinos,9,Sustracciones de vehículos,,,,Municipio,,...,18.8,30.0,28.0,-6.7,36.0,44.0,22.2,52.0,58.0,11.5
5080,MADRID (COMUNIDAD DE),,Arroyomolinos,10,Tráfico de drogas,,,,Municipio,,...,0.0,0.0,1.0,100.0,2.0,2.0,0.0,2.0,4.0,100.0
5081,MADRID (COMUNIDAD DE),,Arroyomolinos,code,Resto de infracciones penales,,,,Municipio,,...,-5.6,518.0,429.0,-17.2,802.0,763.0,-4.9,1062.0,1122.0,5.6


Al unir todos los datos, me aparecen columnas repetidas, voy a borrar las columnas que tienen el sufijo '_y', y boraré del nombre el sufijo '_x'. Desecharé las columnas de variación, ya que es fácilmente calculable.

In [89]:
y_columns = result.columns[result.columns.str.contains('_y')]
result = result.drop(y_columns, axis=1)

variacion_columns = result.columns[result.columns.str.contains('Variación')]
result = result.drop(variacion_columns, axis=1)

result.columns = list(map(lambda x: x.replace('_x',''),result.columns))

result.columns

Index(['Comunidad', 'Provincia', 'Municipio', 'code', 'Delito',
       'Enero-marzo 2016', 'Enero-marzo 2017', 'Nivel', 'Enero-junio 2016',
       'Enero-junio 2017', 'Enero-septiembre 2016', 'Enero-septiembre 2017',
       'Enero-diciembre 2016', 'Enero-diciembre 2017', 'Enero-marzo 2018',
       'Enero-junio 2018', 'Enero-septiembre 2018', 'Enero-diciembre 2018',
       'Enero-marzo 2019', 'Enero-junio 2019', 'Enero-septiembre 2019',
       'Enero-diciembre 2019', 'Enero-marzo 2020', 'Enero-junio 2020',
       'Enero-septiembre 2020', 'Enero-diciembre 2020'],
      dtype='object')

Ordeno las columnas por año

In [90]:

anyos = ['2016','2017','2018','2019','2020']

sort_column_result=result.iloc[:,:5]

sort_column_result= pd.concat([sort_column_result,result['Nivel']],axis=1)

for anyo in anyos:
    year_columns = result.columns[result.columns.str.contains(anyo)]
    sort_column_result= pd.concat([sort_column_result,result[year_columns]],axis=1)


Cada columna con un periodo de meses en el nombre, es un acumulado, es decir, en 'Enero-diciembre' Está todo el año en 'Enero-marzo' el primer trimestre, en 'Enero-junio' acumulado primer mas segundo trimestre. Construyo los periodos trimestrales a través de los datos que tenemos, para tener el número de delitos cometidos por trimestre. El nombre de estas columnas estará formado por el año y el trimestre al que pertenece. Ej: 2017Q3 -> tercer trimestre de 2017. Utilizo la letra Q para poder hacer un formateo a fecha de forma inmediata para usar en series temporales. 

In [91]:
print(anyos)
trimestreAcum =['Enero-marzo','Enero-junio','Enero-septiembre','Enero-diciembre']
trimestre = ['Q1','Q2','Q3','Q4']

for a in anyos:
    for i in range(len(trimestre)):
        if i == 0:
            sort_column_result[a + trimestre[i]] = sort_column_result[trimestreAcum[i] + " " + a]
        else:
            sort_column_result[a + trimestre[i]] = sort_column_result[trimestreAcum[i] + " " + a] - sort_column_result                                                                [trimestreAcum[i-1] + " " + a]

sort_column_result[['Enero-marzo 2016', 'Enero-junio 2016', 'Enero-septiembre 2016',
       'Enero-diciembre 2016','2016Q1','2016Q2','2016Q3','2016Q4']]

['2016', '2017', '2018', '2019', '2020']


Unnamed: 0,Enero-marzo 2016,Enero-junio 2016,Enero-septiembre 2016,Enero-diciembre 2016,2016Q1,2016Q2,2016Q3,2016Q4
0,16.0,24.0,49.0,68.0,16.0,8.0,25.0,19.0
1,45.0,112.0,165.0,227.0,45.0,67.0,53.0,62.0
2,644.0,1361.0,2237.0,2911.0,644.0,717.0,876.0,674.0
3,3.0,7.0,11.0,16.0,3.0,4.0,4.0,5.0
4,416.0,926.0,1417.0,1837.0,416.0,510.0,491.0,420.0
...,...,...,...,...,...,...,...,...
5078,,,,,,,,
5079,,,,,,,,
5080,,,,,,,,
5081,,,,,,,,


### Carga dato población por municipio

Se van a añadir los datos poblacionales por provincia para comparar las diferentes comunidades. Esta vez, los datos provienen de ficheros excell

In [92]:
pob2020 = pd.read_excel('../data/pobmun/pobmun20.xlsx', skiprows =[0,0])
pob2019 = pd.read_excel('../data/pobmun/pobmun19.xlsx', skiprows =[0,0])
pob2018 = pd.read_excel('../data/pobmun/pobmun18.xlsx', skiprows =[0,0])
pob2017 = pd.read_excel('../data/pobmun/pobmun17.xlsx', skiprows =[0,1])
pob2016 = pd.read_excel('../data/pobmun/pobmun16.xlsx', skiprows =[0,0])

pobList = [pob2016, pob2017, pob2018,pob2019,pob2020]

In [93]:
sufix = 16
poblacion =[]
for pobItem in pobList:
    pobGroup = pobItem.groupby(['PROVINCIA'])['PROVINCIA','POB'+str(sufix)].sum()
    
    if sufix >16:
        poblacion  = pd.concat([poblacion,pobGroup],axis=1)
   
    else:
        poblacion = pobGroup.copy()
    
    sufix +=1

#cambio el nombe de las columnas para su posterior tratamiento
poblacion.columns = ['POB2016', 'POB2017', 'POB2018', 'POB2019', 'POB2020']

Se cargan en la variable poblacion, esta no tiene ningún problema en sus datos

In [94]:
poblacion.info()

<class 'pandas.core.frame.DataFrame'>
Index: 52 entries, Albacete to Ávila
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   POB2016  52 non-null     int64
 1   POB2017  52 non-null     int64
 2   POB2018  52 non-null     int64
 3   POB2019  52 non-null     int64
 4   POB2020  52 non-null     int64
dtypes: int64(5)
memory usage: 2.4+ KB


Queda pendiente como relacionar estos datos con los de criminalidad

## Construcción datos finales

### Funciones

Crearé algunas funciones para facilitar la creación de los gráficos

In [95]:
def addTotalColumn(df):
    df['Total'] = (df['Enero-diciembre 2016'] + df['Enero-diciembre 2017'] + df['Enero-diciembre 2018'] + df['Enero-diciembre 2019'] + df['Enero-diciembre 2020'])

def addMediaColumn(df):
    df['MediaTotal'] = (df['Enero-diciembre 2016'] + df['Enero-diciembre 2017'] + df['Enero-diciembre 2018'] + df['Enero-diciembre 2019'] + df['Enero-diciembre 2020'])/5

def addTotalPobColumn(df):
    df['TotalPob'] = (df['POB2016'] + df['POB2017'] + df['POB2018'] + df['POB2019'] + df['POB2020']) / 5

def addPercent(df,total):
    df['Percent'] = list(map(lambda x: round(x * 100/total,3), df.Total))

def addTasaDelitoPob(df, anyo, habitantes):
    aaaa = str(anyo)
    columnsTasaPob=df.columns[df.columns.str.contains(aaaa)]
    df['Delito/pob_'+ aaaa]=(df[columnsTasaPob[0]] / df[columnsTasaPob[1]]) * int(habitantes)

### DataFrames de acceso rápdio

A continuación, dividiré el dataset general en tres, ajustandose al tipo administrativo de comunidad, provincia, municipio, ya que los trataré por separado

In [96]:

qcolumns = sort_column_result.columns[sort_column_result.columns.str.contains('Q')]
ene_dic_columns = sort_column_result.columns[sort_column_result.columns.str.contains('Enero-diciembre')]
pob_columns = poblacion.columns[poblacion.columns.str.contains('POB')]
#añado columnas de totales de fila
addTotalColumn(sort_column_result)
addMediaColumn(sort_column_result)
main_columns = ['Comunidad', 'Provincia', 'Municipio', 'code', 'Delito', 'Nivel',*ene_dic_columns,*qcolumns,'Total','MediaTotal']

sort_column_result = sort_column_result[main_columns]

#datos totales de españa
total_espana = sort_column_result[sort_column_result.Comunidad.str.contains('NACIONAL') & sort_column_result.Delito.str.contains('TOTAL')]

#datos totales por comunidad
total_comunidades = sort_column_result[sort_column_result.Nivel.str.contains('Comunidad') & sort_column_result.Delito.str.contains('TOTAL') & ~             sort_column_result.Comunidad.str.contains('FUERA') & ~ sort_column_result.Comunidad.str.contains('EXTRANJERO') & ~ sort_column_result.Comunidad.str.contains('NACIONAL')]

#Datos totales por provincias
total_provincias = sort_column_result[sort_column_result.Nivel.str.contains('Provincia') & sort_column_result.Delito.str.contains('TOTAL') & ~             sort_column_result.Comunidad.str.contains('FUERA') & ~ sort_column_result.Comunidad.str.contains('EXTRANJERO') & ~ sort_column_result.Comunidad.str.contains('NACIONAL')]

#datos totales por municipio
total_municipio = sort_column_result[sort_column_result.Nivel.str.contains('Municipio') & sort_column_result.Delito.str.contains('TOTAL') & ~             sort_column_result.Comunidad.str.contains('FUERA') & ~ sort_column_result.Comunidad.str.contains('EXTRANJERO') & ~ sort_column_result.Comunidad.str.contains('NACIONAL')]

#datos España por tipo de delito
espana_tipo_delito = sort_column_result[sort_column_result.Comunidad.str.contains('NACIONAL') & ~ sort_column_result.code.str.contains('code') & ~ sort_column_result.code.str.contains('5.') & ~ sort_column_result.code.str.contains('7.')]

n_delitos_espana =espana_tipo_delito.groupby('Comunidad')['Total'].sum().iloc[-1]

#datos comunidades por tipo de delito
comunidades_tipo_delito = sort_column_result[sort_column_result.Nivel.str.contains('Comunidad') & ~ sort_column_result.code.str.contains('code') & ~ sort_column_result.code.str.contains('5.') & ~ sort_column_result.code.str.contains('7.') & ~ sort_column_result.Comunidad.str.contains('FUERA') & ~ sort_column_result.Comunidad.str.contains('EXTRANJERO') & ~ sort_column_result.Comunidad.str.contains('NACIONAL')]

#datos provincias por tipo de delito
provincia_tipo_delito = sort_column_result[sort_column_result.Nivel.str.contains('Provincia') & ~ sort_column_result.code.str.contains('code') & ~ sort_column_result.code.str.contains('5.') & ~ sort_column_result.code.str.contains('7.') & ~ sort_column_result.Comunidad.str.contains('FUERA') & ~ sort_column_result.Comunidad.str.contains('EXTRANJERO') & ~ sort_column_result.Comunidad.str.contains('NACIONAL')]

addTotalPobColumn(poblacion)

### Unión datos de población con criminalidad

La idea es tratarlo en función de la provincia, una vez tenga esto, será fácil obtener la población a nivel Comunidad

In [97]:


prov_data_crimen = ['ALBACETE','ALICANTE/ALACANT','ALMERÍA','ARABA/ÁLAVA','ASTURIAS','BADAJOZ','BALEARS','BARCELONA','BIZKAIA','BURGOS','CANTABRIA','CASTELLÓN/CASTELLÓ','CIUDAD AUTÓNOMA DE CEUTA','CIUDAD AUTÓNOMA DE MELILLA','CIUDAD REAL','CORUÑA (A)','CUENCA','CÁCERES','CÁDIZ','CÓRDOBA','GIPUZKOA','GIRONA','GRANADA','GUADALAJARA','HUELVA','HUESCA','JAÉN','LEÓN','LLEIDA','LUGO','MADRID','MURCIA','MÁLAGA','NAVARRA','OURENSE','PALENCIA','PALMAS (LAS)','PONTEVEDRA','RIOJA','SALAMANCA','SANTA CRUZ DE TENERIFE','SEGOVIA','SEVILLA','SORIA','TARRAGONA','TERUEL','TOLEDO','VALENCIA/VALÈNCIA','VALLADOLID','ZAMORA','ZARAGOZA','ÁVILA']
prov_data_pob = ['Albacete','Alicante/Alacant','Almería','Araba/Álava','Asturias','Badajoz','Balears, Illes','Barcelona','Bizkaia','Burgos','Cantabria','Castellón/Castelló','Ceuta','Melilla','Ciudad Real','Coruña, A','Cuenca','Cáceres','Cádiz','Córdoba','Gipuzkoa','Girona','Granada','Guadalajara','Huelva','Huesca','Jaén','León','Lleida','Lugo','Madrid','Murcia','Málaga','Navarra','Ourense','Palencia','Palmas, Las','Pontevedra','Rioja, La','Salamanca','Santa Cruz de Tenerife','Segovia','Sevilla','Soria','Tarragona','Teruel','Toledo','Valencia/València','Valladolid','Zamora','Zaragoza','Ávila']


In [98]:
provUnionCrimenPoblacion = pd.DataFrame()

provUnionCrimenPoblacion['CrimenProv'] = prov_data_crimen
provUnionCrimenPoblacion['PobProv'] = prov_data_pob

provUnionCrimenPoblacion = pd.merge(provUnionCrimenPoblacion,provincia_tipo_delito, left_on=['CrimenProv'], right_on=['Provincia'])
provUnionCrimenPoblacion = pd.merge(provUnionCrimenPoblacion,poblacion, left_on=['PobProv'], right_on=['PROVINCIA'])

espanaUnionCrimenPoblacion = pd.DataFrame()
espanaUnionCrimenPoblacion = provUnionCrimenPoblacion[pob_columns]
espanaUnionCrimenPoblacion['Comunidad'] ='NACIONAL'
espanaUnionCrimenPoblacion = espanaUnionCrimenPoblacion.groupby('Comunidad').sum()
espanaUnionCrimenPoblacion

Unnamed: 0_level_0,POB2016,POB2017,POB2018,POB2019,POB2020
Comunidad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
NACIONAL,465570080,465721320,467229800,470262080,474507950


Total Nacional

En una primera aproximación, muestro la evolución del total de delitos por trimestre en España

In [99]:

comunidadQColumns = ['Comunidad',*qcolumns]

#Delitos Totales
total_espana_graph =total_espana[comunidadQColumns]

total_espana_graph = pd.melt(total_espana_graph,id_vars=['Comunidad'],value_vars=qcolumns, var_name='Trimestre',value_name='Criminalidad')

total_espana_graph.Trimestre =pd.to_datetime(total_espana_graph.Trimestre)
fig = px.line(total_espana_graph, x="Trimestre", y='Criminalidad',
                hover_data={"Trimestre": "|%q trimestre-%Y"},
              title='Evolución Trimestral del crimen en España (2016-2020)')
fig.update_traces(mode="markers+lines")
fig.update_xaxes(dtick="M3",tickformat="%q-%Y", tickangle = 45)
fig.show()



Explicación: patrón claro con picos máx en el tercer trimestre del año y pico mínimo en el primer trimestre. Tendencia creaciente, hasta 2020, que hay un abrupto desdenso, sobre todo en el segundo trimestre, coincidiendo con el confinamiento

In [100]:

delitQColumns = ['code','Delito',*qcolumns]

espana_tipo_delito_graph1 = espana_tipo_delito[delitQColumns]

espana_tipo_delito_graph1 = pd.melt(espana_tipo_delito_graph1,id_vars=['code','Delito'],value_vars=qcolumns, var_name='Trimestre',value_name='Criminalidad')

espana_tipo_delito_graph1 = espana_tipo_delito_graph1.pivot(index='Trimestre',columns='Delito',values='Criminalidad')

espana_tipo_delito_graph1 = espana_tipo_delito_graph1.reset_index()

espana_tipo_delito_graph1.Trimestre =pd.to_datetime(espana_tipo_delito_graph1.Trimestre)


fig = px.line(espana_tipo_delito_graph1, x="Trimestre", y=espana_tipo_delito_graph1.columns,
              hover_data={
                  "Trimestre": "|%q de %Y",
              },
              title='Evolución Trimestral por tipo de crimen en España (2016-2020)',
              height=400, width=900)
fig.update_xaxes(
    dtick="M3",
    tickformat="%q-%Y")
    
fig.update_layout(showlegend=True)
fig.show()

In [101]:
tit_graph = tuple(espana_tipo_delito_graph1.columns[1:])

traduce_delitos = ('Robos con fuerza en domicilios','Contra la libertad e indemnidad sexual','Lesiones y riña tumultuaria','Homicidios y asesinatos consumados','Homicidios y asesinatos tentativa','Hurtos', 'Robos con violencia e intimidación','Secuestro', 'Sustracciones de vehículos', 'Tráfico de drogas')

fig = make_subplots(rows=5, 
                    cols=2,
                    subplot_titles=traduce_delitos,
                    shared_xaxes=True)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y= espana_tipo_delito_graph1.iloc[:,1]),
    row=1, col=1
)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y=espana_tipo_delito_graph1.iloc[:,2]),
    row=1, col=2
)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y= espana_tipo_delito_graph1.iloc[:,3]),
    row=2, col=1
)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y=espana_tipo_delito_graph1.iloc[:,4]),
    row=2, col=2
)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y= espana_tipo_delito_graph1.iloc[:,5]),
    row=3, col=1
)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y=espana_tipo_delito_graph1.iloc[:,6]),
    row=3, col=2
)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y= espana_tipo_delito_graph1.iloc[:,7]),
    row=4, col=1
)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y=espana_tipo_delito_graph1.iloc[:,8]),
    row=4, col=2
)
fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y= espana_tipo_delito_graph1.iloc[:,9]),
    row=5, col=1
)

fig.add_trace(
    go.Scatter(x=espana_tipo_delito_graph1.iloc[:,0], y=espana_tipo_delito_graph1.iloc[:,10]),
    row=5, col=2
)
fig.update_layout(height=800, width=1000, title_text="Evolucion trimestral por tipo de delitos")
fig.update_traces(mode="markers+lines")
fig.update_xaxes(dtick="M3",tickformat="%q-%Y")
fig.update_layout(showlegend=False)
fig.update_xaxes(
    dtick="M3",
    tickangle= 45
    )
fig.show()

graph #3 Explicación: 

In [153]:

total_columns = ['code','Delito','Total','MediaTotal']
espana_tipo_delito_graph2 = espana_tipo_delito[total_columns]


espana_tipo_delito_graph2 = espana_tipo_delito_graph2.sort_values('MediaTotal')

fig = px.bar(espana_tipo_delito_graph2, y='Delito', x='MediaTotal', text='MediaTotal', title='Ranking delitos penales en España (2016-2020)', width =900)
fig.update_traces(texttemplate='%{text:.3s}')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
fig.show()

grph #2 qué delitos penales son más habituales en España? lectura de ranking

In [103]:
df_percent = espana_tipo_delito
addPercent(df_percent,n_delitos_espana)
df_percent = df_percent[['Delito','Percent']]
comunidades = list(total_comunidades.Comunidad)
df_comunidades =comunidades_tipo_delito
i,j=1,1

fig = make_subplots(rows=7, 
                    cols=3,
                    subplot_titles=comunidades,
                    shared_yaxes=True
                    )

for comunidad in comunidades:
    df_comunidad = df_comunidades[df_comunidades.Comunidad.str.contains(comunidad,regex=False)]
    n_delitos_comunidad = df_comunidad.groupby('Comunidad')['Total'].sum().iloc[-1]
    addPercent(df_comunidad,n_delitos_comunidad)
    df_comunidad =df_comunidad[['Comunidad','code','Delito','Percent']]
    result= pd.merge(df_comunidad,df_percent, on=['Delito','Delito'])
    result['IDE'] = round(result.Percent_x / result.Percent_y,3)
    result['IDE_2'] = 1 - result['IDE']
    result["Color"] = np.where(result["IDE_2"]<0, 'red', 'green')

    fig.add_trace(
        go.Bar(name='IDE_2',
            x=result.code,
            y=result.IDE_2,
            hovertemplate = "Delito:%{x}: <br>IDE: %{y}",
            marker_color=result.Color),
            row=i, col=j)
    j +=1
    if j == 4:
        i +=1
        j=1

fig.update_layout(height=800, width=1000, title_text="Índice delictivo por comunidad vs España (2016-2020)")    
fig.update_layout(barmode='stack')
fig.update_layout(showlegend=False)
fig.show()

In [158]:
comunidadesUnionCrimenPob = provUnionCrimenPoblacion.groupby(['Comunidad'])[[*ene_dic_columns,*pob_columns]].sum()
addTotalPobColumn(comunidadesUnionCrimenPob)
addTotalColumn(comunidadesUnionCrimenPob)
comunidadesUnionCrimenPob['TasaDelito'] = (comunidadesUnionCrimenPob.Total/comunidadesUnionCrimenPob.TotalPob) * 100000
comunidadesUnionCrimenPob = comunidadesUnionCrimenPob.reset_index()
comunidadesUnionCrimenPob = comunidadesUnionCrimenPob.sort_values('TasaDelito')

fig = px.bar(comunidadesUnionCrimenPob, y='Comunidad', x='TasaDelito', text='TasaDelito', title='Ranking CCAA tasa Delitos por cada 100.000 habitantes en España (2016-2020)',height = 600,  width =900)
fig.update_traces(texttemplate='%{text:.3s}')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
fig.show()

In [146]:

nacionalUnionCrimenPob = provUnionCrimenPoblacion.groupby(['code','Delito'])[[*ene_dic_columns,*pob_columns]].sum()
addTotalPobColumn(nacionalUnionCrimenPob)
addTotalColumn(nacionalUnionCrimenPob)
mediaPob2015_2016 = nacionalUnionCrimenPob['TotalPob'].iloc[0]
nacionalUnionCrimenPob['TasaDelito'] = (nacionalUnionCrimenPob.Total/nacionalUnionCrimenPob.TotalPob) * 100000

comunidadesUnionCrimenPob = provUnionCrimenPoblacion.groupby(['Comunidad','code','Delito'])[[*ene_dic_columns,*pob_columns]].sum()
addTotalPobColumn(comunidadesUnionCrimenPob)
addTotalColumn(comunidadesUnionCrimenPob)
comunidadesUnionCrimenPob['TasaDelito'] = (comunidadesUnionCrimenPob.Total/comunidadesUnionCrimenPob.TotalPob) * 100000
comunidadesUnionCrimenPob = comunidadesUnionCrimenPob.reset_index()
comunidadesUnionCrimenPob

i,j=1,1

fig = make_subplots(rows=7, 
                    cols=3,
                    subplot_titles=comunidades,
                    
                    )

for comunidad in comunidades:
    df_comunidad = comunidadesUnionCrimenPob[comunidadesUnionCrimenPob.Comunidad.str.contains(comunidad, regex=False)]
    df_comunidad = pd.merge(df_comunidad,nacionalUnionCrimenPob['TasaDelito'], on = 'Delito')
    df_comunidad['IDE'] = round(df_comunidad.TasaDelito_x / df_comunidad.TasaDelito_y,3)
    df_comunidad["Color"] = np.where(df_comunidad["IDE"]>1, 'red', 'green')

    fig.add_trace(
        go.Bar(name='IDE',
            x=df_comunidad.code,
            y=df_comunidad.IDE,
            hovertemplate = "Delito:%{x}: <br>IDE: %{y}",
            marker_color=df_comunidad.Color),
            row=i, col=j)
    j +=1
    if j == 4:
        i +=1
        j=1

fig.update_layout(height=800, width=1000, title_text="Índice delictivo por comunidad vs España (2016-2020)")    
fig.update_layout(barmode='stack')
fig.update_layout(showlegend=False)
fig.show()

In [104]:
comunidadUnionCrimenPob = provUnionCrimenPoblacion.groupby(['Comunidad','code','Delito'])[[*ene_dic_columns,*pob_columns]].sum()

for anyo in anyos:
    addTasaDelitoPob(comunidadUnionCrimenPob,anyo,100000)

columnsDelitoPob = comunidadUnionCrimenPob.columns[comunidadUnionCrimenPob.columns.str.contains('Delito/pob')]
tot = 0
for col in columnsDelitoPob:
    tot += comunidadUnionCrimenPob[col]
comunidadUnionCrimenPob['MediaDelitosPob'] =tot/len(columnsDelitoPob)
comunidadUnionCrimenPob.sort_values('MediaDelitosPob',ascending = False)
comunidadUnionCrimenPob = comunidadUnionCrimenPob.reset_index()

tiposDelito = list(set(comunidadUnionCrimenPob.Delito))

for delito in tiposDelito:

    df_filtered = comunidadUnionCrimenPob[comunidadUnionCrimenPob.Delito.str.contains(delito,regex=False)]
    df_filtered = df_filtered.sort_values('MediaDelitosPob')

    fig = px.bar(df_filtered, y='Comunidad', x='MediaDelitosPob', text='MediaDelitosPob', title=delito + '(2016-2020)', height = 600, width =900)

    fig.update_traces(texttemplate='%{text:.3s}')
    fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
    fig.update_xaxes(
        tickangle= 45
        )
    fig.show()

Compruebo los valores del json para relacionarlo con las comunidades

In [270]:
import json

with open('../data/provincias-espanolas.geojson') as f:
    geojson_prov = json.load(f)

# cambio los valores del ID
for i in geojson_prov['features']:
    i['id'] = i['properties']['cod_ccaa']
# for i in geojson_prov['features']:
#     print(i['id'], i['properties']['ccaa'])
geojson_prov['features'][0]['id']

'08'

In [None]:
creo un diccionario con los codigos y las comunidades de mis datos y lo paso a un dataFrame 

In [258]:

dictComunidades= {'19': 'CIUDAD AUTÓNOMA DE MELILLA',
                    '02': 'ARAGÓN',
                    '07':'CASTILLA Y LEON',
                    '11': 'EXTREMADURA',
                    '03': 'ASTURIAS (PRINCIPADO DE)',
                    '06' : 'CANTABRIA',
                    '10': 'COMUNITAT VALENCIANA',
                    '01' : 'ANDALUCÍA',
                    '16':'PAÍS VASCO',
                    '18': 'CIUDAD AUTÓNOMA DE CEUTA',
                    '09': 'CATALUÑA',
                    '04':'BALEARS (ILLES)',
                    '12': 'GALICIA',
                    '08': 'CASTILLA - LA MANCHA',
                    '14':'MURCIA (REGION DE)',
                    '15':'NAVARRA (COMUNIDAD FORAL DE)',
                    '13' : 'MADRID (COMUNIDAD DE)',
                    '05':'CANARIAS',
                    '17':'RIOJA (LA)'}
df_codccaa = pd.DataFrame([[key, dictComunidades[key]] for key in dictComunidades.keys()], columns=['id','Comunidad'])
df_codccaa



Unnamed: 0,id,Comunidad
0,19,CIUDAD AUTÓNOMA DE MELILLA
1,2,ARAGÓN
2,7,CASTILLA Y LEON
3,11,EXTREMADURA
4,3,ASTURIAS (PRINCIPADO DE)
5,6,CANTABRIA
6,10,COMUNITAT VALENCIANA
7,1,ANDALUCÍA
8,16,PAÍS VASCO
9,18,CIUDAD AUTÓNOMA DE CEUTA


In [260]:
comunidadUnionCrimenPob = provUnionCrimenPoblacion.groupby(['Comunidad'])[[*ene_dic_columns,*pob_columns]].sum()
comunidadUnionCrimenPob= comunidadesUnionCrimenPob.reset_index()
df = pd.merge(comunidadUnionCrimenPob,df_codccaa,left_on='Comunidad',right_on='Comunidad')
df=df[['id','TasaDelito']]

fig = px.choropleth_mapbox(df, geojson=geojson_prov, locations='id', color='TasaDelito',
                           color_continuous_scale="Viridis",
                           range_color=(0, 12),
                           mapbox_style="carto-positron",
                           zoom=4, center = {"lat": 38.1257, "lon": -3},
                           opacity=0.5,
                           labels={'TasaDelito':'Tasa delito'}
                          )
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()
df

Unnamed: 0,id,TasaDelito
0,11,450.145916
1,3,464.632991
2,12,505.243008
3,17,531.90213
4,7,548.809923
5,2,564.82988
6,8,591.535607
7,6,597.891846
8,15,772.103143
9,1,817.707441


In [256]:
geojson_prov['type']

'FeatureCollection'

In [None]:
import folium # pip install folium

# MAPA DE TOTAL DE DECESOS 
data_total_mean = pd.read_csv('decesos_espania.csv', sep=';')
 
# Initialize the map:
m = folium.Map(location = [43.1257,-8], zoom_start = 7)

# add tile layers to the map
# con esto posibilito que luego en el mapa pueda elegir el 'tipo de vista'
tiles = ['stamenwatercolor','cartodbpositron','openstreetmap','stamenterrain']

for tile in tiles:
    folium.TileLayer(tile).add_to(m)
 
# Add the color for the chloropleth:
m.choropleth(
 geo_data='provincias-espanolas.geojson',
 name='choropleth',
 data=data_total_mean,
 columns=['Comunidad Autónoma', 'Todas las causas'],
 key_on='feature.properties.ccaa',   # dentro del 'geojson', viendo su estructura de datos
 fill_color='BuPu',
 fill_opacity=0.7,
 line_opacity=0.2,
 legend_name='Decesos por comunidad autonoma'
)
folium.LayerControl().add_to(m)

m