# Criminalidad en España 2015-2020

## Importación de librerias

A continuación se importan las librerias que se van a utilizar:

In [4]:
import pandas as pd
import plotly.express as px

## Carga de los datos

### Fuente

Los datos se han obtenido de:
* [Portal Estadístico de Criminalidad (Ministerio del Interior)](https://estadisticasdecriminalidad.ses.mir.es/publico/portalestadistico/portal/balances.html)

### Pre-tratamiento de los datos

Los datos sobre criminalidad descargados no tienen un formato que se pueda tratar directamente, como puede verse en el documento descargado (../data/2016_1sc.csv), hay información que hay que desechar y la disposición en tablas no es la adecuada para su lectura. Para ello, se hace un formateo del fichero a través de el script treatCSV (../scripts/treatCSV.py), que modifica su estructura creando un nuevo archivo csv, haciendola más manejable, como se puede ver en ../data/2016_1scclean.csv.

### Carga de los datos

Una vez se han tratado los datos descargados, ya los podemos caragar en DataFrames de pandas

In [9]:


df_2016_1 = pd.read_csv('../data/2016_1scclean.csv', sep=";")
df_2016_2 = pd.read_csv('../data/2016_2scclean.csv', sep=";")
df_2016_3 = pd.read_csv('../data/2016_3scclean.csv', sep=";")
df_2016_4 = pd.read_csv('../data/2016_4scclean.csv', sep=";")

df_2017_1 = pd.read_csv('../data/2017_1scclean.csv', sep=";")
df_2017_2 = pd.read_csv('../data/2017_2scclean.csv', sep=";")
df_2017_3 = pd.read_csv('../data/2017_3scclean.csv', sep=";")
df_2017_4 = pd.read_csv('../data/2017_4scclean.csv', sep=";")

df_2018_1 = pd.read_csv('../data/2018_1scclean.csv', sep=";")
df_2018_2 = pd.read_csv('../data/2018_2scclean.csv', sep=";")
df_2018_3 = pd.read_csv('../data/2018_3scclean.csv', sep=";")
df_2018_4 = pd.read_csv('../data/2018_4scclean.csv', sep=";")

df_2019_1 = pd.read_csv('../data/2019_1scclean.csv', sep=";")
df_2019_2 = pd.read_csv('../data/2019_2scclean.csv', sep=";")
df_2019_3 = pd.read_csv('../data/2019_3scclean.csv', sep=";")
df_2019_4 = pd.read_csv('../data/2019_4scclean.csv', sep=";")

df_2020_1 = pd.read_csv('../data/2020_1scclean.csv', sep=";")
df_2020_2 = pd.read_csv('../data/2020_2scclean.csv', sep=";")
df_2020_3 = pd.read_csv('../data/2020_3scclean.csv', sep=";")
df_2020_4 = pd.read_csv('../data/2020_4scclean.csv', sep=";")

df_lista =[df_2016_1, df_2016_2, df_2016_3, df_2016_4,
            df_2017_1, df_2017_2, df_2017_3, df_2017_4,
            df_2018_1, df_2018_2, df_2018_3, df_2018_4,
            df_2019_1, df_2019_2, df_2019_3, df_2019_4,
            df_2020_1, df_2020_2, df_2020_3, df_2020_4]

Compruebo que los campos están limpios y que más o menos siguen un patrón en su estructura.

In [10]:
for df in df_lista:
    df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1768 entries, 0 to 1767
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Comunidad              1768 non-null   object 
 1   Provincia              1288 non-null   object 
 2   Municipio              1520 non-null   object 
 3   code                   1768 non-null   int64  
 4   Delito                 1768 non-null   object 
 5   Enero-marzo 2015       1768 non-null   float64
 6   Enero-marzo 2016       1768 non-null   float64
 7   Variación % 2016/2015  1768 non-null   float64
 8   Nivel                  1768 non-null   object 
dtypes: float64(3), int64(1), object(5)
memory usage: 124.4+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1768 entries, 0 to 1767
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Comunidad              1768 non-null   obje

El número de registros va creciendo cuando cambiamos de año, compruebo las comunidades de cada archivo

In [5]:
for df in df_lista:
    print(len(df.groupby('Comunidad').Comunidad))

21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21
21


Compruebo el número de provincias

In [6]:
for df in df_lista:
    print(len(df.groupby('Provincia').Provincia))

43
43
43
43
43
43
43
43
43
43
43
43
43
43
43
43
43
43
43
43


Compruebo el número de municipios

In [7]:
for df in df_lista:
    print(len(df.groupby('Municipio').Municipio))

157
157
157
157
257
257
257
259
259
259
259
259
264
264
264
264
264
264
264
264


In [8]:
for df in df_lista:
    print(len(df.groupby('code').code))

8
8
8
8
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14


Los datos de 2016 difieren bastante de los años posteriores. Parece que del primer año al segundo hay un aumento de más de 100 municipios, el número de códigos utilizado para definir los delitos son diferentes. Definitivamente el dato 2015/2016 no lo voy a usar.

In [11]:
df_lista[5].columns

Index(['Comunidad', 'Provincia', 'Municipio', 'code', 'Delito',
       'Enero-junio 2016', 'Enero-junio 2017', 'Variación % 2017/2016',
       'Nivel'],
      dtype='object')

Voy a añadir todas las columnas en un dataset a través de los campos 'Comunidad', 'Provincia', 'Municipio', 'code', 'Delito'. Me quedaré con las columnas que hacen referencia al acumulado trimestral. 

In [12]:
result =df_lista[4]#añado el primer df
for df in df_lista[5:]:
    result = pd.merge(result,df, how ='outer' ,on=['Comunidad', 'Provincia', 'Municipio', 'code','Delito','Nivel'])

print('Tamaño de la tabla final',len( result),'filas')
result


Tamaño de la tabla final 4963 filas


Unnamed: 0,Comunidad,Provincia,Municipio,code,Delito,Enero-marzo 2016,Enero-marzo 2017_x,Variación % 2017/2016_x,Nivel,Enero-junio 2016,...,Variación % 2020/2019_x,Enero-junio 2019_y,Enero-junio 2020,Variación % 2020/2019_y,Enero-septiembre 2019_y,Enero-septiembre 2020,Variación % 2020/2019_x.1,Enero-diciembre 2019_y,Enero-diciembre 2020,Variación % 2020/2019_y.1
0,ANDALUCÍA,,,1,Homicidios dolosos y asesinatos consumados,16.0,12.0,-25.0,Comunidad,24.0,...,13.3,34.0,29.0,-14.7,60.0,47.0,-21.7,82.0,60.0,-26.8
1,ANDALUCÍA,,,2,Homicidios dolosos y asesinatos en grado tenta...,45.0,59.0,31.1,Comunidad,112.0,...,66.7,71.0,116.0,63.4,111.0,190.0,71.2,156.0,238.0,52.6
2,ANDALUCÍA,,,3,Delitos graves y menos graves de lesiones y ri...,644.0,681.0,5.7,Comunidad,1361.0,...,6.1,1499.0,1355.0,-9.6,2558.0,2315.0,-9.5,3474.0,3054.0,-12.1
3,ANDALUCÍA,,,4,Secuestro,3.0,1.0,-66.7,Comunidad,7.0,...,-50.0,24.0,12.0,-50.0,26.0,18.0,-30.8,31.0,23.0,-25.8
4,ANDALUCÍA,,,5,Delitos contra la libertad e indemnidad sexual,416.0,516.0,24.0,Comunidad,926.0,...,-11.2,1214.0,1009.0,-16.9,1886.0,1665.0,-11.7,2510.0,2215.0,-11.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4958,MADRID (COMUNIDAD DE),,Arroyomolinos,8,Hurtos,,,,Municipio,,...,-12.5,790.0,416.0,-47.3,1158.0,659.0,-43.1,1621.0,1015.0,-37.4
4959,MADRID (COMUNIDAD DE),,Arroyomolinos,9,Sustracciones de vehículos,,,,Municipio,,...,18.8,30.0,28.0,-6.7,36.0,44.0,22.2,52.0,58.0,11.5
4960,MADRID (COMUNIDAD DE),,Arroyomolinos,10,Tráfico de drogas,,,,Municipio,,...,0.0,0.0,1.0,100.0,2.0,2.0,0.0,2.0,4.0,100.0
4961,MADRID (COMUNIDAD DE),,Arroyomolinos,code,Resto de infracciones penales,,,,Municipio,,...,-5.6,518.0,429.0,-17.2,802.0,763.0,-4.9,1062.0,1122.0,5.6


Al unir todos los datos, me aparecen columnas repetidas, voy a borrar las columnas que tienen el sufijo '_y', y boraré del nombre el sufijo '_x'. Desecharé las columnas de variación, ya que es fácilmente calculable.

In [13]:
y_columns = result.columns[result.columns.str.contains('_y')]
result = result.drop(y_columns, axis=1)

variacion_columns = result.columns[result.columns.str.contains('Variación')]
result = result.drop(variacion_columns, axis=1)

result.columns = list(map(lambda x: x.replace('_x',''),result.columns))

result.columns

Index(['Comunidad', 'Provincia', 'Municipio', 'code', 'Delito',
       'Enero-marzo 2016', 'Enero-marzo 2017', 'Nivel', 'Enero-junio 2016',
       'Enero-junio 2017', 'Enero-septiembre 2016', 'Enero-septiembre 2017',
       'Enero-diciembre 2016', 'Enero-diciembre 2017', 'Enero-marzo 2018',
       'Enero-junio 2018', 'Enero-septiembre 2018', 'Enero-diciembre 2018',
       'Enero-marzo 2019', 'Enero-junio 2019', 'Enero-septiembre 2019',
       'Enero-diciembre 2019', 'Enero-marzo 2020', 'Enero-junio 2020',
       'Enero-septiembre 2020', 'Enero-diciembre 2020'],
      dtype='object')

Ordeno las columnas por año

In [14]:

anyos = ['2016','2017','2018','2019','2020']

sort_column_result=result.iloc[:,:5]

sort_column_result= pd.concat([sort_column_result,result['Nivel']],axis=1)

for anyo in anyos:
    year_columns = result.columns[result.columns.str.contains(anyo)]
    sort_column_result= pd.concat([sort_column_result,result[year_columns]],axis=1)


Cada columna con un periodo de meses en el nombre, es un acumulado, es decir, en 'Enero-diciembre' Está todo el año en 'Enero-marzo' el primer trimestre, en 'Enero-junio' acumulado primer mas segundo trimestre. Construyo los periodos trimestrales a través de los datos que tenemos, para tener el número de delitos cometidos por trimestre. El nombre de estas columnas estará formado por el año y el trimestre al que pertenece. Ej: 2017Q3 -> tercer trimestre de 2017. Utilizo la letra Q para poder hacer un formateo a fecha de forma inmediata para usar en series temporales. 

In [16]:
print(anyos)
trimestreAcum =['Enero-marzo','Enero-junio','Enero-septiembre','Enero-diciembre']
trimestre = ['Q1','Q2','Q3','Q4']

for a in anyos:
    for i in range(len(trimestre)):
        if i == 0:
            sort_column_result[a + trimestre[i]] = sort_column_result[trimestreAcum[i] + " " + a]
        else:
            sort_column_result[a + trimestre[i]] = sort_column_result[trimestreAcum[i] + " " + a] - sort_column_result                                                                [trimestreAcum[i-1] + " " + a]

sort_column_result[['Enero-marzo 2016', 'Enero-junio 2016', 'Enero-septiembre 2016',
       'Enero-diciembre 2016','2016Q1','2016Q2','2016Q3','2016Q4']]

['2016', '2017', '2018', '2019', '2020']


Unnamed: 0,Enero-marzo 2016,Enero-junio 2016,Enero-septiembre 2016,Enero-diciembre 2016,2016Q1,2016Q2,2016Q3,2016Q4
0,16.0,24.0,49.0,68.0,16.0,8.0,25.0,19.0
1,45.0,112.0,165.0,227.0,45.0,67.0,53.0,62.0
2,644.0,1361.0,2237.0,2911.0,644.0,717.0,876.0,674.0
3,3.0,7.0,11.0,16.0,3.0,4.0,4.0,5.0
4,416.0,926.0,1417.0,1837.0,416.0,510.0,491.0,420.0
...,...,...,...,...,...,...,...,...
4958,,,,,,,,
4959,,,,,,,,
4960,,,,,,,,
4961,,,,,,,,


Total Nacional

En una primera aproximación, muestro la evolución del total de delitos por trimestre en España

In [76]:
total_espana = sort_column_result[sort_column_result.Comunidad.str.contains('NACIONAL') & sort_column_result.Delito.str.contains('TOTAL')]
qcolumns = sort_column_result.columns[sort_column_result.columns.str.contains('Q')]
comunidadQColumns = ['Comunidad',*qcolumns]

total_espana =total_espana[comunidadQColumns]

total_espana = pd.melt(total_espana,id_vars=['Comunidad'],value_vars=qcolumns, var_name='Trimestre',value_name='Criminalidad')

total_espana.Trimestre =pd.to_datetime(total_espana.Trimestre)
fig = px.line(total_espana, x="Trimestre", y='Criminalidad',
                hover_data={"Trimestre": "|%B-%Y"},
              title='Evolución Trimestral del crimen en España (2016-2020')
fig.update_traces(mode="markers+lines")
fig.update_xaxes(dtick="M3",tickformat="%q\n%Y")
fig.show()




In [88]:
espana_tipo_delito = sort_column_result[sort_column_result.Comunidad.str.contains('NACIONAL') & ~ sort_column_result.Delito.str.contains('TOTAL') & ~ sort_column_result.Delito.str.contains('Resto')]

delitQColumns = ['code','Delito',*qcolumns]
espana_tipo_delito = espana_tipo_delito[delitQColumns]

espana_tipo_delito = pd.melt(espana_tipo_delito,id_vars=['code','Delito'],value_vars=qcolumns, var_name='Trimestre',value_name='Criminalidad')

espana_tipo_delito = espana_tipo_delito.pivot(index='Trimestre',columns='Delito',values='Criminalidad')

espana_tipo_delito = espana_tipo_delito.reset_index()

espana_tipo_delito.Trimestre =pd.to_datetime(total_espana.Trimestre)

fig = px.line(espana_tipo_delito, x="Trimestre", y=espana_tipo_delito.columns,
              hover_data={
                  "Trimestre": "|%B %d, %Y",
              },
              title='Evolución Trimestral por tipo de crimen en España (2016-2020)')
fig.update_xaxes(
    dtick="M3",
    tickformat="%b\n%Y")
#fig.update_layout(showlegend=False)
fig.show()

In [89]:
sort_column_result.groupby('Comunidad').Comunidad.count()
total_espana = sort_column_result[sort_column_result.Comunidad.str.contains('NACIONAL') & sort_column_result.Delito.str.contains('TOTAL')]

espana_delitos = sort_column_result[sort_column_result.Comunidad.str.contains('NACIONAL') & ~ sort_column_result.Delito.str.contains('TOTAL') & ~ sort_column_result.Delito.str.contains('Resto')]

qcolumns = sort_column_result.columns[sort_column_result.columns.str.contains('Q')]
listQColumns = ['code''Delito',*qcolumns]

totalColumns = sort_column_result.columns[sort_column_result.columns.str.contains('Enero-diciembre')]
listTotalColumns = ['code''Delito',*totalColumns]

total_espana=total_espana[[listTotalColumns]


espana=espana[listTotalColumns]

columnas = total_penal.columns[2:]

for i in range(len(columnas)):

    espana['%_' + anyos[i]]= espana[columns[i]] * 100/ total_penal[columns[i]].iloc[0]




espana = pd.melt(espana,id_vars=['code','Delito'],value_vars=qcolumns)



fig = px.line(espana, x="variable", y='value',
              hover_data={"variable": "value"},
              title='Evol. crimen en España')
fig.update_xaxes(
    dtick="code",
    tickformat="%b\n%Y")
fig.show()

print(pd.to_period('2000Q2'))

KeyError: 'Enero-diciembre 2016'