# EDA
## Datos de incidencia delictiva y factores meteorológicos


## Análisis exploratorio con datos del clima

In [254]:
# Importamos primero las librerías que se van a utilizar en el análisis

import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import numpy as np
from plotly.subplots import make_subplots
from scipy import stats

In [256]:
# Algunos diccionarios y listas que serán de utilidad

meses = ['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 
         'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre']

DiccionarioMeses = {
'Enero':1,
'Febrero':2,
'Marzo':3,
'Abril':4,
'Mayo':5,
'Junio':6,
'Julio':7,
'Agosto':8,
'Septiembre':9,
'Octubre':10,
'Noviembre':11,
'Diciembre':12
}

DiccionarioAnios = {
    2015:1,
    2016:2,
    2017:3,
    2018:4,
    2019:5,
    2020:6,
    2021:7,
    2022:8,
    2023:9
}

In [243]:
dfClimaEstatal = pd.read_csv('../tidydata/Meteorologia_Climatologia_Estatal.csv')
dfClimaMunicipal = pd.read_csv('../tidydata/Meteorologia_Climatologia_Municipal.csv')

In [244]:
print(dfClimaEstatal.shape, dfClimaMunicipal.shape)

(105, 12) (5775, 14)


##### Obtenemos primeramente algunas estadísticas básicas de ambos DataFrames.

In [245]:
dfClimaEstatal.describe(include = ['float64'])

Unnamed: 0,temperatura_maxima,temperatura_minima,temperatura_promedio,precipitacion_total,lluvia_total,tiempo_precipitacion,minutos_luz
count,105.0,105.0,105.0,105.0,105.0,105.0,105.0
mean,29.646381,15.823143,22.644667,1631.258095,1627.734286,2100.828571,732.045619
std,5.787859,6.359691,6.067952,2031.890281,2032.261811,2147.416007,77.722232
min,19.87,5.94,12.84,0.0,0.0,0.0,616.69
25%,24.36,9.85,17.08,127.9,127.9,314.0,669.22
50%,30.6,15.62,23.38,1045.9,1044.5,1713.0,738.7
75%,34.15,22.57,28.25,2323.2,2323.2,3245.0,818.4
max,39.33,26.02,32.34,11316.6,11316.6,12567.0,840.87


In [246]:
dfClimaMunicipal.describe(include = ['float64'])

Unnamed: 0,temperatura_maxima,temperatura_minima,temperatura_promedio,minutos_luz,precipitacion_total,lluvia_total,tiempo_precipitacion
count,5775.0,5775.0,5775.0,5775.0,5775.0,5775.0,5775.0
mean,29.646424,15.823323,22.644357,732.045998,29.659238,29.595169,38.196883
std,6.260477,6.848776,6.465364,77.468805,42.827438,42.814809,43.826758
min,13.27,-0.01,6.07,604.13,0.0,0.0,0.0
25%,24.6,10.1,17.365,666.64,1.3,1.3,4.0
50%,30.54,15.73,23.33,738.57,11.9,11.6,22.0
75%,34.59,21.94,28.12,810.05,41.1,41.0,58.0
max,44.79,30.28,37.31,854.13,389.0,389.0,335.0


In [249]:
numeric_var = list(dfClimaEstatal.columns[3:6]) + list(dfClimaEstatal.columns[8:])
dfClimaEstatal.groupby('anio')[numeric_var].agg('mean')

Unnamed: 0_level_0,temperatura_maxima,temperatura_minima,temperatura_promedio,precipitacion_total,lluvia_total,tiempo_precipitacion,minutos_luz
anio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2015,28.903333,15.751667,22.1525,2037.641667,2035.516667,2582.0,729.716667
2016,30.030833,15.800833,22.865833,1328.691667,1325.775,1727.666667,729.586667
2017,30.3975,16.299167,23.28,1527.266667,1526.433333,1804.0,729.730833
2018,29.468333,16.021667,22.625,1837.708333,1836.158333,2145.333333,729.729167
2019,28.4775,15.37,21.814167,2287.833333,2275.866667,2635.833333,729.724167
2020,30.235,15.954167,23.005,1019.483333,1019.016667,1419.583333,729.586667
2021,29.573333,15.671667,22.533333,1895.733333,1889.366667,2151.0,729.731667
2022,28.998333,15.155,21.953333,1770.383333,1769.758333,2693.75,729.725833
2023,31.095556,16.571111,23.882222,758.355556,753.044444,1630.777778,757.156667


##### Los datos relacionados al 2023 parecen ser relativamente diferentes con respecto a ciertas variables climatológicas. Esto se debe mayormente a que no se ha capturado la información de todos los meses. Ante esto, en próximos análisis que involucren datos del clima se considerará quitar el año 2023.

In [251]:
dfClimaEstatal.groupby('mes')[numeric_var].agg('mean')

Unnamed: 0_level_0,temperatura_maxima,temperatura_minima,temperatura_promedio,precipitacion_total,lluvia_total,tiempo_precipitacion,minutos_luz
mes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Abril,30.358889,14.186667,22.637778,149.711111,149.7,250.777778,774.317778
Agosto,34.957778,23.937778,29.112222,4529.466667,4529.466667,5251.111111,790.365556
Diciembre,21.285,8.15375,14.2775,1430.7125,1422.9,2034.5,616.75375
Enero,21.303333,7.18,13.841111,1231.7,1219.288889,1821.111111,629.657778
Febrero,22.916667,8.414444,15.467778,962.833333,946.766667,1764.555556,669.582222
Julio,35.862222,24.475556,29.771111,4024.255556,4024.255556,4989.666667,829.405556
Junio,37.43,22.73,30.293333,836.511111,836.511111,1194.0,840.793333
Marzo,26.193333,10.798889,18.632222,954.522222,948.855556,1236.666667,720.893333
Mayo,32.947778,17.123333,25.492222,82.266667,82.266667,209.444444,818.848889
Noviembre,26.3525,12.11375,19.02125,1154.0375,1154.025,1407.75,640.0675


In [252]:
dfClimaMunicipal.groupby(['municipio'])[numeric_var].agg('mean')

Unnamed: 0_level_0,temperatura_maxima,temperatura_minima,temperatura_promedio,precipitacion_total,lluvia_total,tiempo_precipitacion,minutos_luz
municipio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Aconchi,30.237714,15.795714,22.801143,31.519048,31.519048,37.342857,732.102952
Agua Prieta,28.295429,14.876,21.532476,25.084762,24.958095,39.171429,732.379143
Alamos,31.384095,17.515238,24.049238,44.910476,44.910476,51.752381,731.407143
Altar,30.725619,16.342095,23.727048,16.11619,16.11619,21.409524,732.331905
Arivechi,31.684952,15.813143,23.714095,34.908571,34.908571,43.980952,731.877143
Arizpe,27.082381,12.92781,19.926571,38.3,38.222857,47.009524,732.302476
Atil,29.966286,15.067238,22.750476,23.137143,23.137143,30.12381,732.362952
Bacadehuachi,29.802667,14.635143,22.301048,35.227619,35.227619,46.419048,732.09581
Bacanora,31.696476,16.012381,23.849524,38.160952,38.160952,44.780952,731.876667
Bacerac,29.12419,13.409333,21.274952,41.088571,41.088571,52.180952,731.952571


In [253]:
dfClimaMunicipal.groupby(['municipio', 'mes'])[numeric_var].agg('mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,temperatura_maxima,temperatura_minima,temperatura_promedio,precipitacion_total,lluvia_total,tiempo_precipitacion,minutos_luz
municipio,mes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Aconchi,Abril,31.377778,14.404444,23.151111,1.566667,1.566667,3.333333,774.763333
Aconchi,Agosto,34.976667,23.257778,28.634444,97.222222,97.222222,96.111111,790.942222
Aconchi,Diciembre,21.575000,8.395000,14.415000,24.262500,24.262500,33.250000,615.845000
Aconchi,Enero,21.815556,7.604444,14.161111,26.033333,26.033333,32.333333,628.771111
Aconchi,Febrero,23.458889,8.607778,15.707778,18.055556,18.055556,29.333333,669.072222
...,...,...,...,...,...,...,...,...
Santa Cruz,Marzo,21.016667,6.213333,13.807778,19.966667,18.988889,36.555556,720.565556
Santa Cruz,Mayo,28.908889,12.945556,21.544444,2.444444,2.444444,7.111111,824.838889
Santa Cruz,Noviembre,21.326250,7.400000,14.170000,23.262500,23.262500,31.250000,634.541250
Santa Cruz,Octubre,26.375000,12.655000,19.497500,14.537500,14.537500,30.000000,683.630000


# EDA Estatal y Municipal

En esta sección se analizarán datos referentes a la incidencia delictiva a nivel estatal y regional, utilizando como base lo que sucede a nivel municipal.

In [7]:
import pandas as pd
import plotly.express as px

dfDelictivaEstatal = pd.read_csv('../tidydata/Incidencia_Delictiva_Estatal.csv')
dfDelictivaMunicipal = pd.read_csv('../tidydata/Incidencia_Delictiva_Municipal.csv')

In [2]:
dfDelictivaMunicipal.head()

Unnamed: 0,anio,mes,entidad,region,municipio,bien_juridico_afectado,tipo_delito,subtipo_delito,modalidad,numero_delitos
0,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,0.0
1,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,0.0
2,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con otro elemento,0.0
3,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio doloso,No especificado,0.0
4,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio culposo,Con arma de fuego,0.0


Como primer estadística, obtendremos los tres municipios con más delitos por cada región.

In [3]:
top_municipios = {}
lista_regiones = ['Noraeste', 'Centro Norte', 'Sur', 'Río Sonora', 'Sierra Alta', 'Sierra Centro']
dfDelictivaMunicipalG1 = dfDelictivaMunicipal.groupby(['region', 'municipio'])['numero_delitos'].agg('sum').reset_index()

for region in lista_regiones:
    top_municipios[region] = list(dfDelictivaMunicipalG1[dfDelictivaMunicipalG1['region'] == region].sort_values(
                                                        by = 'numero_delitos', ascending = False)['municipio'][0:3])

top_municipios

{'Noraeste': ['San Luis Río Colorado', 'Caborca', 'Puerto Peñasco'],
 'Centro Norte': ['Hermosillo', 'Nogales', 'Magdalena'],
 'Sur': ['Cajeme', 'Navojoa', 'Guaymas'],
 'Río Sonora': ['Cananea', 'Ures', 'Naco'],
 'Sierra Alta': ['Agua Prieta', 'Nacozari de García', 'Fronteras'],
 'Sierra Centro': ['Sahuaripa', 'La Colorada', 'Mazatán']}

##### Obtendremos ahora los 15 delitos mas frecuentes a nivel estatal.

In [4]:
dfEstatalporDelito = dfDelictivaEstatal.groupby(['tipo_delito'])['numero_delitos'].agg('sum')
delitos_mas_freq = list(dfEstatalporDelito.sort_values(ascending = False).index[0:15])
delitos_mas_freq

['Robo',
 'Violencia familiar',
 'Lesiones',
 'Daño a la propiedad',
 'Incumplimiento de obligaciones de asistencia familiar',
 'Narcomenudeo',
 'Otros delitos del Fuero Común',
 'Homicidio',
 'Amenazas',
 'Fraude',
 'Abuso sexual',
 'Otros delitos que atentan contra la libertad personal',
 'Despojo',
 'Allanamiento de morada',
 'Abuso de confianza']

##### Debido a la gran cantidad de tipos de delitos que nos provee el conjunto de datos, utilizaremos la lista anterior como muestra en algunos análisis. Calculamos ahora una el número total de delitos obtenidos por mes y año en el estado de Sonora.

In [8]:
# Agrupamos por año
dfEstatalPorAnio = dfDelictivaEstatal.groupby('anio')['numero_delitos'].agg('sum').reset_index()
dfEstatalPorAnio = dfEstatalPorAnio[dfEstatalPorAnio['anio']<2023]

# Graficamos numero_delitos con respecto al año en un gráfico de barras
fig = px.bar(dfEstatalPorAnio, x = 'anio', y = 'numero_delitos')
fig.update_layout(title_text="Incidencia delictiva por año", title_x = 0.5, font=dict(
        family="Arial",
        size=15,
        color="Black"
    ))
fig.show()

##### Graficaremos ahora el número total de delitos por mes y año.

In [10]:
dfEstatalPorAnioMes = dfDelictivaEstatal.groupby(['anio','mes'])['numero_delitos'].agg('sum').reset_index()
dfEstatalPorAnioMes = dfEstatalPorAnioMes[dfEstatalPorAnioMes['anio']<2023]

dfEstatalPorAnioMes['periodo'] = dfEstatalPorAnioMes['anio'].map(lambda x: 12*(DiccionarioAnios[x]-1)) + dfEstatalPorAnioMes['mes'].map(lambda x: DiccionarioMeses[x])
dfEstatalPorAnioMes = dfEstatalPorAnioMes.sort_values('periodo')
dfEstatalPorAnioMes.drop(columns = 'periodo', inplace = True)

dfEstatalPorAnioMes.head()

Unnamed: 0,anio,mes,numero_delitos
3,2015,Enero,1921.0
4,2015,Febrero,2369.0
7,2015,Marzo,2764.0
0,2015,Abril,2491.0
8,2015,Mayo,2570.0


In [11]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

fig = make_subplots(
    rows=2, cols=4,
    subplot_titles=("2015", "2016", "2017", "2018", "2019", "2020", "2021", "2022")
)

for i in range(2):
    for j in range(4):
        fig.add_trace(go.Bar(x= list(dfEstatalPorAnioMes['mes'].unique()), y = dfEstatalPorAnioMes['numero_delitos'][12*(4*i+j):12*(4*i+j+1)],
                             name = str(2015 + 4*i + j)),row=i+1, col=j+1)

fig.update_layout(height=700, width=1400,
                  title_text="Delitos a nivel estatal por año y mes", title_x = 0.5, font=dict(
        family="Arial",
        size=15,
        color="Black"
    ))
fig.update_layout(showlegend = False)

fig.show()

In [222]:
dfEstatalPorAnioDelito = dfDelictivaEstatal.groupby(['anio', 'tipo_delito'])['numero_delitos'].agg('sum')
dfEstatalPorAnioDelito = dfEstatalPorAnioDelito.reset_index()
dfEstatalPorAnioDelito = dfEstatalPorAnioDelito[dfEstatalPorAnioDelito['anio']<2023]
dfEstatalPorAnioDelito.set_index('anio', inplace = True)
dfEstatalPorAnioDelito = dfEstatalPorAnioDelito.pivot(columns = 'tipo_delito', values = 'numero_delitos')[delitos_mas_freq].reset_index()

dfEstatalPorAnioDelito.head()

tipo_delito,anio,Robo,Violencia familiar,Lesiones,Daño a la propiedad,Incumplimiento de obligaciones de asistencia familiar,Narcomenudeo,Otros delitos del Fuero Común,Homicidio,Amenazas,Fraude,Abuso sexual,Otros delitos que atentan contra la libertad personal,Despojo,Allanamiento de morada,Abuso de confianza
0,2015,9997.0,2231.0,2393.0,2150.0,3013.0,2587.0,2627.0,983.0,315.0,649.0,251.0,136.0,331.0,150.0,243.0
1,2016,16021.0,3595.0,3405.0,2571.0,2769.0,1838.0,2626.0,1068.0,1766.0,852.0,423.0,190.0,468.0,319.0,391.0
2,2017,10456.0,2428.0,2270.0,1527.0,2077.0,936.0,1139.0,1149.0,901.0,863.0,362.0,198.0,370.0,165.0,388.0
3,2018,7470.0,2195.0,1310.0,1215.0,1327.0,698.0,460.0,1157.0,265.0,570.0,324.0,219.0,189.0,78.0,224.0
4,2019,7291.0,3587.0,1588.0,1358.0,2101.0,1610.0,1117.0,1421.0,247.0,711.0,451.0,347.0,289.0,158.0,246.0


In [233]:
fig = make_subplots(
    rows=3, cols=5,
    subplot_titles=tuple(delitos_mas_freq)
)

for i in range(3):
    for j in range(5):
        fig.add_trace(go.Bar(x= list(dfEstatalPorAnioDelito['anio']), y = dfEstatalPorAnioDelito[delitos_mas_freq[5*i+j]],
                             name = delitos_mas_freq[5*i+j]),row=i+1, col=j+1)

fig.update_layout(height=1100, width=1530,
                  title_text="Delitos mas frecuentes a nivel estatal por año", title_x = 0.5, font=dict(
        family="Arial",
        size=15,
        color="Black"
    ))
fig.update_layout(showlegend=False)
fig.update_xaxes(tickangle=90)

fig.show()

In [66]:
dfEstatalPorMesDelito = dfDelictivaEstatal.groupby(['mes', 'tipo_delito'])['numero_delitos'].agg('sum')
dfEstatalPorMesDelito = dfEstatalPorMesDelito.reset_index()
dfEstatalPorMesDelito.set_index('mes', inplace = True)
dfEstatalPorMesDelito = dfEstatalPorMesDelito.pivot(columns = 'tipo_delito', values = 'numero_delitos')[delitos_mas_freq].reset_index()

dfEstatalPorMesDelito['periodo'] = dfEstatalPorMesDelito['mes'].map(lambda x: DiccionarioMeses[x])
dfEstatalPorMesDelito.sort_values(by = 'periodo', inplace = True)
dfEstatalPorMesDelito.drop(columns = 'periodo', inplace = True)

dfEstatalPorMesDelito.head()

tipo_delito,mes,Robo,Violencia familiar,Lesiones,Daño a la propiedad,Incumplimiento de obligaciones de asistencia familiar,Narcomenudeo,Otros delitos del Fuero Común,Homicidio,Amenazas,Fraude,Abuso sexual,Otros delitos que atentan contra la libertad personal,Despojo,Allanamiento de morada,Abuso de confianza
3,Enero,7074.0,2604.0,1530.0,1306.0,1257.0,1478.0,1203.0,1086.0,591.0,363.0,278.0,232.0,181.0,179.0,131.0
4,Febrero,7142.0,2925.0,1689.0,1429.0,1542.0,1612.0,1312.0,936.0,640.0,429.0,337.0,239.0,242.0,176.0,172.0
7,Marzo,7908.0,3650.0,2017.0,1744.0,1775.0,1834.0,1452.0,1033.0,969.0,524.0,393.0,295.0,280.0,270.0,208.0
0,Abril,7210.0,3275.0,1983.0,1632.0,1517.0,1627.0,1310.0,962.0,827.0,506.0,327.0,250.0,233.0,198.0,207.0
8,Mayo,7832.0,3922.0,1991.0,1718.0,1559.0,1549.0,1363.0,1074.0,787.0,509.0,445.0,284.0,247.0,229.0,194.0


In [67]:
fig = make_subplots(
    rows=3, cols=5,
    subplot_titles=tuple(delitos_mas_freq)
)

for i in range(3):
    for j in range(5):
        fig.add_trace(go.Bar(x= list(dfEstatalPorMesDelito['mes'].unique()), y = dfEstatalPorMesDelito[delitos_mas_freq[5*i+j]],
                             name = delitos_mas_freq[5*i+j]),row=i+1, col=j+1)

fig.update_layout(height=1100, width=1550,
                  title_text="Delitos mas frecuentes a nivel estatal por mes", title_x = 0.5, font=dict(
        family="Arial",
        size=15,
        color="Black"
    ))
fig.update_layout(showlegend=False)

fig.show()

# EDA MUNICIPAL/REGION

In [12]:
dfDelictivaMunicipal = pd.read_csv('../tidydata/Incidencia_Delictiva_Municipal.csv')
dfDelictivaMunicipal.head()

Unnamed: 0,anio,mes,entidad,region,municipio,bien_juridico_afectado,tipo_delito,subtipo_delito,modalidad,numero_delitos
0,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,0.0
1,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,0.0
2,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con otro elemento,0.0
3,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio doloso,No especificado,0.0
4,2015,Enero,Sonora,Río Sonora,Aconchi,La vida y la Integridad corporal,Homicidio,Homicidio culposo,Con arma de fuego,0.0


Obtendremos primero los delitos más predominantes por cada región.

In [13]:
dfDelictivoRegional = dfDelictivaMunicipal.groupby(['anio','region' ,'tipo_delito'])['numero_delitos'].agg('sum')
dfDelictivoRegional = dfDelictivoRegional.reset_index()
dfDelictivoRegional

Unnamed: 0,anio,region,tipo_delito,numero_delitos
0,2015,Centro Norte,Aborto,2.0
1,2015,Centro Norte,Abuso de confianza,111.0
2,2015,Centro Norte,Abuso sexual,74.0
3,2015,Centro Norte,Acoso sexual,0.0
4,2015,Centro Norte,Allanamiento de morada,74.0
...,...,...,...,...
2155,2023,Sur,Tráfico de menores,0.0
2156,2023,Sur,Violación equiparada,12.0
2157,2023,Sur,Violación simple,35.0
2158,2023,Sur,Violencia de género en todas sus modalidades d...,1.0


In [38]:
dfDelictivoRegionalTotal = dfDelictivaMunicipal.groupby(['region' ,'tipo_delito'])['numero_delitos'].agg('sum').reset_index()
dfDelictivoRegionalTotal.head()

Unnamed: 0,region,tipo_delito,numero_delitos
0,Centro Norte,Aborto,24.0
1,Centro Norte,Abuso de confianza,1321.0
2,Centro Norte,Abuso sexual,1698.0
3,Centro Norte,Acoso sexual,209.0
4,Centro Norte,Allanamiento de morada,1253.0


In [79]:
dfDelitosMasPred = pd.DataFrame(columns = ['region', 'tipo_delito', 'numero_delitos'])

for region in lista_regiones:
    dfDelitosMasPred = pd.concat([dfDelitosMasPred, dfDelictivoRegionalTotal[dfDelictivoRegionalTotal['region'] == region].sort_values(by = 
                                                                                            'numero_delitos', ascending = False)[0:5][:]], axis = 0)
dfDelitosMasPred.head()

Unnamed: 0,region,tipo_delito,numero_delitos
72,Noraeste,Robo,8265.0
63,Noraeste,Narcomenudeo,4926.0
79,Noraeste,Violencia familiar,4371.0
67,Noraeste,Otros delitos del Fuero Común,2503.0
48,Noraeste,Daño a la propiedad,2367.0


In [127]:
fig = make_subplots(
    rows=2, cols=3,
    subplot_titles=tuple(lista_regiones)
)

for i in range(2):
    for j in range(3):
        fig.add_trace(go.Bar(x= dfDelitosMasPred['tipo_delito'][5*(3*i+j):5*(3*i+j+1)], y = dfDelitosMasPred['numero_delitos'][5*(3*i+j):5*(3*i+j+1)],
                             name = lista_regiones[3*i+j]),row=i+1, col=j+1)

fig.update_layout(height=1200, width=1200,
                  title_text="Delitos mas frecuentes por región", title_x = 0.5, font=dict( family="Arial", size=15, color="Black"), showlegend = False)

fig.show()

##### Estos últimos resultados solamente revelan que delitos como el robo se mantienen con una frecuencia alta en las seis regiones. Sin embargo, esto no nos dice como podemos caracterizar a cada región según sus delitos más predominantes.

##### Debido a que cada región posee características geográficas y socioeconómicas distintas, se optó por realizar un indicador referente a la frecuencia relativa de cada delito en una región. Ante esto, se obtendrá la frecuencia total de cada delito.

In [81]:
numero_total_delitos = dfDelictivoRegional.groupby('tipo_delito')['tipo_delito','numero_delitos'].agg({'numero_delitos':'sum'}).reset_index()
numero_total_delitos.rename(columns = {'numero_delitos':'total_delitos'}, inplace = True)
numero_total_delitos.head()


Indexing with multiple keys (implicitly converted to a tuple of keys) will be deprecated, use a list instead.



Unnamed: 0,tipo_delito,total_delitos
0,Aborto,48.0
1,Abuso de confianza,2084.0
2,Abuso sexual,4183.0
3,Acoso sexual,416.0
4,Allanamiento de morada,2357.0


In [118]:
# Se crea un DataFrame con los cinco delitos con mayor frecuencia relativa por región.

dfDelitosMasPred_Rel = pd.DataFrame(columns = ['region', 'tipo_delito','numero_delitos','total_delitos','numero_delitos_rel'])

for region in lista_regiones:
    dfRel = dfDelictivoRegionalTotal[dfDelictivoRegionalTotal['region'] == region][['region','tipo_delito', 'numero_delitos']]
    dfRel= dfRel.merge(numero_total_delitos, how = 'inner', on = 'tipo_delito')
    dfRel['numero_delitos_rel'] = dfRel['numero_delitos'] / dfRel['total_delitos']
    dfRel = dfRel.sort_values(by = 'numero_delitos_rel', ascending = False)[0:5]
    dfDelitosMasPred_Rel = pd.concat([dfDelitosMasPred_Rel, dfRel], axis = 0)
    del(dfRel)

In [126]:
# Graficamos ahora esta nueva característica por región.

fig = make_subplots(
    rows=2, cols=3,
    subplot_titles=tuple(lista_regiones)
)

for i in range(2):
    for j in range(3):
        fig.add_trace(go.Bar(x= dfDelitosMasPred_Rel['tipo_delito'][5*(3*i+j):5*(3*i+j+1)], y = dfDelitosMasPred_Rel['numero_delitos_rel'][5*(3*i+j):5*(3*i+j+1)],
                             name = lista_regiones[3*i+j]),row=i+1, col=j+1)

fig.update_layout(height=1200, width=1200,
                  title_text="Delitos mas predominantes según su frecuencia relativa", title_x = 0.5, font=dict( family="Arial", size=15, color="Black"), showlegend = False)

fig.show()

##### Con esta nueva característica se obtuvieron resultados diferentes que permiten diferenciar de alguna manera a cada región.

##### Se revisará ahora si hay correlación entre los datos de incidencia de los delitos más frecuentes (los cuales están almacenados en delitos_mas_freq) y factores_climatologicos. Para esto, utilizaremos el gráfico 'Scatter plot' y calcularemos el coeficiente de correlación de Pearson y de Spearman. Analizaremos este comportamiento a nivel regional.

##### Para esto, definimos la función Scatter_Box_Delito_Factor_Climatologico_Local, la cual genera un Scatter plot relacionando un conjunto de delitos y un factor climatologico en una región en específico. En caso de que se quiera analizar la relación entre incidencia delictiva y el factor minutos_luz, la función realizará boxplots por cada mes, ya que existe una relación biunívoca entre el promedio de la variable minutos_luz y la variable mes.

##### Cabe aclarar que en caso de que se grafique un Scatter plot, esta función se crea un gráfico interactivo donde se puede seleccionar el delito a graficar.

In [225]:
def Scatter_Box_Delito_Factor_Climatologico_Local(dfDelictiva, dfClima, local, delitos, factor_climatologico, escala = 'region'):

    # Checamos la escala, reagrupamos y filtramos según la elección. Además, juntamos los datos de incidencia delictiva con los del clima 
    # utilizando como ID el año y mes.

    if(escala == 'region'):
        dfDelictivaLocal = dfDelictiva.groupby(['anio','mes','region','tipo_delito'])[['numero_delitos']].agg('sum')
        dfDelictivaLocal.reset_index(inplace = True)
        dfDelictivaLocal = dfDelictivaLocal[dfDelictivaLocal['region'] == local]
        dfClimaLocal = dfClima.groupby(['anio','mes','region'])[factor_climatologico].agg('mean').reset_index()
        dfClimaLocal = dfClimaLocal[dfClimaLocal['region'] == local]
    elif(escala == 'municipio'):
        dfDelictivaLocal = dfDelictiva[dfDelictiva['municipio'].isin(local)].groupby(['anio','mes','tipo_delito'])[['numero_delitos']].agg('sum')
        dfDelictivaLocal.reset_index(inplace = True)
        dfClimaLocal = dfClima[dfClima['municipio'].isin(local)].groupby(['anio','mes'])[[factor_climatologico]].agg('mean').reset_index()
        
    dfDelictivaLocalDelito = dfDelictivaLocal[dfDelictivaLocal['tipo_delito'].isin(delitos)]
    MergeLocal = dfDelictivaLocalDelito.merge(dfClimaLocal, how = 'left', on = ['anio','mes'])
    MergeLocal.head()

    # Obtenemos el número total de delitos por tipo y año para el cálculo de la frecuencia relativa

    num_total = dfDelictivaLocalDelito.groupby(['anio','tipo_delito'])['numero_delitos'].agg('sum')

    # Realizamos un join con el total de delitos
    MergeRelLoc = MergeLocal.merge(num_total, how = 'left', on = ['anio','tipo_delito'])

    #Calculamos la frecuencia relativa y nos restringimos a los años 2015 al 2022
    MergeRelLoc['numero_delito_rel'] = MergeRelLoc['numero_delitos_x']/MergeRelLoc['numero_delitos_y']
    MergeRelLocN = MergeRelLoc[MergeRelLoc['anio']<2023]
    MergeRelLocN.set_index(['anio','mes',factor_climatologico], inplace = True)

    # Transformamos el DataFrame de tal forma que los tipos de delitos sean ahora columnas. Esto último para tener una mejor disposición
    # de los datos en el proceso de graficación
    dfPivot = MergeRelLocN.pivot(columns = 'tipo_delito', values = 'numero_delito_rel')
    dfPivot.reset_index(inplace = True)

    # En caso de que el factor_climatologico sea minutos_luz, generamos boxplots. En otro caso, scatter plots.

    if(factor_climatologico == 'minutos_luz'):
        dfPivot['periodo'] = dfPivot['mes'].map(lambda x: DiccionarioMeses[x])
        dfPivot.sort_values('periodo', inplace = True)
        fig = px.box(dfPivot, x = 'mes', y = delitos)
        fig.update_layout(height=450, width=1300)
        fig.show()
    else:
        fig = px.scatter(dfPivot, x = factor_climatologico, y = delitos)
        fig.update_layout(height=450, width=1300)
        fig.show()
        
        # Si graficamos scatterplots, presentamos además los coeficientes de correlación previamente mencionados.
        for delito in delitos:
            print(f'{delito} en {local}:' + str([np.corrcoef(dfPivot[factor_climatologico], dfPivot[delito])[0][1], 
                stats.spearmanr(dfPivot[factor_climatologico],dfPivot[delito])]))
            print('\n')

In [234]:
for region in lista_regiones:
    Scatter_Box_Delito_Factor_Climatologico_Local(dfDelictivaMunicipal, dfClimaMunicipal, region, delitos_mas_freq, 'temperatura_promedio')

Robo en Noraeste:[0.05730348133208627, SignificanceResult(statistic=0.01702140649810481, pvalue=0.8692570378149316)]


Violencia familiar en Noraeste:[0.25240082309555595, SignificanceResult(statistic=0.26249889802180193, pvalue=0.009773551450648638)]


Lesiones en Noraeste:[0.277678821005986, SignificanceResult(statistic=0.2535449635496864, pvalue=0.012682821685529788)]


Daño a la propiedad en Noraeste:[0.26867217077002586, SignificanceResult(statistic=0.22320953233159802, pvalue=0.02881500966116304)]


Incumplimiento de obligaciones de asistencia familiar en Noraeste:[-0.015661312279231367, SignificanceResult(statistic=-0.02957855415784512, pvalue=0.7748201470469973)]


Narcomenudeo en Noraeste:[-0.06524157248907493, SignificanceResult(statistic=-0.08748940214160329, pvalue=0.39665220379539456)]


Otros delitos del Fuero Común en Noraeste:[-0.048446219534755024, SignificanceResult(statistic=0.05121622014789557, pvalue=0.6202004070419669)]


Homicidio en Noraeste:[0.2884303991480825,

Robo en Centro Norte:[-0.14356327520856488, SignificanceResult(statistic=-0.188798643520147, pvalue=0.06544382135340812)]


Violencia familiar en Centro Norte:[0.12713424124013442, SignificanceResult(statistic=0.1589378371043188, pvalue=0.12193163675196698)]


Lesiones en Centro Norte:[0.2838539619165638, SignificanceResult(statistic=0.24125044095804588, pvalue=0.01789003715548932)]


Daño a la propiedad en Centro Norte:[0.1492423950645407, SignificanceResult(statistic=0.14611184598221466, pvalue=0.15546790002506003)]


Incumplimiento de obligaciones de asistencia familiar en Centro Norte:[0.11981275311083181, SignificanceResult(statistic=0.20150301488873334, pvalue=0.04898763150740346)]


Narcomenudeo en Centro Norte:[-0.08849196938658786, SignificanceResult(statistic=-0.11336905676218163, pvalue=0.27142594048970226)]


Otros delitos del Fuero Común en Centro Norte:[-0.09905736196733975, SignificanceResult(statistic=-0.12146246014417023, pvalue=0.2384518470246264)]


Homicidio en Cent

Robo en Sur:[0.25574510000633816, SignificanceResult(statistic=0.1753341223719575, pvalue=0.08751098793028814)]


Violencia familiar en Sur:[0.44568100937890975, SignificanceResult(statistic=0.45785289905344345, pvalue=2.7282229923676982e-06)]


Lesiones en Sur:[0.26051805907001707, SignificanceResult(statistic=0.20415776455596793, pvalue=0.046021821226754175)]


Daño a la propiedad en Sur:[0.38029196839569124, SignificanceResult(statistic=0.3734200613717169, pvalue=0.00017872588873198923)]


Incumplimiento de obligaciones de asistencia familiar en Sur:[0.2526072041122838, SignificanceResult(statistic=0.22663623523157836, pvalue=0.02638743797983599)]


Narcomenudeo en Sur:[-0.1416186043762292, SignificanceResult(statistic=-0.14198992100544305, pvalue=0.16758968397728288)]


Otros delitos del Fuero Común en Sur:[-0.08082570421984081, SignificanceResult(statistic=-0.1079806958001231, pvalue=0.295008816619162)]


Homicidio en Sur:[0.09902055915549596, SignificanceResult(statistic=0.087943

Robo en Río Sonora:[0.08241166616022977, SignificanceResult(statistic=-0.01872278103116908, pvalue=0.856322165814971)]


Violencia familiar en Río Sonora:[0.024212122152459305, SignificanceResult(statistic=0.2051305263997531, pvalue=0.044973022569129176)]


Lesiones en Río Sonora:[0.10537931783067726, SignificanceResult(statistic=0.09810346411086951, pvalue=0.34164569325704763)]


Daño a la propiedad en Río Sonora:[0.07443000277472678, SignificanceResult(statistic=0.027398347690350093, pvalue=0.7910240285328943)]


Incumplimiento de obligaciones de asistencia familiar en Río Sonora:[0.02408908136757906, SignificanceResult(statistic=0.06038156197500834, pvalue=0.5589513585418266)]


Narcomenudeo en Río Sonora:[nan, SignificanceResult(statistic=nan, pvalue=nan)]


Otros delitos del Fuero Común en Río Sonora:[-0.08061782778750941, SignificanceResult(statistic=-0.13760384302362533, pvalue=0.18124058108762495)]


Homicidio en Río Sonora:[0.1772823053441702, SignificanceResult(statistic=0.13

Robo en Sierra Alta:[0.04611444576546351, SignificanceResult(statistic=0.017080045011623208, pvalue=0.8688106389753824)]


Violencia familiar en Sierra Alta:[0.27540709912918077, SignificanceResult(statistic=0.26166592367797475, pvalue=0.010016987063120887)]


Lesiones en Sierra Alta:[0.058686580107198655, SignificanceResult(statistic=0.05940191144773088, pvalue=0.5653579993118223)]


Daño a la propiedad en Sierra Alta:[0.008369527707158046, SignificanceResult(statistic=0.020942089254674733, pvalue=0.8395070656808249)]


Incumplimiento de obligaciones de asistencia familiar en Sierra Alta:[0.20974985581633254, SignificanceResult(statistic=0.20022115250068398, pvalue=0.050475218271713404)]


Narcomenudeo en Sierra Alta:[0.13039497736894962, SignificanceResult(statistic=0.06640890997944394, pvalue=0.5203159136065485)]


Otros delitos del Fuero Común en Sierra Alta:[-0.041340955935091864, SignificanceResult(statistic=0.028242678599475914, pvalue=0.7847377687031234)]


Homicidio en Sierra 

Robo en Sierra Centro:[-0.06936177574481826, SignificanceResult(statistic=-0.10840245770378207, pvalue=0.2931156387394423)]


Violencia familiar en Sierra Centro:[0.1649095085120991, SignificanceResult(statistic=0.1148174196623193, pvalue=0.26530995355546927)]


Lesiones en Sierra Centro:[0.197746953190146, SignificanceResult(statistic=0.197276901348903, pvalue=0.05403332473827618)]


Daño a la propiedad en Sierra Centro:[0.04457043441666677, SignificanceResult(statistic=0.14861654773078387, pvalue=0.14842909145021008)]


Incumplimiento de obligaciones de asistencia familiar en Sierra Centro:[-0.07910951461766562, SignificanceResult(statistic=-0.04491244080612117, pvalue=0.6639216369209492)]


Narcomenudeo en Sierra Centro:[nan, SignificanceResult(statistic=nan, pvalue=nan)]


Otros delitos del Fuero Común en Sierra Centro:[nan, SignificanceResult(statistic=nan, pvalue=nan)]


Homicidio en Sierra Centro:[0.06664572409607529, SignificanceResult(statistic=0.10767042929685683, pvalue=0.29

##### A partir de los resultados, se puede ver que definitivamente no todos los delitos están correlacionados con la temperatura. Aún así, en algunos casos si parece haber alguna correlación, como por ejemplo, la violencia familiar y el daño a la propiedad en la región Sur de Sonora, los cuales tienen un coeficiente de correlación de Pearson de aproximadamente 0.44 y 0.38, respectivamente.

In [236]:
Scatter_Box_Delito_Factor_Climatologico_Local(dfDelictivaMunicipal, dfClimaMunicipal, ['Cajeme'], ['Violencia familiar'], 'temperatura_promedio', 'municipio')

Violencia familiar en ['Cajeme']:[0.5548219077561367, SignificanceResult(statistic=0.5740646537464734, pvalue=9.676187246669992e-10)]




##### Si analizamos con más detalle la región sur, los datos de frecuencia de delitos del municipio de Cajeme (el que posee mayor incidencia delictiva de dicha región), presenta un coeficiente de correlación con la temperatura promedio aún mayor.

##### Se graficará ahora la relación de los datos de incidencia con la cantidad de minutos_luz.

In [237]:
for region in lista_regiones:
    Scatter_Box_Delito_Factor_Climatologico_Local(dfDelictivaMunicipal, dfClimaMunicipal, region, ['Homicidio'], 'minutos_luz')

##### En general, no parece haber muchos patrones relacionados a la cantidad de minutos_luz.

##### Obtendremos ahora series de tiempo que van desde Enero de 2015 hasta Diciembre de 2022 que contienen datos de incidencia delictiva a nivel estatal de los delitos mas frecuentes. Para esto, se diseñó la función Serie_Tiempo_Delitos, que toma un DataFrame con datos de incidencia delictiva y la lista de delitos a graficar. También se incluye la función Serie_Tiempo, que se puede utilizar solo para analizar como evoluciona un delito en el mismo período.

In [240]:
def Serie_Tiempo_Delitos(dfEstatal, delitos):

    #Se agrupa por año, mes y tipo de delito
    dfGrouped = dfEstatal.groupby(['anio','mes','tipo_delito'])['numero_delitos'].agg('sum').reset_index()
    dfGrouped = dfGrouped[dfGrouped['tipo_delito'].isin(delitos)]
    dfGrouped = dfGrouped.set_index(['anio','mes'])

    # Transformamos el dataframe de tal manera que los tipos de delito ahora sean columnas.
    dfPivot = dfGrouped.pivot(columns = 'tipo_delito', values = 'numero_delitos')
    dfPivot.reset_index(inplace = True)

    # Creamos una variable llamada "periodo" para poder ordenar el par (Año, Mes) de forma cronológica
    dfPivot['periodo'] = dfPivot['anio'].map(lambda x: 12*(DiccionarioAnios[x]-1)) + dfPivot['mes'].map(lambda x: DiccionarioMeses[x])
    dfPivot.sort_values('periodo', inplace = True)

    fig = px.line(dfPivot, x = 'periodo', y = delitos)
    fig.show()


In [242]:
Serie_Tiempo_Delitos(dfDelictivaEstatal, delitos_mas_freq)

#### Cada período es un mes. Ante esto, el periodo 60 corresponde a Enero de 2020. Resulta interesante que a partir del periodo 64 (abril de 2020), los delitos de Violencia familiar y Abuso sexual hubo un aumento de delitos. Se considera que este fenómeno puede ser una consecuencia del comienzo de la pandemia del COVID-19 en esa temporada.

## Conclusiones generales

In [None]:
En general, no hubo datos faltantes