# Análisis exploratorio de incidencia delictiva en México

In [14]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [15]:
df = pd.read_csv('data/datos_delitos.csv', encoding='ISO-8859-1')
df.head()

Unnamed: 0,Año,Clave_Ent,Entidad,Bien jurídico afectado,Tipo de delito,Subtipo de delito,Modalidad,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,3,0,2,1,1,1,2.0,1.0,2.0,2.0,2.0,1.0
1,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,1,1,0,0,0,1,0.0,1.0,0.0,0.0,0.0,1.0
2,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con otro elemento,0,0,2,2,3,2,0.0,1.0,2.0,0.0,0.0,0.0
3,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,No especificado,2,0,0,1,0,0,0.0,0.0,0.0,0.0,0.0,0.0
4,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio culposo,Con arma de fuego,0,0,0,0,1,0,0.0,0.0,0.0,0.0,0.0,0.0


In [None]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31360 entries, 0 to 31359
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Año                     31360 non-null  int64  
 1   Clave_Ent               31360 non-null  int64  
 2   Entidad                 31360 non-null  object 
 3   Bien jurídico afectado  31360 non-null  object 
 4   Tipo de delito          31360 non-null  object 
 5   Subtipo de delito       31360 non-null  object 
 6   Modalidad               31360 non-null  object 
 7   Enero                   31360 non-null  int64  
 8   Febrero                 31360 non-null  int64  
 9   Marzo                   31360 non-null  int64  
 10  Abril                   31360 non-null  int64  
 11  Mayo                    31360 non-null  int64  
 12  Junio                   31360 non-null  int64  
 13  Julio                   28224 non-null  float64
 14  Agosto                  28224 non-null

In [9]:
for col in df.columns:
    print(col)

Año
Clave_Ent
Entidad
Bien jurídico afectado
Tipo de delito
Subtipo de delito
Modalidad
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre


Transformamos los nombres de características(columnas) a snake_case

In [10]:
def limpiar_columnas(df):
    columnas_limpias = []
    for col in df.columns:
        # convertir a minusculas, reemplazar espacios por guiones bajos y eliminar caracteres especiales
        col = col.lower().replace(" ", "_").replace("ñ", "ni").replace(".", "").replace("á", "a").replace("é", "e").replace("í","i").replace("ó", "o").replace("ú", "u")
        columnas_limpias.append(col)
    
    df.columns = columnas_limpias
    
    return df

In [54]:
df = limpiar_columnas(df)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31360 entries, 0 to 31359
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   anio                    31360 non-null  int64  
 1   clave_ent               31360 non-null  int64  
 2   entidad                 31360 non-null  object 
 3   bien_juridico_afectado  31360 non-null  object 
 4   tipo_de_delito          31360 non-null  object 
 5   subtipo_de_delito       31360 non-null  object 
 6   modalidad               31360 non-null  object 
 7   enero                   31360 non-null  int64  
 8   febrero                 31360 non-null  int64  
 9   marzo                   31360 non-null  int64  
 10  abril                   31360 non-null  int64  
 11  mayo                    31360 non-null  int64  
 12  junio                   31360 non-null  int64  
 13  julio                   28224 non-null  float64
 14  agosto                  28224 non-null

In [76]:
meses = ['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio', 
         'julio', 'agosto', 'septiembre', 'octubre', 'noviembre', 'diciembre']

datos_long = df.melt(
    id_vars=['anio', 'clave_ent', 'entidad', 'tipo_de_delito', 'subtipo_de_delito', 'modalidad'],
    value_vars=meses,
    var_name='nombre_mes',
    value_name='frecuencia'
)

np.sort(datos_long['subtipo_de_delito'].unique())

array(['Aborto', 'Abuso de confianza', 'Abuso sexual', 'Acoso sexual',
       'Allanamiento de morada', 'Amenazas', 'Contra el medio ambiente',
       'Corrupción de menores', 'Daño a la propiedad',
       'Delitos cometidos por servidores públicos', 'Despojo',
       'Electorales', 'Evasión de presos', 'Extorsión', 'Falsedad',
       'Falsificación', 'Feminicidio', 'Fraude', 'Homicidio culposo',
       'Homicidio doloso', 'Hostigamiento sexual', 'Incesto',
       'Incumplimiento de obligaciones de asistencia familiar',
       'Lesiones culposas', 'Lesiones dolosas', 'Narcomenudeo',
       'Otros delitos contra el patrimonio',
       'Otros delitos contra la familia',
       'Otros delitos contra la sociedad',
       'Otros delitos del Fuero Común',
       'Otros delitos que atentan contra la libertad personal',
       'Otros delitos que atentan contra la libertad y la seguridad sexual',
       'Otros delitos que atentan contra la vida y la integridad corporal',
       'Otros robos', '

In [63]:
datos_long['nombre_mes'].unique()

array(['abril', 'agosto', 'diciembre', 'enero', 'febrero', 'julio',
       'junio', 'marzo', 'mayo', 'noviembre', 'octubre', 'septiembre'],
      dtype=object)

#### Ejercicio 1: Elige 3 estados de la república y grafica una serie de tiempo de la frecuencia abosluta de homicidios dolosos de enero 2015 a julio 2019 en estas tres entidades

In [65]:
datos_long = datos_long.groupby(['anio', 'clave_ent', 'entidad', 'subtipo_de_delito', 'nombre_mes'])['frecuencia'].sum().reset_index()
datos_long[datos_long.subtipo_de_delito == 'Homicidio doloso'].sample(10)

Unnamed: 0,anio,clave_ent,entidad,subtipo_de_delito,nombre_mes,frecuencia
173817,2023,8,Chihuahua,Homicidio doloso,noviembre,146.0
52379,2017,16,Michoacán de Ocampo,Homicidio doloso,septiembre,96.0
91979,2019,12,Guerrero,Homicidio doloso,septiembre,94.0
154678,2022,11,Guanajuato,Homicidio doloso,octubre,244.0
105831,2020,1,Aguascalientes,Homicidio doloso,enero,4.0
86032,2019,3,Baja California Sur,Homicidio doloso,febrero,5.0
62933,2017,32,Zacatecas,Homicidio doloso,julio,54.0
177768,2023,14,Jalisco,Homicidio doloso,abril,123.0
46437,2017,7,Chiapas,Homicidio doloso,noviembre,31.0
33899,2016,20,Oaxaca,Homicidio doloso,septiembre,79.0


In [72]:
# Filtrar los datos
meses_hasta_julio = ['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio', 'julio']

ejercicio1_data = datos_long[
    (datos_long['subtipo_de_delito'] == 'Homicidio doloso') &
    (datos_long['entidad'].isin(['Veracruz', 'México', 'Jalisco'])) &
    (
        ((datos_long['anio'] >= 2015) & (datos_long['anio'] < 2019)) |
        ((datos_long['anio'] == 2019) & (datos_long['nombre_mes'].isin(meses_hasta_julio)))
    )
]
ejercicio1_data


Unnamed: 0,anio,clave_ent,entidad,subtipo_de_delito,nombre_mes,frecuencia
8808,2015,14,Jalisco,Homicidio doloso,abril,78.0
8809,2015,14,Jalisco,Homicidio doloso,agosto,80.0
8810,2015,14,Jalisco,Homicidio doloso,diciembre,98.0
8811,2015,14,Jalisco,Homicidio doloso,enero,79.0
8812,2015,14,Jalisco,Homicidio doloso,febrero,68.0
...,...,...,...,...,...,...
93952,2019,15,México,Homicidio doloso,febrero,207.0
93953,2019,15,México,Homicidio doloso,julio,216.0
93954,2019,15,México,Homicidio doloso,junio,201.0
93955,2019,15,México,Homicidio doloso,marzo,243.0


#### Ejercicio 2: Contestas las siguientes  preguntas:
1. ¿Cuántos homicidios dolosos hubo en Colima en el 2018?
2. ¿Cuantos robos de vehículo automotor ha habido en el 2019?
3. Obtén la suma de homicidios dolosos y feminicidios en toda la República Mexicana en cada año.
4. ¿En qué mes y en qué municipio ha ocurrido el mayor número de feminicidios?
5. ¿En qué año y en qué estado ha ocurrido el mayor número de feminicidios?

In [74]:
#1. ¿Cuántos homicidios dolosos hubo en Colima en el 2018?
homicidios_colima_2018 = datos_long[
    (datos_long['subtipo_de_delito'] == 'Homicidio doloso') &
    (datos_long['entidad'] == 'Colima') &
    (datos_long['anio'] == 2018)
]['frecuencia'].sum()
print(f'Homicidios dolosos en Colima en 2018: {homicidios_colima_2018}')

Homicidios dolosos en Colima en 2018: 617.0


In [77]:
#¿Cuantos robos de vehículo automotor ha habido en el 2019?
hurtos_vehiculo_2019 = datos_long[
    (datos_long['subtipo_de_delito'] == 'Robo de vehículo automotor') &
    (datos_long['anio'] == 2019)
]['frecuencia'].sum()
print(f'Robos de vehículo automotor en 2019: {hurtos_vehiculo_2019}')


Robos de vehículo automotor en 2019: 187661.0


In [78]:
#Obtén la suma de homicidios dolosos y feminicidios en toda la República Mexicana en cada año.
homicidios_feminicidios_anio = datos_long[
    (datos_long['subtipo_de_delito'].isin(['Homicidio doloso', 'Feminicidio']))
].groupby('anio')['frecuencia'].sum().reset_index()
print(f"Homicidios y feminicidios por año:\n{homicidios_feminicidios_anio}")

Homicidios y feminicidios por año:
   anio  frecuencia
0  2015     16532.0
1  2016     20756.0
2  2017     25777.0
3  2018     29995.0
4  2019     30445.0
5  2020     29786.0
6  2021     29263.0
7  2022     27240.0
8  2023     26119.0
9  2024     13255.0


In [79]:
#¿En qué mes y en qué municipio ha ocurrido el mayor número de feminicidios?
feminicidios_max = datos_long[
    datos_long['subtipo_de_delito'] == 'Feminicidio'
].max()
print(f"Mayor número de feminicidios:\n{feminicidios_max}")

Mayor número de feminicidios:
anio                            2024
clave_ent                         32
entidad                    Zacatecas
tipo_de_delito           Feminicidio
subtipo_de_delito        Feminicidio
modalidad            No especificado
nombre_mes                septiembre
frecuencia                      16.0
dtype: object


In [82]:
#¿En qué año y en qué estado ha ocurrido el mayor número de feminicidios?
feminicidios_max_estado = datos_long[
    datos_long['subtipo_de_delito'] == 'Feminicidio'
].groupby(['anio', 'entidad'])['frecuencia'].sum().reset_index().max()
print(f"Mayor número de feminicidios por año y estado:\n{feminicidios_max_estado}")

Mayor número de feminicidios por año y estado:
anio               2024
entidad       Zacatecas
frecuencia        151.0
dtype: object


#### Ejercicio 3: Haz una gráfica de pastel de tipos de delito. Deberás crear una gráfica para cada año. Utilzia la función subplots de matplotlib

---
#### Calcula la tasa por 100,000 habitantes
##### Tasa por 100,000 habitantes
Mostrar el total de delitos en una entidad no nos sirve de mucho. Es mucho más útil calcular la tasa de incidencia delictiva por cada 100,000 habitantes

$$
tasa = \frac{delitos\space totales}{población} \times 100,000
$$

Esta tasa la podemos anualizar multiplicándola por un factor de 12
$$
tasa\space anualizada = tasa \times 12
$$

Población por entidad federativa según [la encuesta intercensal 2015](https://www.inegi.org.mx/programas/intercensal/2015/)

No tienes que descargar nada. Ya están los datos en la carpeta data

In [93]:
pobs = pd.read_csv('data/poblacion_entidades_2015.csv', encoding='iso-8859-1', sep=";")
pobs = pobs[['Cve_Entidad', 'Entidad', 'Poblacion']]
pobs = pobs.rename(columns={'Cve_Entidad':'clave_entidad', 'Entidad':'entidad', 'Poblacion':'poblacion'})
pobs.head()

Unnamed: 0,clave_entidad,entidad,poblacion
0,1,Aguascalientes,1312544.0
1,2,Baja California,3315766.0
2,3,Baja California Sur,712029.0
3,4,Campeche,899931.0
4,5,Coahuila de Zaragoza,5217908.0


In [95]:
delitos_por_entidad = datos_long.groupby(['anio', 'entidad'])['frecuencia'].sum().reset_index()
delitos_con_pob = delitos_por_entidad.merge(pobs, on='entidad', how='left')
delitos_con_pob['tasa_100k'] = (delitos_con_pob['frecuencia'] / delitos_con_pob['poblacion']) * 100000
delitos_con_pob.head()

Unnamed: 0,anio,entidad,frecuencia,clave_entidad,poblacion,tasa_100k
0,2015,Aguascalientes,23212.0,1,1312544.0,1768.474047
1,2015,Baja California,119944.0,2,3315766.0,3617.384339
2,2015,Baja California Sur,21415.0,3,712029.0,3007.602218
3,2015,Campeche,1886.0,4,899931.0,209.571623
4,2015,Chiapas,21618.0,7,8918653.0,242.390863
