<div style="text-align: center;"> 
<h1 style = "color:#4c8fc4;">ANALISIS DE DELITOS EN LA CDMX</h1>

Gargia Abreu Jesus

Sanchez Abarca Bryan Jair
</div>

La Ciudad de México (CDMX) es una de las urbes más grandes y dinámicas de América Latina, pero también enfrenta desafíos significativos en materia de seguridad pública. El análisis de datos sobre delitos en la capital mexicana es fundamental para entender patrones criminales, evaluar políticas de prevención y mejorar la toma de decisiones en materia de seguridad.

En este estudio, se utilizarán datos públicos oficiales para examinar la incidencia delictiva en la CDMX, identificando tendencias temporales, zonas de mayor riesgo y tipos de delito predominantes. Este enfoque cuantitativo permitirá no solo visualizar la situación actual, sino también aportar insights valiosos para autoridades, investigadores y ciudadanos interesados en la seguridad urbana.

El objetivo es transformar los datos en información accionable, contribuyendo a un debate informado sobre cómo reducir la criminalidad y construir una ciudad más segura para todos.

Datos correspondientes al año 2024, obtenidos de:
- https://www.fgjcdmx.gob.mx/transparencia/incidencia-delictiva

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#import openpyxl 

In [4]:
data_delitos = pd.read_csv('data/delitos.csv', encoding='utf-8', header=1)

In [5]:
data_delitos

Unnamed: 0,ID,ID_CI,FECHA DE INICIO,HORA DE INICIO,CT - INICIO AP,TIPO IMPACTO,DELITO,MODALIDAD - DELITO,FECHA DE LOS HECHOS,HORA DE LOS HECHOS,CALLE 1 HECHOS,CALLE 2 HECHOS,COLONIA HECHOS,ALCALDÍA HECHOS,CT HECHOS,COORD X,COORD Y,OBSERVACIÓN
0,1,9627807,01/01/2024,09:53,COY-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,01/01/2024,07:38,DOCTOR ANTONIO DELFIN MADRIGAL,SIN REGISTRO,PEDREGAL DE SANTO DOMINGO,COYOACAN,COY-1,-99.17230994,19.32140745,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...
1,2,9627810,01/01/2024,10:13,UAT-AZ-4,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,01/01/2024,05:10,ALDUCIN,ZEMPOALTECAS,TEZOZOMOC,AZCAPOTZALCO,AZ-2,-99.20019338,19.49306571,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...
2,3,9627835,01/01/2024,12:26,UAT-TLP-1,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,01/01/2024,02:00,CALKINI,MAXCANU,HÉROES DE PADIERNA,TLALPAN,TLP-1,-99.21777338,19.27958261,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...
3,4,9627837,01/01/2024,12:32,UAT-TLH-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,01/01/2024,03:30,LA TURBA,DON GIOVANI,AGRÍCOLA METROPOLITANA,TLAHUAC,TLH-1,-99.05390918,19.28839552,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...
4,5,9627842,01/01/2024,12:48,CUH-2,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,01/01/2024,11:35,NEZAHUALCOYOTL,SIN REGISTRO,CENTRO,CUAUHTEMOC,CUH-6,-99.13372099,19.42514866,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23348,23349,9881517,31/12/2024,22:53,IZP-6,ALTO IMPACTO,ROBO A REPARTIDOR CON Y SIN VIOLENCIA,ROBO A REPARTIDOR CON VIOLENCIA,30/12/2024,17:30,PENCA,,SAN ANDRÉS TOMATLÁN,IZTAPALAPA,IZP-7,-99.10366939,19.3272709,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...
23349,23350,9881520,31/12/2024,23:04,UAT-CUJ-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,31/12/2024,17:00,CARRETERA MEXICO TOLUCA,LILAS,PALO ALTO,CUAJIMALPA DE MORELOS,CJ-2,-99.24769458,19.38618697,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...
23350,23351,9881523,31/12/2024,23:25,IZP-4,ALTO IMPACTO,ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN ...,ROBO A PASAJERO A BORDO DE PESERO COLECTIVO CO...,31/12/2024,16:00,PERIFERICO,VASCO DE QUIROGA,PRESIDENTES DE MÉXICO,IZTAPALAPA,IZP-8,-99.0645107,19.33706821,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...
23351,23352,9881525,31/12/2024,23:45,IZP-4,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,31/12/2024,23:15,PLUTARCO ELIAS CALLES,VICTOR HUGO,SAN ANDRÉS TETEPILCO,IZTAPALAPA,IZP-1,-99.13707983,19.36860791,* LAS COORDENADAS QUE SE MUESTRAN NO CORRESPON...


In [6]:
data_delitos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23353 entries, 0 to 23352
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID                   23353 non-null  int64 
 1   ID_CI                23353 non-null  int64 
 2   FECHA DE INICIO      23353 non-null  object
 3   HORA DE INICIO       23353 non-null  object
 4   CT - INICIO AP       23353 non-null  object
 5   TIPO IMPACTO         23353 non-null  object
 6   DELITO               23353 non-null  object
 7   MODALIDAD - DELITO   23353 non-null  object
 8   FECHA DE LOS HECHOS  23353 non-null  object
 9   HORA DE LOS HECHOS   23353 non-null  object
 10  CALLE 1 HECHOS       23078 non-null  object
 11  CALLE 2 HECHOS       17306 non-null  object
 12  COLONIA HECHOS       22574 non-null  object
 13  ALCALDÍA HECHOS      22836 non-null  object
 14  CT HECHOS            23345 non-null  object
 15  COORD X              22695 non-null  object
 16  COOR

In [7]:
data_victimas = pd.read_csv('data/victimas.csv', encoding='utf-8', header=1)
data_victimas

Unnamed: 0,ID,ID_AP,FECHA DE INICIO,HORA DE INICIO,CT - INICIO AP,TIPO IMPACTO,DELITO,MODALIDAD - DELITO,SEXO,EDAD
0,1,9627807,01/01/2024,09:53,COY-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Masculino,48
1,2,9627810,01/01/2024,10:13,AZ-2,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,34
2,3,9627810,01/01/2024,10:13,AZ-2,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,20
3,4,9627835,01/01/2024,12:26,TLP-1,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,Masculino,40
4,5,9627837,01/01/2024,12:32,TLH-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,36
...,...,...,...,...,...,...,...,...,...,...
49321,49322,9881517,31/12/2024,22:53,IZP-7,ALTO IMPACTO,ROBO A REPARTIDOR CON Y SIN VIOLENCIA,ROBO A REPARTIDOR CON VIOLENCIA,No se especifica,No se especifica
49322,49323,9881520,31/12/2024,23:04,CJ-2,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,30
49323,49324,9881523,31/12/2024,23:25,IZP-8,ALTO IMPACTO,ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN ...,ROBO A PASAJERO A BORDO DE PESERO COLECTIVO CO...,Femenino,24
49324,49325,9881525,31/12/2024,23:45,IZP-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,19


In [8]:
data_victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49326 entries, 0 to 49325
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   ID                  49326 non-null  int64 
 1   ID_AP               49326 non-null  int64 
 2   FECHA DE INICIO     49326 non-null  object
 3   HORA DE INICIO      49326 non-null  object
 4   CT - INICIO AP      49312 non-null  object
 5   TIPO IMPACTO        49326 non-null  object
 6   DELITO              49326 non-null  object
 7   MODALIDAD - DELITO  49326 non-null  object
 8   SEXO                48164 non-null  object
 9   EDAD                47274 non-null  object
dtypes: int64(2), object(8)
memory usage: 3.8+ MB


## Agregacion de los campos sexo y edad a data_delitos

In [9]:
data_delitos_cdmx = pd.merge(
    data_delitos[['ID_CI', 'FECHA DE LOS HECHOS', 'HORA DE LOS HECHOS', 'COLONIA HECHOS',
                  'ALCALDÍA HECHOS', 'COORD X', 'COORD Y']],  # DataFrame derecho con columnas seleccionadas
    data_victimas,  # DataFrame izquierdo
    left_on='ID_CI',    # Clave en data_delitos
    right_on='ID_AP',   # Clave en data_victimas
    how='inner'  # Tipo de unión
)
data_delitos_cdmx.head(10)


Unnamed: 0,ID_CI,FECHA DE LOS HECHOS,HORA DE LOS HECHOS,COLONIA HECHOS,ALCALDÍA HECHOS,COORD X,COORD Y,ID,ID_AP,FECHA DE INICIO,HORA DE INICIO,CT - INICIO AP,TIPO IMPACTO,DELITO,MODALIDAD - DELITO,SEXO,EDAD
0,9627807,01/01/2024,07:38,PEDREGAL DE SANTO DOMINGO,COYOACAN,-99.17230994,19.32140745,1,9627807,01/01/2024,09:53,COY-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Masculino,48
1,9627807,01/01/2024,07:38,PEDREGAL DE SANTO DOMINGO,COYOACAN,-99.17230994,19.32140745,22647,9627807,01/01/2024,09:53,COY-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Masculino,48
2,9627810,01/01/2024,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.20019338,19.49306571,2,9627810,01/01/2024,10:13,AZ-2,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,34
3,9627810,01/01/2024,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.20019338,19.49306571,3,9627810,01/01/2024,10:13,AZ-2,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,20
4,9627810,01/01/2024,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.20019338,19.49306571,22648,9627810,01/01/2024,10:13,AZ-2,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,34
5,9627810,01/01/2024,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.20019338,19.49306571,22649,9627810,01/01/2024,10:13,AZ-2,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,20
6,9627835,01/01/2024,02:00,HÉROES DE PADIERNA,TLALPAN,-99.21777338,19.27958261,4,9627835,01/01/2024,12:26,TLP-1,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,Masculino,40
7,9627835,01/01/2024,02:00,HÉROES DE PADIERNA,TLALPAN,-99.21777338,19.27958261,22650,9627835,01/01/2024,12:26,TLP-1,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,Masculino,40
8,9627837,01/01/2024,03:30,AGRÍCOLA METROPOLITANA,TLAHUAC,-99.05390918,19.28839552,5,9627837,01/01/2024,12:32,TLH-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,36
9,9627837,01/01/2024,03:30,AGRÍCOLA METROPOLITANA,TLAHUAC,-99.05390918,19.28839552,22651,9627837,01/01/2024,12:32,TLH-1,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,36


In [10]:
duplicados_completos = data_delitos_cdmx.duplicated()
print(f"Registros completamente duplicados: {duplicados_completos.sum()}")


Registros completamente duplicados: 0


In [11]:
data_delitos_cdmx = data_delitos_cdmx.drop(['ID_AP','ID','CT - INICIO AP'], axis=1)
print(f"Registros completamente duplicados: {duplicados_completos.sum()}")

Registros completamente duplicados: 0


In [12]:
data_delitos_cdmx = data_delitos_cdmx.drop_duplicates()
data_delitos_cdmx

Unnamed: 0,ID_CI,FECHA DE LOS HECHOS,HORA DE LOS HECHOS,COLONIA HECHOS,ALCALDÍA HECHOS,COORD X,COORD Y,FECHA DE INICIO,HORA DE INICIO,TIPO IMPACTO,DELITO,MODALIDAD - DELITO,SEXO,EDAD
0,9627807,01/01/2024,07:38,PEDREGAL DE SANTO DOMINGO,COYOACAN,-99.17230994,19.32140745,01/01/2024,09:53,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Masculino,48
2,9627810,01/01/2024,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.20019338,19.49306571,01/01/2024,10:13,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,34
3,9627810,01/01/2024,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.20019338,19.49306571,01/01/2024,10:13,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,20
6,9627835,01/01/2024,02:00,HÉROES DE PADIERNA,TLALPAN,-99.21777338,19.27958261,01/01/2024,12:26,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,Masculino,40
8,9627837,01/01/2024,03:30,AGRÍCOLA METROPOLITANA,TLAHUAC,-99.05390918,19.28839552,01/01/2024,12:32,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,36
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49294,9881517,30/12/2024,17:30,SAN ANDRÉS TOMATLÁN,IZTAPALAPA,-99.10366939,19.3272709,31/12/2024,22:53,ALTO IMPACTO,ROBO A REPARTIDOR CON Y SIN VIOLENCIA,ROBO A REPARTIDOR CON VIOLENCIA,No se especifica,No se especifica
49295,9881520,31/12/2024,17:00,PALO ALTO,CUAJIMALPA DE MORELOS,-99.24769458,19.38618697,31/12/2024,23:04,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,30
49296,9881523,31/12/2024,16:00,PRESIDENTES DE MÉXICO,IZTAPALAPA,-99.0645107,19.33706821,31/12/2024,23:25,ALTO IMPACTO,ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN ...,ROBO A PASAJERO A BORDO DE PESERO COLECTIVO CO...,Femenino,24
49297,9881525,31/12/2024,23:15,SAN ANDRÉS TETEPILCO,IZTAPALAPA,-99.13707983,19.36860791,31/12/2024,23:45,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,19


In [13]:
data_delitos_cdmx.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30462 entries, 0 to 49298
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID_CI                30462 non-null  int64 
 1   FECHA DE LOS HECHOS  30462 non-null  object
 2   HORA DE LOS HECHOS   30462 non-null  object
 3   COLONIA HECHOS       29502 non-null  object
 4   ALCALDÍA HECHOS      29823 non-null  object
 5   COORD X              29656 non-null  object
 6   COORD Y              29656 non-null  object
 7   FECHA DE INICIO      30462 non-null  object
 8   HORA DE INICIO       30462 non-null  object
 9   TIPO IMPACTO         30462 non-null  object
 10  DELITO               30462 non-null  object
 11  MODALIDAD - DELITO   30462 non-null  object
 12  SEXO                 29302 non-null  object
 13  EDAD                 28437 non-null  object
dtypes: int64(1), object(13)
memory usage: 3.5+ MB


# ANALISIS DE DATOS

In [14]:
data_delitos_cdmx[['COORD X', 'COORD Y']].describe()

Unnamed: 0,COORD X,COORD Y
count,29656,29656
unique,21605,21666
top,SIN REGISTRO,SIN REGISTRO
freq,926,926


In [15]:
data_delitos_cdmx['COORD X'] = pd.to_numeric(data_delitos_cdmx['COORD X'], errors='coerce')
data_delitos_cdmx['COORD Y'] = pd.to_numeric(data_delitos_cdmx['COORD Y'], errors='coerce')

coordenadas_vacias = data_delitos_cdmx[
    data_delitos_cdmx['COORD X'].isna() | data_delitos_cdmx['COORD Y'].isna()
]

coordenadas_vacias


Unnamed: 0,ID_CI,FECHA DE LOS HECHOS,HORA DE LOS HECHOS,COLONIA HECHOS,ALCALDÍA HECHOS,COORD X,COORD Y,FECHA DE INICIO,HORA DE INICIO,TIPO IMPACTO,DELITO,MODALIDAD - DELITO,SEXO,EDAD
54,9628084,02/01/2024,06:35,SIN REGISTRO,SIN REGISTRO,,,02/01/2024,10:48,ALTO IMPACTO,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,No especifica,No especifica
55,9628084,02/01/2024,06:35,SIN REGISTRO,SIN REGISTRO,,,02/01/2024,10:48,ALTO IMPACTO,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,No especificado,No especificado
58,9628098,06/12/2023,15:30,SIN REGISTRO,SIN REGISTRO,,,02/01/2024,11:15,ALTO IMPACTO,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,No especifica,No especifica
59,9628098,06/12/2023,15:30,SIN REGISTRO,SIN REGISTRO,,,02/01/2024,11:15,ALTO IMPACTO,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,No especificado,No especificado
60,9628120,01/01/2024,22:00,SIN REGISTRO,SIN REGISTRO,,,02/01/2024,11:49,ALTO IMPACTO,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,Femenino,50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49214,9881077,29/12/2024,21:00,,,,,30/12/2024,23:36,ALTO IMPACTO,LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO,LESIONES INTENCIONALES POR ARMA DE FUEGO,Masculino,27
49218,9881114,30/12/2024,19:40,,,,,31/12/2024,01:31,ALTO IMPACTO,LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO,LESIONES INTENCIONALES POR ARMA DE FUEGO,Masculino,No se especifica
49221,9881138,30/12/2024,23:15,,,,,31/12/2024,04:29,ALTO IMPACTO,LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO,LESIONES INTENCIONALES POR ARMA DE FUEGO,Femenino,22
49225,9881168,13/12/2024,13:15,,,,,31/12/2024,09:58,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE MOTOCICLETA SIN VIOLENCIA,Masculino,44


In [16]:
# eliminar las filas con coordenadas vacías
data_delitos_cdmx = data_delitos_cdmx.dropna(subset=['COORD X', 'COORD Y'])
data_delitos_cdmx

Unnamed: 0,ID_CI,FECHA DE LOS HECHOS,HORA DE LOS HECHOS,COLONIA HECHOS,ALCALDÍA HECHOS,COORD X,COORD Y,FECHA DE INICIO,HORA DE INICIO,TIPO IMPACTO,DELITO,MODALIDAD - DELITO,SEXO,EDAD
0,9627807,01/01/2024,07:38,PEDREGAL DE SANTO DOMINGO,COYOACAN,-99.172310,19.321407,01/01/2024,09:53,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Masculino,48
2,9627810,01/01/2024,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.200193,19.493066,01/01/2024,10:13,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,34
3,9627810,01/01/2024,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.200193,19.493066,01/01/2024,10:13,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,20
6,9627835,01/01/2024,02:00,HÉROES DE PADIERNA,TLALPAN,-99.217773,19.279583,01/01/2024,12:26,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,Masculino,40
8,9627837,01/01/2024,03:30,AGRÍCOLA METROPOLITANA,TLAHUAC,-99.053909,19.288396,01/01/2024,12:32,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,36
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49294,9881517,30/12/2024,17:30,SAN ANDRÉS TOMATLÁN,IZTAPALAPA,-99.103669,19.327271,31/12/2024,22:53,ALTO IMPACTO,ROBO A REPARTIDOR CON Y SIN VIOLENCIA,ROBO A REPARTIDOR CON VIOLENCIA,No se especifica,No se especifica
49295,9881520,31/12/2024,17:00,PALO ALTO,CUAJIMALPA DE MORELOS,-99.247695,19.386187,31/12/2024,23:04,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,30
49296,9881523,31/12/2024,16:00,PRESIDENTES DE MÉXICO,IZTAPALAPA,-99.064511,19.337068,31/12/2024,23:25,ALTO IMPACTO,ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN ...,ROBO A PASAJERO A BORDO DE PESERO COLECTIVO CO...,Femenino,24
49297,9881525,31/12/2024,23:15,SAN ANDRÉS TETEPILCO,IZTAPALAPA,-99.137080,19.368608,31/12/2024,23:45,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,19


In [17]:
data_delitos_cdmx[['COORD X', 'COORD Y']].describe()

Unnamed: 0,COORD X,COORD Y
count,28730.0,28730.0
mean,-99.129985,19.380149
std,0.06336,0.074099
min,-99.338867,19.127795
25%,-99.172699,19.327496
50%,-99.134593,19.379446
75%,-99.085307,19.436681
max,-98.951857,19.579266


In [18]:
data_delitos_cdmx.info()

<class 'pandas.core.frame.DataFrame'>
Index: 28730 entries, 0 to 49298
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID_CI                28730 non-null  int64  
 1   FECHA DE LOS HECHOS  28730 non-null  object 
 2   HORA DE LOS HECHOS   28730 non-null  object 
 3   COLONIA HECHOS       28730 non-null  object 
 4   ALCALDÍA HECHOS      28730 non-null  object 
 5   COORD X              28730 non-null  float64
 6   COORD Y              28730 non-null  float64
 7   FECHA DE INICIO      28730 non-null  object 
 8   HORA DE INICIO       28730 non-null  object 
 9   TIPO IMPACTO         28730 non-null  object 
 10  DELITO               28730 non-null  object 
 11  MODALIDAD - DELITO   28730 non-null  object 
 12  SEXO                 27616 non-null  object 
 13  EDAD                 26788 non-null  object 
dtypes: float64(2), int64(1), object(11)
memory usage: 3.3+ MB


La variables Sexo y edad presentan datos nulos


## Variable sexo

In [19]:
data_delitos_cdmx[['SEXO']].info()

<class 'pandas.core.frame.DataFrame'>
Index: 28730 entries, 0 to 49298
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   SEXO    27616 non-null  object
dtypes: object(1)
memory usage: 448.9+ KB


In [20]:
data_delitos_cdmx['SEXO'].isnull().sum()

np.int64(1114)

In [21]:
data_delitos_cdmx['SEXO'].value_counts()

SEXO
Masculino           14310
Femenino             7963
No especificado      2956
No especifica        1557
No se especifica      545
No Especifica         285
Name: count, dtype: int64

Se obtuvieron 6 diferentes resultados de los cuales 4 son redundantes, se dejaran solamente tres asi como los falores faltantes se asignaran a estos ya que no se puede suponer el sexo

In [22]:
data_delitos_cdmx['SEXO'] = data_delitos_cdmx['SEXO'].fillna('NO ESPECIFICADO')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_delitos_cdmx['SEXO'] = data_delitos_cdmx['SEXO'].fillna('NO ESPECIFICADO')


In [23]:
data_delitos_cdmx['SEXO'] = data_delitos_cdmx['SEXO'].str.lower().replace({
    'no especificado': 'no especificado',
    'no especifica': 'no especificado',
    'no se especifica': 'no especificado',
    'no especifica': 'no especificado'
}, regex=False).str.title()
data_delitos_cdmx['SEXO'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_delitos_cdmx['SEXO'] = data_delitos_cdmx['SEXO'].str.lower().replace({


SEXO
Masculino          14310
Femenino            7963
No Especificado     6457
Name: count, dtype: int64

In [24]:
data_delitos_cdmx[['SEXO']].info()

<class 'pandas.core.frame.DataFrame'>
Index: 28730 entries, 0 to 49298
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   SEXO    28730 non-null  object
dtypes: object(1)
memory usage: 448.9+ KB


## Variable edad

In [25]:
data_delitos_cdmx[['EDAD']].info()

<class 'pandas.core.frame.DataFrame'>
Index: 28730 entries, 0 to 49298
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   EDAD    26788 non-null  object
dtypes: object(1)
memory usage: 448.9+ KB


In [26]:
data_delitos_cdmx['EDAD'].isnull().sum()

np.int64(1942)

In [27]:
data_delitos_cdmx['EDAD'].value_counts()

EDAD
No especificado     5166
No especifica       2716
No se especifica     939
30                   619
31                   561
                    ... 
87                     2
85                     2
0                      1
88                     1
86                     1
Name: count, Length: 95, dtype: int64

Hay tres categorias de no especificados por lo cual solo se dejara una y ahi se pondran los datos faltantes

In [28]:
data_delitos_cdmx['EDAD'] = data_delitos_cdmx['EDAD'].fillna('NO ESPECIFICADO')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_delitos_cdmx['EDAD'] = data_delitos_cdmx['EDAD'].fillna('NO ESPECIFICADO')


In [29]:
data_delitos_cdmx['EDAD'] = data_delitos_cdmx['EDAD'].str.lower().replace({
    'no especificado': 'no especificado',
    'no especifica': 'no especificado',
    'no se especifica': 'no especificado'
}, regex=False).str.title()
data_delitos_cdmx['SEXO'].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_delitos_cdmx['EDAD'] = data_delitos_cdmx['EDAD'].str.lower().replace({


SEXO
Masculino          14310
Femenino            7963
No Especificado     6457
Name: count, dtype: int64

## Fecha,hora, dia, mes

In [30]:
data_delitos_cdmx['FECHA DE LOS HECHOS'] =pd.to_datetime(data_delitos_cdmx['FECHA DE LOS HECHOS'], format='%d/%m/%Y', errors='coerce')

data_delitos_cdmx['DIA'] = data_delitos_cdmx['FECHA DE LOS HECHOS'].dt.day_name()
data_delitos_cdmx['DIA_NUM'] = data_delitos_cdmx['FECHA DE LOS HECHOS'].dt.day
data_delitos_cdmx['MES'] = data_delitos_cdmx['FECHA DE LOS HECHOS'].dt.month_name()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_delitos_cdmx['FECHA DE LOS HECHOS'] =pd.to_datetime(data_delitos_cdmx['FECHA DE LOS HECHOS'], format='%d/%m/%Y', errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_delitos_cdmx['DIA'] = data_delitos_cdmx['FECHA DE LOS HECHOS'].dt.day_name()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-vers

In [31]:
data_delitos_cdmx = data_delitos_cdmx.drop('FECHA DE LOS HECHOS', axis=1)
data_delitos_cdmx

Unnamed: 0,ID_CI,HORA DE LOS HECHOS,COLONIA HECHOS,ALCALDÍA HECHOS,COORD X,COORD Y,FECHA DE INICIO,HORA DE INICIO,TIPO IMPACTO,DELITO,MODALIDAD - DELITO,SEXO,EDAD,DIA,DIA_NUM,MES
0,9627807,07:38,PEDREGAL DE SANTO DOMINGO,COYOACAN,-99.172310,19.321407,01/01/2024,09:53,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Masculino,48,Monday,1,January
2,9627810,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.200193,19.493066,01/01/2024,10:13,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,34,Monday,1,January
3,9627810,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.200193,19.493066,01/01/2024,10:13,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,20,Monday,1,January
6,9627835,02:00,HÉROES DE PADIERNA,TLALPAN,-99.217773,19.279583,01/01/2024,12:26,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,Masculino,40,Monday,1,January
8,9627837,03:30,AGRÍCOLA METROPOLITANA,TLAHUAC,-99.053909,19.288396,01/01/2024,12:32,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,36,Monday,1,January
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49294,9881517,17:30,SAN ANDRÉS TOMATLÁN,IZTAPALAPA,-99.103669,19.327271,31/12/2024,22:53,ALTO IMPACTO,ROBO A REPARTIDOR CON Y SIN VIOLENCIA,ROBO A REPARTIDOR CON VIOLENCIA,No Especificado,No Especificado,Monday,30,December
49295,9881520,17:00,PALO ALTO,CUAJIMALPA DE MORELOS,-99.247695,19.386187,31/12/2024,23:04,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,30,Tuesday,31,December
49296,9881523,16:00,PRESIDENTES DE MÉXICO,IZTAPALAPA,-99.064511,19.337068,31/12/2024,23:25,ALTO IMPACTO,ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN ...,ROBO A PASAJERO A BORDO DE PESERO COLECTIVO CO...,Femenino,24,Tuesday,31,December
49297,9881525,23:15,SAN ANDRÉS TETEPILCO,IZTAPALAPA,-99.137080,19.368608,31/12/2024,23:45,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,19,Tuesday,31,December


In [32]:
data_delitos_cdmx.info()

<class 'pandas.core.frame.DataFrame'>
Index: 28730 entries, 0 to 49298
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID_CI               28730 non-null  int64  
 1   HORA DE LOS HECHOS  28730 non-null  object 
 2   COLONIA HECHOS      28730 non-null  object 
 3   ALCALDÍA HECHOS     28730 non-null  object 
 4   COORD X             28730 non-null  float64
 5   COORD Y             28730 non-null  float64
 6   FECHA DE INICIO     28730 non-null  object 
 7   HORA DE INICIO      28730 non-null  object 
 8   TIPO IMPACTO        28730 non-null  object 
 9   DELITO              28730 non-null  object 
 10  MODALIDAD - DELITO  28730 non-null  object 
 11  SEXO                28730 non-null  object 
 12  EDAD                28730 non-null  object 
 13  DIA                 28730 non-null  object 
 14  DIA_NUM             28730 non-null  int32  
 15  MES                 28730 non-null  object 
dtypes: float6

Creacion de la columna rango_edad

- Primera infancia: (0-5 años), también llamada niñez temprana.
- Niñez: (6-11 años).
- Adolescencia: (12-18 años).
- Juventud: (14-26 años).
- Adultez: (27-59 años).
- Vejez: (60 años o más). 

In [33]:
data_delitos_cdmx['EDAD'] = pd.to_numeric(data_delitos_cdmx['EDAD'], errors='coerce')
data_delitos_cdmx['EDAD'].isnull().sum()


np.int64(11279)

In [34]:
data_delitos_cdmx['EDAD_Rango'] =pd.cut(
    data_delitos_cdmx['EDAD'],
    bins=[0, 6, 12, 19, 27, 60, 100],
    labels=['Primeros años', 'Niñez', 'Adolescencia', 'Juventud', 'Adulto', 'Adulto mayor'],
    right=False
)

In [35]:
# Rellenar nulos con "No especificado"
data_delitos_cdmx['EDAD_Rango'] = data_delitos_cdmx['EDAD_Rango'].cat.add_categories(['No especificado']).fillna('No especificado')
data_delitos_cdmx['EDAD_Rango'].value_counts()

EDAD_Rango
No especificado    11279
Adulto             10916
Juventud            3866
Adolescencia        1339
Adulto mayor        1048
Niñez                207
Primeros años         75
Name: count, dtype: int64

In [36]:
#convertir edad a string
data_delitos_cdmx['EDAD'] = data_delitos_cdmx['EDAD'].astype(str).replace({
    'nan': 'No especificado'
}, regex=False).str.title()

In [37]:
data_delitos_cdmx['EDAD'].value_counts()

EDAD
No Especificado    11279
30.0                 619
31.0                 561
23.0                 560
26.0                 553
                   ...  
87.0                   2
85.0                   2
0.0                    1
86.0                   1
88.0                   1
Name: count, Length: 92, dtype: int64

In [38]:
#relleno de nulos
data_delitos_cdmx['EDAD'] = data_delitos_cdmx['EDAD'].fillna('NO ESPECIFICADO')
data_delitos_cdmx['EDAD'].isnull().sum()

np.int64(0)

In [39]:
data_delitos_cdmx

Unnamed: 0,ID_CI,HORA DE LOS HECHOS,COLONIA HECHOS,ALCALDÍA HECHOS,COORD X,COORD Y,FECHA DE INICIO,HORA DE INICIO,TIPO IMPACTO,DELITO,MODALIDAD - DELITO,SEXO,EDAD,DIA,DIA_NUM,MES,EDAD_Rango
0,9627807,07:38,PEDREGAL DE SANTO DOMINGO,COYOACAN,-99.172310,19.321407,01/01/2024,09:53,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Masculino,48.0,Monday,1,January,Adulto
2,9627810,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.200193,19.493066,01/01/2024,10:13,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,34.0,Monday,1,January,Adulto
3,9627810,05:10,TEZOZOMOC,AZCAPOTZALCO,-99.200193,19.493066,01/01/2024,10:13,ALTO IMPACTO,HOMICIDIO DOLOSO,HOMICIDIO POR ARMA DE FUEGO,Masculino,20.0,Monday,1,January,Juventud
6,9627835,02:00,HÉROES DE PADIERNA,TLALPAN,-99.217773,19.279583,01/01/2024,12:26,ALTO IMPACTO,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,ROBO DE VEHICULO DE SERVICIO PARTICULAR SIN VI...,Masculino,40.0,Monday,1,January,Adulto
8,9627837,03:30,AGRÍCOLA METROPOLITANA,TLAHUAC,-99.053909,19.288396,01/01/2024,12:32,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,36.0,Monday,1,January,Adulto
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49294,9881517,17:30,SAN ANDRÉS TOMATLÁN,IZTAPALAPA,-99.103669,19.327271,31/12/2024,22:53,ALTO IMPACTO,ROBO A REPARTIDOR CON Y SIN VIOLENCIA,ROBO A REPARTIDOR CON VIOLENCIA,No Especificado,No Especificado,Monday,30,December,No especificado
49295,9881520,17:00,PALO ALTO,CUAJIMALPA DE MORELOS,-99.247695,19.386187,31/12/2024,23:04,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,30.0,Tuesday,31,December,Adulto
49296,9881523,16:00,PRESIDENTES DE MÉXICO,IZTAPALAPA,-99.064511,19.337068,31/12/2024,23:25,ALTO IMPACTO,ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN ...,ROBO A PASAJERO A BORDO DE PESERO COLECTIVO CO...,Femenino,24.0,Tuesday,31,December,Juventud
49297,9881525,23:15,SAN ANDRÉS TETEPILCO,IZTAPALAPA,-99.137080,19.368608,31/12/2024,23:45,ALTO IMPACTO,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,Femenino,19.0,Tuesday,31,December,Juventud


In [None]:
#data_delitos_cdmx.to_excel('data/delitos_cdmx_limpio.xlsx', index=False)


ModuleNotFoundError: No module named 'openpyxl'

In [41]:
data_delitos_cdmx.to_csv('data/delitos_cdmx_limpio.csv', index=False, encoding='utf-8')