# <center> Delitos en CDMX</center>
## <center> Homogeneización de datos </center>

### Idea

Como visualizamos en el EDA, notamos que hay datos desbalanceados, y tenemos subcategorias dentro de la categoria de **Delitos de bajo impacto** que aparentemente son muy similares a otras categorias fuera de esta. También notamos que estas subcategorias tienen más registros que categorias que no son considerados como delitos de bajo impacto. 

El trabajo que se realizará es analizar estas subcategorias, ver cuales podemos combinar (evitando la pérdida de información) y cuáles podemos destacar que se consideren relevantes. 

Cargamos librerias importantes

In [124]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import unidecode

In [130]:
FGJ_carpetas = pd.read_csv("../Data/FGJ_carpetas.csv", parse_dates=["fecha_hechos", "fecha_inicio"])
FGJ_carpetas.drop(columns=["ao_inicio", "mes_inicio"], inplace=True)
FGJ_carpetas.index = pd.DatetimeIndex(FGJ_carpetas.fecha_hechos)

In [132]:
FGJ_carpetas["delito"] = FGJ_carpetas["delito"].apply(lambda x : unidecode.unidecode(str(x)))

In [3]:
FGJ_carpetas["categoria_delito"].value_counts()

DELITO DE BAJO IMPACTO                                     1110775
ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIOLENCIA         80354
ROBO DE VEHÍCULO CON Y SIN VIOLENCIA                         69732
HECHO NO DELICTIVO                                           49673
ROBO A NEGOCIO CON VIOLENCIA                                 22717
ROBO A REPARTIDOR CON Y SIN VIOLENCIA                        14116
ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VIOLENCIA        11981
HOMICIDIO DOLOSO                                              6872
VIOLACIÓN                                                     6696
LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO                 4765
ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN VIOLENCIA       4738
ROBO A CASA HABITACIÓN CON VIOLENCIA                          3480
ROBO A CUENTAHABIENTE SALIENDO DEL CAJERO CON VIOLENCIA       2550
ROBO A PASAJERO A BORDO DE TAXI CON VIOLENCIA                 1414
ROBO A TRANSPORTISTA CON Y SIN VIOLENCIA                      

In [133]:
FGJ_carpetas[FGJ_carpetas["categoria_delito"] == "DELITO DE BAJO IMPACTO"]["delito"].value_counts()

VIOLENCIA FAMILIAR                                   159645
FRAUDE                                                86405
ROBO DE OBJETOS                                       84110
AMENAZAS                                              83310
ROBO A NEGOCIO SIN VIOLENCIA                          69059
                                                      ...  
CALUMNIAS                                                 1
CONTRA LA LEY GENERAL DE EXPLOSIVOS                       1
INCESTO                                                   1
CONTAGIO VENERERO                                         1
ROBO A PASAJERO A BORDO DE CABLEBUS CON VIOLENCIA         1
Name: delito, Length: 250, dtype: int64

In [128]:
subcat = pd.DataFrame(FGJ_carpetas[FGJ_carpetas["categoria_delito"] == 
                                   "DELITO DE BAJO IMPACTO"]["delito"].value_counts()).reset_index()

#### Robo a pasajero

In [109]:
rob_pas = subcat[subcat["index"].str.contains("ROBO A PASAJERO")]

Robo a pasajero con violencia

In [113]:
rob_pas[rob_pas["index"].str.contains("CON VIOLENCIA")]

Unnamed: 0,index,delito
16,ROBO A PASAJERO / CONDUCTOR DE VEHICULO CON VI...,15564
28,ROBO A PASAJERO A BORDO DE TRANSPORTE PÚBLICO ...,6941
103,ROBO A PASAJERO / CONDUCTOR DE TAXI CON VIOLENCIA,676
131,ROBO A PASAJERO A BORDO DE METROBUS CON VIOLENCIA,258
135,ROBO A PASAJERO EN RTP CON VIOLENCIA,226
160,ROBO A PASAJERO EN TROLEBUS CON VIOLENCIA,95
173,ROBO A PASAJERO EN AUTOBÚS FORÁNEO CON VIOLENCIA,56
187,ROBO A PASAJERO EN ECOBUS CON VIOLENCIA,32
205,ROBO A PASAJERO EN TREN LIGERO CON VIOLENCIA,15
213,ROBO A PASAJERO A BORDO DE PESERO Y VEHICULO C...,11


Robo a pasajero sin violencia

In [114]:
rob_pas[rob_pas["index"].str.contains("SIN VIOLENCIA")]

Unnamed: 0,index,delito
44,ROBO A PASAJERO A BORDO DE METROBUS SIN VIOLENCIA,3407
61,ROBO A PASAJERO A BORDO DE TRANSPORTE PÚBLICO ...,2407
110,ROBO A PASAJERO EN TROLEBUS SIN VIOLENCIA,534
129,ROBO A PASAJERO A BORDO DE TAXI SIN VIOLENCIA,300
137,ROBO A PASAJERO EN TREN LIGERO SIN VIOLENCIA,203
167,ROBO A PASAJERO EN RTP SIN VIOLENCIA,72
174,ROBO A PASAJERO EN TREN SUBURBANO SIN VIOLENCIA,55
191,ROBO A PASAJERO EN ECOBUS SIN VIOLENCIA,22
194,ROBO A PASAJERO EN AUTOBUS FORANEO SIN VIOLENCIA,20
239,ROBO A PASAJERO A BORDO DE CABLEBUS SIN VIOLENCIA,1


#### Delitos de índole sexual

In [118]:
subcat[subcat["index"].str.contains("SEXUAL")]

Unnamed: 0,index,delito
14,ABUSO SEXUAL,16430
36,ACOSO SEXUAL,4236
59,CONTRA LA INTIMIDAD SEXUAL,2493
156,ACOSO SEXUAL AGRAVADO EN CONTRA DE MENORES,115
184,PRIVACION DE LA LIBERTAD PERSONAL (REALIZAR AC...,34


#### Robo farderos

In [153]:
subcat[subcat["index"].str.contains("FARDEROS")]

Unnamed: 0,index,delito
20,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIE...,13445
67,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS,1728
68,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIE...,1674


#### ROBO A NEGOCIO

In [154]:
subcat[subcat["index"].str.contains("ROBO A NEGOCIO")]

Unnamed: 0,index,delito
4,ROBO A NEGOCIO SIN VIOLENCIA,69059
20,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIE...,13445
67,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS,1728
68,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIE...,1674
157,ROBO A NEGOCIO Y VEHICULO SIN VIOLENCIA,107


#### Robo a transeunte

In [157]:
subcat[subcat["index"].str.contains("TRANSEUNTE")]

Unnamed: 0,index,delito
19,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,13949
21,ROBO A TRANSEUNTE DE CELULAR SIN VIOLENCIA,11628
50,ROBO A TRANSEUNTE EN PARQUES Y MERCADOS CON VI...,3107
54,ROBO A TRANSEUNTE EN NEGOCIO CON VIOLENCIA,2868
74,ROBO A TRANSEUNTE CONDUCTOR DE TAXI PUBLICO Y ...,1434
88,ROBO A TRANSEUNTE A BORDO DE TAXI PUBLICO Y PR...,913
105,ROBO A TRANSEUNTE EN RESTAURANT CON VIOLENCIA,569
164,ROBO A TRANSEUNTE EN HOTEL CON VIOLENCIA,76
191,ROBO A TRANSEUNTE EN TERMINAL DE PASAJEROS CON...,21
202,ROBO A TRANSEUNTE Y VEHICULO CON VIOLENCIA,17


#### Robo a casa

In [158]:
subcat[subcat["index"].str.contains("CASA")]

Unnamed: 0,index,delito
7,ROBO A CASA HABITACION SIN VIOLENCIA,32645
49,DANO EN PROPIEDAD AJENA INTENCIONAL A CASA HAB...,3133
126,ROBO A CASA HABITACION Y VEHICULO SIN VIOLENCIA,322


## Pasos por definir

Para el caso relacionado a pasajeros o temas relacionados al transporte público. 
- Podemos solo diferenciar por hechos con y sin violencia (al final solo tendríamos dos categorias)
- Trabajar con series multivariadas para predecir los delitos relacionados al transporte público. El problema que se me ocurre aquí es, ¿la indexación por tiempo nos permitirá trabajar con series recurrentes o convolucionales? 

Para el resto de subcategorias, como lo son Negocio, transeutes, casa, se siguen las mismas ideas.

Otra cosa podría ser solo sacar de las subcategroias de delitos de bajo impacto las problemáticas antes mencionadas. Esto reduciría las subcategorias y reducirá el impacto del desbalance de datos.

Definir dos categorias maestras (Alto impacto y bajo impacto). Para las de bajo impacto quizás aplicar todas las ideas anteriores (conjuntar categorias relacionadas a robos de pasajeros, casa, delitos sexuales), separar si fue con o sin violencia. Una vez hecho esto, predecir delitos de bajo impacto. (Tendrías que definir una categoría como "otros delitos" o "delitos varios").