# <center> Delitos en CDMX</center>
## <center> Homogeneización de datos </center>

### Idea

Como visualizamos en el EDA, notamos que hay datos desbalanceados, y tenemos subcategorias dentro de la categoria de **Delitos de bajo impacto** que aparentemente son muy similares a otras categorias fuera de esta. También notamos que estas subcategorias tienen más registros que categorias que no son considerados como delitos de bajo impacto. 

El trabajo que se realizará es analizar estas subcategorias, ver cuales podemos combinar (evitando la pérdida de información) y cuáles podemos destacar que se consideren relevantes. 

Cargamos librerias importantes

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import unidecode

In [2]:
FGJ_carpetas = pd.read_csv("../Data/FGJ_carpetas.csv", parse_dates=["fecha_hechos", "fecha_inicio"])
FGJ_carpetas.drop(columns=["ao_inicio", "mes_inicio"], inplace=True)
FGJ_carpetas.index = pd.DatetimeIndex(FGJ_carpetas.fecha_hechos)
FGJ_carpetas["delito"] = FGJ_carpetas["delito"].apply(lambda x : unidecode.unidecode(str(x)))

In [4]:
FGJ_carpetas["categoria_delito"].value_counts()

DELITO DE BAJO IMPACTO                                     1110775
ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIOLENCIA         80354
ROBO DE VEHÍCULO CON Y SIN VIOLENCIA                         69732
HECHO NO DELICTIVO                                           49673
ROBO A NEGOCIO CON VIOLENCIA                                 22717
ROBO A REPARTIDOR CON Y SIN VIOLENCIA                        14116
ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VIOLENCIA        11981
HOMICIDIO DOLOSO                                              6872
VIOLACIÓN                                                     6696
LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO                 4765
ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN VIOLENCIA       4738
ROBO A CASA HABITACIÓN CON VIOLENCIA                          3480
ROBO A CUENTAHABIENTE SALIENDO DEL CAJERO CON VIOLENCIA       2550
ROBO A PASAJERO A BORDO DE TAXI CON VIOLENCIA                 1414
ROBO A TRANSPORTISTA CON Y SIN VIOLENCIA                      

In [5]:
FGJ_carpetas[FGJ_carpetas["categoria_delito"] == "ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN VIOLENCIA"]["delito"].value_counts()

ROBO A PASAJERO A BORDO DE PESERO COLECTIVO CON VIOLENCIA    4052
ROBO A PASAJERO A BORDO DE PESERO COLECTIVO SIN VIOLENCIA     686
Name: delito, dtype: int64

In [3]:
subcat = pd.DataFrame(FGJ_carpetas[FGJ_carpetas["categoria_delito"] == 
                                   "DELITO DE BAJO IMPACTO"]["delito"].value_counts()).reset_index()

#### Robo a pasajero

In [4]:
subcat[subcat["index"].str.contains("ROBO A PASAJERO")]["index"].values

array(['ROBO A PASAJERO / CONDUCTOR DE VEHICULO CON VIOLENCIA',
       'ROBO A PASAJERO A BORDO DE TRANSPORTE PUBLICO CON VIOLENCIA',
       'ROBO A PASAJERO A BORDO DE METROBUS SIN VIOLENCIA',
       'ROBO A PASAJERO A BORDO DE TRANSPORTE PUBLICO SIN VIOLENCIA',
       'ROBO A PASAJERO / CONDUCTOR DE TAXI CON VIOLENCIA',
       'ROBO A PASAJERO EN TROLEBUS SIN VIOLENCIA',
       'ROBO A PASAJERO A BORDO DE TAXI SIN VIOLENCIA',
       'ROBO A PASAJERO A BORDO DE METROBUS CON VIOLENCIA',
       'ROBO A PASAJERO EN RTP CON VIOLENCIA',
       'ROBO A PASAJERO EN TREN LIGERO SIN VIOLENCIA',
       'ROBO A PASAJERO EN TROLEBUS CON VIOLENCIA',
       'ROBO A PASAJERO EN RTP SIN VIOLENCIA',
       'ROBO A PASAJERO EN AUTOBUS FORANEO CON VIOLENCIA',
       'ROBO A PASAJERO EN TREN SUBURBANO SIN VIOLENCIA',
       'ROBO A PASAJERO EN ECOBUS CON VIOLENCIA',
       'ROBO A PASAJERO EN ECOBUS SIN VIOLENCIA',
       'ROBO A PASAJERO EN AUTOBUS FORANEO SIN VIOLENCIA',
       'ROBO A PASAJERO EN TREN

In [7]:
rob_pas = subcat[subcat["index"].str.contains("ROBO A PASAJERO")]

Robo a pasajero con violencia

In [22]:
rob_pas[rob_pas["index"].str.contains("CON VIOLENCIA")].values

array([['ROBO A PASAJERO / CONDUCTOR DE VEHICULO CON VIOLENCIA', 15564],
       ['ROBO A PASAJERO A BORDO DE TRANSPORTE PUBLICO CON VIOLENCIA',
        6941],
       ['ROBO A PASAJERO / CONDUCTOR DE TAXI CON VIOLENCIA', 676],
       ['ROBO A PASAJERO A BORDO DE METROBUS CON VIOLENCIA', 258],
       ['ROBO A PASAJERO EN RTP CON VIOLENCIA', 226],
       ['ROBO A PASAJERO EN TROLEBUS CON VIOLENCIA', 95],
       ['ROBO A PASAJERO EN AUTOBUS FORANEO CON VIOLENCIA', 56],
       ['ROBO A PASAJERO EN ECOBUS CON VIOLENCIA', 32],
       ['ROBO A PASAJERO EN TREN LIGERO CON VIOLENCIA', 15],
       ['ROBO A PASAJERO A BORDO DE PESERO Y VEHICULO CON VIOLENCIA', 11],
       ['ROBO A PASAJERO EN TREN SUBURBANO CON VIOLENCIA', 5],
       ['ROBO A PASAJERO A BORDO DE CABLEBUS CON VIOLENCIA', 1]],
      dtype=object)

Robo a pasajero sin violencia

In [9]:
rob_pas[rob_pas["index"].str.contains("SIN VIOLENCIA")]

Unnamed: 0,index,delito
45,ROBO A PASAJERO A BORDO DE METROBUS SIN VIOLENCIA,3407
61,ROBO A PASAJERO A BORDO DE TRANSPORTE PUBLICO ...,2407
109,ROBO A PASAJERO EN TROLEBUS SIN VIOLENCIA,534
128,ROBO A PASAJERO A BORDO DE TAXI SIN VIOLENCIA,300
136,ROBO A PASAJERO EN TREN LIGERO SIN VIOLENCIA,203
166,ROBO A PASAJERO EN RTP SIN VIOLENCIA,72
173,ROBO A PASAJERO EN TREN SUBURBANO SIN VIOLENCIA,55
190,ROBO A PASAJERO EN ECOBUS SIN VIOLENCIA,22
194,ROBO A PASAJERO EN AUTOBUS FORANEO SIN VIOLENCIA,20
239,ROBO A PASAJERO A BORDO DE CABLEBUS SIN VIOLENCIA,1


#### Delitos de índole sexual

In [23]:
subcat[subcat["index"].str.contains("SEXUAL")].values

array([['ABUSO SEXUAL', 16430],
       ['ACOSO SEXUAL', 4236],
       ['CONTRA LA INTIMIDAD SEXUAL', 2493],
       ['ACOSO SEXUAL AGRAVADO EN CONTRA DE MENORES', 115],
       ['PRIVACION DE LA LIBERTAD PERSONAL (REALIZAR ACTO SEXUAL)', 34]],
      dtype=object)

#### Robo farderos

In [11]:
subcat[subcat["index"].str.contains("FARDEROS")]

Unnamed: 0,index,delito
20,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIE...,13445
67,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS,1728
68,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIE...,1674


#### ROBO A NEGOCIO

In [24]:
subcat[subcat["index"].str.contains("ROBO A NEGOCIO")].values

array([['ROBO A NEGOCIO SIN VIOLENCIA', 69059],
       ['ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIENDAS DE AUTOSERVICIO)',
        13445],
       ['ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS', 1728],
       ['ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIENDAS DE CONVENIENCIA)',
        1674],
       ['ROBO A NEGOCIO Y VEHICULO SIN VIOLENCIA', 107]], dtype=object)

#### Robo a transeunte

In [29]:
subcat[subcat["index"].str.contains("TRANSEUNTE")]["index"].values

array(['ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA',
       'ROBO A TRANSEUNTE DE CELULAR SIN VIOLENCIA',
       'ROBO A TRANSEUNTE EN PARQUES Y MERCADOS CON VIOLENCIA',
       'ROBO A TRANSEUNTE EN NEGOCIO CON VIOLENCIA',
       'ROBO A TRANSEUNTE CONDUCTOR DE TAXI PUBLICO Y PRIVADO CON VIOLENCIA',
       'ROBO A TRANSEUNTE A BORDO DE TAXI PUBLICO Y PRIVADO SIN VIOLENCIA',
       'ROBO A TRANSEUNTE EN RESTAURANT CON VIOLENCIA',
       'ROBO A TRANSEUNTE EN HOTEL CON VIOLENCIA',
       'ROBO A TRANSEUNTE EN TERMINAL DE PASAJEROS CON VIOLENCIA',
       'ROBO A TRANSEUNTE Y VEHICULO CON VIOLENCIA',
       'ROBO A TRANSEUNTE EN CINE CON VIOLENCIA'], dtype=object)

#### Robo a casa

In [25]:
subcat[subcat["index"].str.contains("CASA")].values

array([['ROBO A CASA HABITACION SIN VIOLENCIA', 32645],
       ['DANO EN PROPIEDAD AJENA INTENCIONAL A CASA HABITACION', 3133],
       ['ROBO A CASA HABITACION Y VEHICULO SIN VIOLENCIA', 322]],
      dtype=object)

## Pasos por definir

Para el caso relacionado a pasajeros o temas relacionados al transporte público. 
- Podemos solo diferenciar por hechos con y sin violencia (al final solo tendríamos dos categorias)
- Trabajar con series multivariadas para predecir los delitos relacionados al transporte público. El problema que se me ocurre aquí es, ¿la indexación por tiempo nos permitirá trabajar con series recurrentes o convolucionales? 

Para el resto de subcategorias, como lo son Negocio, transeutes, casa, se siguen las mismas ideas.

Otra cosa podría ser solo sacar de las subcategroias de delitos de bajo impacto las problemáticas antes mencionadas. Esto reduciría las subcategorias y reducirá el impacto del desbalance de datos.

Definir dos categorias maestras (Alto impacto y bajo impacto). Para las de bajo impacto quizás aplicar todas las ideas anteriores (conjuntar categorias relacionadas a robos de pasajeros, casa, delitos sexuales), separar si fue con o sin violencia. Una vez hecho esto, predecir delitos de bajo impacto. (Tendrías que definir una categoría como "otros delitos" o "delitos varios").

## Discución

Se acordó manejar 4 tipos de variables relacionadas con delitos relacionados a transporte público:
- Robo en taxi con y sin violencia
- Robo en metro con y sin violencia
- Robo en Microbus con y sin violencia
- Robo en "Otros" tipos de transporte con y sin violencia

Para delitos sexuales manejaremos:
- Violaciones 
- Otors delitos de índole sexual (abuso, acoso sexual, etc.)
- La categoría feminicidio será eliminada debido a que solo hay un registro

Para delitos relacionados con robo a negocio los definiremos en 2 categorias:
- Robo con violencia
- Robo sin violencia

Para delitos relacionados con robo a casa haremos un esquema similar al anterior.

Finalmente, para delitos relacionados a robos a transeuntes los juntaremos con los robos a transeuntes en vía pública con y sin violencia.

Los principales 4 delitos con mayor registros dentro de los delitos de bajo impacto se analizarán por separado debido a su alto número de ocurrencias (los consideramos de interés).

In [30]:
dic_homo = {"ROBO A PASAJERO A BORDO DE TAXI CON Y SIN VIOLENCIA " : ["ROBO A PASAJERO A BORDO DE TAXI CON VIOLENCIA ", 
                                                                          "ROBO A PASAJERO / CONDUCTOR DE TAXI CON VIOLENCIA", 
                                                                          "ROBO A PASAJERO A BORDO DE TAXI SIN VIOLENCIA"], 
                "ROBO A PASAJERO A BORDO DE OTROS TRANSPORTE CON Y SIN VIOLENCIA" : ['ROBO A PASAJERO / CONDUCTOR DE VEHICULO CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO A BORDO DE TRANSPORTE PUBLICO CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO A BORDO DE METROBUS CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO EN RTP CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO EN TROLEBUS CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO EN AUTOBUS FORANEO CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO EN ECOBUS CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO EN TREN LIGERO CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO A BORDO DE PESERO Y VEHICULO CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO EN TREN SUBURBANO CON VIOLENCIA', 
                                                                                     'ROBO A PASAJERO A BORDO DE CABLEBUS CON VIOLENCIA'], 
               "OTROS DELITOS DE INDOLE SEXUAL" : ['ABUSO SEXUAL', 
                                                   'ACOSO SEXUAL', 
                                                   'CONTRA LA INTIMIDAD SEXUAL', 
                                                   'ACOSO SEXUAL AGRAVADO EN CONTRA DE MENORES', 
                                                   'PRIVACION DE LA LIBERTAD PERSONAL (REALIZAR ACTO SEXUAL)'],
               "ROBO A NEGOCIO SIN VIOLENCIA" : ['ROBO A NEGOCIO SIN VIOLENCIA', 
                                                 'ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIENDAS DE AUTOSERVICIO)', 
                                                 'ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS', 
                                                 'ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIENDAS DE CONVENIENCIA)', 
                                                 'ROBO A NEGOCIO Y VEHICULO SIN VIOLENCIA'],
               "ROBO A CASA SIN VIOLENCIA" : ['ROBO A CASA HABITACION SIN VIOLENCIA', 
                                              'DANO EN PROPIEDAD AJENA INTENCIONAL A CASA HABITACION', 
                                              'ROBO A CASA HABITACION Y VEHICULO SIN VIOLENCIA'], 
               "ROBO A TRANSEUNTE CON Y SIN VIOLENCIA" : ['ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA',
                                                          'ROBO A TRANSEUNTE DE CELULAR SIN VIOLENCIA',
                                                          'ROBO A TRANSEUNTE EN PARQUES Y MERCADOS CON VIOLENCIA',
                                                          'ROBO A TRANSEUNTE EN NEGOCIO CON VIOLENCIA',
                                                          'ROBO A TRANSEUNTE CONDUCTOR DE TAXI PUBLICO Y PRIVADO CON VIOLENCIA',
                                                          'ROBO A TRANSEUNTE A BORDO DE TAXI PUBLICO Y PRIVADO SIN VIOLENCIA',
                                                          'ROBO A TRANSEUNTE EN RESTAURANT CON VIOLENCIA',
                                                          'ROBO A TRANSEUNTE EN HOTEL CON VIOLENCIA',
                                                          'ROBO A TRANSEUNTE EN TERMINAL DE PASAJEROS CON VIOLENCIA',
                                                          'ROBO A TRANSEUNTE Y VEHICULO CON VIOLENCIA',
                                                          'ROBO A TRANSEUNTE EN CINE CON VIOLENCIA',
                                                          "ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIOLENCIA"]}

In [56]:
FGJ_carpetas["delito_homo"] = FGJ_carpetas["delito"].replace({v: new_del for new_del, v in dic_homo.items() for 
                                                              delito in FGJ_carpetas.delito.astype("category") for v in v})

In [73]:
FGJ_carpetas["delito_homo"].value_counts()

VIOLENCIA FAMILIAR                        159645
FRAUDE                                     86405
ROBO A NEGOCIO SIN VIOLENCIA               86013
ROBO DE OBJETOS                            84110
AMENAZAS                                   83310
                                           ...  
CALUMNIAS                                      1
UTILIZACION INDEBIDA DE LA VIA PUBLICA         1
CONTRA LA LEY GENERAL DE EXPLOSIVOS            1
CONTAGIO VENERERO                              1
HOMICIDIO POR INMERSION                        1
Name: delito_homo, Length: 316, dtype: int64

In [71]:
FGJ_carpetas["delito_homo"].value_counts().reset_index()[0:60]

Unnamed: 0,index,delito_homo
0,VIOLENCIA FAMILIAR,159645
1,FRAUDE,86405
2,ROBO A NEGOCIO SIN VIOLENCIA,86013
3,ROBO DE OBJETOS,84110
4,AMENAZAS,83310
5,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,69755
6,ROBO DE ACCESORIOS DE AUTO,47406
7,ROBO DE OBJETOS DEL INTERIOR DE UN VEHICULO,40210
8,ROBO A CASA SIN VIOLENCIA,36100
9,ROBO A TRANSEUNTE CON Y SIN VIOLENCIA,34596


In [72]:
FGJ_carpetas["delito_homo"].value_counts().reset_index()[61:120]

Unnamed: 0,index,delito_homo
61,ROBO A CASA HABITACION CON VIOLENCIA,3202
62,LESIONES INTENCIONALES,3145
63,ROBO A REPARTIDOR SIN VIOLENCIA,3047
64,FALSIFICACION DE DOCUMENTOS,2995
65,"ALLANAMIENTO DE MORADA, DESPACHO, OFICINA O ES...",2972
66,DELITOS AMBIENTALES,2911
67,PERDIDA DE LA VIDA POR SUICIDIO,2822
68,LESIONES CULPOSAS,2811
69,ROBO DE OBJETOS A ESCUELA,2656
70,QUEBRANTAMIENTO DE SELLOS,2563


Ya estan creadas los delitos homogeneizados, solo que ahorita ya no se me ocurrió como manejar las categorias. 