# Análisis de las carpetas de investigación

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Personas físicas

In [17]:
df_fisica = pd.read_csv("data/fisicas.csv")
df_fisica.head(1)
#df_fisica.size

Unnamed: 0,delito,categoria,sexo,edad,calidad,competencia,año,mes,fecha,hora,alcaldia,colonia
0,ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIO...,Masculino,50,VICTIMA Y DENUNCIANTE,FUERO COMUN,2022,Diciembre,2022-12-31,23:50:00,VENUSTIANO CARRANZA,MOCTEZUMA 2A SECCION IV


### Analisis univariado

Para analizar los datos categóricos como delitos, categorías, calidad, etc. No podemos utilizar medidas de tendencia central para su análisis, debido a que son **datos categóricos nominales**.

In [6]:
df_fisica[["delito", "sexo", "calidad", "competencia", "mes", "alcaldia", "colonia", "fecha", "hora"]].mode()

Unnamed: 0,delito,sexo,calidad,competencia,mes,alcaldia,colonia,fecha,hora
0,VIOLENCIA FAMILIAR,Femenino,VICTIMA Y DENUNCIANTE,FUERO COMUN,Enero,IZTAPALAPA,CENTRO VIII,2023-02-10,12:00:00


Analizando modas individualmente se pueden obtener los siguientes puntos:

1. El delito más denunciado es el de VIOLENCIA FAMILIAR
2. El sexo más afectado es el FEMENINO
3. La calidad del que presenta la denuncia es mayormente VICTIMA Y DENUNCIANTE
4. El mes con más denuncias hasta marzo 31 de 2023 es ENERO
5. La alcaldía con más denuncias es IZTAPALAPA
6. La colonia con más denuncias es CENTRO VIII
7. La edad más común de las personas afectadas es de 42 años

Analizando las edades de las personas femeninas victimas de ese delito

In [12]:
mujeres = df_fisica.loc[df_fisica["sexo"] == "Femenino"]
hombres = df_fisica.loc[df_fisica["sexo"] == "Masculino"]

### Análisis de mujeres afectadas

In [41]:
mujeres["categoria"].value_counts()
#mujeres.shape

DELITO DE BAJO IMPACTO                                     24429
ROBO A TRANSEUNTE EN VÍA PÚBLICA CON Y SIN VIOLENCIA         936
VIOLACIÓN                                                    589
ROBO DE VEHÍCULO CON Y SIN VIOLENCIA                         273
ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VIOLENCIA        104
ROBO A PASAJERO A BORDO DE MICROBUS CON Y SIN VIOLENCIA       81
ROBO A NEGOCIO CON VIOLENCIA                                  45
HOMICIDIO DOLOSO                                              42
ROBO A CASA HABITACIÓN CON VIOLENCIA                          35
ROBO A CUENTAHABIENTE SALIENDO DEL CAJERO CON VIOLENCIA       33
SECUESTRO                                                     18
ROBO A PASAJERO A BORDO DE TAXI CON VIOLENCIA                 14
LESIONES DOLOSAS POR DISPARO DE ARMA DE FUEGO                 14
ROBO A REPARTIDOR CON Y SIN VIOLENCIA                          5
Name: categoria, dtype: int64

Para el análisis vamos a hacer uso de una técnica de muestreo llamada, **muestreo estratificado**.

Consiste en agrupar a mi población en grupos y a partir de cada grupo obtener las muestras mediante la técnica de muestreo simple

En este caso nuestros grupos serán los diferentes subonjuntos dados por la **categoría de delito**

Es decir, para cada categoría tomaremos una muestra usando la técncia de muestreo simple.

En este caso, únicamente vamos a analizar por separado las primeras 5 categorías de delitos, debido a que representan el **98% de nuestras denuncias**

In [45]:
frecuencia_cat = mujeres.categoria.value_counts()[:5]

Para la categoría de __DELITO DE BAJO IMPACTO__, vamos a sacar una muestra de alrededor del 52% del total de registros pertenecientes a esa categoría. 

Esto representa **4 diferentes tipos de delitos y alrededor de 12,939 registros**

In [56]:
mujeres[mujeres["categoria"] == "DELITO DE BAJO IMPACTO"].delito.value_counts()

sample_size = 400

samples = dict()

for cat, freq in frecuencia_cat.items():
    
    data = df_fisica[df_fisica["categoria"] == cat]
    
    if cat < "DELITO DE BAJO IMPAPCTO":
        cat_sample = data.sample(n=12_900, random_state=42)
    elif freq < sample_size:
        cat_sample = data
    else:
        cat_sample = data.sample(n=sample_size, random_state=42)
        
    samples[cat] = cat_sample

muestra_total = pd.concat(samples.values())
muestra_total

Unnamed: 0,delito,categoria,sexo,edad,calidad,competencia,año,mes,fecha,hora,alcaldia,colonia
33412,ROBO DE PLACA DE AUTOMOVIL,DELITO DE BAJO IMPACTO,Masculino,19,VICTIMA Y DENUNCIANTE,FUERO COMUN,2023,Febrero,2023-02-04,06:15:00,ALVARO OBREGON,PEDREGAL DE SAN ANGEL (AMPL)
18984,USURPACIÓN DE IDENTIDAD,DELITO DE BAJO IMPACTO,Masculino,44,VICTIMA Y DENUNCIANTE,FUERO COMUN,2023,Enero,2023-01-31,01:46:00,MILPA ALTA,SAN ANTONIO TECOMITL (PBLO)
36955,ROBO DE OBJETOS DEL INTERIOR DE UN VEHICULO,DELITO DE BAJO IMPACTO,Femenino,28,VICTIMA Y DENUNCIANTE,FUERO COMUN,2023,Marzo,2023-03-06,04:00:00,COYOACAN,PETROLERA TAXQUEA
37859,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,Femenino,49,VICTIMA Y DENUNCIANTE,FUERO COMUN,2022,Diciembre,2022-12-23,06:30:00,VENUSTIANO CARRANZA,MOCTEZUMA 2A SECCION I
33561,"PRODUCCIÓN, IMPRESIÓN, ENAJENACIÓN, DISTRIBUCI...",DELITO DE BAJO IMPACTO,Masculino,53,VICTIMA,FUERO COMUN,2022,Noviembre,2022-11-03,10:00:00,MIGUEL HIDALGO,GRANADA
...,...,...,...,...,...,...,...,...,...,...,...,...
50324,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,Femenino,47,VICTIMA Y DENUNCIANTE,FUERO COMUN,2023,Marzo,2023-03-30,10:50:00,CUAUHTEMOC,CENTRO VI
50763,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,Femenino,51,VICTIMA Y DENUNCIANTE,FUERO COMUN,2023,Marzo,2023-03-29,08:16:00,CUAUHTEMOC,TABACALERA
50989,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,Masculino,22,VICTIMA Y DENUNCIANTE,FUERO COMUN,2023,Febrero,2023-02-22,08:30:00,CUAUHTEMOC,OBRERA II
51227,ROBO A PASAJERO A BORDO DE METRO SIN VIOLENCIA,ROBO A PASAJERO A BORDO DEL METRO CON Y SIN VI...,Femenino,30,VICTIMA Y DENUNCIANTE,FUERO COMUN,2023,Marzo,2023-03-19,06:00:00,GUSTAVO A. MADERO,LA PATERA-CONDOMODULOS (U HAB)


In [None]:
# Filtra los datos solo para la categoría de "DELITOS DE BAJO IMPACTO"
datos_bajo_impacto = muestra_total[(muestra_total['categoria'] == 'DELITO DE BAJO IMPACTO') & (muestra_total[muestra_total["calidad"] == "VICTIMA Y DENUNCIANTE"])]

# Calcula la frecuencia de los diferentes delitos dentro de la categoría
frecuencia_delitos = datos_bajo_impacto['delito'].value_counts()

# Define la cantidad máxima de categorías a mostrar de manera individual (los más frecuentes)
max_categorias_individuales = 9

# Obtén las categorías más frecuentes y agrupa el resto como "otros"
categorias_top = frecuencia_delitos.index[:max_categorias_individuales].tolist()
otros_delitos = frecuencia_delitos.index[max_categorias_individuales:]
frecuencia_top = frecuencia_delitos[:max_categorias_individuales].sum()
frecuencia_otros = frecuencia_delitos[max_categorias_individuales:].sum()

# Crea una lista con las frecuencias de las categorías individuales y la categoría "otros"
frecuencias = frecuencia_delitos[:max_categorias_individuales].tolist()
frecuencias.append(frecuencia_otros)

# Crea una lista con las etiquetas de las categorías individuales y la etiqueta "otros"
etiquetas = categorias_top.copy()
etiquetas.append('Otros')

# Crea una lista de colores para la gráfica de pastel
colores = plt.cm.Set3(range(len(etiquetas)))

# Grafica la gráfica de pastel
plt.figure(figsize=(8, 6))  # Ajusta el tamaño de la figura si es necesario
plt.pie(frecuencias, labels=etiquetas, colors=colores, autopct='%1.1f%%', startangle=90)

# Ajusta el aspecto para que la gráfica sea un círculo en lugar de una elipse
#plt.axis('equal')
plt.title('Porcentaje de delitos denunciados por personas afectadas femeninas a marzo 31 de 2023')

# Muestra la gráfica
plt.show()
