######
### Enrique Mejía Fontanot
Análisis de la base de Carpetas de Investigación FGJ como respuesta al apartado A del examen.

#### Estructura:

1. Cargar bibliotecas necesarias
2. Leer datos
3. Respuestas a preguntas del examen

    3.1 ¿Qué pruebas identificarías para asegurar la calidad de estos datos? No es necesario
hacerlas, sólo describe la prueba y lo que te dicecada una.

    3.2 Identifica los delitos que van al alza y a la baja en la CDMX (ten cuidado con los delitos
con pocas ocurrencias).

    3.3 ¿Cuál es la alcaldía que más delitos tiene y cuál es la que menos?¿Por qué crees que sea
esto?

    3.4 ¿Existe alguna tendencia estacional en la ocurrencia de delitos (mes, semana, día de la
semana, quincenas) en la CDMX? ¿A qué crees que sedeba?

    3.5 ¿Cuáles son los delitos que más caracterizan a cada alcaldía? Es decir, delitos que
suceden con mayor frecuencia en una alcaldía y con menor frecuencia en las demás.

    3.6 Diseña un indicador que mida el nivel de “inseguridad”. Genéralo al nivel de
desagregación que te parezca más adecuado (ej. manzana, calle, AGEB, etc.). Analiza los
resultados ¿Encontraste algún patrón interesante? ¿Qué decisiones se podrían tomar
con el indicador?

#### Notas

Es necesario cargar el archivo .csv de carpetas de investiación si es la primera vez que se ejecuta el script ya que este archivo no se sube al repositorio de git. Se pretende que el código sea reproducible, claro y entendible. Los comentarios en el código sirven el propósito de describir el código que les sigue. El texto en formato markdown pretende ofrecer la respuesta de todas las preguntas a partir de la ejecución del código y del análisis de los resultados de este manera secuencial. Cada pregunta va añadiendo información que es utilizada por los análisis posteriores.

#####

1. Cargar bibliotecas necesarias

In [119]:
## para manipular datos  
import pandas as pd  
## para graficar
import seaborn as sns 
## para graficar
import matplotlib.pyplot as plt 

2. Leer datos

In [126]:
#### leer datos desde archivo csv descargado del portal de datos abiertos de la ADIP.
df = pd.read_csv('/home/patatas/Documents/examenOPI/A/input/carpetas_completa_junio_2021.csv',low_memory=False, encoding='utf-8')

Revisar dimensiones del dataframe leído.

In [127]:
## revisar dimensiones del df
df.shape

(1248924, 19)

In [128]:
## revisar tipos de variables
df.dtypes

ao_hechos               float64
mes_hechos               object
fecha_hechos             object
ao_inicio                 int64
mes_inicio               object
fecha_inicio             object
delito                   object
fiscalia                 object
agencia                  object
unidad_investigacion     object
categoria_delito         object
calle_hechos             object
calle_hechos2            object
colonia_hechos           object
alcaldia_hechos          object
competencia              object
longitud                float64
latitud                 float64
tempo                   float64
dtype: object

In [129]:
## revisar df 
df.tail()

Unnamed: 0,ao_hechos,mes_hechos,fecha_hechos,ao_inicio,mes_inicio,fecha_inicio,delito,fiscalia,agencia,unidad_investigacion,categoria_delito,calle_hechos,calle_hechos2,colonia_hechos,alcaldia_hechos,competencia,longitud,latitud,tempo
1248919,2021.0,Junio,2021-06-29 17:00:00,2021,Junio,2021-06-30 23:32:31,LESIONES CULPOSAS POR TRANSITO VEHICULAR EN CO...,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN MILPA...,MIL-2,UI-3SD,DELITO DE BAJO IMPACTO,OAXTEPEC,,SAN MARCOS (SANTA ANA TLACOTENCO),MILPA ALTA,FUERO COMUN,-98.99246,19.168371,
1248920,2021.0,Junio,2021-06-04 19:00:00,2021,Junio,2021-06-30 23:36:45,ROBO DE ACCESORIOS DE AUTO,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN CUAUH...,CUH-7,UI-3SD,DELITO DE BAJO IMPACTO,AVENIDA MEXICO,TEOTIHUACAN,HIPÓDROMO,CUAUHTEMOC,FUERO COMUN,-99.168311,19.412001,
1248921,2021.0,Junio,2021-06-30 19:40:00,2021,Junio,2021-06-30 23:37:12,AMENAZAS,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN IZTAC...,IZC-2,UI-3SD,DELITO DE BAJO IMPACTO,CUATRO,,AGRÍCOLA PANTITLAN,IZTACALCO,FUERO COMUN,-99.061716,19.419028,
1248922,2021.0,Mayo,2021-05-16 21:08:00,2021,Junio,2021-06-30 23:45:57,DAÑO EN PROPIEDAD AJENA INTENCIONAL,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN CUAUH...,CUH-7,UI-3SD,DELITO DE BAJO IMPACTO,ALVARO OBREGON,,ROMA NORTE,CUAUHTEMOC,FUERO COMUN,-99.158994,19.418615,
1248923,2021.0,Junio,2021-06-29 17:00:00,2021,Junio,2021-06-30 23:52:34,LESIONES INTENCIONALES POR ARMA BLANCA,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN IZTAP...,IZP-8,UI-3CD,DELITO DE BAJO IMPACTO,REFORMA # 100,,LOMAS DE SAN LORENZO,IZTAPALAPA,FUERO COMUN,-99.069557,19.321406,


3. Respuestas a preguntas

3.1 ¿Qué pruebas identificarías para asegurar la calidad de estos datos? No es necesario
hacerlas, sólo describe la prueba y lo que te dice cada una.

Es necesario verificar que la información cumple con los requisitos necesarios para poder extraer valor de ella. Para esto es necesario primero definir qué es lo que queremos entender a través de estos datos. En este ejercicio, las preguntas ya están dadas por lo nos basamos en ellas para definir las pruebas que aseguren la calidad de los datos. Revisamos los siguientes criterios de precisión y describimos las pruebas correspondientes:

- precisión - Para establecer una respuesta a partir de los datos, es necesario que estén libres de errores. Por ejemplo, si hubiera errores en la codificación de los delitos, o en las latitudes y longitudes de los mismos, no podríamos realizar un análisis preciso de los mismos a partir de estas variables. Cualquier conclusión estaría sesgada por estos errores y no sería reproducible con otras aproximaciones al mismo fenómeno. Si fuera posible se debería de ir al nacimiento de los datos para asegurarnos que toda la información capturada termine en el portal de datos abiertos sin ningún error. Sin embargo no somos dueños de la información por lo que la mejor prueba que podemos hacer es un análisis histórico de la precisión de cada variable. De esta manera podemos detectar errores en el momento en que sean introducidos a la base durante alguna de sus actualizaciones mensuales.

- integridad (_completeness_) - Se refiere a que los datos no deberían de tener valores nulos en ninguna variable, y deberían de tener todos los atributos necesarios para el análisis. Esto se puede probar haciendo un conteo de valores nulos, para calcular la proporción de valores nulos por variable. También se puede hacer un análisis de tendencia para detectar anomalías en cuanto a la cantidad de valore nulos generados por fecha, para detectar la introducción de una variable no disponible anteriormente.

- consistencia - Los datos deben de mantener el formato esperado de cada variable dada su naturaleza y no debe haber cambios en formatos ni en los valores de los registros. La primera prueba que se debe hacer es una revisión de los formatos y valores de cada variable. Esto se puede hacer con los comandos de describe para variables numéricas y enteras y de value_counts para las categóricas y de texto. La segunda prueba es la de consistencia histórica. Con cada entrega mensual, se debe verificar si se están introduciendo cambios de formatos o de los valores en algún registro. Debido a la naturaleza cambiante de las carpetas de investigación, mismas que pueden ser actualizadas aún después de haber sido publicadas en el portal de datos abiertos, es necesario verificar de manera histórica la consistencia de la información.

- validez -  Los datos deben cumplir los requisitos para el uso que se les quiere dar. Esto incluye que las variables de fecha en realidad capturen una fecha en un formato adecuado, que una variable de correo electrónico esté validada como realmente existente y otros ejemplos similares.  Es decir que si queremos analizar los delitos que suceden en la Ciudad de México (CDMX), debemos de asegurarnos que cada registro es una observación válida de este fenómeno y que cada variable está capturada de acuerdo a su naturaleza. Este punto trae a la luz un problema fundamental de esta base de datos: se trata solamente de los delitos que son denunciados directamente o investigados por la Fiscalía General de Justicia de la Ciudad de México (FGJ). Existe la llamada cifra negra que corresponde a la cantidad de delitos que no son denunciados o no son investigados por las autoridades. Se puede hacer una comparación con la Encuesta nacional de victimización y percepción sobre seguridad pública (ENVIPE) que mide a través de una muestra representativa de habitantes de la CDMX la cantidad de personas que han sido víctimas de delitos en el último año. En el mundo ideal, se deberían de denunicar la misma cantidad de delitos que son cometidos en la ciudad.

- los datos deben ser oportunos - Este criterio se encarga de medir qué tan oportunamente están disponibles los datos desde que son creados hasta que son publicados. Para probarlo, debemos aprovechar que contamos con la fecha de inicio de la carpeta (fecha_inicio) y la fecha en que se reportaron los hechos (fecha_hechos). Para cada registro, la diferencia entre estas dos variables nos da una parte del tiempo que toma en estar disponible desde que sucede el hecho. A esta cantidad debemos sumar el tiempo que falta hasta la siguiente publicación mensual en el portal de datos abiertos. Los datos se publican alrededor del día 10 de cada mes, y contienen la actualizaión correspondiente al mes completo anterior. Por lo que debemos sumar los días faltantes del mes más 10 días para obtener un estimado de qué tan oportuno es cada registro.

- unicidad - Se refiere a que no existan registros duplicados del mismo hecho en la base. Para probarlo podemos comparar la dimensión completa de la base contra la cantidad de registros únicos. Esto nos dirá si existe algún duplicado que tenga  los mismos valores en todas las variables. Sin embargo, pueden existir duplicados que tengan algún valor ligeramente diferente y estos escaparían a la detección de esta prueba. Se puede hacer una prueba más específica que compare a los registros por alguna medida de similitud. Sin embargo esto cosntituye un problema que se podría complejizar bastante ya que incluso se podría ajustar un modelo estadístico para estimar qué tanto es un duplicado cada registro.

3.2 Identifica los delitos que van al alza y a la baja en la CDMX (ten cuidado con los delitos
con pocas ocurrencias).

Lo primero que hacemos es separar la fecha y la hora de los hechos en dos variables separadas a las que les damos el nombre de "variable"\_clean. Es relevante notar que mantendremos esta notación de aquí en adelantcon cualquier modificación similar. El motivo es conservar siempre una copia original de lnformación, en caso de requerir algún nuevo análisis.

In [131]:
## separar fecha y hora de hechos/inicio que vienen pegados por un espacio
# fecha de hechos
df['fecha_hechos_clean'] = df['fecha_hechos'].str.split(' ').str.get(0)
df['hora_hechos_clean'] = df['fecha_hechos'].str.split(' ').str.get(1)

# fecha de inicio
df['fecha_inicio_clean'] = df['fecha_inicio'].str.split(' ').str.get(0)
df['hora_inicio_clean'] = df['fecha_inicio'].str.split(' ').str.get(1)

Ahora pasamos las variables de fecha al tipo datetime.

In [132]:
## pasar fecha_hechos_clean a tipo datetime
df['fecha_hechos_clean'] = pd.to_datetime(df['fecha_hechos_clean'])

Ya que tenemos las fechas en el formato adecuado, podemos hacer los primeros análisis de las tendencias de los delitos. 

Tenemos que comenzar por una variable que nos permite dar un criterio de validez a los datos. La competencia es una categoría dada a cada carpeta de investigación por la FGJ. Esta variable es muy importante ya que nos permite descartar correctamente los casos que no son contados como delitos por la FGJ. Sin embargo, fue añadida recientemente, y no se encuentra disponible para toda la base.

Para explicar esta categorización de los hechos, hacemos el conteo por categoria de la variable.

In [133]:
## conteo por tipo de competencia, incluyendo valores nulos
df['competencia'].value_counts(dropna = False)

NaN                   1064079
FUERO COMUN            179618
HECHO NO DELICTIVO       3374
INCOMPETENCIA            1853
Name: competencia, dtype: int64

Las tres categorias son: "FUERO COMUN" que describe los delitos que ocurridos y denunciados en la CDMX y que competene a la FGJ, "HECHO NO DELICTIVO" que describe los hechos sucedidos y denunciados en la CDMX pero que no constituyen un delito como puede ser una pérdida de vida accidental por ejemplo y por último "INCOMPETENCIA" que son hechos delictivos sucedidos fuera de la CDMX pero denunciados dentro de ella. Solo los delitos categorizados con "FUERO COMUN" deben ser tomados como válidos por el criterio de competencia. Este mismo criterio ha sido usado por la FGJ y la ADIP al hacer reportes públicos con los datos de carpetas de investigación, por lo que es necesario replicarlo para poder verificar nuestros resultados contra dichos reportes.

Sin embargo, gran cantidad de los registros (85%) son nulos en la variable de competencia. Es decir que desconocemos su categoria oficial entre las tres que sí son válidas. Necesitamos encontrar una aproximación que podamos utilizar como sustituto para determinar qué carpetas de investigación constituyen hechos delictivos de la CDMX y cuáles no entre las que son nulas en competencia.

Ya que la información se actualiza de manera mensual en el portal de datos abiertos, usamos la fecha de inicio de la carpeta para hacer un conteo mensual de los valores nulos en esta variable para encontrar el punto de corte.

In [None]:
## contar nulos por mes de inicio
conteo = df.groupby([''])

In [123]:
## conteo por fecha de hechos y competencia, incluyendo valores nulos
# crear una variable auxiliar llamada conteo y con el valor de 1
df['conteo'] = 1
# agrupar por fecha_hechos_clean y competencia y sumar sobre conteo
conteo = df.groupby(['fecha_hechos_clean','competencia'],as_index=False)['conteo'].sum()
# imprimir resultado
conteo

Unnamed: 0,fecha_hechos_clean,competencia,conteo
0,1950-01-01,FUERO COMUN,1
1,1952-12-23,FUERO COMUN,1
2,1955-01-02,FUERO COMUN,1
3,1958-11-27,FUERO COMUN,1
4,1962-01-01,FUERO COMUN,1
...,...,...,...
3349,2021-06-29,HECHO NO DELICTIVO,8
3350,2021-06-29,INCOMPETENCIA,5
3351,2021-06-30,FUERO COMUN,215
3352,2021-06-30,HECHO NO DELICTIVO,3


Una gráfica nos permite encontrar la solución de manera sencilla.

In [125]:
## gráfica de tendencia con promedio móvil
# calcular promedio móvil de 7 días
conteo[ 'promedio_movil_conteo' ] = conteo.conteo.rolling( 7).mean()

3.3 ¿Cuál es la alcaldía que más delitos tiene y cuál es la que menos? ¿Por qué crees que sea
esto?

3.4 ¿Existe alguna tendencia estacional en la ocurrencia de delitos (mes, semana, día de la
semana, quincenas) en la CDMX? ¿A qué crees que se deba?

3.5 ¿Cuáles son los delitos que más caracterizan a cada alcaldía? Es decir, delitos que
suceden con mayor frecuencia en una alcaldía y conmenor frecuencia en las demás.

3.6 Diseña un indicador que mida el nivel de “inseguridad”. Genéralo al nivel de
desagregación que te parezca más adecuado (ej.manzana,calle,AGEB,etc.). Analiza los
resultados ¿Encontraste algún patrón interesante? ¿Qué decisiones se podrían tomar
con el indicador?