######
### Enrique Mejía Fontanot
Análisis de la base de Carpetas de Investigación FGJ como respuesta al apartado A del examen.

#### Estructura:

1. Cargar bibliotecas necesarias
2. Leer datos
3. Respuestas a preguntas del examen

    3.1 ¿Qué pruebas identificarías para asegurar la calidad de estos datos? No es necesario
hacerlas, sólo describe la prueba y lo que te dicecada una.

    3.2 Identifica los delitos que van al alza y a la baja en la CDMX (ten cuidado con los delitos
con pocas ocurrencias).

    3.3 ¿Cuál es la alcaldía que más delitos tiene y cuál es la que menos?¿Por qué crees que sea
esto?

    3.4 ¿Existe alguna tendencia estacional en la ocurrencia de delitos (mes, semana, día de la
semana, quincenas) en la CDMX? ¿A qué crees que sedeba?

    3.5 ¿Cuáles son los delitos que más caracterizan a cada alcaldía? Es decir, delitos que
suceden con mayor frecuencia en una alcaldía y con menor frecuencia en las demás.

    3.6 Diseña un indicador que mida el nivel de “inseguridad”. Genéralo al nivel de
desagregación que te parezca más adecuado (ej. manzana, calle, AGEB, etc.). Analiza los
resultados ¿Encontraste algún patrón interesante? ¿Qué decisiones se podrían tomar
con el indicador?

#### Notas

Es necesario cargar el archivo .csv de carpetas de investiación si es la primera vez que se ejecuta el script ya que este archivo no se sube al repositorio de git. Se pretende que el código sea reproducible, claro y entendible. Los comentarios en el código sirven el propósito de describir el código que les sigue. El texto en formato markdown pretende ofrecer la respuesta de todas las preguntas a partir de la ejecución del código y del análisis de los resultados de este manera secuencial. Cada pregunta va añadiendo información que es utilizada por los análisis posteriores.

#####

1. Cargar bibliotecas necesarias

In [119]:
## para manipular datos  
import pandas as pd  
## para graficar
import seaborn as sns 
## para graficar
import matplotlib.pyplot as plt 

2. Leer datos

In [84]:
#### leer datos desde archivo csv descargado del portal de datos abiertos de la ADIP.
df = pd.read_csv('/home/patatas/Documents/examenOPI/A/input/carpetas_completa_junio_2021.csv',low_memory=False)

Revisar dimensiones del dataframe leído.

In [85]:
## revisar dimensiones del df
df.shape

(1248924, 19)

In [86]:
## revisar tipos de variables
df.dtypes

ao_hechos               float64
mes_hechos               object
fecha_hechos             object
ao_inicio                 int64
mes_inicio               object
fecha_inicio             object
delito                   object
fiscalia                 object
agencia                  object
unidad_investigacion     object
categoria_delito         object
calle_hechos             object
calle_hechos2            object
colonia_hechos           object
alcaldia_hechos          object
competencia              object
longitud                float64
latitud                 float64
tempo                   float64
dtype: object

In [87]:
## revisar df 
df.tail()

Unnamed: 0,ao_hechos,mes_hechos,fecha_hechos,ao_inicio,mes_inicio,fecha_inicio,delito,fiscalia,agencia,unidad_investigacion,categoria_delito,calle_hechos,calle_hechos2,colonia_hechos,alcaldia_hechos,competencia,longitud,latitud,tempo
1248919,2021.0,Junio,2021-06-29 17:00:00,2021,Junio,2021-06-30 23:32:31,LESIONES CULPOSAS POR TRANSITO VEHICULAR EN CO...,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN MILPA...,MIL-2,UI-3SD,DELITO DE BAJO IMPACTO,OAXTEPEC,,SAN MARCOS (SANTA ANA TLACOTENCO),MILPA ALTA,FUERO COMUN,-98.99246,19.168371,
1248920,2021.0,Junio,2021-06-04 19:00:00,2021,Junio,2021-06-30 23:36:45,ROBO DE ACCESORIOS DE AUTO,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN CUAUH...,CUH-7,UI-3SD,DELITO DE BAJO IMPACTO,AVENIDA MEXICO,TEOTIHUACAN,HIPÓDROMO,CUAUHTEMOC,FUERO COMUN,-99.168311,19.412001,
1248921,2021.0,Junio,2021-06-30 19:40:00,2021,Junio,2021-06-30 23:37:12,AMENAZAS,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN IZTAC...,IZC-2,UI-3SD,DELITO DE BAJO IMPACTO,CUATRO,,AGRÍCOLA PANTITLAN,IZTACALCO,FUERO COMUN,-99.061716,19.419028,
1248922,2021.0,Mayo,2021-05-16 21:08:00,2021,Junio,2021-06-30 23:45:57,DAÑO EN PROPIEDAD AJENA INTENCIONAL,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN CUAUH...,CUH-7,UI-3SD,DELITO DE BAJO IMPACTO,ALVARO OBREGON,,ROMA NORTE,CUAUHTEMOC,FUERO COMUN,-99.158994,19.418615,
1248923,2021.0,Junio,2021-06-29 17:00:00,2021,Junio,2021-06-30 23:52:34,LESIONES INTENCIONALES POR ARMA BLANCA,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN IZTAP...,IZP-8,UI-3CD,DELITO DE BAJO IMPACTO,REFORMA # 100,,LOMAS DE SAN LORENZO,IZTAPALAPA,FUERO COMUN,-99.069557,19.321406,


3. Limpieza y preprocesamiento

3.1 ¿Qué pruebas identificarías para asegurar la calidad de estos datos? No es necesario
hacerlas, sólo describe la prueba y lo que te dicecada una.

Es necesario verificar que la información cumple con los requisitos necesarios para poder extraer valor de ella. Revisamos los criterios de ...

Notamos que contamos con un universo muy basto de datos con más de un millón de registros individuales, y con variables muy específicas que nos permiten localizar los delitos de manera temporal y espacial. Se cuenta con la fecha y hora de los hechos así como la latitud y longitud de los mismos. Además, se cuenta con el delito, la fiscalía en la que se denunció el hecho y la información sobre la competencia de la misma. 

3.2 Identifica los delitos que van al alza y a la baja en la CDMX (ten cuidado con los delitos
con pocas ocurrencias).

Lo primero que hacemos es separar la fecha y la hora de los hechos en dos variables separadas a las que les damos el nombre de "variable"_clean. Es relevante notar que mantendremos esta notación de aquí en adelantcon cualquier modificación similar. El motivo es conservar siempre una copia original de lnformación, en caso de requerir algún nuevo análisis.

In [120]:
## separar fecha y hora de hechos/inicio que vienen pegados por un espacio
# fecha de hechos
df['fecha_hechos_clean'] = df['fecha_hechos'].str.split(' ').str.get(0)
df['hora_hechos_clean'] = df['fecha_hechos'].str.split(' ').str.get(1)

# fecha de inicio
df['fecha_inicio_clean'] = df['fecha_inicio'].str.split(' ').str.get(0)
df['hora_inicio_clean'] = df['fecha_inicio'].str.split(' ').str.get(1)

Ahora pasamos las variables de fecha al tipo datetime.

In [121]:
## pasar fecha_hechos_clean a tipo datetime
df['fecha_hechos_clean'] = pd.to_datetime(df['fecha_hechos_clean'])

Ya que tenemos las fechas en el formato adecuado, podemos hacer los primeros análisis de las tendencias de los delitos. 

Tenemos que comenzar por una variable que nos permite dar un criterio de validez a los datos. La competencia es una categoría dada a cada carpeta de investigación por la Fiscalía General de Justicia de la Ciudad de México (FGJ). Esta variable es muy importante ya que nos permite descartar correctamente los casos que no son contados como delitos por la FGJ. Sin embargo, fue añadida recientemente, y no se encuentra disponible para toda la base.

Para explicar esta categorización de los hechos, hacemos el conteo por categoria de la variable.

In [122]:
## conteo por tipo de competencia, incluyendo valores nulos
df['competencia'].value_counts(dropna = False)

NaN                   1064079
FUERO COMUN            179618
HECHO NO DELICTIVO       3374
INCOMPETENCIA            1853
Name: competencia, dtype: int64

Gran cantidad de los registros (85%) son nulos en la variable de competencia. Es decir que necesitamos encontrar un valor que podamos utilizar como sustituto para determinar qué carpetas de investigación constituyen hechos delictivos y cuáles no. La importancia de esto radica en que este criterio ha sido usado por la FGJ y la ADIP al hacer reportes públicos con los datos de carpetas de investigación, por lo que es necesario replicarlo para poder verificar nuestros resultados contra dichos reportes.

In [123]:
## conteo por fecha de hechos y competencia, incluyendo valores nulos
# crear una variable auxiliar llamada conteo y con el valor de 1
df['conteo'] = 1
# agrupar por fecha_hechos_clean y competencia y sumar sobre conteo
conteo = df.groupby(['fecha_hechos_clean','competencia'],as_index=False)['conteo'].sum()
# imprimir resultado
conteo

Unnamed: 0,fecha_hechos_clean,competencia,conteo
0,1950-01-01,FUERO COMUN,1
1,1952-12-23,FUERO COMUN,1
2,1955-01-02,FUERO COMUN,1
3,1958-11-27,FUERO COMUN,1
4,1962-01-01,FUERO COMUN,1
...,...,...,...
3349,2021-06-29,HECHO NO DELICTIVO,8
3350,2021-06-29,INCOMPETENCIA,5
3351,2021-06-30,FUERO COMUN,215
3352,2021-06-30,HECHO NO DELICTIVO,3


Notamos que la fecha de los hechos va demasiado tiempo hacia atrás por lo que habrá que establecer una fecha de corte a partir del cuál hacer el análisis. Y que necesitamos encontrar la fecha a partir de la cuál la variable contiene información. Ya que la información se actualiza de manera mensual en el portal de datos abiertos, hacemos un conteo mensual a partir de la variable de fecha inicio para encontrar el punto de corte.

Una gráfica nos permite encontrar la solución de manera sencilla.

In [125]:
## gráfica de tendencia con promedio móvil
# calcular promedio móvil de 7 días
conteo[ 'promedio_movil_conteo' ] = conteo.conteo.rolling( 7).mean()

3.3 ¿Cuál es la alcaldía que más delitos tiene y cuál es la que menos? ¿Por qué crees que sea
esto?

3.4 ¿Existe alguna tendencia estacional en la ocurrencia de delitos (mes, semana, día de la
semana, quincenas) en la CDMX? ¿A qué crees que se deba?

3.5 ¿Cuáles son los delitos que más caracterizan a cada alcaldía? Es decir, delitos que
suceden con mayor frecuencia en una alcaldía y conmenor frecuencia en las demás.

3.6 Diseña un indicador que mida el nivel de “inseguridad”. Genéralo al nivel de
desagregación que te parezca más adecuado (ej.manzana,calle,AGEB,etc.). Analiza los
resultados ¿Encontraste algún patrón interesante? ¿Qué decisiones se podrían tomar
con el indicador?