# Prueba para la vacante de Data Science 

## Caso A

La Agencia Digital de Innovación Pública tiene disponibles los datos georeferenciados de las carpetas de investigación aportados por la PGJ.

### 1) ¿Qué pruebas identificarías para asegurar la calidad de estos datos? No es necesario hacerlas. Sólo describe la prueba y qué te dice cada una.

> "En su interpretación  más estrecha, calidad significa calidad del producto, pero en su interpretación más amplia significa calidad del trabajo, calidad del servicio, calidad de la información, calidad del proceso, calidad de la dirección y calidad de la empresa". Ishikawa

Hablar de data quality implica poder garantizar que cada dato reúne todos los criterios necesarios:

- Exactitud
- Integridad
- Actualización
- Relevancia
- Coherencia
- Confiabilidad
- Presentación apropiada
- Accesibilidad

#### ¿Cómo se puede garantizar, entonces, la caldidad de los datos?

Ya que cada organización es diferente se tendría que analizar cada caso es particular para poder realizar pruebas más específicas; sin embargo, se pueden aplicar medidas cuantitativas del data quality universales:

- __Completitud__: es el grado en el que todos los atributos del dato están presentes.
- __Validez__: representa el grado en que un instrumento realmente mide la variable que pretende medir.
- __Unicidad__: la medida en que todos los valores distintos de un elemento de datos aparecen sólo una vez.
- __Integridad__: tiene que ver con el grado de conformidad con las reglas de relación de datos definidas.
- __Precisión__: determina en qué medida los datos representan correctamente la verdad sobre un objeto del mundo real o se ajustan a lo establecido por una fuente autorizada.
- __Coherencia__: representa el grado en que una pieza única de datos contiene el mismo valor a través de múltiples conjuntos de datos.
- __Oportunidad__: este atributo de la calidad de datos permite conocer si éstos están disponibles cuando se requiere.
- __Representación__: tiene que ver con el formato, patrón, legibilidad y utilidad de los datos para su uso previsto.


In [1]:
# dependencies

import pandas as pd
import numpy as np


# defining the url of the data

url = 'data/carpetas-de-investigacion-pgj-de-la-ciudad-de-mexico.csv'
# loading the data 

delitos = pd.read_csv(url)
delitos.head()

Unnamed: 0,ao_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalia,agencia,unidad_investigacion,alcaldia_hechos,colonia_hechos,ao_inicio,mes_inicio,fecha_inicio,calle_hechos,calle_hechos2,longitud,latitud,geopoint
0,2016.0,Enero,2016-01-06 00:00:00,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN CUAUHTEMOC,CUH-8,UI-3CD,CUAUHTEMOC,AMPLIACIÓN ASTURIAS,2016,Enero,2016-01-07 15:23:35,OTE. 69,,-99.129895,19.406097,"19.4060969998,-99.129895"
1,2016.0,Enero,2016-01-07 13:00:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN GUSTAVO A. MADERO,GAM-4,UI-2CD,GUSTAVO A MADERO,LINDAVISTA,2016,Enero,2016-01-07 15:30:40,AVENIDA MONTEVIDEO,CALZADA VALLEJO,-99.135347,19.491183,"19.4911829998,-99.135347"
2,2016.0,Enero,2016-01-07 12:10:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTAPALAPA,IZP-8,UI-3CD,IZTAPALAPA,PARAJE SAN JUAN,2016,Enero,2016-01-07 15:31:44,CAMINO VIEJO REAL DE SAN FRANCISCO,AV. INSGTE. EUGENIO GIRON,-99.065453,19.339127,"19.3391269998,-99.065453"
3,2015.0,Diciembre,2015-12-27 19:30:00,LESIONES CULPOSAS POR CAIDA,DELITO DE BAJO IMPACTO,"INVESTIGACIÓN PARA LA ATENCIÓN DE NIÑOS, NIÑAS...",59,UI-3CD,VENUSTIANO CARRANZA,LORENZO BOTURINI,2016,Enero,2016-01-07 15:35:29,LORENZO BOTURINI,,-99.12707,19.417356,"19.4173559998,-99.12707"
4,2015.0,Diciembre,2015-12-10 20:00:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTACALCO,IZC-2,UI-3SD,IZTACALCO,GABRIEL RAMOS MILLÁN,2016,Enero,2016-01-07 15:35:38,ORIENTE 100 A,,-99.103084,19.391399,"19.3913989998,-99.103084"


In [2]:
# determining for the information the type of data
delitos.dtypes

ao_hechos               float64
mes_hechos               object
fecha_hechos             object
delito                   object
categoria_delito         object
fiscalia                 object
agencia                  object
unidad_investigacion     object
alcaldia_hechos          object
colonia_hechos           object
ao_inicio                 int64
mes_inicio               object
fecha_inicio             object
calle_hechos             object
calle_hechos2            object
longitud                float64
latitud                 float64
geopoint                 object
dtype: object

### 2) ¿Cuántos delitos registrados hay en la tabla? ¿Qué rango de tiempo consideran los datos?

In [3]:
# determining the values of the variables
registros_totales = len(delitos.index)
min_ao = min(delitos['ao_inicio'])
max_ao = max(delitos['ao_inicio'])

print(f'Hay {registros_totales:,d} registros,los cuales están comprendidos entre los años {min_ao} y {max_ao}')

Hay 1,064,063 registros,los cuales están comprendidos entre los años 2016 y 2020


### 3) ¿Cómo se distribuye el número de delitos en la CDMX? ¿Cuáles son los 5 delitos más frecuentes?

In [21]:
url2 = 'data/alcaldias.csv'
alcaldias = pd.read_csv(url2)

In [5]:
delitos_cdmx = delitos[delitos['alcaldia_hechos'].isin(alcaldias['Alcaldias'].tolist())] 
delitos_cdmx.head()

Unnamed: 0,ao_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalia,agencia,unidad_investigacion,alcaldia_hechos,colonia_hechos,ao_inicio,mes_inicio,fecha_inicio,calle_hechos,calle_hechos2,longitud,latitud,geopoint
0,2016.0,Enero,2016-01-06 00:00:00,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN CUAUHTEMOC,CUH-8,UI-3CD,CUAUHTEMOC,AMPLIACIÓN ASTURIAS,2016,Enero,2016-01-07 15:23:35,OTE. 69,,-99.129895,19.406097,"19.4060969998,-99.129895"
1,2016.0,Enero,2016-01-07 13:00:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN GUSTAVO A. MADERO,GAM-4,UI-2CD,GUSTAVO A MADERO,LINDAVISTA,2016,Enero,2016-01-07 15:30:40,AVENIDA MONTEVIDEO,CALZADA VALLEJO,-99.135347,19.491183,"19.4911829998,-99.135347"
2,2016.0,Enero,2016-01-07 12:10:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTAPALAPA,IZP-8,UI-3CD,IZTAPALAPA,PARAJE SAN JUAN,2016,Enero,2016-01-07 15:31:44,CAMINO VIEJO REAL DE SAN FRANCISCO,AV. INSGTE. EUGENIO GIRON,-99.065453,19.339127,"19.3391269998,-99.065453"
3,2015.0,Diciembre,2015-12-27 19:30:00,LESIONES CULPOSAS POR CAIDA,DELITO DE BAJO IMPACTO,"INVESTIGACIÓN PARA LA ATENCIÓN DE NIÑOS, NIÑAS...",59,UI-3CD,VENUSTIANO CARRANZA,LORENZO BOTURINI,2016,Enero,2016-01-07 15:35:29,LORENZO BOTURINI,,-99.127070,19.417356,"19.4173559998,-99.12707"
4,2015.0,Diciembre,2015-12-10 20:00:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTACALCO,IZC-2,UI-3SD,IZTACALCO,GABRIEL RAMOS MILLÁN,2016,Enero,2016-01-07 15:35:38,ORIENTE 100 A,,-99.103084,19.391399,"19.3913989998,-99.103084"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1064058,2020.0,Agosto,2020-08-16 21:20:00,ROBO A NEGOCIO SIN VIOLENCIA POR FARDEROS (TIE...,DELITO DE BAJO IMPACTO,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN CUAUH...,CUH-5,UI-1SD,CUAUHTEMOC,JUÁREZ,2020,Agosto,2020-08-17 20:44:56,BARCELONA,,-99.154650,19.428161,"19.4281608402,-99.1546502693"
1064059,2020.0,Agosto,2020-08-17 16:50:00,ROBO DE MOTOCICLETA SIN VIOLENCIA,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN COYOACÁN,COY-1,UI-1CD,COYOACAN,AJUSCO,2020,Agosto,2020-08-17 20:48:39,TOLTECAS,,-99.158371,19.328438,"19.3284382981,-99.1583708001"
1064060,2020.0,Agosto,2020-08-17 14:00:00,AMENAZAS,DELITO DE BAJO IMPACTO,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN MIGUE...,MH-4,UI-1SD,ALVARO OBREGON,BELEN DE LAS FLORES SECCION CUCHILLA,2020,Agosto,2020-08-17 21:00:06,EL ROSAL,,-99.212492,19.398333,"19.3983328014,-99.2124920001"
1064061,2020.0,Agosto,2020-08-16 15:00:00,ROBO DE VEHICULO DE SERVICIO PÚBLICO CON VIOLE...,ROBO DE VEHÍCULO CON Y SIN VIOLENCIA,FISCALÍA DE INVESTIGACIÓN TERRITORIAL EN IZTAP...,IZP-5,UI-1CD,IZTAPALAPA,FRANCISCO VILLA,2020,Agosto,2020-08-17 21:10:50,PASO DEL NORTE,FELIPE ANGELES,-99.059705,19.337273,"19.3372727024,-99.0597048997"


In [6]:
delitos_frecuentes = delitos_cdmx.groupby(['delito']).agg(conteo = ('delito','count')).sort_values(by=['conteo'],ascending=False)

In [7]:
print('Los delitos más frecuentes de la CDMX son:')
delitos_frecuentes.head()

Los delitos más frecuentes de la CDMX son:


Unnamed: 0_level_0,conteo
delito,Unnamed: 1_level_1
VIOLENCIA FAMILIAR,100231
ROBO A NEGOCIO SIN VIOLENCIA,64320
ROBO DE OBJETOS,63889
FRAUDE,61502
ROBO A TRANSEUNTE EN VIA PUBLICA CON VIOLENCIA,54243


### 4) Identifica los delitos que van a la alza y a la baja en la CDMX en el último año (ten cuidado con los delitos con pocas ocurrencias).

In [8]:
# selecting the years 2019 and 2020, grouping the data by delitos and ao_inicio, in order to know how many incidents have occurred
analisis_delitos = delitos_cdmx[delitos_cdmx['ao_inicio']>=2019].groupby(['delito','ao_inicio']).agg(conteo = ('delito','count')).unstack()
analisis_delitos.reset_index(inplace = True)

In [9]:
# creating a column to store the result of the comparative between the crimes in the two years
analisis_delitos['estatus'] = ''

In [10]:
# in order to make a better analysis the NaN are replaced for 0, taking into consideration that the NaN is the absence of information
analisis_delitos.fillna(0,inplace =True)

In [11]:
# making a comparation between the two years (2019, 2020) and applying the following rules:
# if the counting from the previous year is higher than the current, the crimes are decreacing
# otherwise the crimes are increacing
# when the crimes reamain the same it is considerated as decreacing value
analisis_delitos['estatus'] = np.where((analisis_delitos['conteo'][2019]>=analisis_delitos['conteo'][2020]),"baja","alza")

In [12]:
analisis_delitos[analisis_delitos['estatus']=='alza']

Unnamed: 0_level_0,delito,conteo,conteo,estatus
ao_inicio,Unnamed: 1_level_1,2019,2020,Unnamed: 4_level_1
5,ACOSO SEXUAL AGRAVADO EN CONTRA DE MENORES,0.0,83.0,alza
8,ATAQUE A LAS VIAS DE COMUNICACION (DAÃ‘O A VIA...,0.0,3.0,alza
10,ATAQUE A LAS VIAS GENERALES DE COMUNICACIÃ“N,0.0,6.0,alza
14,CAMBIO DE USO DE SUELO,6.0,29.0,alza
20,CONTAMINACIÓN O RESIDUOS,7.0,26.0,alza
...,...,...,...,...
293,SUSTRACCIÓN DE MENORES,0.0,101.0,alza
294,TALA,6.0,22.0,alza
296,TENTATIVA DE FEMINICIDIO,0.0,7.0,alza
310,USURPACIÃ“N DE IDENTIDAD,0.0,319.0,alza


In [13]:
analisis_delitos[analisis_delitos['estatus']=='baja']

Unnamed: 0_level_0,delito,conteo,conteo,estatus
ao_inicio,Unnamed: 1_level_1,2019,2020,Unnamed: 4_level_1
0,ABORTO,132.0,57.0,baja
1,ABUSO DE AUTORIDAD Y USO ILEGAL DE LA FUERZA P...,2181.0,1334.0,baja
2,ABUSO DE CONFIANZA,4032.0,2460.0,baja
3,ABUSO SEXUAL,4053.0,2075.0,baja
4,ACOSO SEXUAL,946.0,636.0,baja
...,...,...,...,...
319,VIOLACION EQUIPARADA Y ROBO DE VEHICULO,4.0,2.0,baja
320,VIOLACION TUMULTUARIA,36.0,21.0,baja
321,VIOLACION TUMULTUARIA EQUIPARADA,1.0,0.0,baja
322,VIOLACION TUMULTUARIA EQUIPARADA POR CONOCIDO,3.0,0.0,baja


### 5) ¿Cuál es la alcaldía que más delitos tiene y cuál es la que menos?. ¿Por qué crees que sea esto?

In [14]:
# grouping the data by alcladia and counting the crimes that are placed in them
delitos_alcaldias = delitos_cdmx.groupby(['alcaldia_hechos']).agg(conteo = ('delito','count')).sort_values('conteo',ascending=False)

In [15]:
#deleting the index in order to make an easier search
delitos_alcaldias.reset_index(inplace=True)

In [16]:
min_crimen = min(delitos_alcaldias['conteo'])
max_crimen = max(delitos_alcaldias['conteo'])
min_crimen_alcaldia = delitos_alcaldias[delitos_alcaldias['conteo']== min_crimen]['alcaldia_hechos'].values[0]
max_crimen_alcaldia = delitos_alcaldias[delitos_alcaldias['conteo']== max_crimen]['alcaldia_hechos'].values[0]
print(f'La alcaldía {max_crimen_alcaldia} tiene la mayor cantidad de crímenes con: {max_crimen:,d}\n')
print(f'La alcaldía {min_crimen_alcaldia} tiene la menor cantidad de crímenes con: {min_crimen:,d}')

La alcaldía CUAUHTEMOC tiene la mayor cantidad de crímenes con: 168,558

La alcaldía MILPA ALTA tiene la menor cantidad de crímenes con: 7,065


### ¿A qué se debe este fenómeno?

Este problema se puede abordar de diferentes maneras, las que elijo analizar son: ubicación turística, ubicación corporativa y densidad poblacional.

De acuerdo al INEGI la delegación Cuauhtémoc tiene 532,553 habitantes y en contraste Milpa Alta tiene 137,927. Al haber más habitantes en la primera delegación, se puede asumir que se corre el riesgo de mayor incidencia de un delito.

Por otro lado, se tiene que una de las áreas más turísticas de la CDMX es el centro histórico (Cuauhtémoc), en donde se tiene una gran afluencia de gente dirarimanete, tanto local como foránea, debido a su gran flujo de dinero, podría ser una zona que sea de alto índice delictivo.

Esta misma razón, podría aplicarse a la zona corporativa de la ciudad en la que suele haber una gran afluencia de gente. Ya que incluye zonas como La Roma Norte y Roma Sur.

Cabe resaltar que estas conclusiones se realizan de manera inicial y exploratoria que podrían servir de hipótesis para elaborar un análisis más detallado. 


### 6) Dentro de cada alcaldía, ¿cuáles son las tres colonias con más delitos?



In [17]:
delitos_colonias = delitos_cdmx.groupby(['alcaldia_hechos','colonia_hechos']).agg(conteo = ('delito','count')).sort_values(['conteo','alcaldia_hechos'],ascending=False)

In [18]:
delitos_colonias

Unnamed: 0_level_0,Unnamed: 1_level_0,conteo
alcaldia_hechos,colonia_hechos,Unnamed: 2_level_1
CUAUHTEMOC,CENTRO,36051
CUAUHTEMOC,DOCTORES,21000
BENITO JUAREZ,DEL VALLE CENTRO,15914
CUAUHTEMOC,ROMA NORTE,13115
BENITO JUAREZ,NARVARTE,11613
...,...,...
ALVARO OBREGON,LA ARAÃ‘A,1
ALVARO OBREGON,LAS AMÃ‰RICAS,1
ALVARO OBREGON,REACOMODO PINO SUÃREZ,1
ALVARO OBREGON,RINCÃ“N DE LA BOLSA,1


### 7) ¿Existe alguna tendencia estacional en la ocurrencia de delitos (mes, semana, día de la semana, quincenas)?

In [19]:
delitos_cdmx.head()

Unnamed: 0,ao_hechos,mes_hechos,fecha_hechos,delito,categoria_delito,fiscalia,agencia,unidad_investigacion,alcaldia_hechos,colonia_hechos,ao_inicio,mes_inicio,fecha_inicio,calle_hechos,calle_hechos2,longitud,latitud,geopoint
0,2016.0,Enero,2016-01-06 00:00:00,ROBO A CASA HABITACION SIN VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN CUAUHTEMOC,CUH-8,UI-3CD,CUAUHTEMOC,AMPLIACIÓN ASTURIAS,2016,Enero,2016-01-07 15:23:35,OTE. 69,,-99.129895,19.406097,"19.4060969998,-99.129895"
1,2016.0,Enero,2016-01-07 13:00:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN GUSTAVO A. MADERO,GAM-4,UI-2CD,GUSTAVO A MADERO,LINDAVISTA,2016,Enero,2016-01-07 15:30:40,AVENIDA MONTEVIDEO,CALZADA VALLEJO,-99.135347,19.491183,"19.4911829998,-99.135347"
2,2016.0,Enero,2016-01-07 12:10:00,VIOLENCIA FAMILIAR,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTAPALAPA,IZP-8,UI-3CD,IZTAPALAPA,PARAJE SAN JUAN,2016,Enero,2016-01-07 15:31:44,CAMINO VIEJO REAL DE SAN FRANCISCO,AV. INSGTE. EUGENIO GIRON,-99.065453,19.339127,"19.3391269998,-99.065453"
3,2015.0,Diciembre,2015-12-27 19:30:00,LESIONES CULPOSAS POR CAIDA,DELITO DE BAJO IMPACTO,"INVESTIGACIÓN PARA LA ATENCIÓN DE NIÑOS, NIÑAS...",59,UI-3CD,VENUSTIANO CARRANZA,LORENZO BOTURINI,2016,Enero,2016-01-07 15:35:29,LORENZO BOTURINI,,-99.12707,19.417356,"19.4173559998,-99.12707"
4,2015.0,Diciembre,2015-12-10 20:00:00,ROBO A TRANSEUNTE DE CELULAR CON VIOLENCIA,DELITO DE BAJO IMPACTO,INVESTIGACIÓN EN IZTACALCO,IZC-2,UI-3SD,IZTACALCO,GABRIEL RAMOS MILLÁN,2016,Enero,2016-01-07 15:35:38,ORIENTE 100 A,,-99.103084,19.391399,"19.3913989998,-99.103084"


In [20]:
delitos_cdmx['fecha_inicio'] = pd.to_datetime(delitos_cdmx['fecha_inicio'])

### 10) ¿Cómo diseñarías un indicador que midiera el nivel “inseguridad”? Diséñalo al nivel de desagregación que te parezca más adecuado (ej. manzana, calle, AGEB, etc.).

Dependiendo del tipo de delito, lo desagregaría a calle y después lo englobaría en colonia. Dado que se podría presentar un patrón en el que una sola calle o colonia está siendo la que presente las incidencias y eso no quiere decir que toda la alcaldia esté en foco rojo. Tomaría en cuenta el nivel de incidencia del delito y la fecha (desagregada para intentar encontrar patrones más definidos). Después agregaría factores socieconómicos, servicios públicos (alumbrado) y la afluencia de gente.