# Dataset Ministerio del Interior Aprendidos y Detenidos Ecuador --BIASED--

## Integrantes

- Silvana Báez
- Gabriel Cisneros
- Lenin Falconí
- Jorge Miño
- Mario Moreno
- Jonathan Zea

## Objetivo:

- Analizar el dataset, sus características y valores
- Realizar una limpieza del dataset
- Disminuir el sesgo en el dataset

## Lectura del Dataset

In [41]:
import os
import pandas as pd

data_path = os.path.join(os.getcwd(), 'data/mdi_detenidos-aprehendidos_pm_2019_2024.xlsx')
df = pd.read_excel(data_path, sheet_name='1')
df.shape

(489847, 35)

El dataset original contiene 489847 filas y 35 columnas. A continuación, se presentan las primeras 5 filas

In [42]:
df.head()

Unnamed: 0,codigo_iccs,tipo,estado_civil,estatus_migratorio,edad,sexo,genero,nacionalidad,autoidentificacion_etnica,nivel_de_instruccion,...,codigo_parroquia,nombre_distrito,nombre_circuito,nombre_subcircuito,nombre_provincia,nombre_canton,nombre_parroquia,presunta_infraccion,latitud,longitud
0,SIN_DATO,DETENIDO,SOLTERO/A,SE DESCONOCE,50,HOMBRE,MASCULINO,ECUATORIANO,AFROECUATORIANO/A AFRODESCENDIENTE,SE DESCONOCE,...,'000000,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,BOLETAS,'0.94804252190900884,'-79.6480999768429001
1,010102.04,DETENIDO,SOLTERO/A,SE DESCONOCE,47,HOMBRE,MASCULINO,ECUATORIANO,AFROECUATORIANO/A AFRODESCENDIENTE,NO APLICA,...,'000000,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,DELITOS CONTRA LA INTEGRIDAD SEXUAL Y REPRODUC...,'0.981916698618488071,'-79.6465283632278584
2,4011,APREHENDIDO,SOLTERO/A,NO APLICA,20,HOMBRE,MASCULINO,ECUATORIANO,MESTIZO/A,NO APLICA,...,'000000,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,DELITOS CONTRA EL DERECHO A LA PROPIEDAD,'-2.22342217152850585,'-79.9236059188842916
3,020721.02,APREHENDIDO,SOLTERO/A,SE DESCONOCE,31,HOMBRE,NO APLICA,ECUATORIANO,MESTIZO/A,SE DESCONOCE,...,'030450,LA TRONCAL,TRONCAL CENTRO,TRONCAL CENTRO 1,CAÑAR,LA TRONCAL,LA TRONCAL,CONTRAVENCIONES DE TRÁNSITO,'-2.46668633783548952,'-79.2915152305547366
4,4011,APREHENDIDO,SOLTERO/A,NO APLICA,27,HOMBRE,MASCULINO,ECUATORIANO,MESTIZO/A,NO APLICA,...,'000000,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,MAR TERRITORIAL,DELITOS CONTRA EL DERECHO A LA PROPIEDAD,'-2.22342217152850585,'-79.9236059188842916


Se describe los valores más frecuentes presentes en el dataset

In [43]:
df.describe().transpose()

Unnamed: 0,count,unique,top,freq
codigo_iccs,489847,233,SIN_DATO,174941
tipo,489847,2,APREHENDIDO,349555
estado_civil,489847,11,SOLTERO/A,333776
estatus_migratorio,489847,5,NO APLICA,195575
edad,489847,97,24,20758
sexo,489847,3,HOMBRE,439791
genero,489847,8,MASCULINO,349597
nacionalidad,489847,110,ECUATORIANO,459664
autoidentificacion_etnica,489847,41,MESTIZO/A,403351
nivel_de_instruccion,489847,18,SE DESCONOCE,144391


El dataset original dispone de 81 distintas categorías de `presunta_infraccion`. Esta variable tiene que ver con el delito/infracción cometida por la persona

In [44]:
len(set(df['presunta_infraccion']))  # 1572

81

Top 5 de delitos presentes en el dataset completo

In [45]:
df.presunta_infraccion.value_counts().sort_values(ascending=False).head(5)

presunta_infraccion
DELITOS CONTRA EL DERECHO A LA PROPIEDAD                                                         86007
BOLETAS                                                                                          74107
DELITOS POR LA PRODUCCIÓN O TRÁFICO ILÍCITO DE SUSTANCIAS CATALOGADAS SUJETAS A FISCALIZACIÓN    68484
CONTRAVENCIONES DE TRÁNSITO                                                                      41550
CONTRAVENCIÓN DE VIOLENCIA CONTRA LA MUJER O MIEMBROS DEL NÚCLEO FAMILIAR                        28832
Name: count, dtype: int64

La variable `fecha_detencion_aprehension` contiene datos de distinta naturaleza (`str`, `date`). Por esta razón, se convierten todos los datos a formato `datetime` para poder hacer operaciones en el tiempo.

In [46]:
df['fecha_detencion_aprehension'] = df['fecha_detencion_aprehension'].apply(lambda x: pd.to_datetime(x, errors='coerce'))
df.dtypes

codigo_iccs                            object
tipo                                   object
estado_civil                           object
estatus_migratorio                     object
edad                                   object
sexo                                   object
genero                                 object
nacionalidad                           object
autoidentificacion_etnica              object
nivel_de_instruccion                   object
condicion                              object
movilizacion                           object
tipo_arma                              object
arma                                   object
fecha_detencion_aprehension    datetime64[ns]
hora_detencion_aprehension             object
lugar                                  object
tipo_lugar                             object
nombre_zona                            object
nombre_subzona                         object
codigo_distrito                        object
codigo_circuito                   

La variable `tipo` contiene sólo dos categorías

In [47]:
df.tipo.value_counts()

tipo
APREHENDIDO    349555
DETENIDO       140292
Name: count, dtype: int64

Se observa que la cantidad de registros varía con el año. Además, el año 1970 hace referencia a registros cuya marca de tiempo es imprecisa, incorrecta o no existe

In [48]:
df['anio_detension_aprehension'] = df['fecha_detencion_aprehension'].dt.year
df.anio_detension_aprehension.value_counts().sort_index()

anio_detension_aprehension
1970.0    357636
2020.0       434
2021.0       428
2022.0       459
2023.0        45
2024.0     41510
Name: count, dtype: int64

Dado que el año 2024 presenta la segunda mayor cantidad de registros, se lo toma como base para el análisis posterior (i.e.) se descarta los demás años debido a las frecuencias no comparables y no explicadas por el *Ministerio del Interior*

In [49]:
df_2024 = df[df['anio_detension_aprehension'] == 2024]
df_2024.shape

(41510, 36)

In [50]:
df_2024.columns

Index(['codigo_iccs', 'tipo', 'estado_civil', 'estatus_migratorio', 'edad',
       'sexo', 'genero', 'nacionalidad', 'autoidentificacion_etnica',
       'nivel_de_instruccion', 'condicion', 'movilizacion', 'tipo_arma',
       'arma', 'fecha_detencion_aprehension', 'hora_detencion_aprehension',
       'lugar', 'tipo_lugar', 'nombre_zona', 'nombre_subzona',
       'codigo_distrito', 'codigo_circuito', 'codigo_subcircuito',
       'codigo_provincia', 'codigo_canton', 'codigo_parroquia',
       'nombre_distrito', 'nombre_circuito', 'nombre_subcircuito',
       'nombre_provincia', 'nombre_canton', 'nombre_parroquia',
       'presunta_infraccion', 'latitud', 'longitud',
       'anio_detension_aprehension'],
      dtype='object')

## Análisis de varias columnas

se procede a evaluar los valores registrados en varias variables de interés

In [51]:
df_2024.estatus_migratorio.value_counts()

estatus_migratorio
NO APLICA       19666
SE DESCONOCE    14338
REGULAR          6919
IRREGULAR         587
Name: count, dtype: int64

## Edad

Se descartan los casos en que la edad no está definida (i.e. `SIN_DATO`)ya que su cantidad no es representativa para el tamaño del dataset

In [52]:
df_2024.edad.isna().sum()

0

In [53]:
df_2024['edad'] = df_2024['edad'].apply(lambda x: str(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_2024['edad'] = df_2024['edad'].apply(lambda x: str(x))


In [54]:
# df_2024 = df_2024.drop(columns=['codigo_iccs', 'fecha', 'presunta_infraccion'])
# df_2024 = df_2024[df_2024['edad']!="SIN_DATO"]
df_2024.shape

(41510, 36)

In [55]:
df_2024['estado_civil'].value_counts()

estado_civil
SOLTERO/A         30798
CASADO/A           6198
DIVORCIADO/A       2778
SE DESCONOCE       1210
UNIÓN DE HECHO      312
VIUDO/A             214
Name: count, dtype: int64

In [56]:
set(df_2024['nacionalidad'])

{'ALEMÁN',
 'ARGENTINO',
 'BELGA',
 'BELICENO',
 'BOLIVIANO',
 'CHILENO',
 'CHINO',
 'COLOMBIANO',
 'CUBANO',
 'DOMINICANO',
 'ECUATOGUINEANO',
 'ECUATORIANO',
 'ESPAÑOL',
 'ESTADOUNIDENCE',
 'INDIO/HINDÚ',
 'ITALIANO',
 'MEXICANO',
 'PARAGUAYO',
 'PERUANO',
 'POLACO',
 'RUSO',
 'SALVADOREÑO',
 'SE DESCONOCE',
 'SURCOREANO',
 'TURCO',
 'VANUATUENSE',
 'VENEZOLANO',
 'VIETNAMITA'}

Al respecto de la variable `nacionalidad`, y considerando que la gran mayoría ($\approx 97\%$) del dataset contiene información de ecuatorianos, con apenas un $3\%$ de inmigrantes, se considera que el análisis se realizará sólo sobre población de origen *ecuatoriana*

In [57]:
# df_2024[df_2024['nacionalidad']=="ECUATORIANO"]
# df_2024.shape

No existe un criterio que explique los valores presentes en la variable `estatus_migratorio`, por lo que esta variable se descarta del análisis

In [58]:
df_2024['estatus_migratorio'].value_counts()

estatus_migratorio
NO APLICA       19666
SE DESCONOCE    14338
REGULAR          6919
IRREGULAR         587
Name: count, dtype: int64

No existe un criterio que explique los valores presentes en la variable `estatus_migratorio`, por lo que esta variable se descarta del análisis

In [59]:
df_2024['nivel_de_instruccion'].value_counts()

nivel_de_instruccion
SE DESCONOCE                                   16004
NO APLICA                                      13470
BACHILLERATO                                    7614
EDUCACIÓN GENERAL BÁSICA                        2659
TERCER NIVEL TÉCNICO-TECNOLÓGICO Y DE GRADO      916
EDUCACIÓN INICIAL                                533
CUARTO NIVEL O DE POSGRADO                       314
Name: count, dtype: int64

Se realiza un histograma de la variable `edad` que muestra la distribución de las edades en el dataset.

In [62]:
# df_2024.edad.hist(bins=30)

In [63]:
# print(f"Edad mínima: {df_2024.edad.min()}   Edad máxima: {df_2024.edad.max()}   Edad promedio: {df_2024.edad.mean():.2f}")
# # df_2024.edad.min()

In [64]:
# import matplotlib.pyplot as plt
# import seaborn as sns   

# plt.figure(figsize=(10, 6))
# sns.boxplot(x='genero', y='edad', data=df_2024)

In [65]:
# plt.figure(figsize=(10, 6))
# sns.boxplot(x='tipo', y='edad', data=df_2024)

No existe un criterio que explique los valores presentes en la variable `condicion`, por lo que esta variable se descarta del análisis

In [67]:
df_2024['condicion'].value_counts()

condicion
NORMAL                                                                                                                   31484
ALIENTO A LICOR                                                                                                           7806
SIN_DATO                                                                                                                  1795
ALIENTO A LICOR, NORMAL                                                                                                    181
BAJO LOS EFECTOS DE SUSTANCIAS ESTUPEFACIENTES, PSICOTRÓPICAS O PREPARADOS QUE LAS CONTENGAN                               160
ALIENTO A LICOR, BAJO LOS EFECTOS DE SUSTANCIAS ESTUPEFACIENTES, PSICOTRÓPICAS O PREPARADOS QUE LAS CONTENGAN               70
BAJO LOS EFECTOS DE SUSTANCIAS ESTUPEFACIENTES, PSICOTRÓPICAS O PREPARADOS QUE LAS CONTENGAN, NORMAL                        11
ALIENTO A LICOR, BAJO LOS EFECTOS DE SUSTANCIAS ESTUPEFACIENTES, PSICOTRÓPICAS O PREPARADOS QUE LAS C

No existe un criterio que explique los valores presentes en la variable `movilizacion`, por lo que esta variable se descarta del análisis

In [68]:
df_2024['movilizacion'].value_counts()

movilizacion
A PIE           22408
NO APLICA        5168
AUTOMÓVIL        4721
MOTOCICLETA      4054
SE DESCONOCE     3068
CAMIONETA        1148
BUS               365
TAXI              350
BICICLETA          98
LANCHA             83
ACÉMILAS           29
BOTE               15
CUADRÓN             3
Name: count, dtype: int64

No existe un criterio que explique los valores presentes en la variable `lugar`, por lo que esta variable se descarta del análisis

In [69]:
df_2024['lugar'].value_counts()

lugar
VÍA PÚBLICA                      25585
ESPACIO PRIVADO                   6861
CASA/VILLA                        3766
PARQUE Y PLAZA                     423
POLICÍA NACIONAL                   296
                                 ...  
CAI MASCULINO-QUITO                  1
CRS MASCULINO-EL CONDADO             1
RANCHO                               1
CONSEJOS                             1
HOGAR DE ATENCIÓN RESIDENCIAL        1
Name: count, Length: 184, dtype: int64

In [70]:
df_2024['tipo_lugar'].value_counts()

tipo_lugar
ÁREA DE ACCESO PÚBLICO                                26801
ÁREA PRIVADA                                           6860
VIVIENDA/ALOJAMIENTO                                   4352
ÁREAS DEDICADAS AL COMERCIO                             735
ENTIDADES PUBLICAS                                      449
TRANSPORTE                                              419
CENTRO DE REHABILITACIÓN SOCIAL (CRS)                   396
UNIDADES DE REACCIÓN Y EMERGENCIA                       352
INSTITUCIONES EDUCATIVAS                                322
LUGARES QUE PRESTAN SERVICIOS                           230
CENTROS DE DIVERSIÓN                                    172
INSTITUCIONES DE SALUD                                  164
CENTRO DE PRIVACIÓN PROVISIONAL DE LIBERTAD (CPPL)      122
ENTIDADES FINANCIERAS                                    52
ZONA DE INSPECCIÓN                                       46
UNIDADES DE ASEGURAMIENTO TRANSITORIO (UAT)              21
CENTRO DE ADOLESCENTES INFRAC

In [71]:
# top_3_tipo_lugar = df_2024['tipo_lugar'].value_counts().nlargest(3).index
# df_2024['tipo_lugar'] = df_2024['tipo_lugar'].apply(lambda x: x if x in top_3_tipo_lugar else 'OTROS')

In [72]:
# df_2024['tipo_lugar'].value_counts()

En la descripción en el dataset la variable `nombre_provincia` presenta más categorías que provincias existen en el Ecuador

In [73]:
len(set(df_2024['nombre_provincia']))

25

## Removiendo columnas no necesarias

In [74]:
df_out = df_2024.copy()
cols2drop = ['codigo_iccs',  
             'condicion', 
             'lugar',
             'fecha_detencion_aprehension',
             'anio_detension_aprehension',
             'hora_detencion_aprehension',
             'nombre_zona',
             'nombre_subzona',
             'codigo_distrito',
             'nombre_distrito',
             'codigo_canton',
             'codigo_circuito',
             'codigo_subcircuito',
             'nombre_circuito',
             'nombre_subcircuito',
             'nombre_canton',
             'nombre_parroquia',
             'codigo_parroquia',
             'codigo_provincia',
             'latitud',
             'longitud',]
len(cols2drop)

21

In [75]:
df_out = df_out.drop(columns=cols2drop)
df_out.shape

(41510, 15)

In [76]:
df_out.sample(10)

Unnamed: 0,tipo,estado_civil,estatus_migratorio,edad,sexo,genero,nacionalidad,autoidentificacion_etnica,nivel_de_instruccion,movilizacion,tipo_arma,arma,tipo_lugar,nombre_provincia,presunta_infraccion
35355,APREHENDIDO,SOLTERO/A,SE DESCONOCE,28,MUJER,FEMENINO,ECUATORIANO,MESTIZO/A,SE DESCONOCE,A PIE,NINGUNA,NINGUNA,ÁREA PRIVADA,LOS RÍOS,DELITOS CONTRA LA LIBERTAD PERSONAL
15022,APREHENDIDO,SE DESCONOCE,NO APLICA,SIN_DATO,HOMBRE,NO APLICA,COLOMBIANO,MESTIZO/A,NO APLICA,NO APLICA,NINGUNA,NINGUNA,ÁREA DE ACCESO PÚBLICO,MANABÍ,DELITOS POR LA PRODUCCIÓN O TRÁFICO ILÍCITO DE...
31415,APREHENDIDO,SOLTERO/A,NO APLICA,36,HOMBRE,MASCULINO,ECUATORIANO,MESTIZO/A,SE DESCONOCE,NO APLICA,NINGUNA,NINGUNA,ÁREA DE ACCESO PÚBLICO,MANABÍ,"DELITOS CONTRA LA ACTIVIDAD HIDROCARBURÍFERA, ..."
10532,APREHENDIDO,SOLTERO/A,SE DESCONOCE,32,HOMBRE,MASCULINO,ECUATORIANO,MESTIZO/A,BACHILLERATO,A PIE,NINGUNA,NINGUNA,ÁREA PRIVADA,PICHINCHA,CONTRAVENCION DE VIOLENCIA CONTRA LA MUJER O M...
41076,APREHENDIDO,SOLTERO/A,REGULAR,82,HOMBRE,MASCULINO,ARGENTINO,BLANCO/A,BACHILLERATO,AUTOMÓVIL,ARMAS DE FUEGO,CARTUCHERA,ÁREA DE ACCESO PÚBLICO,SANTA ELENA,DELITOS CONTRA LA SEGURIDAD PÚBLICA
29326,APREHENDIDO,CASADO/A,SE DESCONOCE,44,HOMBRE,MASCULINO,ECUATORIANO,SE DESCONOCE,SE DESCONOCE,TAXI,NINGUNA,NINGUNA,ÁREA DE ACCESO PÚBLICO,SANTA ELENA,DELITOS CONTRA LA SEGURIDAD PÚBLICA
14612,DETENIDO,DIVORCIADO/A,REGULAR,45,HOMBRE,MASCULINO,ECUATORIANO,MESTIZO/A,BACHILLERATO,TAXI,NINGUNA,NINGUNA,ÁREA DE ACCESO PÚBLICO,PICHINCHA,DELITOS CONTRA LA INTEGRIDAD SEXUAL Y REPRODUC...
6856,APREHENDIDO,CASADO/A,NO APLICA,30,HOMBRE,MASCULINO,ECUATORIANO,MESTIZO/A,NO APLICA,A PIE,NINGUNA,NINGUNA,VIVIENDA/ALOJAMIENTO,IMBABURA,CONTRAVENCION DE VIOLENCIA CONTRA LA MUJER O M...
32004,APREHENDIDO,SOLTERO/A,NO APLICA,26,HOMBRE,MASCULINO,ECUATORIANO,MESTIZO/A,NO APLICA,AUTOMÓVIL,NINGUNA,NINGUNA,ÁREA DE ACCESO PÚBLICO,GUAYAS,DELITOS CONTRA EL DERECHO A LA PROPIEDAD
7585,DETENIDO,CASADO/A,NO APLICA,36,HOMBRE,MASCULINO,ECUATORIANO,MESTIZO/A,EDUCACIÓN GENERAL BÁSICA,A PIE,NINGUNA,NINGUNA,ÁREA DE ACCESO PÚBLICO,COTOPAXI,BOLETAS


In [77]:
df_out['presunta_infraccion'].value_counts().sort_values(ascending=False).head(10)

presunta_infraccion
DELITOS CONTRA EL DERECHO A LA PROPIEDAD                                                         7267
DELITOS POR LA PRODUCCIÓN O TRÁFICO ILÍCITO DE SUSTANCIAS CATALOGADAS SUJETAS A FISCALIZACIÓN    6379
BOLETAS                                                                                          6230
DELITOS CONTRA LA SEGURIDAD PÚBLICA                                                              3464
CONTRAVENCIONES DE TRÁNSITO                                                                      3173
CONTRAVENCION DE VIOLENCIA CONTRA LA MUJER O MIEMBROS DEL NUCLEO FAMILIAR                        2526
DELITOS DE VIOLENCIA CONTRA LA MUJER O MIEMBROS DEL NÚCLEO FAMILIAR                              2076
DELITOS CONTRA LA EFICIENCIA DE LA ADMINISTRACIÓN PÚBLICA                                        1634
CONTRAVENCIONES                                                                                  1195
DELITOS CONTRA LA INTEGRIDAD SEXUAL Y REPRODUCTIVA            

In [78]:
# len(set(df_out['presunta_infraccion']))
df_out.describe().transpose()

Unnamed: 0,count,unique,top,freq
tipo,41510,2,APREHENDIDO,31466
estado_civil,41510,6,SOLTERO/A,30798
estatus_migratorio,41510,4,NO APLICA,19666
edad,41510,79,24,1730
sexo,41510,3,HOMBRE,37052
genero,41510,7,MASCULINO,35921
nacionalidad,41510,28,ECUATORIANO,38922
autoidentificacion_etnica,41510,30,MESTIZO/A,33438
nivel_de_instruccion,41510,7,SE DESCONOCE,16004
movilizacion,41510,13,A PIE,22408


## Presunto Delito/Infracción

En el dataset final existen 52 valores distintos en `presunta_infraccion`. Se toma el top 10 de los más frecuentes y los demás se define como `OTROS`

In [79]:
top_10_infracciones = df_out['presunta_infraccion'].value_counts().nlargest(3).index
df_out['presunta_infraccion'] = df_out['presunta_infraccion'].apply(lambda x: x if x in top_10_infracciones else 'OTROS')
df_out['presunta_infraccion'].value_counts()

presunta_infraccion
OTROS                                                                                            21634
DELITOS CONTRA EL DERECHO A LA PROPIEDAD                                                          7267
DELITOS POR LA PRODUCCIÓN O TRÁFICO ILÍCITO DE SUSTANCIAS CATALOGADAS SUJETAS A FISCALIZACIÓN     6379
BOLETAS                                                                                           6230
Name: count, dtype: int64

In [83]:
# sns.boxplot(x='edad', y='presunta_infraccion', data=df_out)

In [81]:
df_out.to_csv('data/mdi_detenidos_2024_biased.csv', index=False)

In [82]:
df_out.shape

(41510, 15)