# EDA-2
## Dataset: Reporte Delito Extorsión

In [1]:
# Importando todas las librerías requeridas para el análisis

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

import scipy.stats

In [2]:
# Cargando el archivo commo dataframe
df_Terr = pd.read_csv("./data/Reporte_Delito_Extorsi_n_Polic_a_Nacional.csv")

In [3]:
# Mostrando las dimensiones del dataframe
df_Terr.shape

(57736, 8)

In [4]:
# Verificando los tipos de datos de las columnas
# Debido a la naturaleza de los datos, el punto 5 no aplica.
df_Terr.dtypes

DEPARTAMENTO    object
MUNICIPIO       object
CODIGO DANE      int64
ARMAS MEDIOS    object
FECHA HECHO     object
GENERO          object
GRUPO ETARIO    object
CANTIDAD         int64
dtype: object

In [5]:
# Imprimiendo los primeros 10 registros
df_Terr.head(10)

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD
0,BOLÍVAR,CARTAGENA (CT),13001000,NO REPORTADO,01/01/2010,MASCULINO,ADULTOS,1
1,CAQUETÁ,LA MONTAÑITA,18410000,LLAMADA TELEFONICA,01/01/2010,MASCULINO,ADULTOS,1
2,CAQUETÁ,FLORENCIA (CT),18001000,MIXTA,01/01/2010,FEMENINO,ADULTOS,1
3,RISARALDA,DOSQUEBRADAS,66170000,MIXTA,02/01/2010,MASCULINO,ADULTOS,1
4,CASANARE,YOPAL (CT),85001000,LLAMADA TELEFONICA,03/01/2010,FEMENINO,ADULTOS,1
5,ANTIOQUIA,MEDELLÍN (CT),5001000,DIRECTA,04/01/2010,NO REPORTA,NO REPORTA,2
6,CUNDINAMARCA,LA MESA,25386000,LLAMADA TELEFONICA,04/01/2010,FEMENINO,ADULTOS,1
7,RISARALDA,PEREIRA (CT),66001000,CARTA EXTORSIVA,04/01/2010,MASCULINO,ADULTOS,1
8,ANTIOQUIA,MEDELLÍN (CT),5001000,LLAMADA TELEFONICA,05/01/2010,FEMENINO,ADULTOS,1
9,ANTIOQUIA,MEDELLÍN (CT),5001000,DIRECTA,05/01/2010,FEMENINO,ADULTOS,1


### Conversión de Object a datetime sobre la columna *FECHA HECHO*

In [6]:
df_Terr['FECHA HECHO']= pd.to_datetime(df_Terr['FECHA HECHO'], errors='raise', dayfirst=True)

In [7]:
# Verificando los tipos de datos de las columnas para verificar la conversión
df_Terr.dtypes

DEPARTAMENTO            object
MUNICIPIO               object
CODIGO DANE              int64
ARMAS MEDIOS            object
FECHA HECHO     datetime64[ns]
GENERO                  object
GRUPO ETARIO            object
CANTIDAD                 int64
dtype: object

### Eliminación de registros duplicados

In [8]:
df_Terr.drop_duplicates(keep=False,inplace=True)

In [9]:
df_Terr.shape

(51850, 8)

### Top departamentos más afectados por el delito

In [10]:
n_by_dep = df_Terr.groupby("DEPARTAMENTO")["CANTIDAD"].count()

In [11]:
# Solución del primer punto, los 3 departamentos más afectados históricamente son Antioquia, Cundinamarca y Valle
n_by_dep.sort_values(ascending = False)

DEPARTAMENTO
ANTIOQUIA             7861
CUNDINAMARCA          6006
VALLE                 5511
META                  3142
CAUCA                 2555
NORTE DE SANTANDER    2123
TOLIMA                2006
NARIÑO                1782
HUILA                 1674
BOLÍVAR               1635
SANTANDER             1616
ATLÁNTICO             1391
MAGDALENA             1341
CÓRDOBA               1340
CASANARE              1330
BOYACÁ                1307
CESAR                 1270
GUAJIRA               1076
RISARALDA              985
CHOCÓ                  947
CAQUETÁ                928
SUCRE                  896
ARAUCA                 881
CALDAS                 726
PUTUMAYO               529
QUINDÍO                488
GUAVIARE               219
SAN ANDRÉS             107
VICHADA                 78
GUAINÍA                 46
AMAZONAS                45
VAUPÉS                   9
Name: CANTIDAD, dtype: int64

In [12]:
# Filtro para encontrar los 3 departamentos más afectados en el último año, los cuales son son Antioquia, Valle y Cunidnamarca
start_date = "2021-1-1"
end_date = "2021-1-31"

after_start_date = df_Terr["FECHA HECHO"] >= start_date
before_end_date = df_Terr["FECHA HECHO"] <= end_date
between_two_dates = after_start_date & before_end_date
filtered_dates = df_Terr.loc[between_two_dates]

n_by_dep_last_year = filtered_dates.groupby("DEPARTAMENTO")["CANTIDAD"].count()
n_by_dep_last_year.sort_values(ascending = False)


DEPARTAMENTO
ANTIOQUIA             100
VALLE                  77
CUNDINAMARCA           71
CAUCA                  30
BOYACÁ                 28
META                   27
HUILA                  23
TOLIMA                 22
MAGDALENA              19
CESAR                  15
NORTE DE SANTANDER     14
SANTANDER              13
NARIÑO                 13
GUAJIRA                13
BOLÍVAR                13
ATLÁNTICO              13
CÓRDOBA                12
CASANARE                8
CALDAS                  7
SAN ANDRÉS              7
SUCRE                   7
CHOCÓ                   6
RISARALDA               6
ARAUCA                  6
QUINDÍO                 5
CAQUETÁ                 4
PUTUMAYO                4
AMAZONAS                1
GUAVIARE                1
VICHADA                 1
Name: CANTIDAD, dtype: int64

### Top armas/medios más utilizados para el delito

In [13]:
n_by_dep = df_Terr.groupby("ARMAS MEDIOS")["CANTIDAD"].count()

In [14]:
# Solución del segundo punto, el medio más utilizado históricamente es la llamada telefónica.
n_by_dep.sort_values(ascending = False)

ARMAS MEDIOS
LLAMADA TELEFONICA     27472
DIRECTA                12268
MIXTA                   3664
REDES SOCIALES          3375
SIN EMPLEO DE ARMAS     2896
CARTA EXTORSIVA         1879
NO REPORTADO             194
-                         99
TERRORISMO                 2
CONTUNDENTES               1
Name: CANTIDAD, dtype: int64

### Tendencia a cometer delito según el mes

In [17]:
# Solución del cuarto punto, se evidencia una tendencia de aumento en el delito para el mes de Enero.
n_by_month = df_Terr.groupby(pd.Grouper(key='FECHA HECHO', axis=0, 
                      freq='M')).sum()

In [16]:
n_by_month

Unnamed: 0_level_0,CODIGO DANE,CANTIDAD
FECHA HECHO,Unnamed: 1_level_1,Unnamed: 2_level_1
2010-01-31,4640223000,132
2010-02-28,5124878000,132
2010-03-31,4304516000,116
2010-04-30,5482003000,140
2010-05-31,3433354000,106
...,...,...
2021-03-31,19048106000,532
2021-04-30,18907541000,501
2021-05-31,20712842000,528
2021-06-30,16146125000,423
