# EDA-2
## Dataset: Reporte Delito Homicidio y Homicidio accidente de tránsito

In [1]:
# Importando todas las librerías requeridas para el análisis

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

import scipy.stats

In [2]:
# Cargando el archivo commo dataframe
df_Terr = pd.read_csv("./data/Reporte_Homicidios_y_Homicidios_accidente_de_tr_nsito_Polic_a_Nacional.csv")

In [3]:
# Mostrando las dimensiones del dataframe
df_Terr.shape

(213863, 9)

In [4]:
# Verificando los tipos de datos de las columnas
# Debido a la naturaleza de los datos, el punto 5 no aplica.
df_Terr.dtypes

DEPARTAMENTO            object
MUNICIPIO               object
CODIGO DANE              int64
ARMAS MEDIOS            object
FECHA HECHO             object
GENERO                  object
GRUPO ETARÍO            object
DESCRIPCIÓN CONDUCTA    object
CANTIDAD                 int64
dtype: object

In [5]:
# Imprimiendo los primeros 10 registros
df_Terr.head(10)

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARÍO,DESCRIPCIÓN CONDUCTA,CANTIDAD
0,ANTIOQUIA,COPACABANA,5212000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO,1
1,ANTIOQUIA,MEDELLÍN (CT),5001000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO,2
2,ANTIOQUIA,MEDELLÍN (CT),5001000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO,1
3,ANTIOQUIA,MEDELLÍN (CT),5001000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO,1
4,ANTIOQUIA,MEDELLÍN (CT),5001000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO,1
5,ANTIOQUIA,TURBO,5837000,VEHICULO,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO CULPOSO ( EN ACCIDENTE DE TRÁNSITO),1
6,ANTIOQUIA,AMAGÁ,5030000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO,1
7,ANTIOQUIA,MEDELLÍN (CT),5001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO,1
8,ANTIOQUIA,RIONEGRO,5615000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO,1
9,ANTIOQUIA,LA CEJA,5376000,MOTO,1/01/2010,MASCULINO,ADULTOS,HOMICIDIO CULPOSO ( EN ACCIDENTE DE TRÁNSITO),1


### Conversión de Object a datetime sobre la columna *FECHA HECHO*

In [6]:
df_Terr['FECHA HECHO']= pd.to_datetime(df_Terr['FECHA HECHO'], errors='raise', dayfirst=True)

In [7]:
# Verificando los tipos de datos de las columnas para verificar la conversión
df_Terr.dtypes

DEPARTAMENTO                    object
MUNICIPIO                       object
CODIGO DANE                      int64
ARMAS MEDIOS                    object
FECHA HECHO             datetime64[ns]
GENERO                          object
GRUPO ETARÍO                    object
DESCRIPCIÓN CONDUCTA            object
CANTIDAD                         int64
dtype: object

### Eliminación de registros duplicados

In [8]:
df_Terr.drop_duplicates(keep=False,inplace=True)

In [9]:
df_Terr.shape

(161404, 9)

### Top departamentos más afectados por el delito

In [10]:
n_by_dep = df_Terr.groupby("DEPARTAMENTO")["CANTIDAD"].count()

In [11]:
# Solución del primer punto, los 3 departamentos más afectados históricamente son Antioquia, Valle y Cundinamaraca
n_by_dep.sort_values(ascending = False)

DEPARTAMENTO
ANTIOQUIA             25768
VALLE                 23836
CUNDINAMARCA          16666
CAUCA                  7750
NARIÑO                 6539
ATLÁNTICO              6190
NORTE DE SANTANDER     5912
SANTANDER              5794
CÓRDOBA                5564
TOLIMA                 5278
BOLÍVAR                5171
META                   4472
HUILA                  4433
CESAR                  4369
RISARALDA              4301
MAGDALENA              3962
CALDAS                 3609
QUINDÍO                3163
GUAJIRA                2932
BOYACÁ                 2703
CAQUETÁ                2316
SUCRE                  2276
CHOCÓ                  2108
PUTUMAYO               1890
CASANARE               1681
ARAUCA                 1557
GUAVIARE                407
SAN ANDRÉS              347
VICHADA                 225
AMAZONAS                123
GUAINÍA                  33
VAUPÉS                   29
Name: CANTIDAD, dtype: int64

In [12]:
# Filtro para encontrar los 3 departamentos más afectados en el último año, los cuales son son Antioquia, Valle y Cunidnamarca
start_date = "2021-1-1"
end_date = "2021-1-31"

after_start_date = df_Terr["FECHA HECHO"] >= start_date
before_end_date = df_Terr["FECHA HECHO"] <= end_date
between_two_dates = after_start_date & before_end_date
filtered_dates = df_Terr.loc[between_two_dates]

n_by_dep_last_year = filtered_dates.groupby("DEPARTAMENTO")["CANTIDAD"].count()
n_by_dep_last_year.sort_values(ascending = False)


DEPARTAMENTO
ANTIOQUIA             221
VALLE                 161
CUNDINAMARCA          123
CAUCA                  73
BOLÍVAR                69
CÓRDOBA                57
NARIÑO                 52
ATLÁNTICO              48
NORTE DE SANTANDER     44
TOLIMA                 42
SANTANDER              37
CESAR                  37
META                   36
MAGDALENA              35
SUCRE                  29
GUAJIRA                29
HUILA                  28
RISARALDA              27
CASANARE               23
CALDAS                 23
PUTUMAYO               22
BOYACÁ                 21
CHOCÓ                  20
QUINDÍO                18
CAQUETÁ                17
ARAUCA                 14
SAN ANDRÉS              4
GUAVIARE                3
AMAZONAS                2
VICHADA                 1
Name: CANTIDAD, dtype: int64

### Top armas/medios más utilizados para el delito

In [13]:
n_by_dep = df_Terr.groupby("ARMAS MEDIOS")["CANTIDAD"].count()

In [15]:
# Solución del segundo punto, el arma más utilizada históricamente es el arma de fuego.
n_by_dep.sort_values(ascending = False)

ARMAS MEDIOS
ARMA DE FUEGO                         78634
VEHICULO                              29787
ARMA BLANCA / CORTOPUNZANTE           25045
MOTO                                  16066
CONTUNDENTES                           4996
-                                      2200
SIN EMPLEO DE ARMAS                    1378
NO REPORTADO                            960
BICICLETA                               511
CUERDA/SOGA/CADENA                      401
ARTEFACTO EXPLOSIVO/CARGA DINAMITA      290
MINA ANTIPERSONA                        250
BOLSA PLASTICA                          151
PUNZANTES                               151
CORTANTES                               108
GRANADA DE MANO                         105
COMBUSTIBLE                              70
TREN                                     65
CINTAS/CINTURON                          54
ALMOHADA                                 42
VENENO                                   20
SUSTANCIAS TOXICAS                       19
CILINDRO BOMBA     

### Tendencia a cometer delito según el mes

In [16]:
# Solución del cuarto punto, no se evidencia una tendencia específica.
n_by_month = df_Terr.groupby(pd.Grouper(key='FECHA HECHO', axis=0, 
                      freq='M')).sum()

In [17]:
n_by_month

Unnamed: 0_level_0,CODIGO DANE,CANTIDAD
FECHA HECHO,Unnamed: 1_level_1,Unnamed: 2_level_1
2010-01-31,47960697000,1191
2010-02-28,43516867000,1036
2010-03-31,43644810000,1109
2010-04-30,40843087000,1046
2010-05-31,47311283000,1196
...,...,...
2021-03-31,46805080000,1236
2021-04-30,45407360000,1259
2021-05-31,49727688000,1369
2021-06-30,48888411000,1326
