### 1. Aspectos más relevantes encontrados en el dataset de hurto motocicletas y automores

In [101]:
##Importar las librerías requeridas para el análisis
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

In [102]:
##Definir tamaño máximo de filas a mostrar
pd.set_option('display.max_rows', 100)

In [103]:
##Importar el dataset del CSV
automores_df = pd.read_csv('../data/hurto_motocicletas.csv', low_memory = False)

In [79]:
##Validamos la estructura del archivo
automores_df

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,TIPO DE HURTO,CANTIDAD
0,ANTIOQUIA,MEDELLÍN (CT),5001000,ARMA DE FUEGO,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
1,ANTIOQUIA,COPACABANA,5212000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
2,ANTIOQUIA,MEDELLÍN (CT),5001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
3,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
4,VALLE,CALI (CT),76001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
...,...,...,...,...,...,...,...,...,...
298395,NARIÑO,IPIALES,52356000,NO REPORTADO,08/04/2022,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
298396,TOLIMA,ESPINAL,73268000,NO REPORTADO,02/04/2022,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
298397,VALLE,GUADALAJARA DE BUGA,76111000,NO REPORTADO,11/02/2022,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
298398,VALLE,SEVILLA,76736000,NO REPORTADO,06/01/2022,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1


In [104]:
##Mostramos el tipo de dato de cada columna
automores_df.dtypes

DEPARTAMENTO     object
MUNICIPIO        object
CODIGO DANE       int64
ARMAS MEDIOS     object
FECHA HECHO      object
GENERO           object
GRUPO ETARIO     object
TIPO DE HURTO    object
CANTIDAD          int64
dtype: object

In [105]:
##Calcular la cantidad máxima de caracteres por variable
aux = np.vectorize(len)
lista = aux(automores_df.values.astype(str)).max(axis=0)
lista

array([18, 27,  8, 27, 10,  9,  9, 18,  2])

In [106]:
##Calcular la media del campo cantidad
automores_df['CANTIDAD'].mean()

1.4854825737265416

In [107]:
##Validamos el número campos nulos dentro de cada campo
automores_df.isnull().sum()

DEPARTAMENTO     0
MUNICIPIO        0
CODIGO DANE      0
ARMAS MEDIOS     0
FECHA HECHO      0
GENERO           0
GRUPO ETARIO     0
TIPO DE HURTO    0
CANTIDAD         0
dtype: int64

In [108]:
##Verificar si el dataset cuenta con datos duplicados
automores_df[automores_df.duplicated(keep=False)]

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,TIPO DE HURTO,CANTIDAD
21,VALLE,CALI (CT),76001000,LLAVE MAESTRA,3/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,2
22,VALLE,CALI (CT),76001000,LLAVE MAESTRA,3/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,2
45,ANTIOQUIA,MEDELLÍN (CT),5001000,NO REPORTA,5/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
46,ANTIOQUIA,MEDELLÍN (CT),5001000,NO REPORTA,5/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
57,VALLE,CALI (CT),76001000,ARMA DE FUEGO,6/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
...,...,...,...,...,...,...,...,...,...
265202,NORTE DE SANTANDER,CÚCUTA (CT),54001000,ARMA DE FUEGO,30/12/2020,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
265203,SANTANDER,BUCARAMANGA (CT),68001000,SIN EMPLEO DE ARMAS,30/12/2020,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
265204,SANTANDER,BUCARAMANGA (CT),68001000,SIN EMPLEO DE ARMAS,30/12/2020,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
265209,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,SIN EMPLEO DE ARMAS,31/12/2020,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1


In [109]:
##Eliminamos los datos duplicados
automores_df=automores_df.drop_duplicates()

In [110]:
##Se valida los campos unicos de la columna departamento 
automores_df['DEPARTAMENTO'].unique()

array(['ANTIOQUIA', 'CUNDINAMARCA', 'VALLE', 'CALDAS', 'CESAR',
       'NORTE DE SANTANDER', 'BOYACÁ', 'CAUCA', 'ATLÁNTICO', 'SANTANDER',
       'CAQUETÁ', 'QUINDÍO', 'MAGDALENA', 'META', 'SUCRE', 'GUAJIRA',
       'TOLIMA', 'NARIÑO', 'RISARALDA', 'BOLÍVAR', 'HUILA', 'CASANARE',
       'ARAUCA', 'PUTUMAYO', 'CÓRDOBA', 'GUAVIARE', 'VICHADA', 'CHOCÓ',
       'SAN ANDRÉS', 'AMAZONAS', 'VAUPÉS', 'GUAINÍA'], dtype=object)

In [111]:
##Se valida los campos unicos de la columna municipio
automores_df['MUNICIPIO'].unique()

array(['MEDELLÍN (CT)', 'COPACABANA', 'BOGOTÁ D.C. (CT)', 'CALI (CT)',
       'BELLO', 'MANIZALES (CT)', 'AGUACHICA', 'ITAGUI', 'MADRID',
       'CÚCUTA (CT)', 'SAN PEDRO', 'CHITARAQUE', 'POPAYÁN (CT)',
       'BARRANQUILLA (CT)', 'ENVIGADO', 'GIRÓN', 'CALDAS', 'SOLEDAD',
       'SAN VICENTE DEL CAGUÁN', 'INZÁ', 'FUNZA', 'CIRCASIA',
       'SANTA MARTA (CT)', 'ARMENIA (CT)', 'PUERTO LÓPEZ', 'CAIMITO',
       'PUERTO TEJADA', 'RIOHACHA (CT)', 'CAJAMARCA', 'PASTO (CT)',
       'IPIALES', 'ALVARADO', 'COYAIMA', 'SALDAÑA', 'OBANDO',
       'PEREIRA (CT)', 'GIRARDOTA', 'PIENDAMÓ', 'FACATATIVÁ', 'SOACHA',
       'CANDELARIA', 'TIMBÍO', 'CONTADERO', 'GACHETÁ', 'RESTREPO', 'CHÍA',
       'BARRANCAS', 'PAMPLONITA', 'PALMITO', 'CARTAGENA (CT)', 'GUASCA',
       'SAN JUAN DEL CESAR', 'SAN AGUSTÍN', 'LA VIRGINIA', 'GINEBRA',
       'FUSAGASUGÁ', 'LOS PATIOS', 'SILOS', 'PALMIRA', 'TAURAMENA',
       'RIONEGRO', 'PUERTO COLOMBIA', 'TIMANÁ', 'FLORIDABLANCA',
       'ANDALUCÍA', 'TULUÁ', 'ZIPAQUIRÁ', 

In [112]:
##Se elimina caracteres como (CT) para tener una mejor consistencia de los datos
automores_df['MUNICIPIO'] = automores_df['MUNICIPIO'].map(lambda x: str(x).lstrip('(CT)').rstrip('(CT)')).astype(object)

In [113]:
##Se eliminan los 3 últimos digitos de cada uno de los códigos del DANE
def replace_zeros(codigo):
    codigo=str(codigo)
    codigo=codigo[:-3]
    return codigo

automores_df['CODIGO DANE'] = automores_df['CODIGO DANE'].apply(replace_zeros)

In [114]:
##Se valida los campos unicos de la columna armas medios
automores_df['ARMAS MEDIOS'].unique()

array(['ARMA DE FUEGO', 'LLAVE MAESTRA', 'CORTOPUNZANTES', 'ESCOPOLAMINA',
       'ARMA BLANCA / CORTOPUNZANTE', 'NO REPORTA', 'CONTUNDENTES',
       'CORTANTES', 'SIN EMPLEO DE ARMAS', 'PUNZANTES', 'JERINGA',
       'NO REPORTADO', '-'], dtype=object)

In [115]:
##Se remplaza el valor de No Reportado por No Reporta. Unificar valores del dataset
automores_df['ARMAS MEDIOS'] = automores_df['ARMAS MEDIOS'].replace({'NO REPORTADO': 'NO REPORTA'})

In [116]:
##Se valida el formato de le fecha en el campo fecha_hecho
pd.to_datetime(automores_df['FECHA HECHO'], format='%d/%m/%Y')

0        2010-01-01
1        2010-01-01
2        2010-01-01
3        2010-01-01
4        2010-01-01
            ...    
298395   2022-04-08
298396   2022-04-02
298397   2022-02-11
298398   2022-01-06
298399   2022-03-11
Name: FECHA HECHO, Length: 276804, dtype: datetime64[ns]

In [117]:
##Se valida los campos unicos de la columna género
automores_df['GENERO'].unique()

array(['NO APLICA'], dtype=object)

In [94]:
##Se valida los campos unicos de la columna grupo etario
automores_df['GRUPO ETARIO'].unique()

array(['NO APLICA'], dtype=object)

In [95]:
##Se valida los campos unicos de la columna tipo hurto
automores_df['TIPO DE HURTO'].unique()

array(['HURTO AUTOMOTORES', 'HURTO MOTOCICLETAS'], dtype=object)

In [118]:
automores_df.to_csv('../data/hurto_motocicletasV2.csv', index=False)