### 1. Aspectos más relevantes encontrados en el dataset de hurto motocicletas y automores

In [2]:
##Importar las librerías requeridas para el análisis
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

In [3]:
##Definir tamaño máximo de filas a mostrar
pd.set_option('display.max_rows', 100)

In [3]:
##Importar el dataset del CSV
automores_df = pd.read_csv('../data/hurto_motocicletas.csv', low_memory = False)

In [4]:
##Validamos la estructura del archivo
automores_df

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,TIPO DE HURTO,CANTIDAD
0,ANTIOQUIA,MEDELLÍN (CT),5001000,ARMA DE FUEGO,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
1,ANTIOQUIA,COPACABANA,5212000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
2,ANTIOQUIA,MEDELLÍN (CT),5001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
3,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
4,VALLE,CALI (CT),76001000,LLAVE MAESTRA,1/01/2010,NO APLICA,NO APLICA,HURTO AUTOMOTORES,1
...,...,...,...,...,...,...,...,...,...
298395,NARIÑO,IPIALES,52356000,NO REPORTADO,08/04/2022,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
298396,TOLIMA,ESPINAL,73268000,NO REPORTADO,02/04/2022,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
298397,VALLE,GUADALAJARA DE BUGA,76111000,NO REPORTADO,11/02/2022,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1
298398,VALLE,SEVILLA,76736000,NO REPORTADO,06/01/2022,NO APLICA,NO APLICA,HURTO MOTOCICLETAS,1


In [5]:
##Mostramos el tipo de dato de cada columna
automores_df.dtypes

DEPARTAMENTO     object
MUNICIPIO        object
CODIGO DANE       int64
ARMAS MEDIOS     object
FECHA HECHO      object
GENERO           object
GRUPO ETARIO     object
TIPO DE HURTO    object
CANTIDAD          int64
dtype: object

In [6]:
##Calcular la cantidad máxima de caracteres por variable
aux = np.vectorize(len)
lista = aux(automores_df.values.astype(str)).max(axis=0)
lista

array([18, 27,  8, 27, 10,  9,  9, 18,  2])

In [7]:
##Calcular la media del campo cantidad
automores_df['CANTIDAD'].mean()

1.4854825737265416

In [9]:
##Validamos el número campos nulos dentro de cada campo
automores_df.isnull().sum()

DEPARTAMENTO     0
MUNICIPIO        0
CODIGO DANE      0
ARMAS MEDIOS     0
FECHA HECHO      0
GENERO           0
GRUPO ETARIO     0
TIPO DE HURTO    0
CANTIDAD         0
dtype: int64

In [12]:
##Verificar si el dataset cuenta con datos duplicados
automores_df[automores_df.duplicated(keep=False)]

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,TIPO DE HURTO,CANTIDAD


In [11]:
##Eliminamos los datos duplicados
automores_df=automores_df.drop_duplicates()

In [1]:
##Se valida los campos unicos de la columna departamento 
automores_df['DEPARTAMENTO'].unique()


NameError: name 'automores_df' is not defined

In [None]:
##Se verifica la cantidad de inconsistencias para cada valor de no reportado
comercio_df.apply(lambda x: x['DEPARTAMENTO'] == 'NO REPORTADO', axis=1).sum()

In [33]:
##Se valida los campos unicos de la columna municipio
comercio_df['MUNICIPIO'].unique()

array(['SAN VICENTE DEL CAGUÁN', 'POPAYÁN (CT)', 'PITALITO', ...,
       'ALTO BAUDÓ', 'NO REPORTADO', 'EL CANTÓN DEL SAN PABLO'],
      dtype=object)

In [34]:
##Se verifica la cantidad de inconsistencias para cada valor de no reportado
comercio_df.apply(lambda x: x['MUNICIPIO'] == 'NO REPORTADO', axis=1).sum()

2

In [39]:
##Se valida los campos unicos de la columna armas medios
comercio_df['ARMAS MEDIOS'].unique()

0        2010-01-01
1        2010-01-01
2        2010-01-01
3        2010-01-01
4        2010-01-01
            ...    
519383   2022-02-28
519384   2022-03-30
519385   2022-01-12
519386   2022-02-21
519387   2022-04-30
Name: FECHA HECHO, Length: 492967, dtype: datetime64[ns]

In [41]:
##Se valida el formato de le fecha en el campo fecha_hecho
pd.to_datetime(comercio_df['FECHA HECHO'], format='%d/%m/%Y')

0        2010-01-01
1        2010-01-01
2        2010-01-01
3        2010-01-01
4        2010-01-01
            ...    
519383   2022-02-28
519384   2022-03-30
519385   2022-01-12
519386   2022-02-21
519387   2022-04-30
Name: FECHA HECHO, Length: 492967, dtype: datetime64[ns]

In [48]:
##Se valida los campos unicos de la columna género
comercio_df['GENERO'].unique()

array(['FEMENINO', 'MASCULINO', 'NO REPORTA', 'NO REPORTADO', 'NO APLICA'],
      dtype=object)

In [49]:
##Se valida los campos unicos de la columna grupo etario
comercio_df['GRUPO ETARIO'].unique()

array(['ADULTOS', 'ADOLESCENTES', 'NO REPORTA', 'MENORES', nan,
       'NO REPORTADO', 'NO APLICA'], dtype=object)

In [51]:
##Se valida los campos unicos de la columna tipo hurto
comercio_df['TIPO DE HURTO'].unique()

array(['HURTO RESIDENCIAS', 'HURTO ENTIDADES COMERCIALES'], dtype=object)