### 1. Aspectos más relevantes encontrados en el dataset de hurto a comercio y viviendas

In [40]:
##Importar las librerías requeridas para el análisis
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

In [41]:
##Definir tamaño máximo de filas a mostrar
pd.set_option('display.max_rows', 100)

In [42]:
##Importar el dataset del CSV
comercio_df = pd.read_csv('../data/hurto_comercio.csv', low_memory = False)

In [43]:
##Validamos la estructura del archivo
comercio_df

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,TIPO DE HURTO,CANTIDAD
0,CAQUETÁ,SAN VICENTE DEL CAGUÁN,18753000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,HURTO RESIDENCIAS,1
1,CAUCA,POPAYÁN (CT),19001000,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,HURTO RESIDENCIAS,2
2,HUILA,PITALITO,41551000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
3,VALLE,JAMUNDÍ,76364000,ARMA DE FUEGO,1/01/2010,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
4,AMAZONAS,LETICIA (CT),91001000,CONTUNDENTES,1/01/2010,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
...,...,...,...,...,...,...,...,...,...
519383,MAGDALENA,SANTA MARTA (CT),47001000,NO REPORTADO,28/02/2022,FEMENINO,ADULTOS,HURTO RESIDENCIAS,1
519384,SANTANDER,BUCARAMANGA (CT),68001000,NO REPORTADO,30/03/2022,FEMENINO,ADULTOS,HURTO RESIDENCIAS,1
519385,SUCRE,MAJAGUAL,70429000,NO REPORTADO,12/01/2022,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
519386,SUCRE,SAN LUIS DE SINCÉ,70742000,NO REPORTADO,21/02/2022,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1


In [44]:
##Mostramos el tipo de dato de cada columna
comercio_df.dtypes

DEPARTAMENTO     object
MUNICIPIO        object
CODIGO DANE      object
ARMAS MEDIOS     object
FECHA HECHO      object
GENERO           object
GRUPO ETARIO     object
TIPO DE HURTO    object
CANTIDAD          int64
dtype: object

In [45]:
##Calcular la cantidad máxima de caracteres por variable
aux = np.vectorize(len)
lista = aux(comercio_df.values.astype(str)).max(axis=0)
lista

array([18, 27, 12, 27, 10, 12, 12, 27,  2])

In [46]:
##Calcular la media del único valor de tipo numérico
comercio_df['CANTIDAD'].mean()

1.4186484862954092

In [47]:
##Validamos el número campos nulos dentro de cada campo
comercio_df.isnull().sum()

DEPARTAMENTO       0
MUNICIPIO          0
CODIGO DANE        0
ARMAS MEDIOS       0
FECHA HECHO        0
GENERO             0
GRUPO ETARIO     123
TIPO DE HURTO      0
CANTIDAD           0
dtype: int64

In [48]:
##Verificar si el dataset cuenta con datos duplicados
comercio_df[comercio_df.duplicated(keep=False)]

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,TIPO DE HURTO,CANTIDAD
59294,NORTE DE SANTANDER,CÚCUTA (CT),54001000,NO REPORTA,29/11/2013,FEMENINO,ADULTOS,HURTO RESIDENCIAS,1
59309,NORTE DE SANTANDER,CÚCUTA (CT),54001000,NO REPORTA,29/11/2013,FEMENINO,ADULTOS,HURTO RESIDENCIAS,1
220223,ANTIOQUIA,MEDELLÍN (CT),05001000,SIN EMPLEO DE ARMAS,1/01/2020,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
220224,ANTIOQUIA,MEDELLÍN (CT),05001000,SIN EMPLEO DE ARMAS,1/01/2020,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
220227,ANTIOQUIA,MEDELLÍN (CT),05001000,SIN EMPLEO DE ARMAS,1/01/2020,MASCULINO,ADULTOS,HURTO RESIDENCIAS,1
...,...,...,...,...,...,...,...,...,...
482540,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,SIN EMPLEO DE ARMAS,30/12/2020,NO APLICA,NO APLICA,HURTO ENTIDADES COMERCIALES,1
482541,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,SIN EMPLEO DE ARMAS,30/12/2020,NO APLICA,NO APLICA,HURTO ENTIDADES COMERCIALES,1
482542,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA DE FUEGO,30/12/2020,NO APLICA,NO APLICA,HURTO ENTIDADES COMERCIALES,1
482551,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000,ARMA DE FUEGO,31/12/2020,NO APLICA,NO APLICA,HURTO ENTIDADES COMERCIALES,1


In [49]:
##Eliminamos los datos duplicados
comercio_df=comercio_df.drop_duplicates()

In [50]:
##Se valida los campos unicos de la columna departamento 
comercio_df['DEPARTAMENTO'].unique()

array(['CAQUETÁ', 'CAUCA', 'HUILA', 'VALLE', 'AMAZONAS', 'BOYACÁ',
       'CASANARE', 'CUNDINAMARCA', 'MAGDALENA', 'META',
       'NORTE DE SANTANDER', 'SANTANDER', 'SUCRE', 'TOLIMA', 'ANTIOQUIA',
       'CHOCÓ', 'SAN ANDRÉS', 'VAUPÉS', 'ARAUCA', 'BOLÍVAR', 'CESAR',
       'CÓRDOBA', 'PUTUMAYO', 'NARIÑO', 'ATLÁNTICO', 'CALDAS',
       'RISARALDA', 'GUAJIRA', 'QUINDÍO', 'VICHADA', 'GUAINÍA',
       'GUAVIARE', 'NO REPORTADO'], dtype=object)

In [51]:
##Se verifica la cantidad de inconsistencias para cada valor de no reportado
comercio_df.apply(lambda x: x['DEPARTAMENTO'] == 'NO REPORTADO', axis=1).sum()

1

In [52]:
##Se elimina el departamento cuyo valor no esta reportado dentro del dataset
comercio_df = comercio_df.drop(comercio_df[comercio_df['DEPARTAMENTO'] == 'NO REPORTADO'].index)

In [53]:
##Se valida los campos unicos de la columna municipio
comercio_df['MUNICIPIO'].unique()

array(['SAN VICENTE DEL CAGUÁN', 'POPAYÁN (CT)', 'PITALITO', ...,
       'ALTO BAUDÓ', 'EL CANTÓN DEL SAN PABLO', 'NO REPORTADO'],
      dtype=object)

In [54]:
##Se elimina caracteres como (CT) para tener una mejor consistencia de los datos
comercio_df['MUNICIPIO'] = comercio_df['MUNICIPIO'].map(lambda x: str(x).lstrip('(CT)').rstrip('(CT)')).astype(object)

In [55]:
##Se verifica la cantidad de inconsistencias para cada valor de no reportado
comercio_df.apply(lambda x: x['MUNICIPIO'] == 'NO REPORTADO', axis=1).sum()

1

In [56]:
##Se elimina el municipio cuyo valor no esta reportado dentro del dataset
comercio_df = comercio_df.drop(comercio_df[comercio_df['MUNICIPIO'] == 'NO REPORTADO'].index)

In [57]:
##Se eliminan los 3 últimos digitos de cada uno de los códigos del DANE
def replace_zeros(codigo):
    codigo=str(codigo)
    codigo=codigo[:-3]
    return codigo

comercio_df['CODIGO DANE'] = comercio_df['CODIGO DANE'].apply(replace_zeros)

In [58]:
##Se valida los campos unicos de la columna armas medios
comercio_df['ARMAS MEDIOS'].unique()

array(['ARMA BLANCA / CORTOPUNZANTE', 'ARMA DE FUEGO', 'CONTUNDENTES',
       'CORTANTES', 'NO REPORTA', 'SIN EMPLEO DE ARMAS', 'ESCOPOLAMINA',
       'PUNZANTES', 'PALANCAS', 'JERINGA', 'LLAVE MAESTRA',
       'LLAMADA TELEFONICA', '-', 'NO REPORTADO'], dtype=object)

In [59]:
##Se remplaza el valor de No Reportado por No Reporta. Unificar valores del dataset
comercio_df['ARMAS MEDIOS'] = comercio_df['ARMAS MEDIOS'].replace({'NO REPORTADO': 'NO REPORTA'})

In [60]:
##Verificamos si existen armas medios con guiones dentro del dataset
comercio_df.apply(lambda x: x['ARMAS MEDIOS'] == '-', axis=1).sum()

2

In [61]:
##Se eliminan los campos cuyo valor son guiones dentro del campo arma medios del dataset
comercio_df = comercio_df.drop(comercio_df[comercio_df['ARMAS MEDIOS'] == '-'].index)

In [62]:
##Se valida el formato de le fecha en el campo fecha_hecho
pd.to_datetime(comercio_df['FECHA HECHO'], format='%d/%m/%Y')

0        2010-01-01
1        2010-01-01
2        2010-01-01
3        2010-01-01
4        2010-01-01
            ...    
519383   2022-02-28
519384   2022-03-30
519385   2022-01-12
519386   2022-02-21
519387   2022-04-30
Name: FECHA HECHO, Length: 492963, dtype: datetime64[ns]

In [63]:
##Se valida los campos unicos de la columna género
comercio_df['GENERO'].unique()

array(['FEMENINO', 'MASCULINO', 'NO REPORTA', 'NO REPORTADO', 'NO APLICA'],
      dtype=object)

In [64]:
##Se remplaza el valor de No Reportado y No Aplica por No Reporta. Unificar valores del dataset
comercio_df['GENERO'] = comercio_df['GENERO'].replace({'NO REPORTADO': 'NO REPORTA'})
comercio_df['GENERO'] = comercio_df['GENERO'].replace({'NO APLICA': 'NO REPORTA'})

In [65]:
##Se valida los campos unicos de la columna grupo etario
comercio_df['GRUPO ETARIO'].unique()

array(['ADULTOS', 'ADOLESCENTES', 'NO REPORTA', 'MENORES', nan,
       'NO REPORTADO', 'NO APLICA'], dtype=object)

In [66]:
#En este caso tenemos 123 vacios, los remplazamos por No Reporta.
comercio_df['GRUPO ETARIO'].fillna("NO REPORTA", inplace = True)

In [67]:
##Se remplaza el valor de No Reportado y No Aplica por No Reporta. Unificar valores del dataset
comercio_df['GRUPO ETARIO'] = comercio_df['GRUPO ETARIO'].replace({'NO REPORTADO': 'NO REPORTA'})
comercio_df['GRUPO ETARIO'] = comercio_df['GRUPO ETARIO'].replace({'NO APLICA': 'NO REPORTA'})

In [68]:
##Se valida los campos unicos de la columna tipo hurto
comercio_df['TIPO DE HURTO'].unique()

array(['HURTO RESIDENCIAS', 'HURTO ENTIDADES COMERCIALES'], dtype=object)

In [69]:
comercio_df.to_csv('../data/hurto_comercioV2.csv')