# Configuración y análisis inicial

In [83]:
##Importar las librerías requeridas para el análisis
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

In [84]:
##Definir tamaño máximo de filas a mostrar
pd.set_option('display.max_rows', 100)

In [85]:
##Importar el dataset del CSV
df = pd.read_csv('../data/delitos.csv')

In [86]:
##Visualizar los primeros datos
df.head()

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD,delito
0,CAQUETÁ,SOLANO,18756000.0,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,MENORES,1,ARTÍCULO 209. ACTOS SEXUALES CON MENOR DE 14 AÑOS
1,BOLÍVAR,CARTAGENA (CT),13001000.0,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADOLECENTES,1,ARTÍCULO 205. ACCESO CARNAL VIOLENTO
2,HUILA,LA PLATA,41396000.0,ARMA BLANCA / CORTOPUNZANTE,1/01/2010,FEMENINO,ADULTOS,1,ARTÍCULO 205. ACCESO CARNAL VIOLENTO
3,SANTANDER,PIEDECUESTA,68547000.0,CONTUNDENTES,1/01/2010,FEMENINO,ADULTOS,1,ARTÍCULO 205. ACCESO CARNAL VIOLENTO
4,META,VILLAVICENCIO (CT),50001000.0,CONTUNDENTES,1/01/2010,FEMENINO,ADULTOS,1,ARTÍCULO 205. ACCESO CARNAL VIOLENTO


In [87]:
## Ver el tamaño del dataset
df.shape

(260323, 9)

In [88]:
## Ver los tipos de datos de las columnas
df.dtypes

DEPARTAMENTO     object
MUNICIPIO        object
CODIGO DANE     float64
ARMAS MEDIOS     object
FECHA HECHO      object
GENERO           object
GRUPO ETARIO     object
CANTIDAD          int64
delito           object
dtype: object

In [89]:
## Calcular la longitud máxima de cada campo
measurer = np.vectorize(len)
res1 = measurer(df.values.astype(str)).max(axis=0)
res1

array([ 18,  27,  10,  27,  10,  12,  12,   2, 111])

In [90]:
df.describe()

Unnamed: 0,CODIGO DANE,CANTIDAD
count,260322.0,260323.0
mean,37402050.0,1.034035
std,27830490.0,0.326438
min,5001000.0,1.0
25%,11001000.0,1.0
50%,25473000.0,1.0
75%,68001000.0,1.0
max,99773000.0,86.0


In [91]:
# Buscar valores nulos por cada campo
df.isnull().sum()

DEPARTAMENTO      0
MUNICIPIO         1
CODIGO DANE       1
ARMAS MEDIOS      0
FECHA HECHO       0
GENERO          304
GRUPO ETARIO    537
CANTIDAD          0
delito            0
dtype: int64

In [92]:
## Encontrar valores duplicados
df[df.duplicated(keep=False)]

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD,delito
29,SANTANDER,LANDÁZURI,68385000.0,NO REPORTADO,1/01/2010,MASCULINO,MENORES,1,ARTÍCULO 209. ACTOS SEXUALES CON MENOR DE 14 AÑOS
30,SANTANDER,LANDÁZURI,68385000.0,NO REPORTADO,1/01/2010,MASCULINO,MENORES,1,ARTÍCULO 209. ACTOS SEXUALES CON MENOR DE 14 AÑOS
57,HUILA,LA PLATA,41396000.0,NO REPORTADO,1/01/2010,FEMENINO,MENORES,1,ARTÍCULO 208. ACCESO CARNAL ABUSIVO CON MENOR ...
58,HUILA,LA PLATA,41396000.0,NO REPORTADO,1/01/2010,FEMENINO,MENORES,1,ARTÍCULO 208. ACCESO CARNAL ABUSIVO CON MENOR ...
74,VALLE,CALI (CT),76001000.0,SIN EMPLEO DE ARMAS,1/01/2010,FEMENINO,MENORES,1,ARTÍCULO 209. ACTOS SEXUALES CON MENOR DE 14 AÑOS
...,...,...,...,...,...,...,...,...,...
226199,ATLÁNTICO,BARRANQUILLA (CT),8001000.0,SIN EMPLEO DE ARMAS,31/12/2020,FEMENINO,MENORES,1,ARTÍCULO 209. ACTOS SEXUALES CON MENOR DE 14 AÑOS
226211,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000.0,SIN EMPLEO DE ARMAS,31/12/2020,FEMENINO,ADULTOS,1,ARTÍCULO 205. ACCESO CARNAL VIOLENTO
226212,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000.0,SIN EMPLEO DE ARMAS,31/12/2020,FEMENINO,ADULTOS,1,ARTÍCULO 205. ACCESO CARNAL VIOLENTO
226216,CUNDINAMARCA,BOGOTÁ D.C. (CT),11001000.0,SIN EMPLEO DE ARMAS,31/12/2020,FEMENINO,MENORES,1,ARTÍCULO 209. ACTOS SEXUALES CON MENOR DE 14 AÑOS


In [93]:
## Eliminar filas duplicadas
df=df.drop_duplicates()

In [94]:
## Ver el tamaño del dataset
df.shape

(241740, 9)

# Análisis por campos

## Departamento

In [95]:
#Guardar los departamentos sin repeticiones y visualizar para validar errores de escritura
departamentos=df['DEPARTAMENTO'].unique()
departamentos

array(['CAQUETÁ', 'BOLÍVAR', 'HUILA', 'SANTANDER', 'META', 'CUNDINAMARCA',
       'BOYACÁ', 'VALLE', 'GUAJIRA', 'SUCRE', 'CASANARE', 'RISARALDA',
       'ARAUCA', 'CÓRDOBA', 'CHOCÓ', 'VICHADA', 'TOLIMA', 'CALDAS',
       'PUTUMAYO', 'ATLÁNTICO', 'ANTIOQUIA', 'CAUCA', 'QUINDÍO',
       'NORTE DE SANTANDER', 'AMAZONAS', 'MAGDALENA', 'CESAR', 'NARIÑO',
       'GUAVIARE', 'SAN ANDRÉS', 'VAUPÉS', 'GUAINÍA'], dtype=object)

In [96]:
#Validar que la cantidad de departamentos sea correcta con la realidad - OK
len(departamentos)

32

## Municipio

In [97]:
#Guardar los municipios sin repeticiones y visualizar para validar errores de escritura
municipios=df['MUNICIPIO'].unique()
#municipios.sort() - Genera error
municipios

array(['SOLANO', 'CARTAGENA (CT)', 'LA PLATA', ..., nan, 'GONZÁLEZ',
       'JORDÁN'], dtype=object)

In [98]:
#Se buscan los valores nulos y se encuentra una fila
bool_series=pd.isnull(df['MUNICIPIO'])
df[bool_series]

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD,delito
117312,GUAINÍA,,,SIN EMPLEO DE ARMAS,1/10/2017,FEMENINO,MENORES,1,ARTÍCULO 218. PORNOGRAFÍA CON MENORES


In [99]:
# Se elimina la fila con el valor nulo
df.drop(117312, inplace = True)

In [100]:
municipios=df['MUNICIPIO'].unique()
municipios.sort() 
municipios

array(['ABEJORRAL', 'ABREGO', 'ABRIAQUÍ', ..., 'ZIPAQUIRÁ',
       'ZONA BANANERA', 'ÚTICA'], dtype=object)

In [102]:
## Ver el tamaño del dataset
df.shape

(241739, 9)

## Código DANE

In [103]:
#Guardar los municipios sin repeticiones y visualizar para validar consistencia de datos
codigo_dane=df['CODIGO DANE'].unique()
codigo_dane

array([18756000., 13001000., 41396000., ..., 27372000., 20310000.,
       68370000.])

In [104]:
## Crear función para reemplazar los ceros al final
def replace_zeros(codigo):
    codigo=str(codigo)
    codigo=codigo[:-5]
    return codigo
## Aplicar la función para eliminar los ceros y reemplzar el valor en el campo    
df['CODIGO DANE']=df['CODIGO DANE'].apply(replace_zeros)

codigo_dane=df['CODIGO DANE'].unique()
codigo_dane

array(['18756', '13001', '41396', ..., '27372', '20310', '68370'],
      dtype=object)

In [105]:
df['CODIGO DANE'].unique()

array(['18756', '13001', '41396', ..., '27372', '20310', '68370'],
      dtype=object)

## Armas / Medios

In [106]:
#Guardar los grupos etaríos sin repeticiones y visualizar para validar consistencia de datos
armas_medios=df['ARMAS MEDIOS'].unique()
armas_medios

array(['ARMA BLANCA / CORTOPUNZANTE', 'CONTUNDENTES', 'NO REPORTADO',
       'SIN EMPLEO DE ARMAS', 'ARMA DE FUEGO', 'CORTOPUNZANTES',
       'ESCOPOLAMINA', 'LICOR ADULTERADO', 'CINTAS/CINTURON', 'CORTANTES',
       'ESPOSAS', 'ARMAS BLANCAS', '-'], dtype=object)

In [107]:
## Reemplazar valores escritos de diferentes maneras para unificar
df['ARMAS MEDIOS']=df['ARMAS MEDIOS'].replace({'CORTOPUNZANTES': 'ARMA BLANCA / CORTOPUNZANTE','ARMAS BLANCAS': 'ARMA BLANCA / CORTOPUNZANTE'})
armas_medios=df['ARMAS MEDIOS'].unique()
armas_medios

array(['ARMA BLANCA / CORTOPUNZANTE', 'CONTUNDENTES', 'NO REPORTADO',
       'SIN EMPLEO DE ARMAS', 'ARMA DE FUEGO', 'ESCOPOLAMINA',
       'LICOR ADULTERADO', 'CINTAS/CINTURON', 'CORTANTES', 'ESPOSAS', '-'],
      dtype=object)

In [108]:
#Se buscan los valores que contienen un guión
df.loc[df['ARMAS MEDIOS'] == '-']

Unnamed: 0,DEPARTAMENTO,MUNICIPIO,CODIGO DANE,ARMAS MEDIOS,FECHA HECHO,GENERO,GRUPO ETARIO,CANTIDAD,delito
209651,TOLIMA,IBAGUÉ (CT),73001,-,5/06/2020,FEMENINO,ADULTOS,1,ARTÍCULO 206. ACTO SEXUAL VIOLENTO
217887,VALLE,PALMIRA,76520,-,18/09/2020,FEMENINO,MENORES,1,ARTÍCULO 209. ACTOS SEXUALES CON MENOR DE 14 AÑOS


In [109]:
## Reemplazar valores escritos de diferentes maneras para unificar
df['ARMAS MEDIOS']=df['ARMAS MEDIOS'].replace({'-':'NO REPORTADO'})
armas_medios=df['ARMAS MEDIOS'].unique()
armas_medios

array(['ARMA BLANCA / CORTOPUNZANTE', 'CONTUNDENTES', 'NO REPORTADO',
       'SIN EMPLEO DE ARMAS', 'ARMA DE FUEGO', 'ESCOPOLAMINA',
       'LICOR ADULTERADO', 'CINTAS/CINTURON', 'CORTANTES', 'ESPOSAS'],
      dtype=object)

## Fecha hecho

In [111]:
## Obtener las fechas y tratar de convertir para detectar errores de fecha
fecha=df['FECHA HECHO']
pd.to_datetime(fecha,format='%d/%m/%Y')

0        2010-01-01
1        2010-01-01
2        2010-01-01
3        2010-01-01
4        2010-01-01
            ...    
260318   2022-02-15
260319   2022-03-07
260320   2022-03-17
260321   2022-02-22
260322   2022-04-04
Name: FECHA HECHO, Length: 241739, dtype: datetime64[ns]

## Género

In [112]:
#Guardar los generos sin repeticiones y visualizar para validar consistencia de datos
genero=df['GENERO'].unique()
genero

array(['FEMENINO', 'MASCULINO', 'NO REPORTA', nan, '-', 'NO REPORTADO'],
      dtype=object)

In [115]:
## Reemplazar el valor escrito de diferente manera para unificar
df['GENERO']=df['GENERO'].replace({'NO REPORTADO': 'NO REPORTA','-':'NO REPORTA'})
df['GENERO']=df['GENERO'].fillna('NO REPORTA')
genero=df['GENERO'].unique()
genero

array(['FEMENINO', 'MASCULINO', 'NO REPORTA'], dtype=object)

## Grupo etario

In [117]:
#Guardar los grupos etaríos sin repeticiones y visualizar para validar consistencia de datos
grupo_etario=df['GRUPO ETARIO'].unique()
grupo_etario

array(['MENORES', 'ADOLECENTES', 'ADULTOS', nan, 'ADOLESCENTES',
       'NO REPORTA', 'NO REPORTADO'], dtype=object)

In [118]:
## Reemplazar valores escritos de diferente manera para unificar
df['GRUPO ETARIO']=df['GRUPO ETARIO'].replace({'NO REPORTADO': 'NO REPORTA','ADOLECENTES':'ADOLESCENTES'})
df['GRUPO ETARIO']=df['GRUPO ETARIO'].fillna('NO REPORTA')
grupo_etario=df['GRUPO ETARIO'].unique()
grupo_etario

array(['MENORES', 'ADOLESCENTES', 'ADULTOS', 'NO REPORTA'], dtype=object)

## Delito

In [121]:
delito=df['delito'].unique()
delito

array(['ARTÍCULO 209. ACTOS SEXUALES CON MENOR DE 14 AÑOS',
       'ARTÍCULO 205. ACCESO CARNAL VIOLENTO',
       'ARTÍCULO 206. ACTO SEXUAL VIOLENTO',
       'ARTÍCULO 208. ACCESO CARNAL ABUSIVO CON MENOR DE 14 AÑOS',
       'ARTÍCULO 210 A. ACOSO SEXUAL',
       'ARTÍCULO 210. ACCESO CARNAL O ACTO SEXUAL ABUSIVO CON INCAPAZ DE RESISTIR',
       'ARTÍCULO 211. ACCESO CARNAL O ACTO SEXUAL ABUSIVO CON INCAPAZ DE RESISTIR (CIRCUNSTANCIAS AGRAVACIÓN',
       'ARTÍCULO 211. ACCESO CARNAL ABUSIVO CON MENOR DE 14 AÑOS (CIRCUNSTANCIAS AGRAVACIÓN)',
       'ARTÍCULO 211. ACTOS SEXUALES CON MENOR DE 14 AÑOS (CIRCUNSTANCIAS DE AGRAVACIÓN)',
       'ARTÍCULO 207. ACCESO CARNAL O ACTO SEXUAL EN PERSONA PUESTA EN INCAPACIDAD DE RESISTIR',
       'ARTÍCULO 211. ACCESO CARNAL VIOLENTO (CIRCUNSTANCIAS AGRAVACIÓN)',
       'ARTÍCULO 218. PORNOGRAFÍA CON MENORES',
       'ARTÍCULO 213. INDUCCIÓN A LA PROSTITUCIÓN',
       'ARTÍCULO 211. ACCESO CARNAL O ACTO SEXUAL EN PERSONA PUESTA EN INCAPACIDAD DE RES