# Split del dataset de víctimas del conflicto armado en Colombia
Este notebook contiene el split del dataset de víctimas del conflicto armado en Colombia para facilitar la poblacion de la base de datos.

## Importación de Librerías

Importamos las librerías necesarias para el análisis de datos.

In [1]:
import pandas as pd
import csv
import os

## Carga del Dataset

Cargamos el dataset de víctimas del conflicto armado desde el archivo CSV.

In [2]:
# Define the relative path to the data file
data_path = '../data/processed/victimas_por_hechos_departamental_20250416.csv'

# Load the dataset
try:
    # Attempt to read with UTF-8 encoding first
    df = pd.read_csv(data_path, encoding='utf-8') 
except UnicodeDecodeError:
    try:
        # Fallback to Latin-1 encoding if UTF-8 fails
        df = pd.read_csv(data_path, encoding='latin1') 
    except Exception as e:
        print(f"Error loading CSV file: {e}")
        df = None # Indicate failure by setting df to None

# Verificar si el dataset se cargó correctamente
if df is not None:
    print(f"Dataset cargado exitosamente. Dimensiones: {df.shape}")
else:
    print("Error al cargar el dataset. Por favor, verifica la ruta y la codificación del archivo.")

Dataset cargado exitosamente. Dimensiones: (79576, 14)


# Visualización del dataset procesado

In [3]:
df.head()

Unnamed: 0,COD_RPT,COD_ESTADO_DEPTO,ESTADO_DEPTO,PARAM_HECHO,HECHO,SEXO,ETNIA,DISCAPACIDAD,CICLO_VITAL,PER_OCU,PER_DECLA,PER_UBIC,PER_SA,EVENTOS
0,1,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 18 y 28,0,22,0,0,0
1,2,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 29 y 59,0,0,7,7,0
2,3,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 29 y 60,0,0,8,8,0
3,4,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano(a) ROM,Fisica,entre 29 y 59,0,7,14,14,0
4,5,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano(a) ROM,Fisica,entre 29 y 60,0,34,11,11,0


# Split de la tabla HechoVictimizante

In [4]:
df_hechos = df[['PARAM_HECHO','HECHO']].drop_duplicates()

df_hechos

Unnamed: 0,PARAM_HECHO,HECHO
0,1,Acto terrorista / Atentados / Combates / Enfre...
367,2,Amenaza
901,3,Delitos contra la libertad y la integridad sex...
1156,4,Desaparición forzada
1441,5,Desplazamiento forzado
2082,6,Homicidio
2491,7,"Minas Antipersonal, Munición sin Explotar y Ar..."
2690,8,Secuestro
2897,9,Tortura
3067,10,Vinculación de Niños Niñas y Adolescentes a Ac...


# Split de la tabla Departamento

In [5]:
df_departamentos = df[['COD_ESTADO_DEPTO','ESTADO_DEPTO']].drop_duplicates()

df_departamentos

Unnamed: 0,COD_ESTADO_DEPTO,ESTADO_DEPTO
0,0,SIN DEFINIR
4452,5,Antioquia
8184,8,Atlantico
10188,11,"Bogota, D.C."
14180,13,Bolivar
16991,15,Boyaca
18589,17,Caldas
20578,18,Caqueta
23005,19,Cauca
26599,20,Cesar


# Split de la tabla GrupoPoblacional

In [6]:
df_grupo_poblacional = df[['COD_RPT','SEXO','ETNIA','DISCAPACIDAD','CICLO_VITAL']]

df_grupo_poblacional

Unnamed: 0,COD_RPT,SEXO,ETNIA,DISCAPACIDAD,CICLO_VITAL
0,1,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 18 y 28
1,2,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 29 y 59
2,3,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 29 y 60
3,4,Hombre,Gitano(a) ROM,Fisica,entre 29 y 59
4,5,Hombre,Gitano(a) ROM,Fisica,entre 29 y 60
...,...,...,...,...,...
79571,79572,Mujer,Ninguna,Ninguna,entre 29 y 60
79572,79573,Hombre,Ninguna,Ninguna,entre 18 y 28
79573,79574,Hombre,Ninguna,Ninguna,entre 29 y 60
79574,79575,Hombre,Ninguna,Ninguna,entre 6 y 11


# Split de la tabla ReporteHecho

In [7]:
df_reporte_hecho = df[['COD_RPT','EVENTOS','PER_OCU','PER_DECLA','PER_UBIC','PER_SA','COD_ESTADO_DEPTO','PARAM_HECHO']]

df_reporte_hecho

Unnamed: 0,COD_RPT,EVENTOS,PER_OCU,PER_DECLA,PER_UBIC,PER_SA,COD_ESTADO_DEPTO,PARAM_HECHO
0,1,0,0,22,0,0,0,1
1,2,0,0,0,7,7,0,1
2,3,0,0,0,8,8,0,1
3,4,0,0,7,14,14,0,1
4,5,0,0,34,11,11,0,1
...,...,...,...,...,...,...,...,...
79571,79572,0,0,0,1,1,99,15
79572,79573,0,0,0,10,10,99,20
79573,79574,0,0,0,17,17,99,20
79574,79575,0,0,0,38,38,99,20


# Split de la tabla ReporteGrupo

In [8]:
df_reporte_grupo = df[['COD_RPT']]

df_reporte_grupo

Unnamed: 0,COD_RPT
0,1
1,2
2,3
3,4
4,5
...,...
79571,79572
79572,79573
79573,79574
79574,79575


# Exportamos el dataframe a un archivo CSV
Se exporta el archivo CSV con los datos limpios en en ´/data/data_split/*.csv´.

In [9]:
df_hechos.to_csv(
    path_or_buf='../data/data_split/hecho_victimizante.csv',
    sep=',',
    na_rep='',
    header=True,
    index=False,
    encoding='utf-8',
    quoting=csv.QUOTE_MINIMAL,
    lineterminator=os.linesep,
    quotechar='"',
    decimal='.',
    errors='strict'
)

In [10]:
df_departamentos.to_csv(
    path_or_buf='../data/data_split/departamento.csv',
    sep=',',
    na_rep='',
    header=True,
    index=False,
    encoding='utf-8',
    quoting=csv.QUOTE_MINIMAL,
    lineterminator=os.linesep,
    quotechar='"',
    decimal='.',
    errors='strict'
)

In [11]:
df_grupo_poblacional.to_csv(
    path_or_buf='../data/data_split/grupo_poblacional.csv',
    sep=',',
    na_rep='',
    header=True,
    index=False,
    encoding='utf-8',
    quoting=csv.QUOTE_MINIMAL,
    lineterminator=os.linesep,
    quotechar='"',
    decimal='.',
    errors='strict'
)

In [12]:
df_reporte_hecho.to_csv(
    path_or_buf='../data/data_split/reporte_hecho.csv',
    sep=',',
    na_rep='',
    header=True,
    index=False,
    encoding='utf-8',
    quoting=csv.QUOTE_MINIMAL,
    lineterminator=os.linesep,
    quotechar='"',
    decimal='.',
    errors='strict'
)

In [13]:
df_reporte_grupo.to_csv(
    path_or_buf='../data/data_split/reporte_grupo.csv',
    sep=',',
    na_rep='',
    header=True,
    index=False,
    encoding='utf-8',
    quoting=csv.QUOTE_MINIMAL,
    lineterminator=os.linesep,
    quotechar='"',
    decimal='.',
    errors='strict'
)