# Split del dataset de víctimas del conflicto armado en Colombia
Este notebook contiene el split del dataset de víctimas del conflicto armado en Colombia para facilitar la poblacion de la base de datos.

## Importación de Librerías

Importamos las librerías necesarias para el análisis de datos.

In [2]:
import pandas as pd
import csv
import os

## Carga del Dataset

Cargamos el dataset de víctimas del conflicto armado desde el archivo CSV.

In [3]:
# Define the relative path to the data file
data_path = '../data/processed/victimas_por_hechos_departamental_20250416.csv'

# Load the dataset
try:
    # Attempt to read with UTF-8 encoding first
    df = pd.read_csv(data_path, encoding='utf-8') 
except UnicodeDecodeError:
    try:
        # Fallback to Latin-1 encoding if UTF-8 fails
        df = pd.read_csv(data_path, encoding='latin1') 
    except Exception as e:
        print(f"Error loading CSV file: {e}")
        df = None # Indicate failure by setting df to None

# Verificar si el dataset se cargó correctamente
if df is not None:
    print(f"Dataset cargado exitosamente. Dimensiones: {df.shape}")
else:
    print("Error al cargar el dataset. Por favor, verifica la ruta y la codificación del archivo.")

Dataset cargado exitosamente. Dimensiones: (95561, 13)


# Visualización del dataset procesado

In [4]:
df.head()

Unnamed: 0,COD_ESTADO_DEPTO,ESTADO_DEPTO,PARAM_HECHO,HECHO,SEXO,ETNIA,DISCAPACIDAD,CICLO_VITAL,PER_OCU,PER_DECLA,PER_UBIC,PER_SA,EVENTOS
0,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 18 y 28,0.0,22.0,0.0,0.0,0.0
1,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 29 y 59,0.0,0.0,7.0,7.0,0.0
2,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano (RROM) (Acreditado RA),Ninguna,entre 29 y 60,0.0,0.0,8.0,8.0,0.0
3,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano(a) ROM,Fisica,entre 29 y 59,0.0,7.0,14.0,14.0,0.0
4,0,SIN DEFINIR,1,Acto terrorista / Atentados / Combates / Enfre...,Hombre,Gitano(a) ROM,Fisica,entre 29 y 60,0.0,34.0,11.0,11.0,0.0


# Split de la tabla HechoVictimizante

In [5]:
df_hechos = df[['PARAM_HECHO','HECHO']].drop_duplicates()

df_hechos

Unnamed: 0,PARAM_HECHO,HECHO
0,1,Acto terrorista / Atentados / Combates / Enfre...
444,2,Amenaza
1088,3,Delitos contra la libertad y la integridad sex...
1365,4,Desaparición forzada
1700,5,Desplazamiento forzado
2589,6,Homicidio
3104,7,"Minas Antipersonal, Munición sin Explotar y Ar..."
3321,8,Secuestro
3558,9,Tortura
3738,10,Vinculación de Niños Niñas y Adolescentes a Ac...


# Exportamos el dataframe a un archivo CSV
Se exporta el archivo CSV con los datos limpios en en ´/data/data_split/*.csv´.

In [6]:
df_hechos.to_csv(
    path_or_buf='../data/data_split/hecho_victimizante.csv',
    sep=',',
    na_rep='',
    header=True,
    index=False,
    encoding='utf-8',
    quoting=csv.QUOTE_MINIMAL,
    lineterminator=os.linesep,
    quotechar='"',
    decimal='.',
    errors='strict'
)