<img src="https://industrial.uniandes.edu.co/sites/default/files/imagenes/uniandeslogo.png" alt="Universidad de los Andes" style="float: right; width: 300px; height: auto;">

# Cleaning JEP

Autor: Juan Diego Heredia Niño 

Email: jd.heredian@uniandes.edu.co

Date: Jan 2026

In [None]:
# Import necessary libraries
import pandas as pd  # For data manipulation and analysis
import yaml  # To read YAML configuration files
from pathlib import Path  # For cross-platform file path handling
import numpy as np  # For numerical operations

In [None]:
# Load directory paths from configuration file
with open('paths.yml', 'r') as file:
    paths = yaml.safe_load(file)  # Read and parse YAML file

# Create Path objects for each directory
raw = Path(paths['data']['raw'])  # Directory with raw data
temp = Path(paths['data']['temp'])  # Directory with temporary processed data
processed = Path(paths['data']['processed'])  # Directory with final processed data

In [None]:
df_jep = pd.read_excel(raw/ 'jep' / 'Sistema de Monitoreo Consolidado_UIA JEP.xlsx')
df_jep

In [None]:
df_jep[['Categoría', 'Subcategoría']].drop_duplicates().to_clipboard(index=False)

# Categoría	Subcategoría
# Hechos de afectación	Homicidio selectivo
# Eventos del conflicto armado	Emboscadas
# Hechos de afectación	Acto terrorista
# Hechos de afectación	Retenes ilegales
# Hechos de afectación	Atentado - Tentativa de homicidio
# Hechos de afectación	Accidentes por minas antipersonal, munición sin explotar y artefacto explosivo improvisado
# Hechos de afectación	Destrucción de infraestructura productiva
# Hechos de afectación	Amenaza
# Acciones entidades del Estado	Desactivación de artefactos explosivos
# Acciones entidades del Estado	Baja de integrante de grupo armado organizado
# Acciones entidades del Estado	Capturas
# Eventos del conflicto armado	Enfrentamiento armado con Fuerza Pública
# Acciones entidades del Estado	Incautaciones de armamento
# Hechos de afectación	Confinamiento
# Hechos de afectación	Extorsión
# Hechos de afectación	Desplazamiento forzado de tipo individual o familiar
# Hechos de afectación	Desaparición forzada
# Hechos de afectación	Tortura
# Hechos de afectación	Desplazamiento forzado masivo
# Eventos del conflicto armado	Hostigamiento
# Acciones entidades del Estado	Incautación de explosivos
# Eventos del conflicto armado	Afectaciones de miembros de la Fuerza Pública por fuera de combates
# Eventos del conflicto armado	Enfrentamiento armado entre grupos ilegales
# Hechos de afectación	Masacres
# Hechos de afectación	Secuestro
# Eventos del conflicto armado	Ataques de francotiradores
# Hechos de afectación	Vinculación de niños, niñas y adolescentes a actividades relacionadas con grupos armados organizados al margen de la ley
# Acciones entidades del Estado	Judicialización de integrantes de Grupos Armados Organizados
# Acciones entidades del Estado	Desmantelamiento de laboratorios de procesamiento de cultivos ilícitos
# Hechos de afectación	Destrucción al medio ambiente
# Acciones entidades del Estado	Rescates
# Acciones entidades del Estado	Incautación de drogas psicoactivas ilícitas
# Hechos de afectación	Delitos contra la libertad e integridad sexual
# Hechos de afectación	Paro armado
# Acciones entidades del Estado	Destrucción o erradicación forzada de cultivos ilícitos
# Hechos de afectación	Agresiones ocasionadas por la Fuerza Pública en el marco de protestas sociales o disturbios
# Acciones entidades del Estado	Desmantelamiento de campamentos
# Acciones entidades del Estado	Desmovilizaciones individuales
# Eventos del conflicto armado	Acción sicarial
# Hechos de afectación	Detenciones arbitrarias
# Acciones entidades del Estado	Acciones institucionales que tengan un impacto en el bienestar de las personas en proceso de reintegración a la vida civil y política
# Acciones entidades del Estado	Formulación de medidas de prevención y protección para líderes sociales y los reincorporados de las FARC-EP
# Acciones entidades del Estado	Destrucción de campos minados
# Hechos de afectación	Despojo de tierras
# Hechos de afectación	Desplazamiento Forzado masivo
# Hechos de afectación	Desplazamiento Forzado Masivo
# Acciones entidades del Estado	Incautación de insumos químicos utilizados para el procesamiento de cultivos ilícitos
# Acciones entidades del Estado	Incautación de insumos químicos utilizados para la explotación ilícita de yacimientos mineros
# Acciones entidades del Estado	Destrucción de maquinaria pesada y accesorios utilizados para la explotación ilícita de yacimientos mineros
# Hechos de afectación	homicidio selectivo
# Hechos de afectación	Desaparición Forzada
# Hechos de afectación	Paro Armado
# Acciones Entidades del Estado	Capturas
# Eventos del conflicto armado	Ataques con drones
# Acciones Entidades del Estado	Incautación de drogas psicoactivas ilícitas
# Acciones Entidades del Estado	Incautaciones de armamento
# Acciones Entidades del Estado	Rescates
# Acciones Entidades del Estado	Incautación de explosivos
# Acciones Entidades del Estado	Desactivación de artefactos explosivos
# Acciones Entidades del Estado	Destrucción de maquinaria pesada y accesorios utilizados para la explotación ilícita de yacimientos mineros
# Acciones Entidades del Estado	Judicialización de integrantes de Grupos Armados Organizados
# Acciones Entidades del Estado	Desmantelamiento de laboratorios de procesamiento de cultivos ilícitos
# Acciones Entidades del Estado	Incautación de insumos químicos utilizados para el procesamiento de cultivos ilícitos
# Acciones Entidades del Estado	Baja de integrante de grupo armado organizado
# Acciones Entidades del Estado	Destrucción de campos minados
# Acciones Entidades del Estado	Desmovilizaciones individuales
# Eventos del conflicto armado	Ataques con Drones
# Acciones Entidades del Estado	Acciones institucionales que tengan un impacto en el bienestar de las personas en proceso de reintegración a la vida civil y política
# Acciones Entidades del Estado	Desmantelamiento de campamentos


In [None]:
# Definir categorías de tipos de violencia
amedranamiento = [
    'Amenaza',
    'Atentado - Tentativa de homicidio',
    'Desplazamiento forzado de tipo individual o familiar',
    'Desplazamiento forzado masivo',
    'Hostigamiento'
]

integridad_fisica = [
    'Desaparición forzada',
    'Vinculación de niños, niñas y adolescentes a actividades relacionadas con grupos armados organizados al margen de la ley',
    'Delitos contra la libertad e integridad sexual'
]

governanza_comun = [
    'Confinamiento',
    'Extorsión',
    'Retenes ilegales',
    'Paro armado'
]

In [None]:
# Función para etiquetar cada registro según su subcategoría
def etiquetar_tipo_violencia(subcategoria):
    """
    Etiqueta cada subcategoría según el tipo de violencia.
    Normaliza las comparaciones para ignorar diferencias en mayúsculas.
    """
    if pd.isna(subcategoria):
        return None
    
    # Normalizar para comparación (lowercase)
    subcat_norm = str(subcategoria).lower().strip()
    
    # Verificar amedranamiento
    for tipo in amedranamiento:
        if tipo.lower() == subcat_norm:
            return 'amedranamiento'
    
    # Verificar integridad física
    for tipo in integridad_fisica:
        if tipo.lower() == subcat_norm:
            return 'integridad_fisica'
    
    # Verificar governanza comunitaria
    for tipo in governanza_comun:
        if tipo.lower() == subcat_norm:
            return 'governanza_comun'
    
    # Si no coincide con ninguna categoría
    return 'otro'

# Aplicar el etiquetado
df_jep['tipo_violencia'] = df_jep['Subcategoría'].apply(etiquetar_tipo_violencia)

# Ver resumen de etiquetado
print("Distribución de tipos de violencia:")
print(df_jep['tipo_violencia'].value_counts())
print("\n")
print("Ejemplos de registros etiquetados:")
df_jep[['Subcategoría', 'tipo_violencia']].drop_duplicates().sort_values('tipo_violencia')

In [None]:
# Crear dataframe agregado por mun_code y trimestre
# Convertir columna Fecha a datetime
df_jep['Fecha'] = pd.to_datetime(df_jep['Fecha'], errors='coerce')

# Crear columna quarter en formato 2012Q1
df_jep['quarter'] = df_jep['Fecha'].dt.to_period('Q').astype(str)

# Filtrar solo los registros con tipo de violencia relevante (no 'otro' ni None)
df_violencia = df_jep[df_jep['tipo_violencia'].isin(['amedranamiento', 'integridad_fisica', 'governanza_comun'])].query("Año >= 2017 and Año <= 2025")

# Agrupar por mun_code, quarter y tipo de violencia y contar eventos
df_agregado = df_violencia.groupby(['Código Dane.1', 'quarter', 'tipo_violencia','Subcategoría']).size().reset_index(name='cantidad').sort_values(['Código Dane.1', 'quarter', 'tipo_violencia'])

df_agregado['cantidad'] = df_agregado['cantidad'] > 0

df_agregado2 = df_agregado.groupby(['Código Dane.1', 'quarter', 'tipo_violencia'])['cantidad'].sum().reset_index()

df_agregado2['cantidad'] = np.where(df_agregado2['tipo_violencia'] == 'amedranamiento', df_agregado2['cantidad'] / len(amedranamiento), df_agregado2['cantidad'])
df_agregado2['cantidad'] = np.where(df_agregado2['tipo_violencia'] == 'integridad_fisica', df_agregado2['cantidad'] / len(integridad_fisica), df_agregado2['cantidad'])
df_agregado2['cantidad'] = np.where(df_agregado2['tipo_violencia'] == 'governanza_comun', df_agregado2['cantidad'] / len(governanza_comun), df_agregado2['cantidad'])

df_agregado2['cantidad'] = df_agregado2['cantidad'].round(2)

df_agregado2

In [None]:
# Pivotar para tener una columna por tipo de violencia
df_final = df_agregado2.pivot_table(
    index=['Código Dane.1', 'quarter'],
    columns='tipo_violencia',
    values='cantidad',
    fill_value=0
).reset_index()

# Renombrar columna del mun_code si es necesario
df_final.rename(columns={'Código Dane.1': 'mun_code'}, inplace=True)

# Asegurar que existen todas las columnas (por si algún tipo no aparece)
for col in ['amedranamiento', 'integridad_fisica', 'governanza_comun']:
    if col not in df_final.columns:
        df_final[col] = 0

# Ordenar por mun_code y quarter
df_final = df_final.sort_values(['mun_code', 'quarter']).reset_index(drop=True)
df_final = df_final.rename(columns={'amedranamiento':'ia', 'governanza_comun':'igc', 'integridad_fisica':'iif'})
print(f"Dimensiones del dataframe agregado: {df_final.shape}")
print(f"\nPrimeras filas:")
df_final.head(10)

In [14]:
df_final.to_parquet(temp/'jep'/'jep.parquet', index=False)