# 07: Procesamiento de Votaciones

**Propósito:** Este *notebook* consolida todos los archivos `detalle.csv` (crudos, por período) de `data/01_raw/` en un único archivo maestro de votaciones.

**Estrategia (Manejo de Memoria):**
Debido a que el *dataset* final de votaciones tendrá millones de filas, no podemos cargar todos los CSV a la vez.

1.  **Iterar:** Se itera por cada período.
2.  **Cargar Chunk:** Se carga un solo `detalle.csv` en memoria.
3.  **Procesar:** Se llama a `process_votaciones_chunk` (de `src/processing_utils.py`) para limpiar, mapear y estandarizar ese *chunk*.
4.  **Anexar (Append):** El *chunk* limpio se anexa al archivo `votaciones_master_clean.parquet` en `data/02_processed/`.
5.  **Liberar y Repetir.**

**Dependencias:**
* `data/01_raw/periodos_master.csv`
* `data/01_raw/[periodo]/detalle.csv` (Múltiples archivos)

**Salidas (Artifacts):**
* `data/02_processed/votaciones_master_clean.parquet` (Un único archivo grande)

In [1]:
import pandas as pd
from pathlib import Path
import sys
import logging
import os # <-- Para eliminar el archivo antiguo
from tqdm.notebook import tqdm
import pyarrow # <-- Asegúrese de tenerlo (pip install pyarrow)

# --- Configurar Logging ---
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# --- Importar lógica personalizada de /src ---
sys.path.append('../') 
try:
    from src.processing_utils import process_votaciones_chunk
    from src.common_utils import sanitize_filename
except ImportError as e:
    logging.error(f"ERROR: No se pudieron importar las funciones desde /src. {e}")
    raise

In [2]:
# --- 1. Configuración de Rutas y Constantes ---
ROOT = Path.cwd().parent
DATA_DIR_RAW = ROOT / "data" / "01_raw"
DATA_DIR_PROCESSED = ROOT / "data" / "02_processed"

DATA_DIR_PROCESSED.mkdir(parents=True, exist_ok=True)

# Dependencia
MASTER_PERIOD_FILE = DATA_DIR_RAW / "periodos_master.csv"

# Archivo de salida
OUTPUT_FILE = DATA_DIR_PROCESSED / "votaciones_master_clean.parquet"

logging.info(f"Archivo de Salida: {OUTPUT_FILE}")

2025-10-29 12:43:54,395 - INFO - Archivo de Salida: C:\Users\angel\OneDrive\Documents\U\2025-2\Proyecto de Grado\Legislative-Voting-Behavior-Prediction-\data\02_processed\votaciones_master_clean.parquet


In [3]:
if OUTPUT_FILE.exists():
    logging.warning(f"Eliminando archivo Parquet existente: {OUTPUT_FILE}")
    try:
        os.remove(OUTPUT_FILE)
        logging.info("Archivo antiguo eliminado.")
    except Exception as e:
        logging.error(f"No se pudo eliminar el archivo. Verifique los permisos. Error: {e}")
        raise
else:
    logging.info("No existe archivo Parquet anterior. Se creará uno nuevo.")

2025-10-29 12:43:54,413 - INFO - No existe archivo Parquet anterior. Se creará uno nuevo.


## 2. Carga de Dependencias (Períodos)

Cargamos la lista maestra de períodos para saber qué carpetas iterar.

In [4]:
try:
    df_periodos = pd.read_csv(MASTER_PERIOD_FILE)
    logging.info(f"Se cargó la lista maestra de {len(df_periodos)} períodos.")
except FileNotFoundError:
    logging.error(f"ERROR FATAL: No se encontró {MASTER_PERIOD_FILE}")
    raise

2025-10-29 12:43:54,444 - INFO - Se cargó la lista maestra de 10 períodos.


## 3. Bucle Principal de Procesamiento (Chunking)

Iteramos sobre cada período, cargamos su `detalle.csv`, lo procesamos en memoria y lo anexamos al archivo Parquet en el disco.

In [5]:
logging.info(f"Iniciando procesamiento de votaciones para {len(df_periodos)} períodos...")
total_rows_processed = 0

for row in tqdm(df_periodos.itertuples(), total=len(df_periodos), desc="Procesando Períodos"):
    
    periodo_nombre = row.Nombre
    carpeta_periodo = DATA_DIR_RAW / sanitize_filename(periodo_nombre)
    ruta_detalle = carpeta_periodo / "detalle.csv"
    
    if not ruta_detalle.exists():
        logging.warning(f"No se encontró {ruta_detalle}, saltando período {periodo_nombre}.")
        continue
        
    logging.info(f"--- Procesando Chunk: {periodo_nombre} ---")
    
    try:
        # 1. Cargar Chunk
        df_raw = pd.read_csv(ruta_detalle, low_memory=False)

        # 2. Procesar Chunk (en memoria)
        df_clean = process_votaciones_chunk(df_raw, periodo_nombre)
        display(df_clean.sample(10))
        if df_clean.empty:
            logging.warning(f"Chunk limpio está vacío para {periodo_nombre}. No se anexa nada.")
            continue
        display(df_clean.sample(10))
        # 3. Anexar (Append) al archivo Parquet
        # engine='pyarrow' es OBLIGATORIO para 'append=True'
        df_clean.to_parquet(
            OUTPUT_FILE,
            engine='pyarrow',
            append=True
        )
        
        total_rows_processed += len(df_clean)
        logging.info(f"Anexadas {len(df_clean)} filas de {periodo_nombre}.")

    except Exception as e:
        logging.error(f"ERROR FATAL al procesar período {periodo_nombre}: {e}", exc_info=True)

logging.info("--- Procesamiento de votaciones finalizado ---")
logging.info(f"Total de filas (votos) procesadas: {total_rows_processed}")

2025-10-29 12:43:54,457 - INFO - Iniciando procesamiento de votaciones para 10 períodos...


Procesando Períodos:   0%|          | 0/10 [00:00<?, ?it/s]

2025-10-29 12:43:54,486 - INFO - --- Procesando Chunk: 2002-2006 ---
2025-10-29 12:43:55,487 - INFO - Filtrando 'Proyectos de Ley' para 2002-2006...
2025-10-29 12:43:55,612 - INFO - Se encontraron 167005 votaciones de 'Proyectos de Ley'.
2025-10-29 12:43:56,092 - ERROR - ERROR FATAL al procesar período 2002-2006: a must be greater than 0 unless no samples are taken
Traceback (most recent call last):
  File "C:\Users\angel\AppData\Local\Temp\ipykernel_5272\7921706.py", line 22, in <module>
    display(df_clean.sample(10))
            ^^^^^^^^^^^^^^^^^^^
  File "C:\Users\angel\anaconda3\Lib\site-packages\pandas\core\generic.py", line 6029, in sample
    sampled_indices = sample.sample(obj_len, size, replace, weights, rs)
                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\angel\anaconda3\Lib\site-packages\pandas\core\sample.py", line 152, in sample
    return random_state.choice(obj_len, size=size, replace=replace, p=weights).astype(
           ^^^^^