# ETL Mensual - Procesamiento Incremental

Este notebook ejecuta el proceso ETL mensual para las fuentes de datos:
- **Inspecciones**: archivos `inspecciones_YYYY_MM.xlsx` en `data/raw/inspecciones/`
- **Consumo**: archivos `consumo_YYYY_MM.xlsx` en `data/raw/consumo/`

## Flujo:
1. Detecta meses pendientes (archivos en `raw/` que no tienen parquet en `interim/`)
2. Procesa cada mes: limpia, normaliza y guarda en `data/interim/<fuente>/year=YYYY/month=MM/`
3. Solo procesa meses nuevos (incremental) - salvo que se fuerce `overwrite=True`

In [1]:
import os
import sys
import pandas as pd
from tqdm import tqdm

# Configurar paths
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

from src.config import load_config, get_paths
from src.data import etl

# Activar autoreload para desarrollo
%load_ext autoreload
%autoreload 2

## Configuración

Rutas (`paths`), fuentes y overwrite desde **config/config.yaml** (sección `etl`: `sources`, `overwrite`).

In [2]:
cfg = load_config()
paths = get_paths(cfg)
RAW_DIR = paths["raw"]
INTERIM_DIR = paths["interim"]

# ETL: fuentes y overwrite desde config (config.yaml → etl.sources, etl.overwrite)
etl_cfg = cfg.get("etl", {})
SOURCES = etl_cfg.get("sources", ["inspecciones", "consumo"])
OVERWRITE = etl_cfg.get("overwrite", False)

## Ejecutar ETL Mensual

Ejecuta el proceso ETL incremental. Solo procesa meses nuevos por defecto.

In [3]:
%%time

# Ejecutar ETL mensual
summary = etl.run_monthly_etl(
    raw_dir=RAW_DIR,
    interim_dir=INTERIM_DIR,
    sources=SOURCES,
    overwrite=OVERWRITE
)

CPU times: total: 15.6 ms
Wall time: 21 ms


## Resumen de Procesamiento

In [4]:
# Mostrar resumen (mismo formato que scripts/run_etl.py)
print("="*60)
print("RESUMEN")
print("="*60)
for source, stats in summary.items():
    print(f"{source.upper()}: Total={stats['total']}, procesados={stats['processed']}, saltados={stats['skipped']}")
print("ETL completado.")

RESUMEN
INSPECCIONES: Total=0, procesados=0, saltados=0
CONSUMO: Total=0, procesados=0, saltados=0
ETL completado.


## Verificar Archivos Procesados

Lista los parquets generados en `interim/` para verificar.

In [5]:
import glob
import re

# Listar archivos procesados
for source in SOURCES:
    pattern = os.path.join(INTERIM_DIR, source, "year=*", "month=*", f"{source}.parquet")
    files = sorted(glob.glob(pattern))
    print(f"\n{source.upper()}: {len(files)} archivos procesados")
    if len(files) <= 10:
        for f in files:
            # Extraer year/month del path
            match = re.search(r"year=(\d{4})/month=(\d{2})", f.replace("\\", "/"))
            if match:
                print(f"  - {match.group(1)}-{match.group(2)}")
    else:
        print(f"  (mostrando primeros 5 y últimos 5)")
        for f in files[:5]:
            match = re.search(r"year=(\d{4})/month=(\d{2})", f.replace("\\", "/"))
            if match:
                print(f"  - {match.group(1)}-{match.group(2)}")
        print("  ...")
        for f in files[-5:]:
            match = re.search(r"year=(\d{4})/month=(\d{2})", f.replace("\\", "/"))
            if match:
                print(f"  - {match.group(1)}-{match.group(2)}")


INSPECCIONES: 23 archivos procesados
  (mostrando primeros 5 y últimos 5)
  - 2023-02
  - 2023-03
  - 2023-04
  - 2023-05
  - 2023-06
  ...
  - 2024-08
  - 2024-09
  - 2024-10
  - 2024-11
  - 2024-12

CONSUMO: 41 archivos procesados
  (mostrando primeros 5 y últimos 5)
  - 2022-01
  - 2022-02
  - 2022-03
  - 2022-04
  - 2022-05
  ...
  - 2025-01
  - 2025-02
  - 2025-03
  - 2025-04
  - 2025-05
