# ETL Mensual - Procesamiento Incremental

Este notebook ejecuta el proceso ETL mensual para las fuentes de datos:
- **Inspecciones**: archivos `inspecciones_YYYY_MM.xlsx` en `data/raw/inspecciones/`
- **Consumo**: archivos `consumo_YYYY_MM.xlsx` en `data/raw/consumo/`

## Flujo:
1. Detecta meses pendientes (archivos en `raw/` que no tienen parquet en `interim/`)
2. Procesa cada mes: limpia, normaliza y guarda en `data/interim/<fuente>/year=YYYY/month=MM/`
3. Solo procesa meses nuevos (incremental) - salvo que se fuerce `overwrite=True`

In [1]:
import os
import sys
import pandas as pd
from tqdm import tqdm

# Configurar paths
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

# Activar autoreload para desarrollo
%load_ext autoreload
%autoreload 2

In [2]:
# Instalar dependencias si es necesario
try:
    import openpyxl
except ImportError:
    print("Instalando openpyxl...")
    %pip install openpyxl

from src.data import etl

## Configuración

Define los directorios base y las fuentes a procesar.

In [None]:
# Directorios base
RAW_DIR = '../data/raw'
INTERIM_DIR = '../data/interim'

# Fuentes a procesar
SOURCES = ['inspecciones', 'consumo']

# Si True, reprocesa todo aunque ya exista (útil para backfill o cambios de reglas)
OVERWRITE = True

## Ejecutar ETL Mensual

Ejecuta el proceso ETL incremental. Solo procesa meses nuevos por defecto.

In [5]:
%%time

# Ejecutar ETL mensual
summary = etl.run_monthly_etl(
    raw_dir=RAW_DIR,
    interim_dir=INTERIM_DIR,
    sources=SOURCES,
    overwrite=OVERWRITE
)


[INSPECCIONES]
  [INFO] 41 meses pendientes
     [(2021, 3), (2021, 4), (2021, 5), (2021, 6), (2021, 7)] ... [(2024, 4), (2024, 5), (2024, 6), (2024, 7), (2024, 8)]


  Procesando inspecciones:   2%|▏         | 1/41 [00:00<00:07,  5.58it/s]

  [PROC] Procesando inspecciones 2021-03...
  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=03\inspecciones.parquet (248 registros)


  Procesando inspecciones:   5%|▍         | 2/41 [00:00<00:06,  6.31it/s]

  [PROC] Procesando inspecciones 2021-04...
  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=04\inspecciones.parquet (234 registros)
  [PROC] Procesando inspecciones 2021-05...


  Procesando inspecciones:  10%|▉         | 4/41 [00:00<00:05,  6.59it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=05\inspecciones.parquet (208 registros)
  [PROC] Procesando inspecciones 2021-06...
  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=06\inspecciones.parquet (233 registros)
  [PROC] Procesando inspecciones 2021-07...


  Procesando inspecciones:  15%|█▍        | 6/41 [00:00<00:04,  7.67it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=07\inspecciones.parquet (229 registros)
  [PROC] Procesando inspecciones 2021-08...
  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=08\inspecciones.parquet (221 registros)
  [PROC] Procesando inspecciones 2021-09...


  Procesando inspecciones:  17%|█▋        | 7/41 [00:01<00:04,  7.49it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=09\inspecciones.parquet (300 registros)
  [PROC] Procesando inspecciones 2021-10...
  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=10\inspecciones.parquet (395 registros)


  Procesando inspecciones:  22%|██▏       | 9/41 [00:01<00:04,  7.33it/s]

  [PROC] Procesando inspecciones 2021-11...
  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=11\inspecciones.parquet (263 registros)
  [PROC] Procesando inspecciones 2021-12...


  Procesando inspecciones:  27%|██▋       | 11/41 [00:01<00:04,  7.43it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2021\month=12\inspecciones.parquet (230 registros)
  [PROC] Procesando inspecciones 2022-01...
  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=01\inspecciones.parquet (200 registros)
  [PROC] Procesando inspecciones 2022-02...


  Procesando inspecciones:  32%|███▏      | 13/41 [00:01<00:03,  8.34it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=02\inspecciones.parquet (201 registros)
  [PROC] Procesando inspecciones 2022-03...
  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=03\inspecciones.parquet (276 registros)
  [PROC] Procesando inspecciones 2022-04...


  Procesando inspecciones:  34%|███▍      | 14/41 [00:02<00:04,  6.15it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=04\inspecciones.parquet (319 registros)
  [PROC] Procesando inspecciones 2022-05...


  Procesando inspecciones:  37%|███▋      | 15/41 [00:02<00:04,  5.22it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=05\inspecciones.parquet (628 registros)
  [PROC] Procesando inspecciones 2022-06...


  Procesando inspecciones:  39%|███▉      | 16/41 [00:02<00:05,  4.90it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=06\inspecciones.parquet (587 registros)
  [PROC] Procesando inspecciones 2022-07...


  Procesando inspecciones:  41%|████▏     | 17/41 [00:02<00:04,  4.98it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=07\inspecciones.parquet (499 registros)
  [PROC] Procesando inspecciones 2022-08...
  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=08\inspecciones.parquet (424 registros)


  Procesando inspecciones:  46%|████▋     | 19/41 [00:03<00:04,  5.35it/s]

  [PROC] Procesando inspecciones 2022-09...
  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=09\inspecciones.parquet (383 registros)
  [PROC] Procesando inspecciones 2022-10...


  Procesando inspecciones:  51%|█████     | 21/41 [00:03<00:03,  6.28it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=10\inspecciones.parquet (378 registros)
  [PROC] Procesando inspecciones 2022-11...
  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=11\inspecciones.parquet (256 registros)
  [PROC] Procesando inspecciones 2022-12...


  Procesando inspecciones:  56%|█████▌    | 23/41 [00:03<00:02,  7.25it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2022\month=12\inspecciones.parquet (212 registros)
  [PROC] Procesando inspecciones 2023-01...
  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=01\inspecciones.parquet (416 registros)
  [PROC] Procesando inspecciones 2023-02...


  Procesando inspecciones:  61%|██████    | 25/41 [00:03<00:02,  6.95it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=02\inspecciones.parquet (335 registros)
  [PROC] Procesando inspecciones 2023-03...
  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=03\inspecciones.parquet (380 registros)
  [PROC] Procesando inspecciones 2023-04...


  Procesando inspecciones:  66%|██████▌   | 27/41 [00:04<00:01,  7.40it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=04\inspecciones.parquet (210 registros)
  [PROC] Procesando inspecciones 2023-05...
  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=05\inspecciones.parquet (428 registros)
  [PROC] Procesando inspecciones 2023-07...


  Procesando inspecciones:  71%|███████   | 29/41 [00:04<00:01,  7.80it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=07\inspecciones.parquet (256 registros)
  [PROC] Procesando inspecciones 2023-08...
  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=08\inspecciones.parquet (421 registros)
  [PROC] Procesando inspecciones 2023-09...


  Procesando inspecciones:  76%|███████▌  | 31/41 [00:04<00:01,  6.78it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=09\inspecciones.parquet (393 registros)
  [PROC] Procesando inspecciones 2023-10...
  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=10\inspecciones.parquet (372 registros)
  [PROC] Procesando inspecciones 2023-11...


  Procesando inspecciones:  80%|████████  | 33/41 [00:04<00:01,  7.70it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=11\inspecciones.parquet (339 registros)
  [PROC] Procesando inspecciones 2023-12...
  [OK] Guardado: ../../data/interim\inspecciones\year=2023\month=12\inspecciones.parquet (209 registros)
  [PROC] Procesando inspecciones 2024-01...


  Procesando inspecciones:  85%|████████▌ | 35/41 [00:05<00:00,  8.39it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2024\month=01\inspecciones.parquet (264 registros)
  [PROC] Procesando inspecciones 2024-02...
  [OK] Guardado: ../../data/interim\inspecciones\year=2024\month=02\inspecciones.parquet (282 registros)
  [PROC] Procesando inspecciones 2024-03...


  Procesando inspecciones:  90%|█████████ | 37/41 [00:05<00:00,  7.96it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2024\month=03\inspecciones.parquet (237 registros)
  [PROC] Procesando inspecciones 2024-04...
  [OK] Guardado: ../../data/interim\inspecciones\year=2024\month=04\inspecciones.parquet (365 registros)
  [PROC] Procesando inspecciones 2024-05...


  Procesando inspecciones:  95%|█████████▌| 39/41 [00:05<00:00,  8.47it/s]

  [OK] Guardado: ../../data/interim\inspecciones\year=2024\month=05\inspecciones.parquet (321 registros)
  [PROC] Procesando inspecciones 2024-06...
  [OK] Guardado: ../../data/interim\inspecciones\year=2024\month=06\inspecciones.parquet (275 registros)
  [PROC] Procesando inspecciones 2024-07...


  Procesando inspecciones: 100%|██████████| 41/41 [00:05<00:00,  6.97it/s]


  [OK] Guardado: ../../data/interim\inspecciones\year=2024\month=07\inspecciones.parquet (256 registros)
  [PROC] Procesando inspecciones 2024-08...
  [OK] Guardado: ../../data/interim\inspecciones\year=2024\month=08\inspecciones.parquet (11 registros)
  [OK] inspecciones: 41 procesados, 0 saltados

[CONSUMO]
  [INFO] 59 meses pendientes
     [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)] ... [(2024, 10), (2024, 11), (2024, 12), (2025, 1), (2025, 2)]


  Procesando consumo:   0%|          | 0/59 [00:00<?, ?it/s]

  [PROC] Procesando consumo 2020-01...


  Procesando consumo:   2%|▏         | 1/59 [00:05<05:28,  5.67s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=01\consumo.parquet (11455 registros)
  [PROC] Procesando consumo 2020-02...


  Procesando consumo:   3%|▎         | 2/59 [00:12<05:55,  6.24s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=02\consumo.parquet (12350 registros)
  [PROC] Procesando consumo 2020-03...


  Procesando consumo:   5%|▌         | 3/59 [00:18<05:55,  6.35s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=03\consumo.parquet (11735 registros)
  [PROC] Procesando consumo 2020-04...


  Procesando consumo:   7%|▋         | 4/59 [00:25<06:04,  6.62s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=04\consumo.parquet (13352 registros)
  [PROC] Procesando consumo 2020-05...


  Procesando consumo:   8%|▊         | 5/59 [00:32<05:55,  6.59s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=05\consumo.parquet (12025 registros)
  [PROC] Procesando consumo 2020-06...


  Procesando consumo:  10%|█         | 6/59 [00:38<05:50,  6.61s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=06\consumo.parquet (12571 registros)
  [PROC] Procesando consumo 2020-07...


  Procesando consumo:  12%|█▏        | 7/59 [00:45<05:46,  6.66s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=07\consumo.parquet (12199 registros)
  [PROC] Procesando consumo 2020-08...


  Procesando consumo:  14%|█▎        | 8/59 [00:52<05:40,  6.67s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=08\consumo.parquet (11821 registros)
  [PROC] Procesando consumo 2020-09...


  Procesando consumo:  15%|█▌        | 9/59 [00:58<05:28,  6.58s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=09\consumo.parquet (11784 registros)
  [PROC] Procesando consumo 2020-10...


  Procesando consumo:  17%|█▋        | 10/59 [01:07<06:01,  7.37s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=10\consumo.parquet (11745 registros)
  [PROC] Procesando consumo 2020-11...


  Procesando consumo:  19%|█▊        | 11/59 [01:13<05:23,  6.74s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=11\consumo.parquet (11843 registros)
  [PROC] Procesando consumo 2020-12...


  Procesando consumo:  20%|██        | 12/59 [01:18<05:00,  6.39s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2020\month=12\consumo.parquet (12113 registros)
  [PROC] Procesando consumo 2021-03...


  Procesando consumo:  22%|██▏       | 13/59 [01:24<04:41,  6.12s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=03\consumo.parquet (12076 registros)
  [PROC] Procesando consumo 2021-04...


  Procesando consumo:  24%|██▎       | 14/59 [01:30<04:31,  6.03s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=04\consumo.parquet (12734 registros)
  [PROC] Procesando consumo 2021-05...


  Procesando consumo:  25%|██▌       | 15/59 [01:35<04:18,  5.87s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=05\consumo.parquet (12268 registros)
  [PROC] Procesando consumo 2021-06...


  Procesando consumo:  27%|██▋       | 16/59 [01:44<04:50,  6.75s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=06\consumo.parquet (12245 registros)
  [PROC] Procesando consumo 2021-07...


  Procesando consumo:  29%|██▉       | 17/59 [01:51<04:46,  6.82s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=07\consumo.parquet (11856 registros)
  [PROC] Procesando consumo 2021-08...


  Procesando consumo:  31%|███       | 18/59 [01:56<04:23,  6.42s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=08\consumo.parquet (12033 registros)
  [PROC] Procesando consumo 2021-09...


  Procesando consumo:  32%|███▏      | 19/59 [02:02<04:10,  6.27s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=09\consumo.parquet (12980 registros)
  [PROC] Procesando consumo 2021-10...


  Procesando consumo:  34%|███▍      | 20/59 [02:08<04:01,  6.20s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=10\consumo.parquet (12418 registros)
  [PROC] Procesando consumo 2021-11...


  Procesando consumo:  36%|███▌      | 21/59 [02:13<03:42,  5.85s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=11\consumo.parquet (11644 registros)
  [PROC] Procesando consumo 2021-12...


  Procesando consumo:  37%|███▋      | 22/59 [02:20<03:38,  5.92s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2021\month=12\consumo.parquet (12932 registros)
  [PROC] Procesando consumo 2022-01...


  Procesando consumo:  39%|███▉      | 23/59 [02:25<03:26,  5.73s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=01\consumo.parquet (12097 registros)
  [PROC] Procesando consumo 2022-02...


  Procesando consumo:  41%|████      | 24/59 [02:30<03:16,  5.63s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=02\consumo.parquet (12567 registros)
  [PROC] Procesando consumo 2022-03...


  Procesando consumo:  42%|████▏     | 25/59 [02:37<03:19,  5.87s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=03\consumo.parquet (12415 registros)
  [PROC] Procesando consumo 2022-04...


  Procesando consumo:  44%|████▍     | 26/59 [02:44<03:27,  6.29s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=04\consumo.parquet (12973 registros)
  [PROC] Procesando consumo 2022-05...


  Procesando consumo:  46%|████▌     | 27/59 [02:51<03:33,  6.68s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=05\consumo.parquet (12845 registros)
  [PROC] Procesando consumo 2022-06...


  Procesando consumo:  47%|████▋     | 28/59 [02:57<03:17,  6.36s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=06\consumo.parquet (12592 registros)
  [PROC] Procesando consumo 2022-07...


  Procesando consumo:  49%|████▉     | 29/59 [03:03<03:07,  6.26s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=07\consumo.parquet (12909 registros)
  [PROC] Procesando consumo 2022-08...


  Procesando consumo:  51%|█████     | 30/59 [03:09<02:56,  6.09s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=08\consumo.parquet (13306 registros)
  [PROC] Procesando consumo 2022-09...


  Procesando consumo:  53%|█████▎    | 31/59 [03:14<02:45,  5.90s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=09\consumo.parquet (12942 registros)
  [PROC] Procesando consumo 2022-10...


  Procesando consumo:  54%|█████▍    | 32/59 [03:20<02:33,  5.70s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=10\consumo.parquet (12221 registros)
  [PROC] Procesando consumo 2022-11...


  Procesando consumo:  56%|█████▌    | 33/59 [03:25<02:25,  5.58s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=11\consumo.parquet (12407 registros)
  [PROC] Procesando consumo 2022-12...


  Procesando consumo:  58%|█████▊    | 34/59 [03:30<02:18,  5.52s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2022\month=12\consumo.parquet (12829 registros)
  [PROC] Procesando consumo 2023-01...


  Procesando consumo:  59%|█████▉    | 35/59 [03:35<02:09,  5.41s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=01\consumo.parquet (12246 registros)
  [PROC] Procesando consumo 2023-02...


  Procesando consumo:  61%|██████    | 36/59 [03:41<02:06,  5.49s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=02\consumo.parquet (12895 registros)
  [PROC] Procesando consumo 2023-03...


  Procesando consumo:  63%|██████▎   | 37/59 [03:46<01:59,  5.43s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=03\consumo.parquet (12357 registros)
  [PROC] Procesando consumo 2023-04...


  Procesando consumo:  64%|██████▍   | 38/59 [03:52<01:53,  5.41s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=04\consumo.parquet (12447 registros)
  [PROC] Procesando consumo 2023-05...


  Procesando consumo:  66%|██████▌   | 39/59 [03:57<01:47,  5.39s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=05\consumo.parquet (12548 registros)
  [PROC] Procesando consumo 2023-07...


  Procesando consumo:  68%|██████▊   | 40/59 [04:02<01:42,  5.40s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=07\consumo.parquet (12835 registros)
  [PROC] Procesando consumo 2023-08...


  Procesando consumo:  69%|██████▉   | 41/59 [04:10<01:49,  6.07s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=08\consumo.parquet (13306 registros)
  [PROC] Procesando consumo 2023-09...


  Procesando consumo:  71%|███████   | 42/59 [04:17<01:46,  6.24s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=09\consumo.parquet (12812 registros)
  [PROC] Procesando consumo 2023-10...


  Procesando consumo:  73%|███████▎  | 43/59 [04:23<01:39,  6.24s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=10\consumo.parquet (12738 registros)
  [PROC] Procesando consumo 2023-11...


  Procesando consumo:  75%|███████▍  | 44/59 [04:29<01:34,  6.30s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=11\consumo.parquet (12943 registros)
  [PROC] Procesando consumo 2023-12...


  Procesando consumo:  76%|███████▋  | 45/59 [04:36<01:30,  6.48s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2023\month=12\consumo.parquet (12263 registros)
  [PROC] Procesando consumo 2024-01...


  Procesando consumo:  78%|███████▊  | 46/59 [04:42<01:20,  6.16s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=01\consumo.parquet (10361 registros)
  [PROC] Procesando consumo 2024-02...


  Procesando consumo:  80%|███████▉  | 47/59 [04:47<01:09,  5.79s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=02\consumo.parquet (9713 registros)
  [PROC] Procesando consumo 2024-03...


  Procesando consumo:  81%|████████▏ | 48/59 [04:52<01:03,  5.81s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=03\consumo.parquet (12059 registros)
  [PROC] Procesando consumo 2024-04...


  Procesando consumo:  83%|████████▎ | 49/59 [04:58<00:58,  5.86s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=04\consumo.parquet (12079 registros)
  [PROC] Procesando consumo 2024-05...


  Procesando consumo:  85%|████████▍ | 50/59 [05:04<00:53,  5.90s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=05\consumo.parquet (12333 registros)
  [PROC] Procesando consumo 2024-06...


  Procesando consumo:  86%|████████▋ | 51/59 [05:11<00:48,  6.01s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=06\consumo.parquet (12973 registros)
  [PROC] Procesando consumo 2024-07...


  Procesando consumo:  88%|████████▊ | 52/59 [05:17<00:42,  6.13s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=07\consumo.parquet (12992 registros)
  [PROC] Procesando consumo 2024-08...


  Procesando consumo:  90%|████████▉ | 53/59 [05:24<00:37,  6.21s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=08\consumo.parquet (12875 registros)
  [PROC] Procesando consumo 2024-09...


  Procesando consumo:  92%|█████████▏| 54/59 [05:30<00:30,  6.17s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=09\consumo.parquet (12258 registros)
  [PROC] Procesando consumo 2024-10...


  Procesando consumo:  93%|█████████▎| 55/59 [05:35<00:24,  6.08s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=10\consumo.parquet (12145 registros)
  [PROC] Procesando consumo 2024-11...


  Procesando consumo:  95%|█████████▍| 56/59 [05:42<00:18,  6.15s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=11\consumo.parquet (12219 registros)
  [PROC] Procesando consumo 2024-12...


  Procesando consumo:  97%|█████████▋| 57/59 [05:48<00:12,  6.06s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2024\month=12\consumo.parquet (12139 registros)
  [PROC] Procesando consumo 2025-01...


  Procesando consumo:  98%|█████████▊| 58/59 [05:54<00:06,  6.10s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2025\month=01\consumo.parquet (12775 registros)
  [PROC] Procesando consumo 2025-02...


  Procesando consumo: 100%|██████████| 59/59 [06:00<00:00,  6.11s/it]

  [OK] Guardado: ../../data/interim\consumo\year=2025\month=02\consumo.parquet (12867 registros)
  [OK] consumo: 59 procesados, 0 saltados
CPU times: total: 3min 56s
Wall time: 6min 6s





## Resumen de Procesamiento

In [8]:
# Mostrar resumen
print("\n" + "="*60)
print("RESUMEN FINAL")
print("="*60)
for source, stats in summary.items():
    print(f"\n{source.upper()}:")
    print(f"  - Procesados: {stats['processed']}")
    print(f"  - Saltados: {stats['skipped']}")
    print(f"  - Total pendientes encontrados: {stats['total_pending']}")


RESUMEN FINAL

INSPECCIONES:
  - Procesados: 41
  - Saltados: 0
  - Total pendientes encontrados: 41

CONSUMO:
  - Procesados: 59
  - Saltados: 0
  - Total pendientes encontrados: 59


## Verificar Archivos Procesados

Lista los parquets generados en `interim/` para verificar.

In [9]:
import glob
import re

# Listar archivos procesados
for source in SOURCES:
    pattern = os.path.join(INTERIM_DIR, source, "year=*", "month=*", f"{source}.parquet")
    files = sorted(glob.glob(pattern))
    print(f"\n{source.upper()}: {len(files)} archivos procesados")
    if len(files) <= 10:
        for f in files:
            # Extraer year/month del path
            match = re.search(r"year=(\d{4})/month=(\d{2})", f.replace("\\", "/"))
            if match:
                print(f"  - {match.group(1)}-{match.group(2)}")
    else:
        print(f"  (mostrando primeros 5 y últimos 5)")
        for f in files[:5]:
            match = re.search(r"year=(\d{4})/month=(\d{2})", f.replace("\\", "/"))
            if match:
                print(f"  - {match.group(1)}-{match.group(2)}")
        print("  ...")
        for f in files[-5:]:
            match = re.search(r"year=(\d{4})/month=(\d{2})", f.replace("\\", "/"))
            if match:
                print(f"  - {match.group(1)}-{match.group(2)}")


INSPECCIONES: 44 archivos procesados
  (mostrando primeros 5 y últimos 5)
  - 2021-01
  - 2021-02
  - 2021-03
  - 2021-04
  - 2021-05
  ...
  - 2024-04
  - 2024-05
  - 2024-06
  - 2024-07
  - 2024-08

CONSUMO: 62 archivos procesados
  (mostrando primeros 5 y últimos 5)
  - 2020-01
  - 2020-02
  - 2020-03
  - 2020-04
  - 2020-05
  ...
  - 2024-10
  - 2024-11
  - 2024-12
  - 2025-01
  - 2025-02
