# Contexto de Negocio y Marco de Trabajo

## Empresa y situaci√≥n
El flujo de pedidos crece y requiere actualizaciones frecuentes del lakehouse. Reprocesar todo a diario es costoso.

## Qu√© / Por qu√© / Para qu√© / Cu√°ndo / C√≥mo
- Qu√©: Pipeline incremental de √≥rdenes en Parquet.
- Por qu√©: Reducir tiempo y costos de c√≥mputo vs recargas completas.
- Para qu√©: Mantener datos frescos para anal√≠tica y monitoreo operativo.
- Cu√°ndo: Cada 1‚Äì4 horas seg√∫n criticidad.
- C√≥mo: Checkpoint de fecha, filtrado incremental, append y actualizaci√≥n de checkpoint.

In [1]:
# Configuraci√≥n del entorno
import sys
from pathlib import Path

# Agregar el directorio ra√≠z al path para imports
root_dir = Path.cwd().parent.parent
if str(root_dir) not in sys.path:
    sys.path.insert(0, str(root_dir))

print(f"‚úÖ Root directory agregado al path: {root_dir}")

‚úÖ Root directory agregado al path: f:\GitHub\supply-chain-data-notebooks


# Contexto de Negocio y Marco de Trabajo

## Empresa y situaci√≥n
Retailer con sistema de √≥rdenes distribuido que genera archivos diarios. Se necesita un pipeline incremental eficiente para procesar solo las √≥rdenes nuevas o modificadas.

## Qu√© / Por qu√© / Para qu√© / Cu√°ndo / C√≥mo
- Qu√©: Pipeline incremental que detecta y procesa solo las √≥rdenes nuevas desde la √∫ltima ejecuci√≥n.
- Por qu√©: Evitar reprocesar todo el hist√≥rico diariamente ahorra tiempo y recursos computacionales.
- Para qu√©: Mantener un data warehouse actualizado con baja latencia para an√°lisis near real-time.
- Cu√°ndo: Ejecutar cada hora o cada 4 horas seg√∫n la criticidad del negocio.
- C√≥mo: Usar checkpoints para rastrear la √∫ltima fecha procesada y filtrar incrementalmente.

---
id: "DE-02"
title: "Pipeline incremental de √≥rdenes"
specialty: "Data Engineering"
process: "Deliver"
level: "Intermediate"
tags: ["etl", "incremental", "orders", "python", "parquet"]
estimated_time_min: 45
---

import pandas as pd
from src.utils.paths import DATA_RAW, DATA_PROCESSED, ensure_dirs
from src.utils.logging import get_logger

ensure_dirs()
logger = get_logger('DE-02')
logger.info('Iniciando pipeline incremental de √≥rdenes')
print('‚úÖ Librer√≠as cargadas y rutas preparadas')
---

In [2]:
# ‚öôÔ∏è Preparaci√≥n de entorno y rutas
# Si esta celda tarda demasiado o se cuelga:
# 1) Abre la paleta de comandos (Ctrl+Shift+P)
# 2) "Jupyter: Restart Kernel"
# 3) "Run All Above/Below" o ejecuta desde la primera celda

import sys
from pathlib import Path

# Detectar ra√≠z del repo (buscando pyproject.toml o carpeta src)
_candidates = [Path.cwd(), *Path.cwd().parents]
_repo_root = None
for _p in _candidates:
    if (_p / 'pyproject.toml').exists() or (_p / 'src').exists():
        _repo_root = _p
        break
if _repo_root is None:
    _repo_root = Path.cwd()

if str(_repo_root) not in sys.path:
    sys.path.insert(0, str(_repo_root))

print(f"‚úÖ Entorno listo. Ra√≠z del repo: {_repo_root}")

‚úÖ Entorno listo. Ra√≠z del repo: f:\GitHub\supply-chain-data-notebooks


orders = pd.read_csv(DATA_RAW / 'orders.csv')
orders['date'] = pd.to_datetime(orders['date'])
# Filtrado incremental robusto usando Timestamp
new_orders = orders[orders['date'] > last_ts]
logger.info(f'Nuevas √≥rdenes: {len(new_orders)}')
print(new_orders.head())
Procesar toda la historia diariamente es costoso. Un pipeline incremental reduce tiempo y recursos.

### ¬øPara qu√©?
- Mantener actualizado el lakehouse sin recargas completas
- Habilitar near real-time analytics
- Optimizar uso de infraestructura

### ¬øCu√°ndo?
Ejecutar cada hora o cada 4 horas seg√∫n criticidad del negocio.

### ¬øC√≥mo?
1. Leer √∫ltima fecha procesada desde checkpoint
2. Filtrar √≥rdenes con `date > last_processed`
3. Append a tabla existente
4. Actualizar checkpoint

In [None]:
# üìö CONCEPTO: Pipeline incremental vs carga completa (full load)
# CARGA COMPLETA (Full Load):
# - Lee TODOS los datos hist√≥ricos cada ejecuci√≥n
# - Simple de implementar (un solo SELECT * FROM source)
# - Costoso computacionalmente: O(N) donde N = registros totales
# - Escala mal: si tienes 100M registros, procesar 100M cada d√≠a

# CARGA INCREMENTAL (Incremental Load):
# - Lee SOLO datos nuevos/modificados desde √∫ltima ejecuci√≥n
# - Requiere checkpoint (marca de agua, watermark, last processed timestamp)
# - Eficiente: O(Œî) donde Œî = registros nuevos (t√≠picamente <1% del total)
# - Escala linealmente con volumen de cambios, no con volumen total

# üí° INTERPRETACI√ìN: ¬øCu√°ndo usar incremental?
# USAR INCREMENTAL cuando:
# - Datos hist√≥ricos grandes (>1M registros)
# - Frecuencia de carga alta (cada hora, cada 15 min)
# - Modificaciones raras (append-only o updates poco frecuentes)
# - Costo de c√≥mputo es restricci√≥n (ej: Spark clusters caros)

# NO usar incremental cuando:
# - Datos peque√±os (<100K registros) ‚Üí full load es suficiente
# - L√≥gica compleja de updates/deletes ‚Üí considerar CDC (Change Data Capture)
# - Requerimientos de SCD Type 2 ‚Üí necesitas comparar estados completos

# üîç T√âCNICA: Checkpoint persistente
# El checkpoint debe ser:
# - Persistente: guardado en disco/DB (no en memoria, se pierde al reiniciar)
# - At√≥mico: actualizado SOLO si carga fue exitosa (transaccionalidad)
# - Tipos comunes:
#   * Timestamp: last_processed_date (asume datos ordenados por fecha)
#   * Offset: last_record_id (para bases de datos con IDs secuenciales)
#   * Version: last_snapshot_version (para Delta Lake, Iceberg)

# üéØ APLICACI√ìN: Idempotencia en pipelines incrementales
# Un pipeline idempotente puede ejecutarse m√∫ltiples veces con mismo resultado.
# Para lograr idempotencia:
# - Deduplicar registros (usar DISTINCT o GROUP BY por clave primaria)
# - Usar UPSERT en lugar de INSERT (actualizar si existe, insertar si no)
# - Validar checkpoint antes de actualizar (evitar brechas en datos)

# ‚ö†Ô∏è SUPUESTO: Datos ordenados cronol√≥gicamente
# Este c√≥digo asume que filtrar por date > last_checkpoint captura TODOS
# los datos nuevos. Puede fallar si:
# - Datos llegan desordenados (late-arriving data)
# - Retraso en sistema source (orden 10/01 llega despu√©s que orden 10/02)
# Soluci√≥n: usar ventana de lookback (ej: last_checkpoint - 24h) o CDC

import pandas as pd
from src.utils.paths import DATA_RAW, DATA_PROCESSED, ensure_dirs
from src.utils.logging import get_logger

ensure_dirs()
logger = get_logger('DE-02')
logger.info('Iniciando pipeline incremental de √≥rdenes')
print('‚úÖ Librer√≠as cargadas y rutas preparadas')


2025-12-01 16:22:49,422 - DE-02 - INFO - Iniciando pipeline incremental de √≥rdenes


‚úÖ Librer√≠as cargadas y rutas preparadas
