# üöÄ Proyecto Integrador 2: Pipeline Near Real-Time, Scheduling y Alertas

Este proyecto consolida el nivel Junior con un pipeline que monitorea una carpeta de entrada, valida y transforma nuevos archivos CSV en tiempo casi real, carga resultados, genera m√©tricas, registra logs, implementa reintentos con backoff y env√≠a notificaciones (stub).

Objetivos:
- ‚úÖ Monitoreo de archivos nuevos (file watcher)
- ‚úÖ Validaci√≥n de esquema y calidad
- ‚úÖ Transformaci√≥n y enriquecimiento
- ‚úÖ Carga a SQLite y Parquet
- ‚úÖ M√©tricas y logging estructurado
- ‚úÖ Reintentos con backoff e idempotencia
- ‚úÖ Notificaciones (Slack/Email stub)
- ‚úÖ Scheduling simple sin dependencias externas

## 1. Configuraci√≥n y Estructura

In [None]:
import os, json, time, sqlite3, logging, traceback, hashlib
from datetime import datetime
from typing import Dict, List, Optional, Tuple
import pandas as pd
import numpy as np

BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), '..', '..'))
INPUT_DIR = os.path.join(BASE_DIR, 'ingest', 'incoming')
CHKPT_DIR = os.path.join(BASE_DIR, 'ingest', 'checkpoints')
OUT_DIR = os.path.join(BASE_DIR, 'outputs', 'proyecto_2')
LOGS_DIR = os.path.join(BASE_DIR, 'logs')

for d in [INPUT_DIR, CHKPT_DIR, OUT_DIR, LOGS_DIR]:
    os.makedirs(d, exist_ok=True)

DB_PATH = os.path.join(OUT_DIR, 'near_rt_analytics.db')
PARQUET_DIR = os.path.join(OUT_DIR, 'parquet')
os.makedirs(PARQUET_DIR, exist_ok=True)

# Logging
logging.basicConfig(level=logging.INFO,
    format='%(asctime)s %(levelname)s %(message)s',
    handlers=[
        logging.FileHandler(os.path.join(LOGS_DIR, 'proyecto_integrador_2.log'), encoding='utf-8'),
        logging.StreamHandler()
    ])
logger = logging.getLogger('near_rt_pipeline')
logger.info('‚úÖ Entorno inicializado')
print('BASE_DIR:', BASE_DIR)
print('INPUT_DIR:', INPUT_DIR)
print('OUT_DIR:', OUT_DIR)

### üèóÔ∏è Arquitectura de Pipeline Near Real-Time

**Concepto:** Pipeline que procesa archivos autom√°ticamente al detectar nuevos en carpeta monitoreada.

**Estructura de directorios:**
- **ingest/incoming/**: Archivos nuevos llegan aqu√≠ (trigger)
- **ingest/checkpoints/**: Metadata de archivos procesados (evita duplicados)
- **outputs/proyecto_2/**: Datos transformados (DB + Parquet)
- **logs/**: Trazabilidad de ejecuci√≥n

**Patr√≥n:**
1. Watchdog monitorea incoming/
2. Detecta nuevo archivo ‚Üí valida ‚Üí transforma ‚Üí carga
3. Guarda checkpoint para idempotencia

**Uso:** Pipelines batch-streaming, ingesta continua sin colas MQ complejas.

## 2. Utilidades: Hash, Checkpoints, Notificaciones (stub)

In [None]:
def file_md5(path: str) -> str:
    h = hashlib.md5()
    with open(path, 'rb') as f:
        for chunk in iter(lambda: f.read(8192), b''):
            h.update(chunk)
    return h.hexdigest()

def chkpt_path(filename: str) -> str:
    base = os.path.basename(filename)
    return os.path.join(CHKPT_DIR, base + '.json')

def is_processed(filename: str, md5sum: str) -> bool:
    p = chkpt_path(filename)
    if not os.path.exists(p):
        return False
    try:
        data = json.load(open(p, 'r', encoding='utf-8'))
        return data.get('md5') == md5sum
    except Exception:
        return False

def save_chkpt(filename: str, md5sum: str, rows: int, status: str, error: Optional[str]=None):
    p = chkpt_path(filename)
    payload = {
        'filename': os.path.basename(filename),
        'md5': md5sum,
        'rows': rows,
        'status': status,
        'error': error,
        'timestamp': datetime.utcnow().isoformat()
    }
    json.dump(payload, open(p, 'w', encoding='utf-8'), ensure_ascii=False, indent=2)

def notify(message: str, level: str = 'info') -> None:
    """
    Stub de notificaci√≥n: aqu√≠ ir√≠a Slack webhook o email SMTP.
    Para Slack: POST a https://hooks.slack.com/services/... con {'text': message}
    Para Email: usar smtplib con credenciales seguras (no hardcodear).
    """
    levels = {'info': logging.INFO, 'warning': logging.WARNING, 'error': logging.ERROR}
    logger.log(levels.get(level, logging.INFO), f'üîî {message}')

print('‚úÖ Utilidades listas')

### üîí Idempotencia: Checkpoints y Hash MD5

**Concepto:** Evitar procesar el mismo archivo m√∫ltiples veces mediante checksums y metadata.

**Componentes:**
- **MD5 Hash:** Firma √∫nica del contenido del archivo
- **Checkpoint JSON:** Almacena {filename, md5, timestamp, status}
- **is_processed():** Verifica si archivo ya fue procesado

**Flujo:**
1. Calcular MD5 del archivo nuevo
2. Buscar checkpoint existente
3. Si MD5 coincide ‚Üí skip (ya procesado)
4. Si no ‚Üí procesar y guardar checkpoint

**Importancia:** Pipeline idempotente permite reintentos sin duplicar datos (requisito producci√≥n).

## 3. Validaci√≥n de Esquema y Transformaci√≥n

In [None]:
EXPECTED_COLUMNS = {
    'venta_id': 'int64',
    'cliente_id': 'int64',
    'producto_id': 'int64',
    'cantidad': 'int64',
    'precio_unitario': 'float64',
    'total': 'float64',
    'fecha_venta': 'datetime64[ns]',
    'metodo_pago': 'object',
    'estado': 'object'
}

def read_csv_safe(path: str) -> pd.DataFrame:
    df = pd.read_csv(path)
    # Normalizaci√≥n m√≠nima
    if 'fecha_venta' in df.columns:
        df['fecha_venta'] = pd.to_datetime(df['fecha_venta'], errors='coerce')
    return df

def validate_schema(df: pd.DataFrame) -> Tuple[bool, List[str]]:
    errors = []
    for col, dtype in EXPECTED_COLUMNS.items():
        if col not in df.columns:
            errors.append(f
        else:
            # Validaci√≥n de tipo (suave)
            if dtype.startswith('datetime'):
                if not np.issubdtype(df[col].dtype, np.datetime64):
                    errors.append(f"Tipo inv√°lido en {col}: {df[col].dtype}")
            elif dtype == 'object':
                pass
            else:
                if str(df[col].dtype) != dtype:
                    errors.append(f"Tipo inv√°lido en {col}: {df[col].dtype} (esperado {dtype})")
    return (len(errors) == 0, errors)

def transform(df: pd.DataFrame) -> pd.DataFrame:
    out = df.copy()
    out['anio'] = out['fecha_venta'].dt.year
    out['mes'] = out['fecha_venta'].dt.to_period('M').astype(str)
    out['ticket_unitario'] = out['total'] / out['cantidad']
    return out

print('‚úÖ Validadores definidos')

### ‚úì Validaci√≥n de Esquema: Data Contract

**Concepto:** Validar que datos entrantes cumplan esquema esperado antes de procesar.

**Data Contract:**
- Diccionario con columnas esperadas y tipos de datos
- Valida presencia de columnas obligatorias
- Verifica tipos de datos (int64, float64, datetime64, object)

**Flujo:**
1. Leer CSV con `pd.read_csv()`
2. Normalizar fechas con `pd.to_datetime(errors='coerce')`
3. Validar esquema contra contrato
4. Si falla ‚Üí logear errores y rechazar archivo
5. Si pasa ‚Üí aplicar transformaciones

**Ventaja:** Detecci√≥n temprana de problemas, evita corrupci√≥n downstream.

## 4. Carga y M√©tricas

In [None]:
def load_to_sqlite(df: pd.DataFrame, table: str = 'ventas_near_rt') -> None:
    conn = sqlite3.connect(DB_PATH)
    try:
        df.to_sql(table, conn, if_exists='append', index=False)
    finally:
        conn.close()

def export_parquet(df: pd.DataFrame, base_name: str) -> str:
    ts = datetime.utcnow().strftime('%Y%m%dT%H%M%S')
    out_path = os.path.join(PARQUET_DIR, f
)
    df.to_parquet(out_path, index=False)
    return out_path

def compute_metrics(df: pd.DataFrame) -> Dict:
    return {
        'rows': len(df),
        'total_sum': float(df['total'].sum()),
        'ticket_promedio': float(df['total'].mean()),
        'clientes_unicos': int(df['cliente_id'].nunique())
    }

print('‚úÖ Funciones de carga y m√©tricas listas')

### üíæ Dual Output: SQLite + Parquet

**Concepto:** Persistir datos en m√∫ltiples formatos para diferentes casos de uso.

**SQLite:**
- `if_exists='append'`: a√±ade registros sin sobrescribir
- Ideal para: queries SQL, an√°lisis ad-hoc, dashboards peque√±os
- Limitaci√≥n: no escala para Big Data

**Parquet:**
- Formato columnar comprimido
- Timestamped: `ventas_20250101T120000.parquet`
- Ideal para: data lakes, analytics distribuidos (Spark, Athena)
- Ventaja: 10-100x m√°s eficiente que CSV

**Estrategia:** SQLite para operacional, Parquet para hist√≥rico y analytics.

## 5. Worker con Reintentos y Backoff

In [None]:
def process_file(path: str, max_retries: int = 3) -> bool:
    md5sum = file_md5(path)
    if is_processed(path, md5sum):
        logger.info(f'‚è≠Ô∏è Ya procesado: {os.path.basename(path)}')
        return True

    sleep = 1.0
    for attempt in range(1, max_retries+1):
        try:
            logger.info(f'üì• Procesando {os.path.basename(path)} (intento {attempt})')
            df = read_csv_safe(path)
            ok, errs = validate_schema(df)
            if not ok:
                raise ValueError('Esquema inv√°lido: ' + '; '.join(errs))
            df_t = transform(df)
            load_to_sqlite(df_t)
            pq = export_parquet(df_t, base_name=os.path.splitext(os.path.basename(path))[0])
            m = compute_metrics(df_t)
            save_chkpt(path, md5sum, rows=len(df_t), status='ok')
            notify(f

### üîÑ Retry Logic con Exponential Backoff

**Concepto:** Reintentar operaciones fallidas con delays incrementales para manejar errores transitorios.

**Par√°metros:**
- **max_retries:** n√∫mero m√°ximo de intentos (ej: 3)
- **base_delay:** delay inicial en segundos (ej: 2s)
- **backoff:** multiplicador entre intentos (ej: 2x)

**Ejemplo de delays:**
- Intento 1: 2s
- Intento 2: 4s (2 √ó 2)
- Intento 3: 8s (4 √ó 2)

**Cu√°ndo usar:**
- Errores de red/conexi√≥n
- Rate limits de APIs
- Locks de base de datos
- Servicios externos temporalmente ca√≠dos

**Nota:** No reintentar errores l√≥gicos (validaci√≥n fallida, datos corruptos).

## 6. Scheduler Simple con Polling

In [None]:
def scan_and_process(interval_sec: int = 5, max_iterations: int = 10) -> None:
    """
    Monitorea carpeta incoming/ cada interval_sec segundos.
    Procesa archivos nuevos detectados.
    """
    logger.info(f'üëÄ Iniciando monitoreo cada {interval_sec}s (max {max_iterations} iteraciones)')
    
    for i in range(max_iterations):
        logger.info(f'üîç Scan #{i+1}')
        files = [f for f in os.listdir(INPUT_DIR) if f.endswith('.csv')]
        
        if not files:
            logger.info('  ‚îî‚îÄ No hay archivos CSV')
        else:
            logger.info(f'  ‚îî‚îÄ Detectados {len(files)} archivos')
            for fname in files:
                fpath = os.path.join(INPUT_DIR, fname)
                success = process_file(fpath, max_retries=3)
                
                # Mover archivo procesado a carpeta processed/
                processed_dir = os.path.join(BASE_DIR, 'ingest', 'processed')
                os.makedirs(processed_dir, exist_ok=True)
                dest = os.path.join(processed_dir, fname)
                
                try:
                    os.rename(fpath, dest)
                    logger.info(f'  ‚úÖ Movido a processed/: {fname}')
                except Exception as e:
                    logger.warning(f'  ‚ö†Ô∏è No se pudo mover {fname}: {e}')
        
        if i < max_iterations - 1:
            time.sleep(interval_sec)
    
    logger.info('üèÅ Monitoreo finalizado')

print('‚úÖ Funci√≥n de scheduler lista')

### ‚è∞ Polling Loop: Monitoreo Peri√≥dico

**Concepto:** Revisar carpeta en intervalos regulares para detectar nuevos archivos.

**Implementaci√≥n:**
- Loop con `time.sleep(interval_sec)`
- Lista archivos `.csv` en `incoming/`
- Procesa cada uno con `process_file()`
- Mueve archivos a `processed/` despu√©s de procesar

**Ventajas:**
- Simple, sin dependencias externas
- F√°cil de debuggear
- Suficiente para vol√∫menes bajos/medios

**Desventajas:**
- No es real-time (delay = interval)
- Consumo CPU innecesario si no hay archivos
- No escala para miles de archivos

**Alternativas avanzadas:**
- **watchdog**: Library Python para file system events
- **Airflow FileSensor**: Detecta archivos en schedule
- **Kafka/Pub-Sub**: Event streaming para pipelines distribuidos

**Uso:** Prototipos, demos, ambientes controlados.

---

## 7. Ejecuci√≥n y Testing

Generaremos archivos de prueba y ejecutaremos el pipeline para verificar su funcionamiento.

### üß™ Generar Archivos de Prueba

In [None]:
import random
from datetime import datetime, timedelta

def generate_test_files(num_files: int = 3, rows_per_file: int = 10) -> None:
    """Genera archivos CSV de prueba en la carpeta incoming."""
    productos = ["Laptop", "Mouse", "Teclado", "Monitor", "Webcam", "Auriculares"]
    categorias = ["Electr√≥nica", "Accesorios"]
    
    for i in range(num_files):
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        filename = INPUT_DIR / f"ventas_{timestamp}_{i}.csv"
        
        rows = []
        base_date = datetime.now() - timedelta(days=random.randint(1, 30))
        
        for j in range(rows_per_file):
            fecha = (base_date + timedelta(hours=j)).strftime("%Y-%m-%d %H:%M:%S")
            producto = random.choice(productos)
            categoria = random.choice(categorias)
            cantidad = random.randint(1, 5)
            precio = round(random.uniform(10.0, 500.0), 2)
            
            # Introducir errores aleatorios (10% de probabilidad)
            if random.random() < 0.1:
                # Error de tipo: cantidad negativa
                cantidad = -cantidad
            
            rows.append({
                "fecha": fecha,
                "producto": producto,
                "categoria": categoria,
                "cantidad": cantidad,
                "precio": precio
            })
        
        df = pd.DataFrame(rows)
        df.to_csv(filename, index=False)
        print(f"‚úÖ Generado: {filename.name} ({len(df)} filas)")
        
        # Esperar un poco para que los timestamps sean diferentes
        time.sleep(0.5)
    
    print(f"\nüìÅ Total archivos generados: {num_files}")

# Generar archivos de prueba
generate_test_files(num_files=3, rows_per_file=10)

### ‚ñ∂Ô∏è Ejecutar el Pipeline

In [None]:
# Ejecutar el scheduler (procesar√° los archivos generados)
print("üöÄ Iniciando pipeline...")
print(f"üìÇ Monitoreando: {INPUT_DIR}")
print(f"‚è±Ô∏è  Intervalo: 5 segundos")
print(f"üîÑ Max iteraciones: 10\n")

scan_and_process(interval_sec=5, max_iterations=10)

print("\n‚úÖ Pipeline completado")

### üìä Verificar Resultados en Base de Datos

In [None]:
import sqlite3

# Conectar a la base de datos
conn = sqlite3.connect(DB_PATH)

# Verificar registros insertados
print("üìä DATOS EN LA BASE DE DATOS:")
print("=" * 60)

query = """
SELECT 
    fecha,
    producto,
    categoria,
    cantidad,
    precio,
    precio * cantidad as total
FROM ventas
ORDER BY fecha DESC
LIMIT 20
"""

df_results = pd.read_sql_query(query, conn)
print(f"\nTotal registros en DB: {len(pd.read_sql_query('SELECT * FROM ventas', conn))}")
print(f"\n√öltimos 20 registros:\n")
print(df_results.to_string(index=False))

# Estad√≠sticas por producto
print("\n\nüìà ESTAD√çSTICAS POR PRODUCTO:")
print("=" * 60)

stats_query = """
SELECT 
    producto,
    COUNT(*) as total_ventas,
    SUM(cantidad) as unidades_vendidas,
    ROUND(AVG(precio), 2) as precio_promedio,
    ROUND(SUM(precio * cantidad), 2) as revenue_total
FROM ventas
GROUP BY producto
ORDER BY revenue_total DESC
"""

df_stats = pd.read_sql_query(stats_query, conn)
print(df_stats.to_string(index=False))

conn.close()

---

## 8. M√©tricas y Auditor√≠a

Verificaremos los checkpoints para auditar el procesamiento de archivos.

### üìã Revisi√≥n de Checkpoints

In [None]:
# Leer checkpoints para auditor√≠a
if CHECKPOINT_FILE.exists():
    df_checkpoints = pd.read_csv(CHECKPOINT_FILE)
    
    print("üìã HISTORIAL DE PROCESAMIENTO:")
    print("=" * 80)
    print(df_checkpoints.to_string(index=False))
    
    # Resumen de estados
    print("\n\nüìä RESUMEN POR ESTADO:")
    print("=" * 80)
    status_summary = df_checkpoints['status'].value_counts()
    for status, count in status_summary.items():
        icon = "‚úÖ" if status == "success" else "‚ùå"
        print(f"{icon} {status}: {count}")
    
    # M√©tricas de tiempo
    print("\n\n‚è±Ô∏è  M√âTRICAS DE TIEMPO:")
    print("=" * 80)
    df_checkpoints['duration'] = pd.to_datetime(df_checkpoints['processed_at']) - pd.to_datetime(df_checkpoints['processed_at'])
    
    success_files = df_checkpoints[df_checkpoints['status'] == 'success']
    if len(success_files) > 0:
        print(f"Total archivos procesados exitosamente: {len(success_files)}")
        print(f"Total registros insertados: {success_files['records_inserted'].sum()}")
        print(f"Promedio registros por archivo: {success_files['records_inserted'].mean():.1f}")
    
    failed_files = df_checkpoints[df_checkpoints['status'] == 'failed']
    if len(failed_files) > 0:
        print(f"\n‚ö†Ô∏è  Archivos fallidos: {len(failed_files)}")
        print("\nDetalles de errores:")
        for _, row in failed_files.iterrows():
            print(f"  - {row['filename']}: {row['error_message']}")
else:
    print("‚ö†Ô∏è  No se encontr√≥ archivo de checkpoints")

### üóÇÔ∏è Verificar Archivos Movidos

In [None]:
# Verificar que los archivos se movieron correctamente
print("üìÇ ESTADO DE LAS CARPETAS:")
print("=" * 60)

incoming_files = list(INPUT_DIR.glob("*.csv"))
processed_files = list(PROCESSED_DIR.glob("*.csv"))
failed_files = list(FAILED_DIR.glob("*.csv"))

print(f"\nüì• Incoming: {len(incoming_files)} archivos")
for f in incoming_files:
    print(f"  - {f.name}")

print(f"\n‚úÖ Processed: {len(processed_files)} archivos")
for f in processed_files:
    print(f"  - {f.name}")

print(f"\n‚ùå Failed: {len(failed_files)} archivos")
for f in failed_files:
    print(f"  - {f.name}")

print("\nüí° Resultado esperado: Incoming debe estar vac√≠o despu√©s del procesamiento")

---

## 9. Conclusi√≥n y Siguientes Pasos

### üéØ Lo que Hemos Construido

En este proyecto integrador hemos desarrollado un **pipeline de datos casi en tiempo real** que incluye:

1. **Configuraci√≥n modular**: Paths centralizados y f√°cilmente configurables
2. **Validaci√≥n robusta**: Esquemas estrictos con manejo de errores detallado
3. **Idempotencia**: Checkpoints para evitar reprocesamiento
4. **Retry logic**: Reintentos autom√°ticos con backoff exponencial
5. **Scheduler simple**: Polling loop para monitoreo continuo
6. **Auditor√≠a completa**: Tracking de cada archivo procesado
7. **Gesti√≥n de archivos**: Organizaci√≥n autom√°tica (incoming ‚Üí processed/failed)

### üöÄ Componentes Clave del Pipeline

```
incoming/           ‚Üí  Archivos nuevos llegan aqu√≠
   ‚Üì
[Scheduler]        ‚Üí  Detecta archivos cada N segundos
   ‚Üì
[Validation]       ‚Üí  Verifica esquema y calidad de datos
   ‚Üì
[Transform]        ‚Üí  Limpieza y preparaci√≥n
   ‚Üì
[Load]             ‚Üí  Inserci√≥n a SQLite con retry
   ‚Üì
[Checkpoint]       ‚Üí  Registro de auditor√≠a
   ‚Üì
processed/failed/  ‚Üí  Organizaci√≥n final
```

### üí° Conceptos Aplicados

- **ETL (Extract-Transform-Load)**: Extracci√≥n de CSV, transformaci√≥n con Pandas, carga a SQL
- **Data Quality**: Validaci√≥n de tipos, rangos, valores requeridos
- **Resilience**: Manejo de errores, reintentos, estados de recuperaci√≥n
- **Near Real-Time**: Latencia de segundos con polling loop
- **Observability**: Logs, checkpoints, m√©tricas de procesamiento

### üìä M√©tricas de √âxito

Un pipeline bien dise√±ado debe cumplir:

‚úÖ **Correcci√≥n**: 100% de registros v√°lidos insertados  
‚úÖ **Idempotencia**: Sin duplicados en reprocesamiento  
‚úÖ **Trazabilidad**: Auditor√≠a completa de cada archivo  
‚úÖ **Resiliencia**: Recuperaci√≥n autom√°tica de errores transitorios  
‚úÖ **Eficiencia**: Procesamiento en segundos para vol√∫menes bajos/medios  

### üîß Mejoras Futuras

**Nivel Mid:**
1. **Apache Airflow**: Reemplazar polling con DAGs programados
2. **Validaci√≥n avanzada**: Great Expectations para data quality
3. **Particionamiento**: Organizar datos por fecha para queries eficientes
4. **Paralelizaci√≥n**: Procesar m√∫ltiples archivos simult√°neamente
5. **Alertas**: Notificaciones email/Slack en caso de errores

**Nivel Senior:**
6. **Streaming real**: Kafka + Spark Structured Streaming para latencia <1s
7. **Data Lake**: Almacenamiento en S3/GCS con formato Parquet/Delta
8. **Linaje de datos**: Rastreo completo del origen de cada registro
9. **ML Integration**: Feature store para modelos de ML
10. **Cloud deployment**: Kubernetes + auto-scaling

### üéì Habilidades Desarrolladas

- ‚úÖ Dise√±o de ETL incremental
- ‚úÖ Validaci√≥n de datos con esquemas
- ‚úÖ Manejo de errores y reintentos
- ‚úÖ Logging y auditor√≠a
- ‚úÖ Patrones de resiliencia
- ‚úÖ Organizaci√≥n de c√≥digo modular
- ‚úÖ Testing con datos sint√©ticos

### üìö Recursos Adicionales

- **Great Expectations**: https://greatexpectations.io/
- **Apache Airflow**: https://airflow.apache.org/
- **Data Quality Patterns**: https://www.thoughtworks.com/insights/blog/data-quality
- **Python Logging Best Practices**: https://docs.python.org/3/howto/logging.html

---

### üèÜ ¬°Felicidades!

Has completado el **Proyecto Integrador 2** del nivel Junior. Este pipeline es la base de sistemas de datos profesionales.

**Pr√≥ximo paso:** Nivel Mid ‚Üí Aprende Airflow, Cloud (AWS/GCP/Azure), y arquitecturas distribuidas üöÄ