# üèÜ Proyecto Integrador Senior 1: Plataforma de Datos Completa

Objetivo: dise√±ar e implementar una plataforma moderna de datos con governance, lakehouse, orquestaci√≥n, observabilidad y compliance.

- Duraci√≥n: 180+ min (proyecto multi-d√≠a)
- Dificultad: Muy Alta
- Prerrequisitos: Todos los notebooks Senior 01‚Äì08

## 1. Contexto y requerimientos

**Empresa**: E-commerce global con 3 dominios de datos (Ventas, Log√≠stica, Anal√≠tica).

**Requerimientos funcionales**:
- Ingestar transacciones en tiempo real (Kafka) y batch nocturno (archivos SFTP).
- Almacenar en data lakehouse (Parquet + Delta Lake) particionado por fecha y regi√≥n.
- Cat√°logo central con metadatos, linaje y pol√≠ticas de acceso (Glue/Unity/DataHub).
- Orquestaci√≥n diaria con Airflow: validaciones de calidad, transformaciones, reportes.
- APIs de servicio (FastAPI) para consultas ad-hoc por BI y cient√≠ficos de datos.

**Requerimientos no funcionales**:
- Compliance GDPR: enmascaramiento de PII, derecho al olvido.
- SLO: latencia p99 < 30 min, disponibilidad > 99.5%.
- Costos: < $5000/mes, optimizaci√≥n continua (FinOps).
- Observabilidad: logs estructurados, m√©tricas en Prometheus, linaje en DataHub.
- Seguridad: IAM con m√≠nimo privilegio, cifrado at-rest y in-transit, auditor√≠a.

## 2. Arquitectura propuesta

In [None]:
arquitectura_diagrama = '''
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê       ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê       ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ  Transac-   ‚îÇ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ    Kafka     ‚îÇ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ  Spark        ‚îÇ
‚îÇ  ciones RT  ‚îÇ       ‚îÇ  (streaming) ‚îÇ       ‚îÇ  Streaming    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò       ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò       ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                                      ‚îÇ
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê       ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê              ‚îÇ
‚îÇ  Archivos   ‚îÇ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ   Airflow    ‚îÇ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ  SFTP Batch ‚îÇ       ‚îÇ  (orquesta)  ‚îÇ              ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò       ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò              ‚îÇ
                                                     ‚ñº
                      ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
                      ‚îÇ  Data Lakehouse (S3 + Delta)     ‚îÇ
                      ‚îÇ  - raw/                          ‚îÇ
                      ‚îÇ  - curated/                      ‚îÇ
                      ‚îÇ  - gold/ (agregados)             ‚îÇ
                      ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                ‚îÇ
                ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îº‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
                ‚ñº               ‚ñº               ‚ñº
         ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê   ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
         ‚îÇ  Athena  ‚îÇ   ‚îÇ FastAPI  ‚îÇ   ‚îÇ   BI     ‚îÇ
         ‚îÇ  (SQL)   ‚îÇ   ‚îÇ (APIs)   ‚îÇ   ‚îÇ (Tableau)‚îÇ
         ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

Observabilidad: Prometheus + Grafana + DataHub (linaje)
Seguridad: IAM, KMS, CloudTrail, enmascaramiento PII
'''
print(arquitectura_diagrama)

## 3. Componentes a implementar (checklist)

In [None]:
checklist = '''
‚òê 1. Kafka cluster (Docker Compose local o MSK en AWS)
‚òê 2. Productor de eventos simulados (transacciones)
‚òê 3. Consumidor Spark Streaming ‚Üí Delta Lake (S3)
‚òê 4. Airflow DAG batch: SFTP ‚Üí raw ‚Üí validaci√≥n ‚Üí curated ‚Üí gold
‚òê 5. Validaciones de calidad con Great Expectations
‚òê 6. Enmascaramiento de PII (email, tarjeta)
‚òê 7. Cat√°logo con Glue Data Catalog o DataHub
‚òê 8. Linaje con OpenLineage (plugin Airflow)
‚òê 9. FastAPI endpoint para consultas SQL (proxy a Athena/Trino)
‚òê 10. M√©tricas Prometheus exportadas por pipelines
‚òê 11. Dashboard Grafana con SLOs y alertas
‚òê 12. Pol√≠ticas IAM con m√≠nimo privilegio
‚òê 13. Cifrado KMS para S3 y RDS
‚òê 14. Auditor√≠a CloudTrail habilitada
‚òê 15. Presupuestos y alertas de costos (AWS Budgets)
‚òê 16. Documentaci√≥n t√©cnica y runbooks
‚òê 17. Tests de integraci√≥n (Pytest)
‚òê 18. CI/CD con GitHub Actions (lint, test, deploy)
'''
print(checklist)

## 4. Implementaci√≥n paso a paso

### 4.1 Setup inicial
- Crear bucket S3 con estructura `raw/`, `curated/`, `gold/`.
- Configurar Glue Data Catalog con base de datos `ecommerce`.
- Levantar Kafka local con Docker Compose (zookeeper + broker).

### 4.2 Streaming path
- Productor Python: genera eventos JSON (transacci√≥n_id, cliente_id, monto, timestamp).
- Spark Structured Streaming: consume de Kafka, valida schema, escribe a Delta en `curated/ventas/`.
- Checkpointing idempotente.

### 4.3 Batch path
- Airflow DAG: sensor SFTP ‚Üí download ‚Üí validate (GE) ‚Üí transform (Pandas/Spark) ‚Üí write Delta ‚Üí optimize.
- Agregaciones gold: ventas por d√≠a/regi√≥n/producto.

### 4.4 Governance y seguridad
- Enmascarar email y tarjeta antes de escribir en curated.
- Registrar linaje en DataHub v√≠a OpenLineage.
- Configurar IAM roles para Spark, Airflow, APIs.

### 4.5 Observabilidad
- Exportar m√©tricas de conteo, latencia, errores.
- Dashboard Grafana con paneles por pipeline.
- Alertas en Slack si SLO violado.

### 4.6 Servicio de consultas
- FastAPI endpoint `/query` que ejecuta SQL en Athena y retorna JSON.
- Cach√© Redis para queries repetitivas.
- Rate limiting por API key.

## 5. Entregables

- Repositorio Git con c√≥digo (pipelines, DAGs, APIs, tests).
- Diagrama de arquitectura actualizado.
- Documento de dise√±o (decisiones t√©cnicas, trade-offs).
- Dashboard Grafana exportado (JSON).
- Runbook de operaciones (troubleshooting, rollback).
- Video/demo ejecutando pipeline end-to-end.

## 6. Evaluaci√≥n

- Funcionalidad: ¬øpipelines ejecutan correctamente?
- Calidad: ¬øvalidaciones y tests implementados?
- Observabilidad: ¬øm√©tricas y linaje visibles?
- Seguridad: ¬øIAM, cifrado, PII enmascarado?
- Costos: ¬øpresupuesto respetado?
- Documentaci√≥n: ¬øclara y completa?