## üéì Criterios de Evaluaci√≥n (R√∫brica)

| Criterio | Puntos | Descripci√≥n |
|----------|--------|-------------|
| **Modelado** | 20 | Star schema coherente, SCD Tipo 2 implementado, FKs correctas |
| **Performance** | 25 | √çndices estrat√©gicos (no redundantes), particionamiento funcional, queries < 3s |
| **Seguridad** | 15 | Roles granulares, RLS implementado, principio de m√≠nimo privilegio |
| **Automatizaci√≥n** | 20 | Jobs SQL Agent funcionales, manejo de errores en SPs, logging |
| **Observabilidad** | 10 | Dashboard con m√©tricas clave, alertas configuradas |
| **Calidad C√≥digo** | 10 | C√≥digo legible (formato, comentarios), nombres descriptivos, manejo de transacciones |

**Nota m√≠nima aprobatoria:** 70/100  
**Excelencia:** 90-100 ‚Üí Certificaci√≥n Senior SQL Developer

---

## üí° Consejos para el Proyecto

### **Empieza peque√±o:**
1. Crea modelo b√°sico (2 dims + 1 fact) sin particiones
2. Carga datos de prueba (1000 registros)
3. Crea 1 query de dashboard y optim√≠zala
4. Agrega complejidad incremental (particiones, SCD, RLS)

### **Mide todo:**
- Ejecuta queries con `SET STATISTICS TIME, IO ON` antes y despu√©s de √≠ndices
- Documenta mejoras: "Query reducida de 12s a 2s con idx_ventas_fecha (83% mejora)"

### **No reinventes:**
- Usa templates de Microsoft para partition management
- Adapta scripts de observabilidad de este curso
- Pregunta a IA para explicar DMVs complejas

### **Documenta mientras trabajas:**
- Commit diario al repo Git con mensaje descriptivo
- README.md actualizado con progreso
- Screenshots de planes de ejecuci√≥n antes/despu√©s

---

## üöÄ Extensiones Opcionales (Bonus +10 pts c/u)

1. **CI/CD**: GitHub Actions que ejecuta scripts DDL en ambiente de QA
2. **Query Store**: habilitar y analizar regresiones de performance
3. **Replicaci√≥n**: configurar read replica para reportes (aliviar BD principal)
4. **Compresi√≥n**: implementar row/page compression en tablas hist√≥ricas
5. **Auditoria avanzada**: Extended Events para capturar todos los SELECTs de usuarios

---

## Errores Comunes a Evitar

‚ùå **Scope creep**: querer hacer todo perfecto y no entregar nada
‚ùå **No versionar c√≥digo**: perder trabajo por falta de Git
‚ùå **√çndices sin justificar**: crear 20 √≠ndices "por si acaso"
‚ùå **No probar en carga**: funciona con 100 filas, falla con 1M
‚ùå **Documentaci√≥n al final**: ya olvidaste por qu√© tomaste decisiones

---

## üì¶ Estructura de Entrega

```
proyecto-senior-dwh/
‚îú‚îÄ‚îÄ README.md (resumen ejecutivo)
‚îú‚îÄ‚îÄ docs/
‚îÇ   ‚îú‚îÄ‚îÄ arquitectura.md
‚îÇ   ‚îú‚îÄ‚îÄ diccionario_datos.md
‚îÇ   ‚îî‚îÄ‚îÄ runbook.md
‚îú‚îÄ‚îÄ scripts/
‚îÇ   ‚îú‚îÄ‚îÄ 01_ddl_database.sql
‚îÇ   ‚îú‚îÄ‚îÄ 02_ddl_dimensions.sql
‚îÇ   ‚îú‚îÄ‚îÄ 03_ddl_facts.sql
‚îÇ   ‚îú‚îÄ‚îÄ 04_indices.sql
‚îÇ   ‚îú‚îÄ‚îÄ 05_stored_procedures.sql
‚îÇ   ‚îú‚îÄ‚îÄ 06_seguridad_roles.sql
‚îÇ   ‚îú‚îÄ‚îÄ 07_jobs_mantenimiento.sql
‚îÇ   ‚îî‚îÄ‚îÄ 08_queries_dashboard.sql
‚îú‚îÄ‚îÄ tests/
‚îÇ   ‚îú‚îÄ‚îÄ test_calidad_datos.sql
‚îÇ   ‚îî‚îÄ‚îÄ test_performance.sql
‚îî‚îÄ‚îÄ diagrams/
    ‚îî‚îÄ‚îÄ der_datawarehouse.png
```

**Fecha de entrega:** 2 semanas desde inicio  
**Presentaci√≥n:** Demo en vivo de 15 minutos (mostrar dashboard, ejecutar queries, explicar decisiones)

üéØ **¬°√âxito en tu proyecto senior!** Este es el capstone que demuestra dominio completo de SQL a nivel ingeniero de datos.

## üìã Entregables (Sprint de 2 semanas)

### **Sprint 1 (Semana 1): Fundamentos**
1. **DER (Diagrama Entidad-Relaci√≥n)** del data warehouse (draw.io, Lucidchart)
2. **Scripts DDL**:
   - Crear base de datos con filegroups (PRIMARY, SECONDARY para indices)
   - Crear partition function y scheme para fact_ventas
   - Crear dim_* con SCD Tipo 2 en dim_productos
   - Crear fact_* con particionamiento
3. **√çndices**:
   - Clustered en PK de cada tabla
   - Columnstore en fact_ventas
   - Nonclustered en FKs
   - Compuestos para queries de dashboard (documentar qu√© queries benefician)

### **Sprint 2 (Semana 2): Automatizaci√≥n y Observabilidad**
4. **Stored Procedures**:
   - `sp_etl_cargar_ventas`: carga incremental desde staging (con auditor√≠a)
   - `sp_validar_calidad_datos`: detecta anomal√≠as y genera reporte
   - `sp_mantenimiento_indices`: rebuild si fragmentaci√≥n > 30%
5. **Seguridad**:
   - Script de creaci√≥n de roles y permisos
   - RLS en fact_ventas por regi√≥n
6. **Monitoreo**:
   - 4 consultas SQL para dashboard (queries lentas, fragmentaci√≥n, wait stats, espacio)
   - Configurar SQL Agent job de mantenimiento nocturno
7. **Documentaci√≥n** (Markdown):
   - Arquitectura del sistema (diagrama)
   - Diccionario de datos (cada tabla/columna)
   - Runbook de troubleshooting (qu√© hacer ante problemas comunes)
   - Proceso de deployment (orden de ejecuci√≥n de scripts)

# 3.10 Proyecto Senior - Capstone de Data Engineering

## üéØ Objetivo Final
Dise√±ar e implementar un **sistema de data warehouse** completo que integre todo lo aprendido en Level03:
- Performance (√≠ndices, particiones)
- Observabilidad (monitoreo, alertas)
- Seguridad (roles, RLS)
- Mantenimiento (jobs automatizados)
- Calidad (auditor√≠a de datos)

## üìö Contexto del Proyecto

**Empresa:** E-commerce con 500M transacciones/a√±o  
**Problema:** Queries de reportes tardan >5 minutos, bloquean operaciones transaccionales  
**Soluci√≥n:** Migrar a arquitectura de data warehouse con optimizaciones senior

## üîß Requerimientos T√©cnicos

### 1Ô∏è‚É£ **Modelado Dimensional**
Dise√±a modelo estrella (star schema) con:
- **Dimensiones**: dim_clientes, dim_productos, dim_tiempo (granularidad d√≠a), dim_geografia, dim_promociones
- **Hechos**: fact_ventas (transaccional), fact_inventario (snapshot diario), fact_devoluciones
- **SCD Tipo 2**: dim_productos debe mantener historial de cambios de precio

### 2Ô∏è‚É£ **Particionamiento**
- `fact_ventas`: particionar por mes (√∫ltimos 36 meses)
- Proceso automatizado de sliding window (archivar mes m√°s antiguo, crear partici√≥n mes futuro)

### 3Ô∏è‚É£ **√çndices Estrat√©gicos**
- Columnstore index en fact_ventas (consultas anal√≠ticas)
- Nonclustered index en FK (cliente_id, producto_id, fecha)
- √çndices compuestos para queries de dashboard

### 4Ô∏è‚É£ **Seguridad**
- Rol `analista_lectura`: solo SELECT en dims y facts
- Rol `ingeniero_etl`: SELECT, INSERT, UPDATE en staging, lectura en producci√≥n
- Rol `admin_dwh`: full control
- RLS (Row-Level Security): analistas solo ven datos de su regi√≥n

### 5Ô∏è‚É£ **Observabilidad**
- Dashboard con:
  - Top 10 queries lentas (> 5s)
  - Fragmentaci√≥n de √≠ndices
  - Espacio en disco por filegroup
  - Wait stats cr√≠ticos
- Alertas: email si query > 10s o disco > 85%

### 6Ô∏è‚É£ **Calidad de Datos**
- Vista de auditor√≠a: ventas con descuento > 50%, cantidad negativa, fechas futuras
- SP de validaci√≥n diario que genera reporte de anomal√≠as

### 7Ô∏è‚É£ **Mantenimiento Automatizado**
- Job SQL Agent nocturno (2 AM):
  - Rebuild √≠ndices con fragmentaci√≥n > 30%
  - Update statistics
  - Backup incremental
  - Limpieza de tablas de log > 90 d√≠as

Enunciado: construir propuesta integral de mejora para el escenario del dataset del curso (ventas/suscripciones).