## Estrategia de Monitoreo (Stack Completo)

### 1Ô∏è‚É£ **Nivel Query** (microsegundos a segundos)
- DMV: `sys.dm_exec_query_stats` ‚Üí queries lentas
- Extended Events: capturar queries > 5s
- **Herramienta**: Query Store (SQL Server 2016+)

### 2Ô∏è‚É£ **Nivel √çndices** (diario/semanal)
- DMV: `sys.dm_db_index_physical_stats` ‚Üí fragmentaci√≥n
- DMV: `sys.dm_db_index_usage_stats` ‚Üí √≠ndices nunca usados
- **Job SQL Agent**: rebuild/reorganize √≠ndices nocturnos

### 3Ô∏è‚É£ **Nivel Servidor** (continuamente)
- DMV: `sys.dm_os_wait_stats` ‚Üí cuellos de botella globales
- DMV: `sys.dm_os_performance_counters` ‚Üí CPU, memoria, disco
- **Herramienta**: Azure Monitor, Grafana + Prometheus

### 4Ô∏è‚É£ **Nivel Aplicaci√≥n** (end-to-end)
- Application Insights (Azure)
- Logging estructurado (Serilog, NLog)
- Distributed tracing (Jaeger, Zipkin)

## üü¢ Ejercicio B√°sico
Ejecuta la query de "Top 10 costosas" y documenta:
1. ¬øCu√°l es la query con mayor CPU promedio?
2. ¬øCu√°ntas veces se ejecut√≥ en el per√≠odo capturado?
3. ¬øQu√© har√≠as para optimizarla? (hip√≥tesis sin ver el plan a√∫n)

## üü† Ejercicio Intermedio
Crea un dashboard de monitoreo SQL con estas 4 m√©tricas en vista:
1. Queries > 5s (√∫ltimas 24h)
2. √çndices con fragmentaci√≥n > 30%
3. Top 5 wait types
4. Espacio en disco disponible (usar `sys.dm_os_volume_stats`)

**Entregable**: 4 consultas SQL listas para ejecutar cada hora

## üî¥ Ejercicio Avanzado
Dise√±a una estrategia de observabilidad completa:
1. **Alertas** (¬øqu√© condiciones disparan notificaci√≥n inmediata?)
2. **Baseline** (¬øqu√© m√©tricas capturar diario para tendencias?)
3. **Runbook** (procedimiento cuando llega alerta de "query lenta")
4. **Retenci√≥n** (¬øcu√°nto tiempo guardar m√©tricas hist√≥ricas?)

---

## Errores Comunes

‚ùå **Solo monitorear en crisis**: m√©tricas hist√≥ricas permiten comparar normal vs an√≥malo
‚ùå **Alertas por todo**: si todo es urgente, nada es urgente (alert fatigue)
‚ùå **No automatizar**: checking manual diario no escala
‚ùå **Ignorar wait stats**: son la br√∫jula para diagnosticar a nivel servidor
‚ùå **No tener SLA definido**: ¬øqu√© es "lento"? (define: p95 < 2s, p99 < 5s)

**Siguiente:** `10_proyecto_senior.ipynb` ‚Üí proyecto integrador capstone

In [None]:
-- Query 3: Esperas del servidor (wait stats)
SELECT TOP 10
    wait_type,
    wait_time_ms / 1000.0 AS wait_time_sec,
    waiting_tasks_count AS num_esperas,
    wait_time_ms / waiting_tasks_count AS promedio_ms
FROM sys.dm_os_wait_stats
WHERE wait_type NOT IN (
    'CLR_SEMAPHORE', 'LAZYWRITER_SLEEP', 'RESOURCE_QUEUE', 
    'SLEEP_TASK', 'SLEEP_SYSTEMTASK', 'SQLTRACE_BUFFER_FLUSH', 
    'WAITFOR', 'XE_DISPATCHER_WAIT', 'XE_TIMER_EVENT'
)  -- Filtrar esperas normales del sistema
ORDER BY wait_time_ms DESC;

/*
üîé Wait types cr√≠ticos:
- PAGEIOLATCH_*: lecturas/escrituras de disco lentas (I/O bottleneck, agregar RAM o SSD)
- LCK_M_*: locks/bloqueos (optimizar queries, reducir transacciones largas)
- CXPACKET: paralelismo excesivo (ajustar MAXDOP si promedio_ms alto)
- SOS_SCHEDULER_YIELD: CPU saturado (optimizar queries, scale up CPU)
- WRITELOG: escritura de log lenta (mover log a disco r√°pido, reducir transacciones grandes)

üìå Esta es la query #1 para diagnosticar problemas de performance a nivel servidor
*/

In [None]:
-- Query 2: √çndices con fragmentaci√≥n alta (> 30%)
SELECT 
    OBJECT_NAME(ips.object_id) AS tabla,
    i.name AS indice,
    ips.index_type_desc,
    ips.avg_fragmentation_in_percent AS fragmentacion_pct,
    ips.page_count AS paginas,
    CASE 
        WHEN ips.avg_fragmentation_in_percent > 30 THEN 'REBUILD'
        WHEN ips.avg_fragmentation_in_percent > 10 THEN 'REORGANIZE'
        ELSE 'OK'
    END AS accion_recomendada
FROM sys.dm_db_index_physical_stats(DB_ID(), NULL, NULL, NULL, 'SAMPLED') ips
INNER JOIN sys.indexes i ON ips.object_id = i.object_id AND ips.index_id = i.index_id
WHERE ips.page_count > 1000  -- Solo √≠ndices con m√°s de 1000 p√°ginas (8MB)
  AND ips.avg_fragmentation_in_percent > 10
ORDER BY ips.avg_fragmentation_in_percent DESC;

/*
üîß Regla de oro:
- Fragmentaci√≥n > 30%: ALTER INDEX ... REBUILD (online si Enterprise Edition)
- Fragmentaci√≥n 10-30%: ALTER INDEX ... REORGANIZE (operaci√≥n online, menos costosa)
- Fragmentaci√≥n < 10%: no hacer nada

‚ö†Ô∏è Esta query puede tardar en bases grandes, ejecutar en horario de bajo tr√°fico
*/

In [None]:
-- Query 1: Top 10 queries m√°s costosas (por CPU total)
SELECT TOP 10
    qs.execution_count AS ejecuciones,
    qs.total_worker_time / 1000 AS cpu_total_ms,
    qs.total_worker_time / qs.execution_count / 1000 AS cpu_promedio_ms,
    qs.total_logical_reads AS reads_totales,
    SUBSTRING(qt.text, (qs.statement_start_offset/2)+1,
        ((CASE qs.statement_end_offset
            WHEN -1 THEN DATALENGTH(qt.text)
            ELSE qs.statement_end_offset
        END - qs.statement_start_offset)/2) + 1) AS query_text
FROM sys.dm_exec_query_stats qs
CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) qt
ORDER BY qs.total_worker_time DESC;

/*
üìä Interpretaci√≥n:
- ejecuciones altas + cpu_promedio_ms alto = query problem√°tica ejecutada frecuentemente
- ejecuciones bajas + cpu_total_ms alto = query ocasional muy costosa
- reads_totales altos = muchos I/O (revisar √≠ndices)

üéØ Acci√≥n: identifica queries con cpu_promedio > 1000ms y optim√≠zalas
*/

# 3.9 Observabilidad y Monitoreo - M√©tricas y Alertas en Producci√≥n

## üéØ ¬øPara qu√©?
En producci√≥n, no basta con que las queries funcionen. Necesitas **visibilidad continua**:
- ¬øQu√© queries est√°n lentas hoy?
- ¬øSe est√° llenando el disco?
- ¬øHay deadlocks o bloqueos?
- ¬øLos √≠ndices est√°n fragmentados?

**Observabilidad** = capacidad de entender el estado interno del sistema viendo m√©tricas y logs.

## üìö ¬øPor qu√© es cr√≠tico?

Sin monitoreo:
- Problema se detecta cuando usuarios se quejan (p√©rdida de ingresos)
- No sabes si el lunes lento fue por query mal optimizada, falta de √≠ndices, o tr√°fico alto
- No hay datos hist√≥ricos para comparar ("antes tardaba 2s, ahora 20s")

Con monitoreo:
- **Alertas proactivas**: email si query > 10s o disco > 80%
- **Baseline de performance**: m√©tricas normales vs an√≥malas
- **Root cause analysis**: correlacionar lentitud con cambio en plan de ejecuci√≥n o statistics

## üîß Componentes de Observabilidad en SQL Server

# Cr√©ditos

Este material fue revisado y enriquecido parcialmente mediante asistencia de IA (OpenAI y Claude); la validaci√≥n y decisiones editoriales finales son humanas.