# 3.1 Performance B√°sico - Introducci√≥n a Optimizaci√≥n

## üéØ ¬øPara qu√©?
Como ingeniero de datos senior, necesitas que las consultas ejecuten en tiempos aceptables (<3s para dashboards, <30s para reportes). Una consulta lenta afecta la experiencia del usuario y puede saturar el servidor.

## üìö ¬øPor qu√© importa?
- **Escalabilidad**: consultas que funcionan con 10K registros pueden colapsar con 10M
- **Costos**: tiempo de CPU = dinero en cloud (Azure SQL Database cobra por DTUs)
- **Experiencia de usuario**: dashboards lentos = usuarios frustrados

## üîß ¬øC√≥mo medir performance?

### Conceptos clave:
1. **Tiempo de ejecuci√≥n**: duraci√≥n total de la query
2. **Reads l√≥gicos**: cu√°ntas p√°ginas de 8KB lee SQL Server de memoria
3. **Reads f√≠sicos**: cu√°ntas p√°ginas lee del disco (m√°s lento)
4. **CPU time**: milisegundos de procesador usados

---

## Herramientas de diagn√≥stico

## Principios de optimizaci√≥n b√°sica

### 1Ô∏è‚É£ Selecciona solo las columnas necesarias
‚ùå Malo: `SELECT * FROM tabla` ‚Üí lee todas las columnas, m√°s datos transferidos
‚úÖ Bueno: `SELECT id, nombre FROM tabla` ‚Üí lee solo lo necesario

### 2Ô∏è‚É£ Filtra lo m√°s pronto posible
‚ùå Malo: hacer JOIN de 1M registros y luego filtrar con WHERE
‚úÖ Bueno: filtrar en WHERE antes del JOIN (el optimizador ayuda pero s√© expl√≠cito)

### 3Ô∏è‚É£ Usa √≠ndices apropiados
‚ùå Malo: `WHERE YEAR(fecha) = 2024` ‚Üí funci√≥n en columna impide uso de √≠ndice
‚úÖ Bueno: `WHERE fecha >= '2024-01-01' AND fecha < '2025-01-01'` ‚Üí sargable (index-friendly)

### 4Ô∏è‚É£ Evita funciones en columnas indexadas dentro de WHERE
Esto se llama **sargability** (Search ARGument ABLE).

In [None]:
-- Activar estad√≠sticas de tiempo y I/O
SET STATISTICS TIME ON;
SET STATISTICS IO ON;

-- Consulta de ejemplo: total de ventas por producto
SELECT p.producto_id, p.nombre, 
       SUM(v.cantidad) AS unidades_vendidas,
       SUM(v.cantidad * p.precio_unitario) AS ingresos_totales
FROM dbo.fact_ventas v
INNER JOIN dbo.dim_productos p ON v.producto_id = p.producto_id
WHERE v.fecha >= '2024-01-01'
GROUP BY p.producto_id, p.nombre
ORDER BY ingresos_totales DESC;

-- Desactivar estad√≠sticas
SET STATISTICS TIME OFF;
SET STATISTICS IO OFF;

/*
üí° Interpretaci√≥n de resultados:
- SQL Server Execution Times: CPU time = XXms, elapsed time = XXms
- Table 'fact_ventas': Scan count X, logical reads XXX
- Si logical reads > 1000 por tabla, considera agregar √≠ndices
- Si elapsed time >> CPU time, puede haber esperas de I/O o locks
*/

Ejemplos de patrones sargables vs no sargables (conceptual).

## üü¢ Ejercicio B√°sico
Ejecuta esta consulta con STATISTICS IO ON y anota los logical reads:
```sql
SELECT cliente_id, COUNT(*) AS num_ventas
FROM dbo.fact_ventas
WHERE fecha >= '2024-01-01'
GROUP BY cliente_id;
```
Luego prueba cambiar el filtro a `WHERE YEAR(fecha) = 2024` y compara los reads. ¬øCu√°l es m√°s eficiente?

## üü† Ejercicio Intermedio
Compara el performance de estas dos consultas:

**Opci√≥n A (subconsulta correlacionada):**
```sql
SELECT c.cliente_id, c.nombre,
       (SELECT SUM(v.cantidad) FROM fact_ventas v WHERE v.cliente_id = c.cliente_id) AS total
FROM dim_clientes c;
```

**Opci√≥n B (JOIN con agregaci√≥n):**
```sql
SELECT c.cliente_id, c.nombre, ISNULL(SUM(v.cantidad), 0) AS total
FROM dim_clientes c
LEFT JOIN fact_ventas v ON c.cliente_id = v.cliente_id
GROUP BY c.cliente_id, c.nombre;
```

Mide CPU time y logical reads. ¬øCu√°l escala mejor con millones de registros?

## üî¥ Ejercicio Avanzado
Optimiza esta consulta problem√°tica que tarda >10 segundos:

```sql
SELECT c.nombre, p.nombre AS producto, v.fecha, v.cantidad
FROM fact_ventas v
JOIN dim_clientes c ON v.cliente_id = c.cliente_id
JOIN dim_productos p ON v.producto_id = p.producto_id
WHERE UPPER(c.nombre) LIKE '%ACME%'
  AND MONTH(v.fecha) = 12
ORDER BY v.fecha DESC;
```

**Problemas a resolver:**
1. `UPPER(c.nombre)` en WHERE impide uso de √≠ndice
2. `MONTH(v.fecha)` no es sargable
3. No hay √≠ndices sugeridos

**Entrega:**
- Consulta refactorizada
- √çndices recomendados (formato: `CREATE INDEX idx_nombre ON tabla(columnas)`)
- Justificaci√≥n de cambios

## ‚öôÔ∏è Desaf√≠o Senior
Dise√±a un benchmark completo:

1. Crea un SP que ejecute 5 consultas representativas de tu sistema
2. Mide tiempo promedio en 10 ejecuciones (descarta la 1ra por cache fr√≠o)
3. Prop√≥n 3 √≠ndices estrat√©gicos
4. Vuelve a medir y calcula % de mejora
5. Documenta trade-offs (espacio en disco, impacto en INSERT/UPDATE)

**Entregable:** Script SQL con comentarios explicando cada decisi√≥n.

---

## Errores Comunes

‚ùå **SELECT * en producci√≥n**: lee columnas innecesarias, rompe cache de plan
‚ùå **No medir antes de optimizar**: "siento que est√° lento" no es dato
‚ùå **Funciones en WHERE indexado**: `WHERE UPPER(email)` destruye √≠ndice
‚ùå **Ignorar estad√≠sticas de tabla**: SQL Server toma decisiones con stats desactualizadas
‚ùå **√çndices en todo**: cada √≠ndice cuesta en INSERT/UPDATE, m√°s espacio en disco

---

## Recursos
- [SQL Server Query Performance Tuning - Microsoft Learn](https://learn.microsoft.com/sql)
- [Sargable Predicates Explained](https://learn.microsoft.com)
- Siguiente: `02_indices_avanzados.ipynb` ‚Üí tipos de √≠ndices (clustered, nonclustered, columnstore)

# Cr√©ditos

Este material fue revisado y enriquecido parcialmente mediante asistencia de IA (OpenAI y Claude); la validaci√≥n y decisiones editoriales finales son humanas.

---
## Navegaci√≥n
[Siguiente ‚û°Ô∏è](02_indices_avanzados.ipynb)
---
