# 3.2 √çndices Avanzados - Clustered, Nonclustered y Columnstore

**Resumen Ejecutivo**: Domina los tres tipos principales de √≠ndices (clustered, nonclustered, columnstore) y cu√°ndo usar cada uno para acelerar consultas transaccionales y anal√≠ticas sin degradar escrituras.

---

## üéØ Objetivos de Aprendizaje
- Diferenciar clustered (un solo orden f√≠sico) vs. nonclustered (estructuras separadas).
- Dise√±ar √≠ndices compuestos (orden de columnas) para patrones de consulta frecuentes.
- Entender cu√°ndo columnstore (compresi√≥n, anal√≠tica masiva) supera row-store tradicional.

## üß∞ Prerrequisitos
- Haber completado `01_performance_basico.ipynb`.
- Conocer planes de ejecuci√≥n (index seek vs. scan).
- Familiaridad con tablas fact vs. dim (OLTP vs. OLAP).

---

## üìö Conceptos Clave
- **Clustered index**: ordena f√≠sicamente las filas; solo uno por tabla; t√≠picamente en PK.
- **Nonclustered index**: estructura separada que apunta a filas; hasta 999 por tabla; para WHERE/JOIN.
- **Columnstore index**: almacena por columna con compresi√≥n; ideal para fact tables con consultas anal√≠ticas (SUM, AVG sobre millones de filas).
- **Trade-off**: cada √≠ndice acelera lecturas pero ralentiza escrituras (INSERT/UPDATE/DELETE).

> ‚ö†Ô∏è Sobre-indexar degrada rendimiento de escritura; dise√±a √≠ndices para patrones reales, no especulativos.

In [None]:
-- Columnstore Index para consultas anal√≠ticas (data warehouse)
-- ‚ö†Ô∏è Comentado porque fact_ventas es peque√±a, pero en producci√≥n con 100M+ filas:

-- CREATE NONCLUSTERED COLUMNSTORE INDEX idx_ventas_columnstore
-- ON dbo.fact_ventas(fecha, cliente_id, producto_id, cantidad, descuento_pct);

-- Consulta anal√≠tica que se beneficia de columnstore
SELECT YEAR(fecha) AS anio, MONTH(fecha) AS mes,
       SUM(cantidad) AS unidades_totales,
       COUNT(DISTINCT cliente_id) AS clientes_unicos
FROM dbo.fact_ventas
GROUP BY YEAR(fecha), MONTH(fecha)
ORDER BY anio, mes;

/*
üöÄ Columnstore es ideal cuando:
‚úÖ Consultas agregan millones de filas (SUM, AVG, COUNT)
‚úÖ Lees pocas columnas de muchas filas
‚úÖ Escrituras son batch (INSERT bulk), no transaccionales

‚ùå NO uses columnstore si:
‚ùå Consultas buscan filas individuales por PK
‚ùå UPDATEs frecuentes row-by-row (OLTP)
‚ùå Tabla tiene < 1M filas (overhead no vale la pena)
*/

In [None]:
-- √çndice compuesto (m√∫ltiples columnas) para consultas de dashboard
CREATE NONCLUSTERED INDEX idx_ventas_cliente_fecha
ON dbo.fact_ventas(cliente_id, fecha DESC)
INCLUDE (cantidad, descuento_pct);

-- Esta consulta usar√° el √≠ndice compuesto eficientemente
SELECT fecha, SUM(cantidad) AS unidades
FROM dbo.fact_ventas
WHERE cliente_id = 5
  AND fecha >= '2024-01-01'
GROUP BY fecha
ORDER BY fecha DESC;

/*
üîë Orden de columnas en √≠ndice compuesto importa:
1. Columna m√°s selectiva primero (cliente_id: filtra a 1 de 100 clientes)
2. Columna de rango segundo (fecha: filtra un per√≠odo)
3. Columnas adicionales en INCLUDE (evita key lookup)

üìä Selectividad = % de filas √∫nicas
- Alta selectividad (cliente_id): 100 valores √∫nicos de 100 filas = 100%
- Baja selectividad (segmento): 3 valores √∫nicos de 100 filas = 3%
Regla: columna m√°s selectiva va primero en el √≠ndice
*/

In [None]:
-- Crear un √≠ndice nonclustered en fact_ventas para optimizar filtros por fecha
CREATE NONCLUSTERED INDEX idx_ventas_fecha 
ON dbo.fact_ventas(fecha)
INCLUDE (cliente_id, producto_id, cantidad, descuento_pct);
-- INCLUDE a√±ade columnas sin ordenarlas, evita "key lookup" (ida extra a la tabla)

-- Consulta que se beneficia del √≠ndice anterior
SELECT cliente_id, producto_id, cantidad
FROM dbo.fact_ventas
WHERE fecha >= '2024-01-01' AND fecha < '2024-02-01';

/*
üí° El optimizador usar√° idx_ventas_fecha porque:
1. WHERE fecha est√° en el √≠ndice (key column)
2. Las columnas del SELECT est√°n en INCLUDE (covering index)
3. No necesita ir a la tabla f√≠sica (key lookup avoided)
*/

## üü¢ Ejercicio B√°sico
Crea un √≠ndice nonclustered en `dim_productos(categoria)` con INCLUDE(nombre, precio_unitario). Luego ejecuta:
```sql
SELECT nombre, precio_unitario FROM dim_productos WHERE categoria = 'Electr√≥nica';
```
Verifica con `SET STATISTICS IO ON` que no hay key lookups.

## üü† Ejercicio Intermedio
Dise√±a un √≠ndice compuesto para optimizar esta consulta:
```sql
SELECT producto_id, SUM(cantidad) AS total
FROM fact_ventas
WHERE region_id = 2 AND fecha >= '2024-01-01'
GROUP BY producto_id;
```
**Entrega:** comando CREATE INDEX con justificaci√≥n del orden de columnas.

## üî¥ Ejercicio Avanzado
Compara el performance de:
1. Table scan (sin √≠ndices)
2. Nonclustered index tradicional
3. Columnstore index

Para esta consulta anal√≠tica:
```sql
SELECT YEAR(fecha) AS anio, producto_id, SUM(cantidad) AS unidades
FROM fact_ventas
GROUP BY YEAR(fecha), producto_id;
```

Mide logical reads y elapsed time. ¬øCu√°ndo conviene cada tipo?

---

## Errores Comunes

‚ùå **√çndice en cada columna**: cada √≠ndice cuesta en INSERT/UPDATE
‚ùå **INCLUDE con todas las columnas**: el √≠ndice crece innecesariamente
‚ùå **Orden incorrecto en √≠ndice compuesto**: filtras por A y B, pero √≠ndice es (B, A)
‚ùå **Columnstore en tablas OLTP**: transacciones row-by-row no se benefician
‚ùå **No monitorear fragmentaci√≥n**: √≠ndices se fragmentan con el tiempo (rebuild/reorganize)

---

## Estrategia de Indexaci√≥n (Gu√≠a R√°pida)

| Tipo de Consulta | √çndice Recomendado |
|------------------|-------------------|
| `WHERE id = X` (PK lookup) | Clustered en PK |
| `WHERE fecha BETWEEN ...` | Nonclustered en fecha |
| `WHERE A = X AND B = Y` | Compuesto (A, B) |
| `SUM/AVG en millones de filas` | Columnstore |
| `JOIN frecuente` | Nonclustered en FKs |

**Siguiente:** `03_particiones_basico.ipynb` ‚Üí dividir tablas grandes por rango

# Cr√©ditos

Este material fue revisado y enriquecido parcialmente mediante asistencia de IA (OpenAI y Claude); la validaci√≥n y decisiones editoriales finales son humanas.

---
## Navegaci√≥n
[‚¨ÖÔ∏è Anterior](01_performance_basico.ipynb) | [Siguiente ‚û°Ô∏è](03_particiones_basico.ipynb)
---
