# 2.8 Control de Versi√≥n de Datos

**Resumen Ejecutivo**: C√≥mo rastrear cambios en datos de referencia (dimensiones) y hechos cr√≠ticos mediante columnas de auditor√≠a, tablas de historial y hashes de fila para detectar modificaciones. El objetivo es asegurar trazabilidad, reproducibilidad y calidad en pipelines anal√≠ticos y operativos.

---

## üéØ Objetivos de Aprendizaje

1. Entender patrones b√°sicos de control de versiones en datos (timestamps, soft delete, tablas de historial)
2. Implementar columnas de auditor√≠a (`created_at`, `updated_at`) y estrategias de hash de fila
3. Detectar cambios en dimensiones lentas y preparar datos para auditor√≠as
4. Evitar errores comunes (zonas horarias, hashes inseguros, crecimiento sin control)

---

## üß∞ Prerrequisitos

- Conocer DDL b√°sico (`ALTER TABLE`, tipos de datos datetime)
- Familiaridad con tablas dimensionales (`dim_clientes`, `dim_productos`)
- Comprender conceptos de integridad referencial y ETL/ELT

---

## üß≠ Patr√≥n 1: Columnas de Auditor√≠a

A√±adir columnas `created_at` y `updated_at` permite rastrear cu√°ndo se cre√≥ o modific√≥ un registro. √ötil para conciliaciones, depuraci√≥n y SLA de datos.

**Buenas pr√°cticas**:
- Usar `DATETIME2` o `DATETIMEOFFSET` para preservar precisi√≥n y zona horaria.
- Actualizar `updated_at` desde aplicaci√≥n o trigger controlado (evitar overhead excesivo).
- Documentar la sem√°ntica (qu√© eventos actualizan la columna).

‚û°Ô∏è En el siguiente bloque creamos una columna `updated_at` como ejemplo.

---

## üß≠ Patr√≥n 2: Hash de Fila para Detecci√≥n de Cambios

Los hashes permiten detectar cambios sin comparar campo a campo. Se calculan sobre columnas relevantes y se comparan con el hash previo.

**Buenas pr√°cticas**:
- Evitar MD5/SHA1 para usos legales; preferir SHA256 si se requiere seguridad.
- Incluir solo columnas de negocio relevantes (excluir audit fields para evitar falsos positivos).
- Guardar el hash previo para detectar modificaciones entre cargas.

‚û°Ô∏è En el siguiente bloque calculamos un hash de fila con `CHECKSUM` (solo demostrativo).

---

## üß™ Ejemplo 1: A√±adir columna `updated_at`

Descripci√≥n: agregamos columna de timestamp para registrar la √∫ltima actualizaci√≥n. √ötil para ETL incremental y auditor√≠a b√°sica.


In [None]:
-- Ejemplo conceptual: a√±adir columna updated_at
-- ALTER TABLE dbo.dim_clientes ADD updated_at DATETIME2 NULL;

---

## üß™ Ejemplo 2: Hash de Fila (detecci√≥n de cambios)

Descripci√≥n: calculamos un hash ligero con `CHECKSUM` para detectar si cambi√≥ alg√∫n campo relevante del cliente. En producci√≥n, almacenar el hash previo y comparar para identificar modificaciones.

**Resultado esperado**: columna `hash_fila` que cambia cuando se altera `nombre`, `segmento` o `fecha_alta`.

**Nota**: `CHECKSUM` es demostrativo; para mayor robustez usar `HASHBYTES('SHA2_256', ...)`.

In [None]:
-- Hash para detectar cambios (MD5/Checksum) - demostraci√≥n conceptual
SELECT cliente_id, nombre, segmento,
       CHECKSUM(nombre, segmento, fecha_alta) AS hash_fila
FROM dbo.dim_clientes;

---

## üß™ Ejercicios y Retos

- üü¢ Detectar cambios de clientes: calcular hash actual, comparar con hash previo (simulado) y listar posibles modificaciones.
- üü† Dise√±ar tabla historial: `cliente_id, campo, valor_anterior, valor_nuevo, fecha_cambio, usuario` con √≠ndices por `cliente_id` y `fecha_cambio`.
- üî¥ Simular control de versiones de precios: usar CTE con versi√≥n anterior y actual para reportar diferencias y fechas de vigencia.

---

## üõ†Ô∏è Aplicaci√≥n Pr√°ctica

- **Dimensiones con cambios lentos (SCD-lite)**: Usa `updated_at` + hash para detectar cambios y generar versiones solo cuando el hash difiera.
- **Auditor√≠a de cat√°logos**: Registrar en tabla historial qui√©n cambi√≥ precios o segmentos y cu√°ndo.
- **ETL incremental**: Filtrar registros con `updated_at > @last_run` para reducir ventanas de carga.

---

## üíº Perspectiva de Negocio

- **Trazabilidad y cumplimiento**: Facilita auditor√≠as (SOX, GDPR) al evidenciar qui√©n cambi√≥ qu√© y cu√°ndo.
- **Menos incidentes**: Detectar cambios inesperados en cat√°logos evita errores de facturaci√≥n o reportes desviados.
- **Eficiencia operativa**: ETL incremental reduce tiempos de carga y costo computacional.

---

## ‚úÖ Conclusiones

- El control de versiones en datos se apoya en metadatos (timestamps) y huellas (hashes) para rastrear cambios y explicarlos.
- Combinar auditor√≠a (qui√©n/cu√°ndo) con comparaci√≥n de hash (qu√© cambi√≥) permite diferenciar actualizaciones esperadas de anomal√≠as.
- Mantener √≠ndices adecuados y pruebas peri√≥dicas evita que el control de cambios degrade el rendimiento de ETL/ELT.

---

## ‚ö†Ô∏è Errores Comunes

- No registrar zona horaria (`DATETIMEOFFSET`); dificulta conciliaciones.
- Usar hashes inseguros (MD5/SHA1) para fines de auditor√≠a legal.
- Ignorar impacto del historial en tama√±o: archivar o particionar tablas antiguas.

---

## üîñ Pie Editorial

**Curso**: Fundamentos de SQL Server - Nivel 2  
**M√≥dulo**: 2.8 Control de Versi√≥n de Datos  
**Versi√≥n**: 2.0 (Actualizado Enero 2025)  
**Autor**: lraigosov / LuisRai  
**Licencia**: Uso educativo - Atribuci√≥n requerida

> üí° **Nota sobre IA**: Este material fue estructurado con asistencia de modelos de lenguaje (OpenAI GPT-4, Anthropic Claude); el contenido fue validado y curado por especialistas para evitar alucinaciones y asegurar aplicabilidad pr√°ctica.

---
## Navegaci√≥n
[‚¨ÖÔ∏è Anterior](07_optimizar_consultas_basico.ipynb) | [Siguiente ‚û°Ô∏è](09_integracion_fuentes.ipynb)
---
