# üè¶ Notebook 03: Silver Layer - Slowly Changing Dimensions (SCD)

## Implementaci√≥n de SCD Type 1 y Type 2 con Delta Lake

---

### Objetivos de este notebook:
1. Entender los diferentes tipos de SCD (1, 2 y 3)
2. Implementar SCD Type 1 (Sobrescritura)
3. Implementar SCD Type 2 (Historial Completo)
4. Implementar SCD H√≠brido (Type 1 + Type 2)
5. Procesar datos desde Bronze usando CDC

### Conceptos clave:

| Tipo SCD | Descripci√≥n | Caso de Uso |
|----------|-------------|-------------|
| **Type 0** | Sin cambios (valores constantes) | IDs, c√≥digos fijos |
| **Type 1** | Sobrescribir valor anterior | Correcci√≥n de errores, datos no hist√≥ricos |
| **Type 2** | Mantener historial completo | An√°lisis hist√≥rico, auditor√≠a, compliance |
| **Type 3** | Mantener valor anterior y actual | Comparaci√≥n simple antes/despu√©s |

---

## 1Ô∏è‚É£ Configuraci√≥n Inicial

In [None]:
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql.window import Window
from delta.tables import DeltaTable
import uuid

# Configuraci√≥n
DATABASE_NAME = "financial_lakehouse"
spark.sql(f"USE {DATABASE_NAME}")

# Tablas Bronze (fuente)
BRONZE_CLIENTES = "bronze_clientes"
BRONZE_CUENTAS = "bronze_cuentas"

# Tablas Silver (destino)
SILVER_DIM_CLIENTES = "silver_dim_clientes"  # SCD Type 2
SILVER_DIM_CUENTAS = "silver_dim_cuentas"    # SCD Type 1 + Type 2 h√≠brido

print(f"‚úÖ Configuraci√≥n cargada para {DATABASE_NAME}")

## 2Ô∏è‚É£ Crear Tablas Silver con Estructura SCD

In [None]:
# ============================================
# TABLA SILVER: DIMENSI√ìN CLIENTES (SCD TYPE 2)
# ============================================

spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {SILVER_DIM_CLIENTES} (
        -- Surrogate Key (generada autom√°ticamente)
        cliente_key BIGINT GENERATED ALWAYS AS IDENTITY COMMENT 'Surrogate key para la dimensi√≥n',
        
        -- Business Key (Natural Key del sistema origen)
        cliente_id STRING NOT NULL COMMENT 'Business key - ID original del cliente',
        
        -- Atributos del cliente
        nombre STRING COMMENT 'Nombre completo',
        email STRING COMMENT 'Email del cliente',
        telefono STRING COMMENT 'Tel√©fono',
        direccion STRING COMMENT 'Direcci√≥n completa',
        ciudad STRING COMMENT 'Ciudad',
        pais STRING COMMENT 'Pa√≠s',
        codigo_postal STRING COMMENT 'C√≥digo postal',
        fecha_nacimiento DATE COMMENT 'Fecha de nacimiento',
        genero STRING COMMENT 'G√©nero',
        segmento_cliente STRING COMMENT 'Segmento: RETAIL, PREMIUM, VIP, CORPORATE',
        estado STRING COMMENT 'Estado: ACTIVO, INACTIVO, SUSPENDIDO',
        
        -- Columnas SCD Type 2
        fecha_inicio TIMESTAMP NOT NULL COMMENT 'Fecha de inicio de vigencia del registro',
        fecha_fin TIMESTAMP COMMENT 'Fecha de fin de vigencia (NULL = registro actual)',
        es_actual BOOLEAN NOT NULL COMMENT 'Flag que indica si es el registro vigente',
        version INT NOT NULL COMMENT 'N√∫mero de versi√≥n del registro',
        
        -- Hash para detecci√≥n de cambios
        hash_atributos STRING COMMENT 'Hash MD5 de atributos tracked para SCD2',
        
        -- Metadatos de auditor√≠a
        fecha_creacion TIMESTAMP COMMENT 'Fecha de creaci√≥n del registro en Silver',
        fecha_actualizacion TIMESTAMP COMMENT '√öltima actualizaci√≥n del registro',
        fuente_origen STRING COMMENT 'Sistema origen de los datos'
    )
    USING DELTA
    CLUSTER BY (cliente_id, es_actual)
    COMMENT 'Dimensi√≥n de Clientes con SCD Type 2 - Historial completo de cambios'
    TBLPROPERTIES (
        'delta.enableChangeDataFeed' = 'true',
        'delta.autoOptimize.optimizeWrite' = 'true',
        'delta.columnMapping.mode' = 'name'
    )
""")

print(f"‚úÖ Tabla {SILVER_DIM_CLIENTES} creada con estructura SCD Type 2")

In [None]:
# ============================================
# TABLA SILVER: DIMENSI√ìN CUENTAS (SCD H√çBRIDO)
# ============================================
# SCD Type 1: saldo_actual, saldo_disponible (sobrescribir)
# SCD Type 2: limite_credito, estado, tipo_cuenta (historial)

spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {SILVER_DIM_CUENTAS} (
        -- Surrogate Key
        cuenta_key BIGINT GENERATED ALWAYS AS IDENTITY COMMENT 'Surrogate key',
        
        -- Business Keys
        numero_cuenta STRING NOT NULL COMMENT 'N√∫mero de cuenta √∫nico',
        cliente_id STRING NOT NULL COMMENT 'FK al cliente',
        
        -- Atributos SCD Type 2 (generan nueva versi√≥n)
        tipo_cuenta STRING COMMENT 'Tipo: AHORRO, CORRIENTE, CREDITO, INVERSION',
        limite_credito DECIMAL(18,2) COMMENT 'L√≠mite de cr√©dito',
        estado STRING COMMENT 'Estado: ACTIVA, BLOQUEADA, CERRADA',
        tasa_interes DECIMAL(5,4) COMMENT 'Tasa de inter√©s',
        sucursal STRING COMMENT 'Sucursal asignada',
        
        -- Atributos SCD Type 1 (sobrescribir sin historial)
        saldo_actual DECIMAL(18,2) COMMENT 'Saldo actual - Type 1',
        saldo_disponible DECIMAL(18,2) COMMENT 'Saldo disponible - Type 1',
        fecha_ultimo_movimiento TIMESTAMP COMMENT '√öltimo movimiento - Type 1',
        
        -- Atributos est√°ticos (no cambian)
        moneda STRING COMMENT 'C√≥digo de moneda',
        fecha_apertura DATE COMMENT 'Fecha de apertura original',
        ejecutivo_cuenta STRING COMMENT 'Ejecutivo asignado',
        
        -- Columnas SCD Type 2
        fecha_inicio TIMESTAMP NOT NULL,
        fecha_fin TIMESTAMP,
        es_actual BOOLEAN NOT NULL,
        version INT NOT NULL,
        
        -- Hash para SCD2 (solo columnas tracked)
        hash_scd2 STRING COMMENT 'Hash de columnas SCD Type 2',
        
        -- Metadatos
        fecha_creacion TIMESTAMP,
        fecha_actualizacion TIMESTAMP
    )
    USING DELTA
    CLUSTER BY (numero_cuenta, cliente_id, es_actual)
    COMMENT 'Dimensi√≥n de Cuentas con SCD H√≠brido (Type 1 + Type 2)'
    TBLPROPERTIES (
        'delta.enableChangeDataFeed' = 'true',
        'delta.autoOptimize.optimizeWrite' = 'true'
    )
""")

print(f"‚úÖ Tabla {SILVER_DIM_CUENTAS} creada con estructura SCD H√≠brida")

## 3Ô∏è‚É£ Implementaci√≥n SCD Type 2 para Clientes

### L√≥gica:
1. **Registro nuevo**: INSERT con `es_actual = true`, `version = 1`
2. **Registro existente con cambios**: 
   - UPDATE registro anterior: `es_actual = false`, `fecha_fin = now()`
   - INSERT nuevo registro: `es_actual = true`, `version = version + 1`
3. **Registro existente sin cambios**: No hacer nada

In [None]:
# ============================================
# FUNCI√ìN: CALCULAR HASH DE ATRIBUTOS SCD2
# ============================================

def calculate_scd2_hash(df, columns_to_track):
    """
    Calcula un hash MD5 de las columnas que se rastrean para SCD Type 2.
    Esto permite detectar cambios eficientemente.
    
    Args:
        df: DataFrame fuente
        columns_to_track: Lista de columnas a incluir en el hash
        
    Returns:
        DataFrame con columna 'hash_atributos' a√±adida
    """
    # Concatenar columnas y calcular MD5
    concat_cols = concat_ws("||", *[coalesce(col(c).cast("string"), lit("NULL")) for c in columns_to_track])
    return df.withColumn("hash_atributos", md5(concat_cols))

# Definir columnas a trackear para SCD2 en Clientes
CLIENTES_SCD2_COLUMNS = [
    "nombre",
    "direccion",
    "ciudad",
    "pais",
    "codigo_postal",
    "segmento_cliente",
    "estado"
]

print(f"üìã Columnas tracked para SCD2 en Clientes: {CLIENTES_SCD2_COLUMNS}")

In [None]:
# ============================================
# FUNCI√ìN: APLICAR SCD TYPE 2
# ============================================

def apply_scd_type2(
    source_df,
    target_table: str,
    business_key: list,
    scd2_columns: list,
    static_columns: list = None
):
    """
    Aplica l√≥gica SCD Type 2 usando MERGE de Delta Lake.
    
    Args:
        source_df: DataFrame con datos nuevos/actualizados
        target_table: Nombre de la tabla destino
        business_key: Lista de columnas que forman la clave de negocio
        scd2_columns: Columnas que generan nueva versi√≥n al cambiar
        static_columns: Columnas que nunca cambian
    """
    from delta.tables import DeltaTable
    
    # A√±adir hash de atributos SCD2
    source_with_hash = calculate_scd2_hash(source_df, scd2_columns)
    
    # Verificar si la tabla destino tiene datos
    target_count = spark.table(target_table).count()
    
    if target_count == 0:
        # Primera carga: INSERT directo
        print(f"üì• Carga inicial en {target_table}")
        
        initial_load = source_with_hash.select(
            *[col(c) for c in source_df.columns if c not in ['fecha_ingesta', 'operacion', 'fuente']],
            current_timestamp().alias("fecha_inicio"),
            lit(None).cast("timestamp").alias("fecha_fin"),
            lit(True).alias("es_actual"),
            lit(1).alias("version"),
            col("hash_atributos"),
            current_timestamp().alias("fecha_creacion"),
            current_timestamp().alias("fecha_actualizacion"),
            col("fuente").alias("fuente_origen")
        )
        
        initial_load.write.format("delta").mode("append").saveAsTable(target_table)
        print(f"‚úÖ Cargados {initial_load.count()} registros iniciales")
        return
    
    # Merge para actualizaciones incrementales
    print(f"üîÑ Procesando cambios incrementales en {target_table}")
    
    # Obtener tabla destino como DeltaTable
    target = DeltaTable.forName(spark, target_table)
    
    # Construir condici√≥n de merge (business key + es_actual)
    merge_condition = " AND ".join([
        f"target.{k} = source.{k}" for k in business_key
    ]) + " AND target.es_actual = true"
    
    # Condici√≥n para detectar cambios (hash diferente)
    update_condition = "target.hash_atributos <> source.hash_atributos"
    
    # Preparar source con columnas adicionales
    source_prepared = source_with_hash.alias("source")
    
    # Ejecutar MERGE
    target.alias("target").merge(
        source_prepared,
        merge_condition
    ).whenMatchedUpdate(
        # Cuando hay match Y el hash cambi√≥: cerrar registro anterior
        condition=update_condition,
        set={
            "fecha_fin": current_timestamp(),
            "es_actual": lit(False),
            "fecha_actualizacion": current_timestamp()
        }
    ).whenNotMatchedInsert(
        # Registro completamente nuevo
        values={
            **{k: col(f"source.{k}") for k in business_key},
            **{c: col(f"source.{c}") for c in scd2_columns},
            "email": col("source.email"),
            "telefono": col("source.telefono"),
            "fecha_nacimiento": col("source.fecha_nacimiento"),
            "genero": col("source.genero"),
            "fecha_inicio": current_timestamp(),
            "fecha_fin": lit(None),
            "es_actual": lit(True),
            "version": lit(1),
            "hash_atributos": col("source.hash_atributos"),
            "fecha_creacion": current_timestamp(),
            "fecha_actualizacion": current_timestamp(),
            "fuente_origen": col("source.fuente")
        }
    ).execute()
    
    print("‚úÖ MERGE completado")
    
    # Ahora insertar nuevas versiones para los registros que cambiaron
    # Identificar registros que fueron marcados como no actuales
    closed_records = spark.table(target_table).filter(
        (col("es_actual") == False) & 
        (col("fecha_fin").isNotNull()) &
        (col("fecha_fin") > date_sub(current_timestamp(), 1))  # Cerrados recientemente
    ).select(
        *business_key,
        col("version")
    )
    
    # Join con source para insertar nuevas versiones
    new_versions = source_with_hash.alias("src").join(
        closed_records.alias("closed"),
        on=business_key,
        how="inner"
    ).select(
        *[col(f"src.{c}") for c in source_df.columns if c not in ['fecha_ingesta', 'operacion', 'fuente']],
        current_timestamp().alias("fecha_inicio"),
        lit(None).cast("timestamp").alias("fecha_fin"),
        lit(True).alias("es_actual"),
        (col("closed.version") + 1).alias("version"),
        col("src.hash_atributos"),
        current_timestamp().alias("fecha_creacion"),
        current_timestamp().alias("fecha_actualizacion"),
        col("src.fuente").alias("fuente_origen")
    )
    
    if new_versions.count() > 0:
        new_versions.write.format("delta").mode("append").saveAsTable(target_table)
        print(f"‚úÖ Insertadas {new_versions.count()} nuevas versiones")

print("‚úÖ Funci√≥n apply_scd_type2 definida")

In [None]:
# ============================================
# CARGAR DATOS DESDE BRONZE A SILVER (SCD2)
# ============================================

# Leer datos de Bronze (usando Change Data Feed para procesar solo cambios)
bronze_clientes = spark.table(BRONZE_CLIENTES)

print(f"üìä Registros en Bronze: {bronze_clientes.count()}")

# Aplicar SCD Type 2
apply_scd_type2(
    source_df=bronze_clientes,
    target_table=SILVER_DIM_CLIENTES,
    business_key=["cliente_id"],
    scd2_columns=CLIENTES_SCD2_COLUMNS
)

In [None]:
# Verificar resultado
print(f"\nüìã Muestra de {SILVER_DIM_CLIENTES}:")
spark.table(SILVER_DIM_CLIENTES).select(
    "cliente_key",
    "cliente_id",
    "nombre",
    "segmento_cliente",
    "ciudad",
    "es_actual",
    "version",
    "fecha_inicio",
    "fecha_fin"
).orderBy("cliente_id", "version").show(10, truncate=False)

## 4Ô∏è‚É£ Simular Cambios y Ver Historial SCD2

In [None]:
# ============================================
# SIMULAR CAMBIOS EN BRONZE PARA VER SCD2
# ============================================

# Obtener un cliente existente
cliente_ejemplo = spark.table(SILVER_DIM_CLIENTES).filter(
    col("es_actual") == True
).select("cliente_id").first()["cliente_id"]

print(f"üìå Cliente ejemplo: {cliente_ejemplo}")

# Simular cambio de segmento y direcci√≥n en Bronze
spark.sql(f"""
    UPDATE {BRONZE_CLIENTES}
    SET 
        segmento_cliente = 'VIP',
        direccion = 'Av. Los Ejecutivos 1000, Piso 15',
        ciudad = 'San Isidro',
        operacion = 'UPDATE',
        fecha_ingesta = current_timestamp()
    WHERE cliente_id = '{cliente_ejemplo}'
""")

print(f"‚úÖ Cliente {cliente_ejemplo} actualizado en Bronze")

In [None]:
# Volver a procesar para aplicar SCD2
bronze_clientes_updated = spark.table(BRONZE_CLIENTES)

apply_scd_type2(
    source_df=bronze_clientes_updated,
    target_table=SILVER_DIM_CLIENTES,
    business_key=["cliente_id"],
    scd2_columns=CLIENTES_SCD2_COLUMNS
)

In [None]:
# Ver historial del cliente
print(f"\nüìú Historial SCD2 para {cliente_ejemplo}:")
spark.table(SILVER_DIM_CLIENTES).filter(
    col("cliente_id") == cliente_ejemplo
).select(
    "cliente_key",
    "cliente_id",
    "nombre",
    "segmento_cliente",
    "direccion",
    "ciudad",
    "es_actual",
    "version",
    "fecha_inicio",
    "fecha_fin"
).orderBy("version").show(truncate=False)

## 5Ô∏è‚É£ Implementaci√≥n SCD H√≠brido (Type 1 + Type 2) para Cuentas

En cuentas bancarias, algunos atributos cambian frecuentemente (saldo) y no necesitan historial, mientras que otros cambios son significativos (estado, l√≠mite de cr√©dito).

In [None]:
# ============================================
# FUNCI√ìN: APLICAR SCD H√çBRIDO (TYPE 1 + TYPE 2)
# ============================================

def apply_scd_hybrid(
    source_df,
    target_table: str,
    business_key: list,
    scd1_columns: list,  # Columnas que se sobrescriben
    scd2_columns: list,  # Columnas que generan nueva versi√≥n
    static_columns: list  # Columnas que nunca cambian
):
    """
    Aplica l√≥gica SCD h√≠brida:
    - SCD Type 1: Sobrescribir valores (saldos, fechas de movimiento)
    - SCD Type 2: Nueva versi√≥n para cambios importantes (estado, l√≠mites)
    """
    
    # Hash solo de columnas SCD2
    source_with_hash = source_df.withColumn(
        "hash_scd2",
        md5(concat_ws("||", *[coalesce(col(c).cast("string"), lit("NULL")) for c in scd2_columns]))
    )
    
    target_count = spark.table(target_table).count()
    
    if target_count == 0:
        # Carga inicial
        print(f"üì• Carga inicial en {target_table}")
        
        initial_df = source_with_hash.select(
            # Business keys
            *[col(c) for c in business_key],
            # SCD2 columns
            *[col(c) for c in scd2_columns],
            # SCD1 columns
            *[col(c) for c in scd1_columns],
            # Static columns
            *[col(c) for c in static_columns],
            # SCD metadata
            current_timestamp().alias("fecha_inicio"),
            lit(None).cast("timestamp").alias("fecha_fin"),
            lit(True).alias("es_actual"),
            lit(1).alias("version"),
            col("hash_scd2"),
            current_timestamp().alias("fecha_creacion"),
            current_timestamp().alias("fecha_actualizacion")
        )
        
        initial_df.write.format("delta").mode("append").saveAsTable(target_table)
        print(f"‚úÖ Cargados {initial_df.count()} registros")
        return
    
    # Merge para actualizaciones
    print(f"üîÑ Procesando cambios h√≠bridos en {target_table}")
    
    target = DeltaTable.forName(spark, target_table)
    
    merge_condition = " AND ".join([
        f"target.{k} = source.{k}" for k in business_key
    ]) + " AND target.es_actual = true"
    
    # Condici√≥n SCD2: hash de columnas SCD2 diferente
    scd2_change_condition = "target.hash_scd2 <> source.hash_scd2"
    
    # Condici√≥n SCD1: cualquier columna SCD1 diferente
    scd1_change_conditions = " OR ".join([
        f"target.{c} <> source.{c}" for c in scd1_columns
    ])
    
    source_prepared = source_with_hash.alias("source")
    
    # Ejecutar MERGE con ambas l√≥gicas
    target.alias("target").merge(
        source_prepared,
        merge_condition
    ).whenMatchedUpdate(
        # SCD2: Cerrar registro cuando columnas importantes cambian
        condition=scd2_change_condition,
        set={
            "fecha_fin": current_timestamp(),
            "es_actual": lit(False),
            "fecha_actualizacion": current_timestamp()
        }
    ).whenMatchedUpdate(
        # SCD1: Sobrescribir columnas que cambian frecuentemente
        condition=f"NOT ({scd2_change_condition}) AND ({scd1_change_conditions})",
        set={
            **{c: col(f"source.{c}") for c in scd1_columns},
            "fecha_actualizacion": current_timestamp()
        }
    ).whenNotMatchedInsert(
        values={
            **{k: col(f"source.{k}") for k in business_key},
            **{c: col(f"source.{c}") for c in scd2_columns},
            **{c: col(f"source.{c}") for c in scd1_columns},
            **{c: col(f"source.{c}") for c in static_columns},
            "fecha_inicio": current_timestamp(),
            "fecha_fin": lit(None),
            "es_actual": lit(True),
            "version": lit(1),
            "hash_scd2": col("source.hash_scd2"),
            "fecha_creacion": current_timestamp(),
            "fecha_actualizacion": current_timestamp()
        }
    ).execute()
    
    print("‚úÖ MERGE h√≠brido completado")

# Definir columnas para cada tipo
CUENTAS_SCD2_COLUMNS = ["tipo_cuenta", "limite_credito", "estado", "tasa_interes", "sucursal"]
CUENTAS_SCD1_COLUMNS = ["saldo_actual", "saldo_disponible", "fecha_ultimo_movimiento"]
CUENTAS_STATIC_COLUMNS = ["moneda", "fecha_apertura", "ejecutivo_cuenta"]

print("‚úÖ Funci√≥n apply_scd_hybrid definida")

In [None]:
# ============================================
# CARGAR CUENTAS CON SCD H√çBRIDO
# ============================================

bronze_cuentas = spark.table(BRONZE_CUENTAS)

print(f"üìä Registros en Bronze Cuentas: {bronze_cuentas.count()}")

# Aplicar SCD h√≠brido
apply_scd_hybrid(
    source_df=bronze_cuentas,
    target_table=SILVER_DIM_CUENTAS,
    business_key=["numero_cuenta", "cliente_id"],
    scd1_columns=CUENTAS_SCD1_COLUMNS,
    scd2_columns=CUENTAS_SCD2_COLUMNS,
    static_columns=CUENTAS_STATIC_COLUMNS
)

In [None]:
# Verificar resultado
print(f"\nüìã Muestra de {SILVER_DIM_CUENTAS}:")
spark.table(SILVER_DIM_CUENTAS).select(
    "cuenta_key",
    "numero_cuenta",
    "tipo_cuenta",
    "saldo_actual",
    "limite_credito",
    "estado",
    "es_actual",
    "version"
).show(10, truncate=False)

## 6Ô∏è‚É£ Queries √ötiles para SCD

In [None]:
# ============================================
# QUERY 1: Obtener Estado Actual de un Cliente
# ============================================

def get_current_record(table_name, business_key_col, key_value):
    """Obtiene el registro actual (vigente) de una dimensi√≥n SCD2"""
    return spark.table(table_name).filter(
        (col(business_key_col) == key_value) & 
        (col("es_actual") == True)
    )

print("üìå Estado actual de un cliente:")
get_current_record(SILVER_DIM_CLIENTES, "cliente_id", cliente_ejemplo).show(truncate=False)

In [None]:
# ============================================
# QUERY 2: Obtener Estado a una Fecha Espec√≠fica (Time Travel)
# ============================================

def get_record_as_of(table_name, business_key_col, key_value, as_of_date):
    """Obtiene el registro que era vigente en una fecha espec√≠fica"""
    return spark.table(table_name).filter(
        (col(business_key_col) == key_value) &
        (col("fecha_inicio") <= as_of_date) &
        ((col("fecha_fin").isNull()) | (col("fecha_fin") > as_of_date))
    )

# Ejemplo: Estado hace 1 hora
from datetime import datetime, timedelta
fecha_consulta = datetime.now() - timedelta(hours=1)

print(f"üìå Estado del cliente a las {fecha_consulta}:")
get_record_as_of(
    SILVER_DIM_CLIENTES, 
    "cliente_id", 
    cliente_ejemplo, 
    fecha_consulta
).select("cliente_id", "nombre", "segmento_cliente", "ciudad", "version").show()

In [None]:
# ============================================
# QUERY 3: Historial Completo de Cambios
# ============================================

def get_full_history(table_name, business_key_col, key_value):
    """Obtiene el historial completo de un registro"""
    return spark.table(table_name).filter(
        col(business_key_col) == key_value
    ).orderBy("version")

print(f"üìú Historial completo de {cliente_ejemplo}:")
get_full_history(SILVER_DIM_CLIENTES, "cliente_id", cliente_ejemplo).select(
    "version",
    "segmento_cliente",
    "ciudad",
    "direccion",
    "fecha_inicio",
    "fecha_fin",
    "es_actual"
).show(truncate=False)

In [None]:
# ============================================
# QUERY 4: Estad√≠sticas de SCD
# ============================================

print("üìä Estad√≠sticas de SCD en Clientes:")

stats = spark.table(SILVER_DIM_CLIENTES).agg(
    count("*").alias("total_registros"),
    sum(when(col("es_actual") == True, 1).otherwise(0)).alias("registros_actuales"),
    sum(when(col("es_actual") == False, 1).otherwise(0)).alias("registros_historicos"),
    max("version").alias("max_versiones"),
    avg("version").alias("promedio_versiones")
)

stats.show()

# Distribuci√≥n de versiones
print("\nüìà Distribuci√≥n de versiones:")
spark.table(SILVER_DIM_CLIENTES).groupBy("version").count() \
    .orderBy("version").show()

## 7Ô∏è‚É£ Resumen y Mejores Pr√°cticas

In [None]:
# ============================================
# VERIFICACI√ìN FINAL
# ============================================

print("\n" + "="*70)
print("üìä RESUMEN DE TABLAS SILVER")
print("="*70)

for table in [SILVER_DIM_CLIENTES, SILVER_DIM_CUENTAS]:
    df = spark.table(table)
    total = df.count()
    actuales = df.filter(col("es_actual") == True).count()
    historicos = total - actuales
    
    print(f"\nüìÅ {table}:")
    print(f"   ‚îî‚îÄ Total registros: {total:,}")
    print(f"   ‚îî‚îÄ Registros actuales: {actuales:,}")
    print(f"   ‚îî‚îÄ Registros hist√≥ricos: {historicos:,}")
    print(f"   ‚îî‚îÄ Ratio hist√≥rico: {historicos/total*100:.1f}%" if total > 0 else "")

---

## ‚úÖ Resumen del Notebook

### Lo que aprendimos:

1. ‚úÖ **Tipos de SCD**: Type 0, 1, 2, 3 y cu√°ndo usar cada uno
2. ‚úÖ **SCD Type 2**: Implementaci√≥n con historial completo
3. ‚úÖ **SCD H√≠brido**: Combinar Type 1 y Type 2 en la misma tabla
4. ‚úÖ **Hash para detecci√≥n de cambios**: Eficiencia en comparaciones
5. ‚úÖ **Queries temporales**: Consultar estados hist√≥ricos

### Columnas SCD Type 2:

| Columna | Tipo | Descripci√≥n |
|---------|------|-------------|
| `surrogate_key` | BIGINT | Clave sustituta √∫nica por versi√≥n |
| `business_key` | STRING | Clave natural del sistema origen |
| `fecha_inicio` | TIMESTAMP | Inicio de vigencia |
| `fecha_fin` | TIMESTAMP | Fin de vigencia (NULL = actual) |
| `es_actual` | BOOLEAN | Flag de registro vigente |
| `version` | INT | N√∫mero de versi√≥n |
| `hash_atributos` | STRING | Hash para detecci√≥n de cambios |

### Mejores Pr√°cticas:

- **Usar hash** para detectar cambios eficientemente
- **Separar columnas SCD1 y SCD2** en tablas h√≠bridas
- **√çndices en business_key + es_actual** para queries r√°pidos
- **Liquid Clustering** en business_key para optimizaci√≥n

### Pr√≥ximo paso:
Continuar con el **Notebook 04: Gold Layer - Analytics** para crear m√©tricas y KPIs.

---