# üè¶ Notebook 01: Setup del Ambiente

## Proyecto End-to-End: CDC, SCD y Liquid Clustering

---

### Objetivos de este notebook:
1. Configurar el ambiente de Databricks
2. Crear la base de datos del proyecto
3. Crear las tablas Bronze con CDC y Liquid Clustering habilitado
4. Generar datos sint√©ticos para el caso financiero

### Requisitos:
- Azure Databricks Runtime 15.2+ LTS (recomendado para Liquid Clustering GA)
- Cluster configurado con autoscaling

---

## 1Ô∏è‚É£ Verificaci√≥n del Ambiente

In [None]:
# Verificar versi√≥n de Spark y Databricks Runtime
print(f"Spark Version: {spark.version}")
print(f"Databricks Runtime: {spark.conf.get('spark.databricks.clusterUsageTags.sparkVersion', 'N/A')}")

# Verificar si Liquid Clustering est√° disponible (DBR 13.3+)
try:
    spark.sql("SELECT 1").show()
    print("‚úÖ Conexi√≥n a Spark exitosa")
except Exception as e:
    print(f"‚ùå Error: {e}")

## 2Ô∏è‚É£ Configuraci√≥n de Variables del Proyecto

In [None]:
# ============================================
# CONFIGURACI√ìN DEL PROYECTO
# ============================================

# Nombre de la base de datos
DATABASE_NAME = "financial_lakehouse"

# Ubicaci√≥n de almacenamiento (ajustar seg√∫n tu configuraci√≥n)
# Para Unity Catalog, usar: catalog.schema
# Para Hive Metastore, usar path en DBFS o ADLS
STORAGE_PATH = f"/mnt/delta/{DATABASE_NAME}"

# Configuraci√≥n de tablas
TABLES = {
    "bronze": {
        "clientes": "bronze_clientes",
        "cuentas": "bronze_cuentas",
        "transacciones": "bronze_transacciones"
    },
    "silver": {
        "clientes": "silver_dim_clientes",
        "cuentas": "silver_dim_cuentas",
        "transacciones": "silver_fact_transacciones"
    },
    "gold": {
        "resumen_cliente": "gold_resumen_cliente",
        "metricas_diarias": "gold_metricas_diarias",
        "analisis_riesgo": "gold_analisis_riesgo"
    }
}

print(f"üìÅ Base de datos: {DATABASE_NAME}")
print(f"üìÇ Storage path: {STORAGE_PATH}")

## 3Ô∏è‚É£ Configuraci√≥n de Spark para Delta Lake

In [None]:
# ============================================
# CONFIGURACIONES DE SPARK PARA DELTA LAKE
# ============================================

# Habilitar Change Data Feed por defecto para nuevas tablas
spark.conf.set("spark.databricks.delta.properties.defaults.enableChangeDataFeed", "true")

# Habilitar optimizaciones de escritura
spark.conf.set("spark.databricks.delta.optimizeWrite.enabled", "true")

# Habilitar auto-compactaci√≥n
spark.conf.set("spark.databricks.delta.autoCompact.enabled", "true")

# Configurar retention para historial (7 d√≠as)
spark.conf.set("spark.databricks.delta.retentionDurationCheck.enabled", "true")

# Mostrar configuraciones actuales
print("‚öôÔ∏è Configuraciones de Delta Lake:")
print(f"   CDC habilitado por defecto: {spark.conf.get('spark.databricks.delta.properties.defaults.enableChangeDataFeed')}")
print(f"   Optimize Write: {spark.conf.get('spark.databricks.delta.optimizeWrite.enabled')}")
print(f"   Auto Compact: {spark.conf.get('spark.databricks.delta.autoCompact.enabled')}")

## 4Ô∏è‚É£ Creaci√≥n de la Base de Datos

In [None]:
# ============================================
# CREAR BASE DE DATOS
# ============================================

spark.sql(f"""
    CREATE DATABASE IF NOT EXISTS {DATABASE_NAME}
    COMMENT 'Base de datos para proyecto de CDC, SCD y Liquid Clustering con datos financieros'
""")

# Usar la base de datos
spark.sql(f"USE {DATABASE_NAME}")

print(f"‚úÖ Base de datos '{DATABASE_NAME}' creada y seleccionada")

# Verificar
spark.sql("SELECT current_database()").show()

## 5Ô∏è‚É£ Creaci√≥n de Tablas Bronze con CDC y Liquid Clustering

### üìå Caracter√≠sticas importantes:
- **CLUSTER BY**: Habilita Liquid Clustering (reemplaza partitioning + Z-ORDER)
- **enableChangeDataFeed**: Habilita CDC para capturar cambios
- Las columnas de clustering se eligen seg√∫n patrones de consulta esperados

In [None]:
# ============================================
# TABLA BRONZE: CLIENTES
# ============================================
# Clustering por: cliente_id (b√∫squedas frecuentes), fecha_ingesta (time-based queries)

spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {TABLES['bronze']['clientes']} (
        -- Identificadores
        cliente_id STRING NOT NULL COMMENT 'ID √∫nico del cliente',
        
        -- Datos personales
        nombre STRING COMMENT 'Nombre completo del cliente',
        email STRING COMMENT 'Correo electr√≥nico',
        telefono STRING COMMENT 'N√∫mero de tel√©fono',
        
        -- Direcci√≥n
        direccion STRING COMMENT 'Direcci√≥n completa',
        ciudad STRING COMMENT 'Ciudad de residencia',
        pais STRING COMMENT 'Pa√≠s de residencia',
        codigo_postal STRING COMMENT 'C√≥digo postal',
        
        -- Datos adicionales
        fecha_nacimiento DATE COMMENT 'Fecha de nacimiento',
        genero STRING COMMENT 'G√©nero del cliente',
        segmento_cliente STRING COMMENT 'Segmento: RETAIL, PREMIUM, VIP, CORPORATE',
        estado STRING COMMENT 'Estado: ACTIVO, INACTIVO, SUSPENDIDO',
        
        -- Metadatos de ingesta
        fecha_registro TIMESTAMP COMMENT 'Fecha de registro en sistema origen',
        fecha_ingesta TIMESTAMP COMMENT 'Timestamp de ingesta a Bronze',
        fuente STRING COMMENT 'Sistema origen de los datos',
        operacion STRING COMMENT 'Tipo de operaci√≥n: INSERT, UPDATE, DELETE'
    )
    USING DELTA
    CLUSTER BY (cliente_id, fecha_ingesta)
    COMMENT 'Tabla Bronze de Clientes - Raw data con CDC habilitado'
    TBLPROPERTIES (
        'delta.enableChangeDataFeed' = 'true',
        'delta.autoOptimize.optimizeWrite' = 'true',
        'delta.autoOptimize.autoCompact' = 'true',
        'delta.logRetentionDuration' = 'interval 30 days',
        'delta.deletedFileRetentionDuration' = 'interval 7 days'
    )
""")

print(f"‚úÖ Tabla {TABLES['bronze']['clientes']} creada con Liquid Clustering y CDC")

In [None]:
# ============================================
# TABLA BRONZE: CUENTAS BANCARIAS
# ============================================
# Clustering por: numero_cuenta (PK), cliente_id (FK frecuente)

spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {TABLES['bronze']['cuentas']} (
        -- Identificadores
        numero_cuenta STRING NOT NULL COMMENT 'N√∫mero √∫nico de cuenta',
        cliente_id STRING NOT NULL COMMENT 'ID del cliente propietario',
        
        -- Informaci√≥n de la cuenta
        tipo_cuenta STRING COMMENT 'Tipo: AHORRO, CORRIENTE, CREDITO, INVERSION',
        moneda STRING COMMENT 'C√≥digo de moneda ISO (USD, EUR, PEN, etc.)',
        saldo_actual DECIMAL(18,2) COMMENT 'Saldo actual de la cuenta',
        saldo_disponible DECIMAL(18,2) COMMENT 'Saldo disponible para transacciones',
        limite_credito DECIMAL(18,2) COMMENT 'L√≠mite de cr√©dito (si aplica)',
        
        -- Estado y fechas
        estado STRING COMMENT 'Estado: ACTIVA, BLOQUEADA, CERRADA',
        fecha_apertura DATE COMMENT 'Fecha de apertura de la cuenta',
        fecha_ultimo_movimiento TIMESTAMP COMMENT 'Fecha del √∫ltimo movimiento',
        
        -- Informaci√≥n adicional
        sucursal STRING COMMENT 'C√≥digo de sucursal',
        ejecutivo_cuenta STRING COMMENT 'ID del ejecutivo asignado',
        tasa_interes DECIMAL(5,4) COMMENT 'Tasa de inter√©s aplicable',
        
        -- Metadatos de ingesta
        fecha_ingesta TIMESTAMP COMMENT 'Timestamp de ingesta a Bronze',
        fuente STRING COMMENT 'Sistema origen',
        operacion STRING COMMENT 'Tipo de operaci√≥n: INSERT, UPDATE, DELETE'
    )
    USING DELTA
    CLUSTER BY (numero_cuenta, cliente_id)
    COMMENT 'Tabla Bronze de Cuentas Bancarias - Raw data con CDC habilitado'
    TBLPROPERTIES (
        'delta.enableChangeDataFeed' = 'true',
        'delta.autoOptimize.optimizeWrite' = 'true',
        'delta.autoOptimize.autoCompact' = 'true'
    )
""")

print(f"‚úÖ Tabla {TABLES['bronze']['cuentas']} creada con Liquid Clustering y CDC")

In [None]:
# ============================================
# TABLA BRONZE: TRANSACCIONES
# ============================================
# Clustering por: fecha_transaccion (time-series), numero_cuenta (joins frecuentes)

spark.sql(f"""
    CREATE TABLE IF NOT EXISTS {TABLES['bronze']['transacciones']} (
        -- Identificadores
        transaccion_id STRING NOT NULL COMMENT 'ID √∫nico de la transacci√≥n',
        numero_cuenta STRING NOT NULL COMMENT 'N√∫mero de cuenta asociada',
        
        -- Detalles de la transacci√≥n
        tipo_transaccion STRING COMMENT 'Tipo: DEPOSITO, RETIRO, TRANSFERENCIA, PAGO, COMPRA',
        monto DECIMAL(18,2) COMMENT 'Monto de la transacci√≥n',
        moneda STRING COMMENT 'C√≥digo de moneda',
        descripcion STRING COMMENT 'Descripci√≥n de la transacci√≥n',
        
        -- Informaci√≥n temporal
        fecha_transaccion TIMESTAMP COMMENT 'Fecha y hora de la transacci√≥n',
        fecha_liquidacion DATE COMMENT 'Fecha de liquidaci√≥n',
        
        -- Canal y ubicaci√≥n
        canal STRING COMMENT 'Canal: ATM, ONLINE, MOBILE, SUCURSAL, POS',
        ubicacion STRING COMMENT 'Ubicaci√≥n de la transacci√≥n',
        dispositivo_id STRING COMMENT 'ID del dispositivo (si aplica)',
        
        -- Cuenta destino (para transferencias)
        cuenta_destino STRING COMMENT 'Cuenta destino para transferencias',
        banco_destino STRING COMMENT 'Banco destino para transferencias interbancarias',
        
        -- Estado y categorizaci√≥n
        estado STRING COMMENT 'Estado: PENDIENTE, COMPLETADA, RECHAZADA, REVERSADA',
        categoria STRING COMMENT 'Categor√≠a: ALIMENTOS, TRANSPORTE, SERVICIOS, etc.',
        
        -- Informaci√≥n de riesgo
        score_fraude DECIMAL(5,2) COMMENT 'Score de riesgo de fraude (0-100)',
        requiere_revision BOOLEAN COMMENT 'Flag si requiere revisi√≥n manual',
        
        -- Metadatos de ingesta
        fecha_ingesta TIMESTAMP COMMENT 'Timestamp de ingesta a Bronze',
        fuente STRING COMMENT 'Sistema origen',
        operacion STRING COMMENT 'Tipo de operaci√≥n'
    )
    USING DELTA
    CLUSTER BY (fecha_transaccion, numero_cuenta, tipo_transaccion)
    COMMENT 'Tabla Bronze de Transacciones - Raw data con CDC habilitado'
    TBLPROPERTIES (
        'delta.enableChangeDataFeed' = 'true',
        'delta.autoOptimize.optimizeWrite' = 'true',
        'delta.autoOptimize.autoCompact' = 'true',
        'delta.logRetentionDuration' = 'interval 90 days'
    )
""")

print(f"‚úÖ Tabla {TABLES['bronze']['transacciones']} creada con Liquid Clustering y CDC")

## 6Ô∏è‚É£ Verificaci√≥n de Tablas Creadas

In [None]:
# ============================================
# VERIFICAR TABLAS CREADAS
# ============================================

print("üìã Tablas en la base de datos:")
spark.sql(f"SHOW TABLES IN {DATABASE_NAME}").show(truncate=False)

In [None]:
# Verificar propiedades de Liquid Clustering y CDC
for layer, tables in TABLES.items():
    if layer == "bronze":
        for table_name, table_full_name in tables.items():
            print(f"\n{'='*60}")
            print(f"üìä Detalles de: {table_full_name}")
            print('='*60)
            
            # Mostrar propiedades de la tabla
            spark.sql(f"DESCRIBE DETAIL {table_full_name}").show(vertical=True, truncate=False)

In [None]:
# Verificar propiedades espec√≠ficas de la tabla (CDC y Clustering)
print("\nüìù Propiedades de tabla Bronze Clientes:")
spark.sql(f"SHOW TBLPROPERTIES {TABLES['bronze']['clientes']}").show(truncate=False)

## 7Ô∏è‚É£ Generaci√≥n de Datos Sint√©ticos

Generaremos datos de prueba para simular un sistema bancario real.

In [None]:
from pyspark.sql.functions import (
    col, lit, expr, rand, randn, floor, ceil,
    date_add, date_sub, current_timestamp, current_date,
    concat, lpad, when, round as spark_round,
    to_timestamp, to_date, unix_timestamp,
    array, element_at, shuffle
)
from pyspark.sql.types import *
import random

# Configuraci√≥n de generaci√≥n de datos
NUM_CLIENTES = 1000
NUM_CUENTAS = 1500  # Algunos clientes tienen m√∫ltiples cuentas
NUM_TRANSACCIONES = 10000

print(f"üîÑ Generando datos sint√©ticos:")
print(f"   - Clientes: {NUM_CLIENTES:,}")
print(f"   - Cuentas: {NUM_CUENTAS:,}")
print(f"   - Transacciones: {NUM_TRANSACCIONES:,}")

In [None]:
# ============================================
# GENERAR DATOS DE CLIENTES
# ============================================

# Arrays para datos aleatorios
nombres = ["Juan", "Mar√≠a", "Carlos", "Ana", "Pedro", "Laura", "Miguel", "Sofia", "Diego", "Valentina",
           "Andr√©s", "Camila", "Roberto", "Isabella", "Fernando", "Luc√≠a", "Gabriel", "Paula", "Daniel", "Martina"]
apellidos = ["Garc√≠a", "Rodr√≠guez", "Mart√≠nez", "L√≥pez", "Gonz√°lez", "Hern√°ndez", "P√©rez", "S√°nchez", 
             "Ram√≠rez", "Torres", "Flores", "Rivera", "G√≥mez", "D√≠az", "Reyes", "Morales", "Ortiz", "Cruz"]
ciudades = ["Lima", "Arequipa", "Trujillo", "Chiclayo", "Piura", "Cusco", "Huancayo", "Iquitos", "Tacna", "Puno"]
segmentos = ["RETAIL", "PREMIUM", "VIP", "CORPORATE"]
estados = ["ACTIVO", "ACTIVO", "ACTIVO", "ACTIVO", "INACTIVO"]  # 80% activos

# Crear DataFrame base
clientes_df = spark.range(1, NUM_CLIENTES + 1).select(
    # ID del cliente
    concat(lit("CLI-"), lpad(col("id").cast("string"), 8, "0")).alias("cliente_id"),
    
    # Nombre completo
    concat(
        element_at(array(*[lit(n) for n in nombres]), (floor(rand() * len(nombres)) + 1).cast("int")),
        lit(" "),
        element_at(array(*[lit(a) for a in apellidos]), (floor(rand() * len(apellidos)) + 1).cast("int")),
        lit(" "),
        element_at(array(*[lit(a) for a in apellidos]), (floor(rand() * len(apellidos)) + 1).cast("int"))
    ).alias("nombre"),
    
    # Email
    concat(
        lit("cliente"),
        col("id").cast("string"),
        lit("@"),
        element_at(array(lit("gmail.com"), lit("hotmail.com"), lit("yahoo.com"), lit("outlook.com")), 
                  (floor(rand() * 4) + 1).cast("int"))
    ).alias("email"),
    
    # Tel√©fono
    concat(lit("+51 9"), lpad((floor(rand() * 99999999) + 10000000).cast("string"), 8, "0")).alias("telefono"),
    
    # Direcci√≥n
    concat(
        lit("Calle "),
        (floor(rand() * 100) + 1).cast("string"),
        lit(" #"),
        (floor(rand() * 999) + 1).cast("string")
    ).alias("direccion"),
    
    # Ciudad
    element_at(array(*[lit(c) for c in ciudades]), (floor(rand() * len(ciudades)) + 1).cast("int")).alias("ciudad"),
    
    # Pa√≠s
    lit("Per√∫").alias("pais"),
    
    # C√≥digo postal
    lpad((floor(rand() * 99999) + 10000).cast("string"), 5, "0").alias("codigo_postal"),
    
    # Fecha de nacimiento (entre 18 y 70 a√±os)
    date_sub(current_date(), (floor(rand() * 52 * 365) + 18 * 365).cast("int")).alias("fecha_nacimiento"),
    
    # G√©nero
    when(rand() < 0.5, lit("M")).otherwise(lit("F")).alias("genero"),
    
    # Segmento
    element_at(array(*[lit(s) for s in segmentos]), (floor(rand() * len(segmentos)) + 1).cast("int")).alias("segmento_cliente"),
    
    # Estado
    element_at(array(*[lit(e) for e in estados]), (floor(rand() * len(estados)) + 1).cast("int")).alias("estado"),
    
    # Fecha de registro (√∫ltimos 5 a√±os)
    to_timestamp(date_sub(current_date(), (floor(rand() * 5 * 365)).cast("int"))).alias("fecha_registro"),
    
    # Metadatos de ingesta
    current_timestamp().alias("fecha_ingesta"),
    lit("CORE_BANKING").alias("fuente"),
    lit("INSERT").alias("operacion")
)

print(f"‚úÖ DataFrame de clientes generado: {clientes_df.count()} registros")
clientes_df.show(5, truncate=False)

In [None]:
# ============================================
# INSERTAR DATOS EN BRONZE_CLIENTES
# ============================================

clientes_df.write \
    .format("delta") \
    .mode("append") \
    .saveAsTable(TABLES['bronze']['clientes'])

print(f"‚úÖ Datos insertados en {TABLES['bronze']['clientes']}")

# Verificar conteo
count = spark.table(TABLES['bronze']['clientes']).count()
print(f"üìä Total de registros: {count:,}")

In [None]:
# ============================================
# GENERAR DATOS DE CUENTAS BANCARIAS
# ============================================

tipos_cuenta = ["AHORRO", "CORRIENTE", "CREDITO", "INVERSION"]
monedas = ["PEN", "PEN", "PEN", "USD"]  # 75% en soles
estados_cuenta = ["ACTIVA", "ACTIVA", "ACTIVA", "ACTIVA", "BLOQUEADA"]  # 80% activas
sucursales = ["SUC-001", "SUC-002", "SUC-003", "SUC-004", "SUC-005", "SUC-010", "SUC-015", "SUC-020"]

# Obtener IDs de clientes existentes
clientes_ids = spark.table(TABLES['bronze']['clientes']).select("cliente_id").collect()
clientes_list = [row.cliente_id for row in clientes_ids]

cuentas_df = spark.range(1, NUM_CUENTAS + 1).select(
    # N√∫mero de cuenta
    concat(lit("191-"), lpad(col("id").cast("string"), 10, "0")).alias("numero_cuenta"),
    
    # Cliente ID (distribuido entre clientes existentes)
    element_at(
        array(*[lit(c) for c in clientes_list]),
        (floor(rand() * len(clientes_list)) + 1).cast("int")
    ).alias("cliente_id"),
    
    # Tipo de cuenta
    element_at(array(*[lit(t) for t in tipos_cuenta]), (floor(rand() * len(tipos_cuenta)) + 1).cast("int")).alias("tipo_cuenta"),
    
    # Moneda
    element_at(array(*[lit(m) for m in monedas]), (floor(rand() * len(monedas)) + 1).cast("int")).alias("moneda"),
    
    # Saldo actual (entre 0 y 500,000)
    spark_round(rand() * 500000, 2).alias("saldo_actual"),
    
    # Saldo disponible (90-100% del saldo actual)
    spark_round(rand() * 500000 * (0.9 + rand() * 0.1), 2).alias("saldo_disponible"),
    
    # L√≠mite de cr√©dito (solo para cuentas de cr√©dito)
    when(
        element_at(array(*[lit(t) for t in tipos_cuenta]), (floor(rand() * len(tipos_cuenta)) + 1).cast("int")) == "CREDITO",
        spark_round(rand() * 50000 + 5000, 2)
    ).otherwise(lit(None)).alias("limite_credito"),
    
    # Estado
    element_at(array(*[lit(e) for e in estados_cuenta]), (floor(rand() * len(estados_cuenta)) + 1).cast("int")).alias("estado"),
    
    # Fecha de apertura
    date_sub(current_date(), (floor(rand() * 3 * 365)).cast("int")).alias("fecha_apertura"),
    
    # √öltimo movimiento
    to_timestamp(date_sub(current_date(), (floor(rand() * 30)).cast("int"))).alias("fecha_ultimo_movimiento"),
    
    # Sucursal
    element_at(array(*[lit(s) for s in sucursales]), (floor(rand() * len(sucursales)) + 1).cast("int")).alias("sucursal"),
    
    # Ejecutivo
    concat(lit("EJE-"), lpad((floor(rand() * 50) + 1).cast("string"), 3, "0")).alias("ejecutivo_cuenta"),
    
    # Tasa de inter√©s (1-15%)
    spark_round(rand() * 0.14 + 0.01, 4).alias("tasa_interes"),
    
    # Metadatos
    current_timestamp().alias("fecha_ingesta"),
    lit("CORE_BANKING").alias("fuente"),
    lit("INSERT").alias("operacion")
)

# Insertar en tabla Bronze
cuentas_df.write \
    .format("delta") \
    .mode("append") \
    .saveAsTable(TABLES['bronze']['cuentas'])

print(f"‚úÖ Datos insertados en {TABLES['bronze']['cuentas']}")
print(f"üìä Total de registros: {spark.table(TABLES['bronze']['cuentas']).count():,}")

In [None]:
# ============================================
# GENERAR DATOS DE TRANSACCIONES
# ============================================

tipos_transaccion = ["DEPOSITO", "RETIRO", "TRANSFERENCIA", "PAGO", "COMPRA"]
canales = ["ATM", "ONLINE", "MOBILE", "SUCURSAL", "POS"]
estados_tx = ["COMPLETADA", "COMPLETADA", "COMPLETADA", "COMPLETADA", "PENDIENTE", "RECHAZADA"]
categorias = ["ALIMENTOS", "TRANSPORTE", "SERVICIOS", "ENTRETENIMIENTO", "SALUD", "EDUCACION", "OTROS"]

# Obtener cuentas existentes
cuentas_ids = spark.table(TABLES['bronze']['cuentas']).select("numero_cuenta").collect()
cuentas_list = [row.numero_cuenta for row in cuentas_ids]

transacciones_df = spark.range(1, NUM_TRANSACCIONES + 1).select(
    # ID de transacci√≥n
    concat(lit("TXN-"), lpad(col("id").cast("string"), 12, "0")).alias("transaccion_id"),
    
    # Cuenta asociada
    element_at(
        array(*[lit(c) for c in cuentas_list]),
        (floor(rand() * len(cuentas_list)) + 1).cast("int")
    ).alias("numero_cuenta"),
    
    # Tipo de transacci√≥n
    element_at(array(*[lit(t) for t in tipos_transaccion]), (floor(rand() * len(tipos_transaccion)) + 1).cast("int")).alias("tipo_transaccion"),
    
    # Monto (entre 1 y 50,000)
    spark_round(rand() * 49999 + 1, 2).alias("monto"),
    
    # Moneda
    element_at(array(lit("PEN"), lit("PEN"), lit("PEN"), lit("USD")), (floor(rand() * 4) + 1).cast("int")).alias("moneda"),
    
    # Descripci√≥n
    concat(
        lit("Transacci√≥n #"),
        col("id").cast("string")
    ).alias("descripcion"),
    
    # Fecha de transacci√≥n (√∫ltimos 90 d√≠as)
    to_timestamp(
        concat(
            date_sub(current_date(), (floor(rand() * 90)).cast("int")).cast("string"),
            lit(" "),
            lpad((floor(rand() * 24)).cast("string"), 2, "0"),
            lit(":"),
            lpad((floor(rand() * 60)).cast("string"), 2, "0"),
            lit(":"),
            lpad((floor(rand() * 60)).cast("string"), 2, "0")
        )
    ).alias("fecha_transaccion"),
    
    # Fecha de liquidaci√≥n
    date_sub(current_date(), (floor(rand() * 88)).cast("int")).alias("fecha_liquidacion"),
    
    # Canal
    element_at(array(*[lit(c) for c in canales]), (floor(rand() * len(canales)) + 1).cast("int")).alias("canal"),
    
    # Ubicaci√≥n
    element_at(array(*[lit(c) for c in ciudades]), (floor(rand() * len(ciudades)) + 1).cast("int")).alias("ubicacion"),
    
    # Dispositivo
    concat(lit("DEV-"), lpad((floor(rand() * 10000)).cast("string"), 6, "0")).alias("dispositivo_id"),
    
    # Cuenta destino (para transferencias)
    when(rand() < 0.2, 
         concat(lit("191-"), lpad((floor(rand() * 9999999999) + 1).cast("string"), 10, "0"))
    ).otherwise(lit(None)).alias("cuenta_destino"),
    
    # Banco destino
    when(rand() < 0.1,
         element_at(array(lit("BCP"), lit("BBVA"), lit("INTERBANK"), lit("SCOTIABANK")), (floor(rand() * 4) + 1).cast("int"))
    ).otherwise(lit(None)).alias("banco_destino"),
    
    # Estado
    element_at(array(*[lit(e) for e in estados_tx]), (floor(rand() * len(estados_tx)) + 1).cast("int")).alias("estado"),
    
    # Categor√≠a
    element_at(array(*[lit(c) for c in categorias]), (floor(rand() * len(categorias)) + 1).cast("int")).alias("categoria"),
    
    # Score de fraude (0-100)
    spark_round(rand() * 100, 2).alias("score_fraude"),
    
    # Requiere revisi√≥n (si score > 80)
    (rand() * 100 > 80).alias("requiere_revision"),
    
    # Metadatos
    current_timestamp().alias("fecha_ingesta"),
    lit("TRANSACTION_SYSTEM").alias("fuente"),
    lit("INSERT").alias("operacion")
)

# Insertar en tabla Bronze
transacciones_df.write \
    .format("delta") \
    .mode("append") \
    .saveAsTable(TABLES['bronze']['transacciones'])

print(f"‚úÖ Datos insertados en {TABLES['bronze']['transacciones']}")
print(f"üìä Total de registros: {spark.table(TABLES['bronze']['transacciones']).count():,}")

## 8Ô∏è‚É£ Verificaci√≥n Final del Setup

In [None]:
# ============================================
# RESUMEN DEL SETUP
# ============================================

print("\n" + "="*70)
print("üìä RESUMEN DEL SETUP")
print("="*70)

for table_name in [TABLES['bronze']['clientes'], TABLES['bronze']['cuentas'], TABLES['bronze']['transacciones']]:
    count = spark.table(table_name).count()
    print(f"\nüìÅ {table_name}:")
    print(f"   ‚îî‚îÄ Registros: {count:,}")
    
    # Verificar CDC
    props = spark.sql(f"SHOW TBLPROPERTIES {table_name}").filter("key = 'delta.enableChangeDataFeed'").collect()
    if props:
        print(f"   ‚îî‚îÄ CDC habilitado: {props[0]['value']}")
    
    # Verificar Clustering
    detail = spark.sql(f"DESCRIBE DETAIL {table_name}").collect()[0]
    if detail.clusteringColumns:
        print(f"   ‚îî‚îÄ Liquid Clustering: {detail.clusteringColumns}")

In [None]:
# Verificar que CDC est√° capturando cambios (historial)
print("\nüìú Historial de cambios en Bronze Clientes:")
spark.sql(f"DESCRIBE HISTORY {TABLES['bronze']['clientes']} LIMIT 5").show(truncate=False)

---

## ‚úÖ Setup Completado

### Lo que hemos configurado:

1. ‚úÖ Base de datos `financial_lakehouse` creada
2. ‚úÖ Tablas Bronze con **Liquid Clustering** habilitado
3. ‚úÖ **Change Data Feed (CDC)** habilitado en todas las tablas
4. ‚úÖ Datos sint√©ticos cargados para pruebas

### Pr√≥ximo paso:
Continuar con el **Notebook 02: Bronze Layer - CDC** para ver c√≥mo capturar y procesar cambios incrementales.

---