# üß™ Laboratorio Avanzado: T√©cnicas de Optimizaci√≥n en Azure Databricks

## üéØ Objetivo
Aplicar un conjunto de t√©cnicas expertas de rendimiento en Spark y Delta Lake sobre un flujo de datos de ventas, usando un cluster sencillo con configuraciones avanzadas.

## üß† T√©cnicas cubiertas
- Z-Ordering (`ZORDER BY`)
- Optimize con bin packing
- Bloom filters para joins
- Dynamic Partition Pruning
- AQE + Broadcast Joins
- Column pruning
- Cost-based optimization


In [0]:
# Simulaci√≥n de datos de ventas
from pyspark.sql.functions import expr, rand, col
df_sales = spark.range(0, 10_000_000).withColumn("store_id", (col("id") % 100)) \
    .withColumn("product_id", (col("id") % 1000)) \
    .withColumn("amount", rand() * 100) \
    .withColumn("region", expr("CASE WHEN store_id % 2 = 0 THEN 'North' ELSE 'South' END"))

df_sales.write.format("delta").mode("overwrite").partitionBy("region").save("/mnt/optimizacion/sales")

## üîÅ OPTIMIZE y ZORDER para filtros altamente selectivos

In [0]:
spark.sql("OPTIMIZE delta.`/mnt/optimizacion/sales` ZORDER BY (store_id, product_id)")

## üß™ Dynamic Partition Pruning + Column Pruning
Habilita DPP y accede solo a columnas necesarias.

In [0]:
spark.conf.set("spark.sql.optimizer.dynamicPartitionPruning", True)
df_filtered = spark.read.format("delta").load("/mnt/optimizacion/sales") \
    .filter("region = 'North' and store_id = 42") \
    .select("product_id", "store_id", "amount")
df_filtered.show(5)

## üìä AQE + Join Broadcast Auto Tuning
Combina AQE y broadcast inteligente con un join de productos.

In [0]:
spark.conf.set("spark.sql.adaptive.enabled", True)
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 10 * 1024 * 1024)  # 10MB

df_products = spark.range(0, 1000).withColumnRenamed("id", "product_id")

df_joined = df_filtered.join(df_products, "product_id", "inner")
df_joined.explain(True)

## ‚úÖ Validaci√≥n
- Revisa Spark UI: ¬øse us√≥ ZORDER?
- ¬øSe aplic√≥ Dynamic Partition Pruning?
- ¬øSe ejecut√≥ el join con broadcast?
- ¬øSe redujo el n√∫mero de archivos tras `OPTIMIZE`?

Este laboratorio pone en pr√°ctica t√©cnicas reales para producci√≥n en escenarios de gran volumen sin necesidad de escalar recursos.