# 🧪 Laboratorio: Opciones Avanzadas en Azure Databricks

## 🎯 Objetivo

Explorar y aplicar características avanzadas de Azure Databricks que pueden ejecutarse en un cluster básico (Standard o Single Node). Este laboratorio incluye configuraciones, ajustes de rendimiento, monitoreo y uso de caché de datos.

## 🧠 Conceptos Clave

- **Configuración dinámica de Spark (spark.conf)**
- **Caché de datos en memoria (`cache()` y `persist()`)**
- **Uso del plan de ejecución (`explain()`)**
- **Monitoreo desde Spark UI**
- **Auto Broadcast Join Threshold**
- **Modo local y modo cluster**

In [0]:
# Crear un DataFrame de prueba
from pyspark.sql.functions import rand
df = spark.range(0, 10_000_000).withColumn("random", rand())
df.printSchema()

In [0]:
# Uso de caché y persistencia
df.cache()
df.count()  # Forzar carga y almacenamiento en memoria

In [0]:
# Ver plan de ejecución físico y lógico
df.filter("random > 0.5").explain(True)

In [0]:
# Ajustar configuración Spark para desactivar broadcast join
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", -1)

In [0]:
# Activar Adaptive Query Execution (AQE)
spark.conf.set("spark.sql.adaptive.enabled", True)