# 🧪 Laboratorio 4: Análisis y Optimización de Jobs de Spark

## 🎯 Objetivo

Analizar cuellos de botella en jobs de Spark y aplicar técnicas de optimización como broadcast join, manejo de skew y ajustes de configuración para mejorar el rendimiento.

## ℹ️ Introducción

Spark es una plataforma distribuida de procesamiento de datos que puede escalar a grandes volúmenes, pero su rendimiento depende de cómo se estructuran y configuran los jobs.
Este laboratorio te enseña a diagnosticar y mejorar el rendimiento usando herramientas como Spark UI, técnicas como broadcast joins, y ajustes finos del motor de ejecución.

## 🧠 Conceptos Clave

**Spark UI**
Herramienta visual que permite inspeccionar el plan de ejecución de los jobs, detectar etapas lentas, skew, y recursos utilizados.
[📘 Ver documentación](https://spark.apache.org/docs/latest/web-ui.html)

**Broadcast Join**
Optimización que replica una tabla pequeña a todos los nodos para evitar shuffles.

**Skew Handling**
Estrategias para evitar cuellos de botella cuando los datos no están balanceados.

**Adaptive Query Execution (AQE)**
Funcionalidad que permite a Spark ajustar el plan de ejecución en tiempo real con base en estadísticas.
[📘 Ver documentación](https://spark.apache.org/docs/latest/sql-performance-tuning.html#adaptive-query-execution)

## 🛠️ Pasos del laboratorio

### 1. Cargar dos datasets para hacer un join

In [None]:
clientes = spark.read.option("header", True).csv("/databricks-datasets/retail-org/customers/")
ventas = spark.read.option("header", True).csv("/databricks-datasets/retail-org/sales/")

### 2. Realizar un join estándar (no optimizado)

In [None]:
join_default = ventas.join(clientes, "customer_id")
join_default.write.format("noop").mode("overwrite").save()  # Trigger job sin escribir datos reales

### 3. Habilitar AQE y usar broadcast join manual

In [None]:
spark.conf.set("spark.sql.adaptive.enabled", "true")
from pyspark.sql.functions import broadcast

join_optimizado = ventas.join(broadcast(clientes), "customer_id")
join_optimizado.write.format("noop").mode("overwrite").save()

### 4. Comparar ejecución en Spark UI
- Ve a la pestaña "Spark UI" desde la interfaz de Databricks.
- Compara duración, stages y número de shuffles entre los dos jobs.

## ✅ Validación
- Identifica mejoras en tiempo de ejecución y número de etapas.
- Confirma que el plan físico usa `BroadcastHashJoin`.
- Verifica que AQE esté activo si habilitaste adaptative query execution.
