In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import rand, col, count
from pyspark import StorageLevel
import time


# Crear un DataFrame de ejemplo
df = spark.range(0, 10_000_000).withColumn("valor", (rand() * 1000).cast("int"))
df_filtrado = df.filter(col("valor") > 500)

# Sin cache/persist - Primera acci√≥n
start = time.time()
df_filtrado.select("valor").groupBy("valor").agg(count("*")).count()
end = time.time()
print(f"Tiempo SIN cache/persist: {end - start:.2f} segundos")

# Con cache
df_cache = df.filter(col("valor") > 500).cache()

# Acci√≥n para activar la cache
df_cache.count()

# Repetir una acci√≥n sobre el mismo DataFrame
start = time.time()
df_cache.select("valor").groupBy("valor").agg(count("*")).count()
end = time.time()
print(f"Tiempo CON cache: {end - start:.2f} segundos")

# Liberar memoria
df_cache.unpersist()

# Con persist (solo memoria)
df_persist = df.filter(col("valor") > 500).persist(StorageLevel.MEMORY_ONLY)

# Acci√≥n para activar la persistencia
df_persist.count()

# Repetir otra acci√≥n
start = time.time()
df_persist.select("valor").groupBy("valor").agg(count("*")).count()
end = time.time()
print(f"Tiempo CON persistencia (MEMORY_ONLY): {end - start:.2f} segundos")

# Finalizar
df_persist.unpersist()


# üß™ Ejercicio Pr√°ctico ‚Äì Join y Persistencia en PySpark

## üéØ Objetivo
Aplicar conceptos de joins entre m√∫ltiples tablas y explorar el impacto en el rendimiento al utilizar `cache()` y `persist()`.

---

## üìù Instrucciones

### 1Ô∏è‚É£ Cargar las tablas del cat√°logo TPCH
Utiliz√° las siguientes tablas disponibles en Databricks:
- `samples.tpch.customer`
- `samples.tpch.nation`
- `samples.tpch.region`

### 2Ô∏è‚É£ Realizar joins
Un√≠ las tres tablas siguiendo estas condiciones:
- `customer` ‚Üí `nation` usando `c_nationkey == n_nationkey`
- `nation` ‚Üí `region` usando `n_regionkey == r_regionkey`

Aplic√° un **filtro** para quedarte solo con los clientes cuya regi√≥n sea **'AMERICA'**.

```python
df_customer = spark.table("samples.tpch.customer")
df_nation = spark.table("samples.tpch.nation")
df_region = spark.table("samples.tpch.region")
```

---

### 3Ô∏è‚É£ Medir tiempo sin persistencia

---

### 4Ô∏è‚É£ Medir tiempo usando `cache()`

---

### 5Ô∏è‚É£ Medir tiempo usando `persist()`

---

## üìÇ Entrega

Sub√≠ un notebook `.ipynb` o script `.py` con:
- El c√≥digo completo
- Los tiempos registrados
- Una breve reflexi√≥n comparando `cache()` y `persist()`

---

## ‚úÖ Criterios de evaluaci√≥n

- ‚úî Correcta aplicaci√≥n de joins y filtros
- ‚úî Uso adecuado de `cache()` y `persist()`
- ‚úî Medici√≥n de tiempos clara
- ‚úî An√°lisis final con observaciones propias

---

üí° *Tip:* Asegurate de que el cl√∫ster est√© activo y no saturado para obtener mediciones consistentes.
