In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, rand
import time

# Crear un DataFrame grande de prueba con 20 millones de filas
df = spark.range(0, 20_000_000).withColumn("valor", (rand() * 1000).cast("int"))
# Ver cu√°ntas particiones tiene inicialmente
#print(f"Particiones iniciales: {df.rdd.getNumPartitions()}")
# Reparticionar el DataFrame a un n√∫mero mayor de particiones
df_repartitioned = df.repartition(20)
#print(f"Despu√©s de repartition(20): {df_repartitioned.rdd.getNumPartitions()}")
# Escribir en disco y medir el tiempo
start = time.time()
df_repartitioned.write.mode("overwrite").parquet("dbfs:/content/sample_data/dataset_repartitioned")
end = time.time()


In [0]:
print(f"Tiempo de escritura con repartition: {end - start:.2f} segundos")
# Leer el dataset con muchas particiones
df_read = spark.read.parquet("/content/sample_data/dataset_repartitioned")
print(f"Particiones al leer: {df_read.rdd.getNumPartitions()}")

# Reducir el n√∫mero de particiones con coalesce
df_coalesced = df_read.coalesce(1)
print(f"Despu√©s de coalesce(1): {df_coalesced.rdd.getNumPartitions()}")
# Escribir en disco y medir el tiempo
start = time.time()
df_coalesced.write.mode("overwrite").parquet("/tmp/dataset_coalesced")
end = time.time()
print(f"Tiempo de escritura con coalesce: {end - start:.2f} segundos")

# Mantener la sesi√≥n abierta para observaci√≥n en UI si es necesario
time.sleep(120)

# üß™ Ejercicio Pr√°ctico - Sesi√≥n 2: Particiones, Paralelismo y Tiempos de Ejecuci√≥n

## üéØ Objetivo
Practicar el control de particiones y medir el impacto en el rendimiento a trav√©s del tiempo de escritura con diferentes configuraciones.

---

## üìù Instrucciones

### 1Ô∏è‚É£ Crear un DataFrame
- Gener√° un `DataFrame` en PySpark con **5.000 registros** y al menos **3 columnas** (por ejemplo: n√∫mero, valor aleatorio, texto).

---

### 2Ô∏è‚É£ Escribir en formato Parquet con 3 particiones
- Reparticionar el DataFrame en **3 particiones**.
- Medir el tiempo de escritura en formato Parquet.

---

### 3Ô∏è‚É£ Leer y reducir a 1 partici√≥n
- Le√© los archivos `.parquet` generados.
- Us√° `coalesce(1)` para reducir a **una sola partici√≥n**.

---

### 4Ô∏è‚É£ Escribir como CSV con compresi√≥n BZIP2
- Escrib√≠ el DataFrame como **un solo archivo CSV** comprimido en formato **bzip2**.
- Med√≠ el tiempo de escritura.

```python
df_single.write.mode("overwrite") \
    .option("compression", "bzip2") \
    .csv("/tmp/df_csv_bzip")
```

---

## üìÇ Entrega

- Sub√≠ el script `.py` o notebook `.ipynb` con el c√≥digo completo.
- Inclu√≠ los tiempos de ejecuci√≥n impresos y comentarios explicativos.

---

## ‚úÖ Criterios de evaluaci√≥n

- ‚úî Uso correcto de `repartition` y `coalesce`.
- ‚úî Escritura en los formatos y compresi√≥n solicitados.
- ‚úî Medici√≥n de tiempo correcta en cada escritura.
- ‚úî C√≥digo limpio, comentado y funcional.
