In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, avg

# Crear una Spark Session
spark = SparkSession.builder.appName("ETL Pipeline Example").getOrCreate()

In [None]:
# 1. EXTRAER DATOS (Read CSV)
df = spark.read.csv("sales_data.csv", header=True, inferSchema=True)

# Mostrar los datos cargados
df.show(5)

In [None]:
# 2. TRANSFORMAR DATOS
# Limpiar nulos
clean_df = df.na.drop()

# Calcular ventas totales por ciudad y producto
agg_df = clean_df.groupBy("city", "product").agg(
    sum("total_sales").alias("total_revenue"),
    avg("price_per_unit").alias("avg_price")
)

# Mostrar el DataFrame transformado
agg_df.show()

In [None]:
# 3. CARGAR DATOS (Guardar como parquet)
agg_df.write.mode("overwrite").parquet("processed_sales_data.parquet")

print("ETL Pipeline completado!")