# 📘 Sesión 5 — Agrupaciones y Agregaciones en PySpark

Las funciones de **agrupación** y **agregación** son fundamentales para resumir y analizar datos. Nos permiten responder preguntas como:

- ¿Cuántos clientes hay por país?
- ¿Cuál es el método de pago más utilizado?
- ¿Cuál es el total de ventas por producto o por día?

---

### 🔧 Funciones clave en esta sesión:

| Función                  | Descripción                                   |
|--------------------------|-----------------------------------------------|
| `groupBy(col)`           | Agrupa filas que comparten un mismo valor     |
| `agg(...)`               | Aplica una o varias funciones de agregación   |
| `.count()`               | Cuenta el número de registros                 |
| `.sum("col")`            | Suma los valores de una columna               |
| `.avg("col")`            | Calcula el promedio                          |
| `.max("col")`, `.min()`  | Obtiene el máximo/mínimo de una columna       |

Estas funciones son altamente eficientes, escalables y ejecutan en paralelo sobre grandes volúmenes de datos.

---

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

# Leer la tabla de clientes
df_customers = spark.table("samples.bakehouse.sales_customers")

# 1. Total de clientes por país
clientes_por_pais = df_customers.groupBy("country").count().orderBy("count", ascending=False)
clientes_por_pais.show(10, truncate=False)

# 2. Total de clientes por género
clientes_por_genero = df_customers.groupBy("gender").agg(F.count("*").alias("total"))
clientes_por_genero.show()

# 3. Número de ciudades distintas por país
ciudades_distintas = df_customers.groupBy("country").agg(F.countDistinct("city").alias("ciudades_unicas"))
ciudades_distintas.orderBy("ciudades_unicas", ascending=False).show(10)

## ✍️ Ejercicio práctico — Agrupaciones y agregaciones sobre transacciones

Trabaja sobre la tabla `samples.bakehouse.sales_transactions` y resuelve lo siguiente:

1. Agrupa las transacciones por `paymentMethod` y muestra:
   - La cantidad total de transacciones.
   - La suma total del campo `totalPrice`.
   - El valor promedio de las transacciones.

2. Agrupa las ventas por `product` y calcula:
   - Total de unidades vendidas (`sum(quantity)`).
   - Total de ingresos (`sum(totalPrice)`).

3. Agrupa por `franchiseID` y muestra:
   - El total de transacciones por franquicia.
   - El ticket promedio (`avg(totalPrice)`).

🎯 Bonus: Muestra los 5 productos con mayor volumen de venta (cantidad total).

📤 Sube tu notebook o script con los resultados y comentarios por celda.