# üìò Sesi√≥n 5 ‚Äî Agrupaciones y Agregaciones en PySpark

Las funciones de **agrupaci√≥n** y **agregaci√≥n** son fundamentales para resumir y analizar datos. Nos permiten responder preguntas como:

- ¬øCu√°ntos clientes hay por pa√≠s?
- ¬øCu√°l es el m√©todo de pago m√°s utilizado?
- ¬øCu√°l es el total de ventas por producto o por d√≠a?

---

### üîß Funciones clave en esta sesi√≥n:

| Funci√≥n                  | Descripci√≥n                                   |
|--------------------------|-----------------------------------------------|
| `groupBy(col)`           | Agrupa filas que comparten un mismo valor     |
| `agg(...)`               | Aplica una o varias funciones de agregaci√≥n   |
| `.count()`               | Cuenta el n√∫mero de registros                 |
| `.sum("col")`            | Suma los valores de una columna               |
| `.avg("col")`            | Calcula el promedio                          |
| `.max("col")`, `.min()`  | Obtiene el m√°ximo/m√≠nimo de una columna       |

Estas funciones son altamente eficientes, escalables y ejecutan en paralelo sobre grandes vol√∫menes de datos.

---

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

# Leer la tabla de clientes
df_customers = spark.table("samples.bakehouse.sales_customers")

# 1. Total de clientes por pa√≠s
clientes_por_pais = df_customers.groupBy("country").count().orderBy("count", ascending=False)
clientes_por_pais.show(10, truncate=False)

# 2. Total de clientes por g√©nero
clientes_por_genero = df_customers.groupBy("gender").agg(F.count("*").alias("total"))
clientes_por_genero.show()

# 3. N√∫mero de ciudades distintas por pa√≠s
ciudades_distintas = df_customers.groupBy("country").agg(F.countDistinct("city").alias("ciudades_unicas"))
ciudades_distintas.orderBy("ciudades_unicas", ascending=False).show(10)

## ‚úçÔ∏è Ejercicio pr√°ctico ‚Äî Agrupaciones y agregaciones sobre transacciones

Trabaja sobre la tabla `samples.bakehouse.sales_transactions` y resuelve lo siguiente:

1. Agrupa las transacciones por `paymentMethod` y muestra:
   - La cantidad total de transacciones.
   - La suma total del campo `totalPrice`.
   - El valor promedio de las transacciones.

2. Agrupa las ventas por `product` y calcula:
   - Total de unidades vendidas (`sum(quantity)`).
   - Total de ingresos (`sum(totalPrice)`).

3. Agrupa por `franchiseID` y muestra:
   - El total de transacciones por franquicia.
   - El ticket promedio (`avg(totalPrice)`).

üéØ Bonus: Muestra los 5 productos con mayor volumen de venta (cantidad total).

üì§ Sube tu notebook o script con los resultados y comentarios por celda.