In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, rank, lag, lead, col
# Crear un DataFrame con empates en los valores para mostrar diferencia entre row_number y rank
data = [
    ("Alice", "Electrónica", 500),
    ("Alice", "Electrónica", 500),
    ("Alice", "Electrónica", 300),
    ("Bob", "Electrónica", 400),
    ("Bob", "Electrónica", 400),
    ("Bob", "Electrónica", 200),
    ("Carol", "Moda", 250),
    ("Carol", "Moda", 250),
    ("Carol", "Moda", 100),
]

columns = ["cliente", "categoria", "monto"]
df = spark.createDataFrame(data, columns)

# Definir la ventana particionada por cliente y ordenada por monto descendente
window_spec = Window.partitionBy("cliente").orderBy(col("monto").desc())

# Aplicar funciones de ventana
df_window = df.withColumn("row_number", row_number().over(window_spec)) \
              .withColumn("rank", rank().over(window_spec)) \
              .withColumn("lag_monto", lag("monto", 1).over(window_spec)) \
              .withColumn("lead_monto", lead("monto", 1).over(window_spec))

# Mostrar resultados
df_window.show()

# 🧪 Ejercicio – Análisis de Facturación con Funciones de Ventana

## 🎯 Objetivo

Aplicar funciones de ventana en PySpark para analizar el comportamiento de facturación de los clientes a lo largo del tiempo, dentro de cada categoría de producto.

---

## 📝 Dataset de entrada

Trabajaremos con una tabla llamada `facturacion` que tiene la siguiente estructura:

| cliente_id | cliente_nombre   | categoria     | fecha_factura | monto  |
|------------|------------------|---------------|----------------|--------|
| 2824       | Donald Walker    | Deportes      | 2024-10-28     | 623.75 |
| 9935       | Javier Johnson   | Electrónica   | 2023-04-09     | 98.88  |
| 9279       | Kristina Baldwin | Libros        | 2024-09-19     | 283.35 |
| 7873       | Kevin Pacheco    | Libros        | 2022-08-20     | 171.26 |
| 3615       | Gina Moore       | Electrónica   | 2025-06-27     | 358.62 |

La tabla contiene información de facturas por cliente, categoría de producto y fecha.

---

## 🛠 Actividades

### 1️⃣ Numerar las compras por cliente

Usa `row_number()` para asignar un número secuencial a cada compra realizada por cada cliente, ordenadas por `fecha_factura` descendente.


---

### 2️⃣ Rankear compras por monto

Usa `rank()` para asignar una posición de ranking a cada compra de cada cliente, en función del `monto`, de mayor a menor.


---

### 3️⃣ Ventas por mes y comparación con el mes anterior

1. Extrae el mes con `trunc("fecha_factura", "month")`.
2. Agrupa las facturas por mes y sumá el total facturado.
3. Usa `lag()` para obtener las ventas del mes anterior.


---

## 📂 Entrega

Sube un notebook `.ipynb` o script `.py` con:
- El código de cada parte del ejercicio.
- Resultados visibles usando `.show()` (mínimo 10 filas por paso).
- Comentarios explicativos del código.

---

## ✅ Criterios de evaluación

- ✔ Uso correcto de `row_number`, `rank`, `lag`.
- ✔ Agrupación mensual correcta con `trunc()` y `groupBy()`.
- ✔ Código funcional, ordenado y comentado.
- ✔ Resultados claros y correctamente interpretados.

---

💡 *Este ejercicio combina análisis de comportamiento de compra por cliente y análisis temporal de facturación mensual, aplicando funciones clave de PySpark para trabajos analíticos avanzados.*
