In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, rank, lag, lead, col
# Crear un DataFrame con empates en los valores para mostrar diferencia entre row_number y rank
data = [
    ("Alice", "Electr√≥nica", 500),
    ("Alice", "Electr√≥nica", 500),
    ("Alice", "Electr√≥nica", 300),
    ("Bob", "Electr√≥nica", 400),
    ("Bob", "Electr√≥nica", 400),
    ("Bob", "Electr√≥nica", 200),
    ("Carol", "Moda", 250),
    ("Carol", "Moda", 250),
    ("Carol", "Moda", 100),
]

columns = ["cliente", "categoria", "monto"]
df = spark.createDataFrame(data, columns)

# Definir la ventana particionada por cliente y ordenada por monto descendente
window_spec = Window.partitionBy("cliente").orderBy(col("monto").desc())

# Aplicar funciones de ventana
df_window = df.withColumn("row_number", row_number().over(window_spec)) \
              .withColumn("rank", rank().over(window_spec)) \
              .withColumn("lag_monto", lag("monto", 1).over(window_spec)) \
              .withColumn("lead_monto", lead("monto", 1).over(window_spec))

# Mostrar resultados
df_window.show()

# üß™ Ejercicio ‚Äì An√°lisis de Facturaci√≥n con Funciones de Ventana

## üéØ Objetivo

Aplicar funciones de ventana en PySpark para analizar el comportamiento de facturaci√≥n de los clientes a lo largo del tiempo, dentro de cada categor√≠a de producto.

---

## üìù Dataset de entrada

Trabajaremos con una tabla llamada `facturacion` que tiene la siguiente estructura:

| cliente_id | cliente_nombre   | categoria     | fecha_factura | monto  |
|------------|------------------|---------------|----------------|--------|
| 2824       | Donald Walker    | Deportes      | 2024-10-28     | 623.75 |
| 9935       | Javier Johnson   | Electr√≥nica   | 2023-04-09     | 98.88  |
| 9279       | Kristina Baldwin | Libros        | 2024-09-19     | 283.35 |
| 7873       | Kevin Pacheco    | Libros        | 2022-08-20     | 171.26 |
| 3615       | Gina Moore       | Electr√≥nica   | 2025-06-27     | 358.62 |

La tabla contiene informaci√≥n de facturas por cliente, categor√≠a de producto y fecha.

---

## üõ† Actividades

### 1Ô∏è‚É£ Numerar las compras por cliente

Usa `row_number()` para asignar un n√∫mero secuencial a cada compra realizada por cada cliente, ordenadas por `fecha_factura` descendente.


---

### 2Ô∏è‚É£ Rankear compras por monto

Usa `rank()` para asignar una posici√≥n de ranking a cada compra de cada cliente, en funci√≥n del `monto`, de mayor a menor.


---

### 3Ô∏è‚É£ Ventas por mes y comparaci√≥n con el mes anterior

1. Extrae el mes con `trunc("fecha_factura", "month")`.
2. Agrupa las facturas por mes y sum√° el total facturado.
3. Usa `lag()` para obtener las ventas del mes anterior.


---

## üìÇ Entrega

Sube un notebook `.ipynb` o script `.py` con:
- El c√≥digo de cada parte del ejercicio.
- Resultados visibles usando `.show()` (m√≠nimo 10 filas por paso).
- Comentarios explicativos del c√≥digo.

---

## ‚úÖ Criterios de evaluaci√≥n

- ‚úî Uso correcto de `row_number`, `rank`, `lag`.
- ‚úî Agrupaci√≥n mensual correcta con `trunc()` y `groupBy()`.
- ‚úî C√≥digo funcional, ordenado y comentado.
- ‚úî Resultados claros y correctamente interpretados.

---

üí° *Este ejercicio combina an√°lisis de comportamiento de compra por cliente y an√°lisis temporal de facturaci√≥n mensual, aplicando funciones clave de PySpark para trabajos anal√≠ticos avanzados.*
