# üìò Sesi√≥n 7 ‚Äî Manipulaci√≥n de Fechas y Timestamps en PySpark

En esta sesi√≥n aprenderemos a trabajar con **columnas de tipo fecha y timestamp** usando funciones integradas de PySpark.

PySpark incluye muchas funciones √∫tiles para extraer partes de la fecha, calcular diferencias de tiempo, transformar formatos y m√°s. Esto es fundamental para:

- Calcular la antig√ºedad de eventos o registros
- Agrupar por d√≠a, mes o a√±o
- Filtrar rangos de fechas
- Obtener la hora, el d√≠a de la semana, etc.

---

## üõ†Ô∏è Funciones comunes para fechas

| Funci√≥n             | Descripci√≥n                                  |
|---------------------|----------------------------------------------|
| `to_date()`         | Convierte un timestamp a solo fecha          |
| `datediff()`        | Calcula d√≠as de diferencia entre dos fechas  |
| `current_date()`    | Devuelve la fecha actual                     |
| `date_format()`     | Devuelve partes de la fecha (ej. solo hora)  |
| `year()`, `month()` | Extrae componentes de la fecha               |
| `add_months()`      | Suma meses a una fecha dada                  |

---

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import to_date, current_date, datediff, year, month, date_format

# Datos ficticios
data = [
    (1, "2023-12-01 10:35:00"),
    (2, "2024-06-15 09:20:00"),
    (3, "2025-01-10 18:50:00")
]
df = spark.createDataFrame(data, ["clienteID", "fecha_compra"])

# Convertir a tipo fecha
df = df.withColumn("fecha", to_date("fecha_compra"))

# Agregar columnas derivadas
df = df.withColumn("hoy", current_date()) \
       .withColumn("dias_desde_compra", datediff(current_date(), "fecha")) \
       .withColumn("anio", year("fecha")) \
       .withColumn("mes", month("fecha")) \
       .withColumn("hora_compra", date_format("fecha_compra", "HH:mm:ss"))

df.show(truncate=False)

## ‚úçÔ∏è Ejercicio pr√°ctico ‚Äî An√°lisis temporal de transacciones

Usando la tabla `samples.bakehouse.sales_transactions`, realiz√° lo siguiente:

1. Extra√© la fecha (`to_date(dateTime)`) y la hora (`date_format(dateTime, 'HH:mm:ss')`) en columnas separadas.
2. Calcul√° cu√°ntos d√≠as pasaron desde cada transacci√≥n hasta hoy (`datediff()`).
3. Extra√© el mes y el a√±o de cada transacci√≥n (`month()`, `year()`).
4. Mostr√° solo las transacciones que ocurrieron en el mes actual.
5. Agrup√° por mes y cont√° cu√°ntas transacciones hubo por mes.

üéØ Bonus: Calcula el promedio de `totalPrice` por mes y mostralo ordenado cronol√≥gicamente.