**PYSPARK SQL FUNCTIONS DATETIME**

In [12]:
# Create dummy data from dictionary
import pandas as pd
ventas = [
    ("Producto1", "2023-07-01", "2023-07-01 23:59:59", 100),
    ("Producto1", "2023-07-02", "2023-07-02 23:59:59", 150),
    ("Producto1", "2023-07-03", "2023-07-03 23:59:59", 120),
    ("Producto2", "2023-07-01", "2023-07-01 23:59:59", 50),
    ("Producto2", "2023-07-02", "2023-07-02 23:59:59", 80),
    ("Producto2", "2023-07-03", "2023-07-03 23:59:59", 70),
    ("Producto3", "2023-09-22", "2023-09-22 23:59:59", 70),
]
schema = ["Producto", "Fecha", "Timestamp", "Ventas"]
df = pd.DataFrame(ventas, columns=schema)
df.head()


Unnamed: 0,Producto,Fecha,Timestamp,Ventas
0,Producto1,2023-07-01,2023-07-01 23:59:59,100
1,Producto1,2023-07-02,2023-07-02 23:59:59,150
2,Producto1,2023-07-03,2023-07-03 23:59:59,120
3,Producto2,2023-07-01,2023-07-01 23:59:59,50
4,Producto2,2023-07-02,2023-07-02 23:59:59,80


In [13]:
# Write df in csv file
df.to_csv('ventas.csv', index=False)

In [14]:
# Crear una sesión de Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("EjemploFuncionesFechaHora").getOrCreate()
ventasDF = spark.read.csv('ventas.csv', header=True, inferSchema=True)
ventasDF.show()

+---------+----------+-------------------+------+
| Producto|     Fecha|          Timestamp|Ventas|
+---------+----------+-------------------+------+
|Producto1|2023-07-01|2023-07-01 23:59:59|   100|
|Producto1|2023-07-02|2023-07-02 23:59:59|   150|
|Producto1|2023-07-03|2023-07-03 23:59:59|   120|
|Producto2|2023-07-01|2023-07-01 23:59:59|    50|
|Producto2|2023-07-02|2023-07-02 23:59:59|    80|
|Producto2|2023-07-03|2023-07-03 23:59:59|    70|
|Producto3|2023-09-22|2023-09-22 23:59:59|    70|
+---------+----------+-------------------+------+



In [15]:
# date with specific format (date_format)
from pyspark.sql.functions import col, date_format, to_date, datediff, date_add, date_sub
ventasDF = ventasDF.withColumn("Fecha_dd/MM/yyyy", date_format(col("Fecha"), "dd/MM/yyyy"))
ventasDF = ventasDF.withColumn("Fecha_otro_formato", date_format(col("Fecha"), "MMM dd, yyyy"))
ventasDF.show()

+---------+----------+-------------------+------+----------------+------------------+
| Producto|     Fecha|          Timestamp|Ventas|Fecha_dd/MM/yyyy|Fecha_otro_formato|
+---------+----------+-------------------+------+----------------+------------------+
|Producto1|2023-07-01|2023-07-01 23:59:59|   100|      01/07/2023|      Jul 01, 2023|
|Producto1|2023-07-02|2023-07-02 23:59:59|   150|      02/07/2023|      Jul 02, 2023|
|Producto1|2023-07-03|2023-07-03 23:59:59|   120|      03/07/2023|      Jul 03, 2023|
|Producto2|2023-07-01|2023-07-01 23:59:59|    50|      01/07/2023|      Jul 01, 2023|
|Producto2|2023-07-02|2023-07-02 23:59:59|    80|      02/07/2023|      Jul 02, 2023|
|Producto2|2023-07-03|2023-07-03 23:59:59|    70|      03/07/2023|      Jul 03, 2023|
|Producto3|2023-09-22|2023-09-22 23:59:59|    70|      22/09/2023|      Sep 22, 2023|
+---------+----------+-------------------+------+----------------+------------------+



En PySpark, la función date_format te permite formatear fechas en un DataFrame de acuerdo a un patrón específico. Aquí tienes algunas opciones comunes de formateo de fechas utilizando esta función:

dd/MM/yyyy: Este formato mostrará el día del mes con dos dígitos, seguido del mes con dos dígitos y el año con cuatro dígitos, separados por barras diagonales. Por ejemplo, "22/09/2023".

MM/dd/yyyy: Este formato mostrará el mes con dos dígitos, seguido del día del mes con dos dígitos y el año con cuatro dígitos, separados por barras diagonales. Por ejemplo, "09/22/2023".

yyyy-MM-dd: Este formato mostrará el año con cuatro dígitos, seguido del mes con dos dígitos y el día del mes con dos dígitos, separados por guiones. Por ejemplo, "2023-09-22".

dd-MM-yyyy: Este formato mostrará el día del mes con dos dígitos, seguido del mes con dos dígitos y el año con cuatro dígitos, separados por guiones. Por ejemplo, "22-09-2023".

MMM dd, yyyy: Este formato mostrará el nombre abreviado del mes, seguido del día del mes con dos dígitos y el año con cuatro dígitos, separados por comas y espacio. Por ejemplo, "Sep 22, 2023".

EEEE, dd MMMM yyyy: Este formato mostrará el nombre completo del día de la semana, seguido del día del mes con dos dígitos, el nombre completo del mes y el año con cuatro dígitos, separados por comas y espacio. Por ejemplo, "Thursday, 22 September 2023".

hh:mm:ss a: Este formato mostrará la hora en formato de 12 horas con dos dígitos, los minutos con dos dígitos, los segundos con dos dígitos y AM o PM. Por ejemplo, "03:45:20 PM".

HH:mm:ss: Este formato mostrará la hora en formato de 24 horas con dos dígitos, los minutos con dos dígitos y los segundos con dos dígitos. Por ejemplo, "15:45:20".

yyyy-MM-dd HH:mm:ss: Este formato combina el formato de fecha "yyyy-MM-dd" con el formato de hora "HH:mm:ss", separados por un espacio. Por ejemplo, "2023-09-22 15:45:20".

yy-MM-dd: Este formato muestra el año en formato de dos dígitos, seguido del mes con dos dígitos y el día del mes con dos dígitos, separados por guiones. Por ejemplo, "23-09-22".

In [16]:
# to_date: Convierte cadenas de texto a DateType.
ventasDF.withColumn("Text_To_Date", to_date(col("Fecha"), "yyyy-MM-dd")).show()

+---------+----------+-------------------+------+----------------+------------------+------------+
| Producto|     Fecha|          Timestamp|Ventas|Fecha_dd/MM/yyyy|Fecha_otro_formato|Text_To_Date|
+---------+----------+-------------------+------+----------------+------------------+------------+
|Producto1|2023-07-01|2023-07-01 23:59:59|   100|      01/07/2023|      Jul 01, 2023|  2023-07-01|
|Producto1|2023-07-02|2023-07-02 23:59:59|   150|      02/07/2023|      Jul 02, 2023|  2023-07-02|
|Producto1|2023-07-03|2023-07-03 23:59:59|   120|      03/07/2023|      Jul 03, 2023|  2023-07-03|
|Producto2|2023-07-01|2023-07-01 23:59:59|    50|      01/07/2023|      Jul 01, 2023|  2023-07-01|
|Producto2|2023-07-02|2023-07-02 23:59:59|    80|      02/07/2023|      Jul 02, 2023|  2023-07-02|
|Producto2|2023-07-03|2023-07-03 23:59:59|    70|      03/07/2023|      Jul 03, 2023|  2023-07-03|
|Producto3|2023-09-22|2023-09-22 23:59:59|    70|      22/09/2023|      Sep 22, 2023|  2023-09-22|
+---------

In [17]:
# datediff: Calcula la diferencia en días entre dos fechas.
from pyspark.sql.functions import to_date, lit
# Convertir la fecha literal en un objeto DateType
fecha_inicio = to_date(lit('2023-07-01'), 'yyyy-MM-dd')
# Calcular la diferencia en días entre la columna Fecha y la fecha de inicio
ventasDF.withColumn("DiasDesdeInicio", datediff(col("Fecha"), fecha_inicio)).show()


+---------+----------+-------------------+------+----------------+------------------+---------------+
| Producto|     Fecha|          Timestamp|Ventas|Fecha_dd/MM/yyyy|Fecha_otro_formato|DiasDesdeInicio|
+---------+----------+-------------------+------+----------------+------------------+---------------+
|Producto1|2023-07-01|2023-07-01 23:59:59|   100|      01/07/2023|      Jul 01, 2023|              0|
|Producto1|2023-07-02|2023-07-02 23:59:59|   150|      02/07/2023|      Jul 02, 2023|              1|
|Producto1|2023-07-03|2023-07-03 23:59:59|   120|      03/07/2023|      Jul 03, 2023|              2|
|Producto2|2023-07-01|2023-07-01 23:59:59|    50|      01/07/2023|      Jul 01, 2023|              0|
|Producto2|2023-07-02|2023-07-02 23:59:59|    80|      02/07/2023|      Jul 02, 2023|              1|
|Producto2|2023-07-03|2023-07-03 23:59:59|    70|      03/07/2023|      Jul 03, 2023|              2|
|Producto3|2023-09-22|2023-09-22 23:59:59|    70|      22/09/2023|      Sep 22, 20

In [18]:
# date_add y date_sub: Realiza operaciones aritméticas con fechas.
ventasDF = ventasDF.withColumn("FechaSumada", date_add(col("Fecha"), 7))
ventasDF.withColumn("FechaRestada", date_sub(col("Fecha"), 3)).show()

+---------+----------+-------------------+------+----------------+------------------+-----------+------------+
| Producto|     Fecha|          Timestamp|Ventas|Fecha_dd/MM/yyyy|Fecha_otro_formato|FechaSumada|FechaRestada|
+---------+----------+-------------------+------+----------------+------------------+-----------+------------+
|Producto1|2023-07-01|2023-07-01 23:59:59|   100|      01/07/2023|      Jul 01, 2023| 2023-07-08|  2023-06-28|
|Producto1|2023-07-02|2023-07-02 23:59:59|   150|      02/07/2023|      Jul 02, 2023| 2023-07-09|  2023-06-29|
|Producto1|2023-07-03|2023-07-03 23:59:59|   120|      03/07/2023|      Jul 03, 2023| 2023-07-10|  2023-06-30|
|Producto2|2023-07-01|2023-07-01 23:59:59|    50|      01/07/2023|      Jul 01, 2023| 2023-07-08|  2023-06-28|
|Producto2|2023-07-02|2023-07-02 23:59:59|    80|      02/07/2023|      Jul 02, 2023| 2023-07-09|  2023-06-29|
|Producto2|2023-07-03|2023-07-03 23:59:59|    70|      03/07/2023|      Jul 03, 2023| 2023-07-10|  2023-06-30|
|

In [19]:
from pyspark.sql.functions import to_timestamp, hour, minute, second
ventasDF = ventasDF.withColumn("Time Of Stop", to_timestamp(ventasDF["Timestamp"], "yyyy-MM-dd HH:mm:ss"))
# Obtener la hora, los minutos y los segundos de la columna "Time Of Stop"
ventasDF = ventasDF.withColumn("Hour", hour("Time Of Stop"))
ventasDF = ventasDF.withColumn("Minute", minute("Time Of Stop"))
ventasDF = ventasDF.withColumn("Second", second("Time Of Stop"))
ventasDF.show()

+---------+----------+-------------------+------+----------------+------------------+-----------+-------------------+----+------+------+
| Producto|     Fecha|          Timestamp|Ventas|Fecha_dd/MM/yyyy|Fecha_otro_formato|FechaSumada|       Time Of Stop|Hour|Minute|Second|
+---------+----------+-------------------+------+----------------+------------------+-----------+-------------------+----+------+------+
|Producto1|2023-07-01|2023-07-01 23:59:59|   100|      01/07/2023|      Jul 01, 2023| 2023-07-08|2023-07-01 23:59:59|  23|    59|    59|
|Producto1|2023-07-02|2023-07-02 23:59:59|   150|      02/07/2023|      Jul 02, 2023| 2023-07-09|2023-07-02 23:59:59|  23|    59|    59|
|Producto1|2023-07-03|2023-07-03 23:59:59|   120|      03/07/2023|      Jul 03, 2023| 2023-07-10|2023-07-03 23:59:59|  23|    59|    59|
|Producto2|2023-07-01|2023-07-01 23:59:59|    50|      01/07/2023|      Jul 01, 2023| 2023-07-08|2023-07-01 23:59:59|  23|    59|    59|
|Producto2|2023-07-02|2023-07-02 23:59:59