In [2]:
#Cria sessão Spark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
import pyspark.sql.functions as F

In [3]:
#Instância Spark
spark = SparkSession.builder.appName('Curso Pyspark') \
         .config('spark.sql.repl.eagerEval.enabled', True) \
         .getOrCreate()      

In [4]:
# lendo um arquivo parquet
df = spark.read.parquet('./DATASETS/LOGINS.parquet').select('data_de_nascimento','data_cadastro')

In [5]:
df.show(20, False)

+------------------+-------------+
|data_de_nascimento|data_cadastro|
+------------------+-------------+
|2006-12-18        |2023-02-26   |
|1992-06-17        |2023-02-16   |
|1921-11-11        |2023-01-02   |
|2021-06-01        |2023-01-08   |
|1969-10-28        |2023-02-14   |
|1986-05-19        |2023-03-07   |
|2018-04-20        |2023-01-13   |
|1996-05-12        |2023-02-04   |
|2021-10-05        |2023-03-02   |
|1917-01-05        |2023-02-21   |
|1912-05-25        |2023-01-25   |
|1920-05-26        |2023-02-18   |
|1938-03-11        |2023-01-19   |
|1922-09-01        |2023-02-01   |
|2013-01-10        |2023-01-07   |
|1992-10-16        |2023-01-05   |
|1945-11-18        |2023-01-24   |
|1915-11-15        |2023-01-22   |
|1964-02-01        |2023-02-16   |
|1959-02-01        |2023-02-25   |
+------------------+-------------+
only showing top 20 rows



In [18]:

(
    df
    # adicionar um mês a frente
    .withColumn('add_months', F.add_months(df.data_cadastro, 1))
    .withColumn('add_months2', F.add_months(df.data_cadastro, -1))
    # data atual
    .withColumn('current_date', F.current_date())
    # hora atual
    .withColumn('current_timestamp', F.current_timestamp())
    # adicionar dias
     .withColumn('date_add', F.date_add(df.data_cadastro, 15))
     .withColumn('date_add2', F.date_add(df.data_cadastro, -15))
    # subtrair dias
     .withColumn('date_sub', F.date_sub(df.data_cadastro, 15))
     .withColumn('date_sub2', F.date_sub(df.data_cadastro, -15))
    # formatar data
    #  d = dia (dd)
    #  M = mês (MM = zero a esquerda) ou (MMM = abrevidado) ou (MMMM = completo)
    #  y = ano (yy)
    #  E = dia da semana
    # https://spark.apache.org/docs/latest/sql-ref-datetime-pattern.html
    .withColumn('date_format', F.date_format(df.data_de_nascimento, 'E, dd MMMM yyyy'))
    # diferença em dias de duas datas
    .withColumn('datediff', F.datediff(F.current_date(), df.data_de_nascimento))
    # extrair o dia de uma data
    .withColumn('dayofmonth', F.dayofmonth(df.data_de_nascimento))
    # mostrar o dia de semana de uma data
    .withColumn('dayofweek', F.dayofweek(df.data_de_nascimento))
    # mostrar a semana do ano
    .withColumn('weekofyear', F.weekofyear(df.data_de_nascimento))
    # extrair ano de uma data
    .withColumn('year', F.year(df.data_de_nascimento))
    # extrair o mês de uma data
    .withColumn('month', F.month(df.data_de_nascimento))
    # extrair ultimo dia do mês
    .withColumn('last_day', F.last_day(df.data_de_nascimento))
    # clacular quantos mês de diferença entre datas
    .withColumn('months_between', F.months_between(F.current_date(), df.data_de_nascimento))
    # o proximo dia da semana apartir de uma data
    .withColumn('next_day', F.next_day(df.data_de_nascimento, 'Mon'))
    # criar uma coluna de data
    .withColumn('make_date', F.make_date(F.lit(2024),F.lit(7),F.lit(17)))
    # transforma string em data
    .withColumn('to_date', F.to_date(F.lit('2024-07-17')))
    .show(20, False)
)

+------------------+-------------+----------+-----------+------------+------------------------+----------+----------+----------+----------+----------------------+--------+----------+---------+----------+----+-----+----------+--------------+----------+----------+----------+
|data_de_nascimento|data_cadastro|add_months|add_months2|current_date|current_timestamp       |date_add  |date_add2 |date_sub  |date_sub2 |date_format           |datediff|dayofmonth|dayofweek|weekofyear|year|month|last_day  |months_between|next_day  |make_date |to_date   |
+------------------+-------------+----------+-----------+------------+------------------------+----------+----------+----------+----------+----------------------+--------+----------+---------+----------+----+-----+----------+--------------+----------+----------+----------+
|2006-12-18        |2023-02-26   |2023-03-26|2023-01-26 |2024-07-17  |2024-07-17 17:50:58.2716|2023-03-13|2023-02-11|2023-02-11|2023-03-13|Mon, 18 December 2006 |6421    |18     