In [1]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F 

In [34]:
spark = (
    SparkSession.builder.appName('Aula 7 - FUNÇÕES DE DATA: Trabalhando com Datas com Funções')
    .config('spark.sql.repl.eagerEval.enabled', True)
    .getOrCreate())

In [3]:
spark

In [4]:
local_file = r'C:\Users\mluiz\Documents\05_Python\PySpark\datasets\LOGINS.parquet'

In [8]:
df = spark.read.parquet(local_file).select('data_de_nascimento', 'data_cadastro')

In [9]:
df.show(3, False)

+------------------+-------------+
|data_de_nascimento|data_cadastro|
+------------------+-------------+
|2006-12-18        |2023-02-26   |
|1992-06-17        |2023-02-16   |
|1921-11-11        |2023-01-02   |
+------------------+-------------+
only showing top 3 rows



In [21]:
(
    df
    # Adiciona meses a uma coluna, peimeiro parametro é a coluna, e o segundo a qtd de meses que será adicionado
    .withColumn('add_months', F.add_months(df.data_cadastro, 2))
    .withColumn('add_months2', F.add_months(df.data_cadastro, -1))
    # Adicionar dias
    .withColumn('date_add', F.date_add(df.data_cadastro, 15))
    .withColumn('date_add2', F.date_add(df.data_cadastro, -15))
    .withColumn('date_sub', F.date_sub(df.data_cadastro, 15))
    .withColumn('date_sub2', F.date_sub(df.data_cadastro, -15))
    # Retornar a data atual do sistema
    .withColumn('current_date', F.current_date())
    # Retornar a data e a hora atual do sistema
    .withColumn('current_timestamp', F.current_timestamp())
    .withColumn('date_format', F.date_format(df.data_cadastro, 'yyyyMMdd'))
).show(5)

+------------------+-------------+----------+-----------+----------+----------+----------+----------+------------+--------------------+-----------+
|data_de_nascimento|data_cadastro|add_months|add_months2|  date_add| date_add2|  date_sub| date_sub2|current_date|   current_timestamp|date_format|
+------------------+-------------+----------+-----------+----------+----------+----------+----------+------------+--------------------+-----------+
|        2006-12-18|   2023-02-26|2023-04-26| 2023-01-26|2023-03-13|2023-02-11|2023-02-11|2023-03-13|  2024-03-17|2024-03-17 17:03:...|   20230226|
|        1992-06-17|   2023-02-16|2023-04-16| 2023-01-16|2023-03-03|2023-02-01|2023-02-01|2023-03-03|  2024-03-17|2024-03-17 17:03:...|   20230216|
|        1921-11-11|   2023-01-02|2023-03-02| 2022-12-02|2023-01-17|2022-12-18|2022-12-18|2023-01-17|  2024-03-17|2024-03-17 17:03:...|   20230102|
|        2021-06-01|   2023-01-08|2023-03-08| 2022-12-08|2023-01-23|2022-12-24|2022-12-24|2023-01-23|  2024-03-1

In [27]:
# Formatar data
(
    df
    .withColumn('date_format', F.date_format(df.data_cadastro, 'yyyyMMdd'))
    .withColumn('date_format1', F.date_format(df.data_cadastro, 'yMd'))
    .withColumn('date_format0', F.date_format(df.data_cadastro, 'yyyyMMMdd'))
    .withColumn('date_format3', F.date_format(df.data_cadastro, 'yyMMMdd'))
    .withColumn('date_format4', F.date_format(df.data_cadastro, 'yy-MMM-dd'))
    .withColumn('date_format5', F.date_format(df.data_cadastro, 'dd/MM/yyyy'))
    .withColumn('date_format6', F.date_format(df.data_cadastro, 'E, d MMM yyyy'))
).show(5, False)

+------------------+-------------+-----------+------------+------------+------------+------------+------------+----------------+
|data_de_nascimento|data_cadastro|date_format|date_format1|date_format0|date_format3|date_format4|date_format5|date_format6    |
+------------------+-------------+-----------+------------+------------+------------+------------+------------+----------------+
|2006-12-18        |2023-02-26   |20230226   |2023226     |2023Feb26   |23Feb26     |23-Feb-26   |26/02/2023  |Sun, 26 Feb 2023|
|1992-06-17        |2023-02-16   |20230216   |2023216     |2023Feb16   |23Feb16     |23-Feb-16   |16/02/2023  |Thu, 16 Feb 2023|
|1921-11-11        |2023-01-02   |20230102   |202312      |2023Jan02   |23Jan02     |23-Jan-02   |02/01/2023  |Mon, 2 Jan 2023 |
|2021-06-01        |2023-01-08   |20230108   |202318      |2023Jan08   |23Jan08     |23-Jan-08   |08/01/2023  |Sun, 8 Jan 2023 |
|1969-10-28        |2023-02-14   |20230214   |2023214     |2023Feb14   |23Feb14     |23-Feb-14   

In [44]:
(
    df
    # Calcula a diferença entre uma data e outra, em dias
    .withColumn('datediff', F.datediff(F.current_date(), df.data_de_nascimento))
    # Calcula a diferença entre uma data e outra, em meses
    .withColumn('months_between', F.months_between(F.current_date(), df.data_de_nascimento))
    # Extrai dia do mês de uma data
    .withColumn('dayofmonth', F.dayofmonth(df.data_de_nascimento))
    # Extrai a semana do mês de uma data
    .withColumn('dayofweek', F.dayofweek(df.data_de_nascimento))
    # Extrai a semana do ano de uma data
    .withColumn('weekofyear', F.weekofyear(df.data_de_nascimento))
    # Extrai o ano de uma data
    .withColumn('year', F.year(df.data_de_nascimento))
    # Extrai o mês de uma data
    .withColumn('month', F.month(df.data_de_nascimento))
    # Ultimo dia do mê de uma data
    .withColumn('last_day', F.last_day(df.data_de_nascimento))
    # Dia subsequente de uma data, parametros, data e o tipo de dia subsequente, tipo , segunda, terça
    .withColumn('next_day', F.next_day(df.data_de_nascimento, 'Mon'))
    #Cria uma data
    .withColumn('make_date', F.make_date(F.lit(2020), F.lit(8), F.lit(1)))
    # Transforma uma string em uma data
    .withColumn('to_date', F.to_date(F.lit('2018-05-24')))

).show(5)

+------------------+-------------+--------+--------------+----------+---------+----------+----+-----+----------+----------+----------+----------+
|data_de_nascimento|data_cadastro|datediff|months_between|dayofmonth|dayofweek|weekofyear|year|month|  last_day|  next_day| make_date|   to_date|
+------------------+-------------+--------+--------------+----------+---------+----------+----+-----+----------+----------+----------+----------+
|        2006-12-18|   2023-02-26|    6299|  206.96774194|        18|        2|        51|2006|   12|2006-12-31|2006-12-25|2020-08-01|2018-05-24|
|        1992-06-17|   2023-02-16|   11596|         381.0|        17|        4|        25|1992|    6|1992-06-30|1992-06-22|2020-08-01|2018-05-24|
|        1921-11-11|   2023-01-02|   37382| 1228.19354839|        11|        6|        45|1921|   11|1921-11-30|1921-11-14|2020-08-01|2018-05-24|
|        2021-06-01|   2023-01-08|    1020|   33.51612903|         1|        3|        22|2021|    6|2021-06-30|2021-06-07|2