In [0]:
'''
Iniciando build_date_dim
'''

'\nIniciando build_date_dim\n'

Importando funções comuns para uso no notebook

In [0]:
%run
./shared_gold_functions

Inicializando sessão spark, definindo o schema da tabela final e criando uma sequencia para popular dia, mês e ano de 01/01/2023 até 31/12/2024 (731 registros)

In [0]:
from pyspark.sql import SparkSession
from pyspark import SparkFiles
from pyspark.sql.types import *
from pyspark.sql import functions as F
import urllib

# Inicializa a sessão Spark
spark = SparkSession.builder.appName("accidents_analysis").getOrCreate()

schema = StructType([
   StructField("date_id", StringType(), False),
   StructField("year", IntegerType(), False),
   StructField("month", IntegerType(), False),
   StructField("day", IntegerType(), False),
   StructField("weekday", StringType(), False)])

start_date = "2023-01-01"
end_date = "2024-12-31"

# Criando sequência de datas
date_df = spark.sql(f"SELECT sequence(to_date('{start_date}'), to_date('{end_date}'), interval 1 day) as date").withColumn("date", F.explode(F.col("date")))

date_df.display()

date_df = date_df.withColumn("date_id", F.date_format(F.col("date"), "yyyyMMdd")) \
                 .withColumn("year", F.year(F.col("date"))) \
                 .withColumn("month", F.month(F.col("date"))) \
                 .withColumn("day", F.dayofmonth(F.col("date"))) \
                 .withColumn("weekday", F.date_format(F.col("date"), "EEEE"))

# Converte o DataFrame para o schema definido
date_dim_df = date_df.select("date_id", "year", "month", "day", "weekday")

# Mostra o DataFrame resultante
date_dim_df.display()


date
2023-01-01
2023-01-02
2023-01-03
2023-01-04
2023-01-05
2023-01-06
2023-01-07
2023-01-08
2023-01-09
2023-01-10


date_id,year,month,day,weekday
20230101,2023,1,1,Sunday
20230102,2023,1,2,Monday
20230103,2023,1,3,Tuesday
20230104,2023,1,4,Wednesday
20230105,2023,1,5,Thursday
20230106,2023,1,6,Friday
20230107,2023,1,7,Saturday
20230108,2023,1,8,Sunday
20230109,2023,1,9,Monday
20230110,2023,1,10,Tuesday


##Avaliando a qualidade dos dados
- Testar se não há nulos em date_id
- Testar se a menor data é 20230101
- Testar se a maior data é 20241231
- Testar se os meses vão de 1 a 12
- Testar se os dias vão de 1 a 31
- Testar se os anos vão de 2023 a 2024
- Testar se os valores de weekday estão entre os valores aceitos

In [0]:
# Testando qualidade dos dados
test_col_not_null(date_dim_df,'date_id')
test_value_range(date_dim_df,'date_id','>= 20230101')
test_value_range(date_dim_df,'date_id','<= 20241231')
test_value_range(date_dim_df,'month','>= 1 and month <= 12')
test_value_range(date_dim_df,'day','>= 1 and day <= 31')
test_value_range(date_dim_df,'year','>= 2023 and year <= 2024')
test_weekday(date_dim_df,'weekday')

Avaliando a condição date_id não contem nulos
Avaliando a condição date_id >= 20230101
Avaliando a condição date_id <= 20241231
Avaliando a condição month >= 1 and month <= 12
Avaliando a condição day >= 1 and day <= 31
Avaliando a condição year >= 2023 and year <= 2024
Avaliando a condição weekday está dentre os valores aceitos para o dia de semana


## Registrando dados no banco
Após aprovação, salvamos o dado sanitizado no banco e verificamos se tivemos sucesso

In [0]:
# Cria o banco de dados se ele não existir
database_name = 'gold_database'
table_name = 'gold_data_dim'


spark.sql(f"CREATE DATABASE IF NOT EXISTS {database_name}")

# Salva o DataFrame como tabela Delta
date_dim_df.write.mode("overwrite").format("delta").option("mergeSchema", "true").saveAsTable(
    f"{database_name}.{table_name}"
)

In [0]:
%sql
SELECT * from gold_database.gold_data_dim

date_id,year,month,day,weekday
20230101,2023,1,1,Sunday
20230102,2023,1,2,Monday
20230103,2023,1,3,Tuesday
20230104,2023,1,4,Wednesday
20230105,2023,1,5,Thursday
20230106,2023,1,6,Friday
20230107,2023,1,7,Saturday
20230108,2023,1,8,Sunday
20230109,2023,1,9,Monday
20230110,2023,1,10,Tuesday


In [0]:
'''
Finalizando build_date_dim
'''

'\nFinalizando build_date_dim\n'