In [0]:
'''
Iniciando build_time_dim
'''

'\nIniciando build_time_dim\n'

Importando funções comuns para uso no notebook

In [0]:
%run
./shared_gold_functions

Inicializando sessão spark, definindo o schema da tabela final e criando uma sequencia para popular hora e minuto de um dia (1440 registros)

In [0]:
from pyspark.sql import SparkSession
from pyspark import SparkFiles
from pyspark.sql.types import *
from pyspark.sql import functions as F
import urllib

# Inicializa a sessão Spark
spark = SparkSession.builder.appName("accidents_analysis").getOrCreate()

schema = StructType([
   StructField("time_id", StringType(), False),
   StructField("hour", IntegerType(), False),
   StructField("minute", IntegerType(), False)])

# Gera uma lista de horas e minutos
hours = list(range(24))
minutes = list(range(60))

# Cria um DataFrame com todas as combinações de horas e minutos
time_df = spark.createDataFrame(
    [(h, m) for h in hours for m in minutes],
    schema=["hour", "minute"]
)

# Adiciona a coluna time_id no formato HHMM
time_df = time_df.withColumn("time_id", F.format_string("%02d%02d", F.col("hour"), F.col("minute")))

# Converte o DataFrame para o schema definido
time_dim_df = time_df.select("time_id", "hour", "minute")

time_dim_df.display()

time_id,hour,minute
0,0,0
1,0,1
2,0,2
3,0,3
4,0,4
5,0,5
6,0,6
7,0,7
8,0,8
9,0,9


##Avaliando a qualidade dos dados
- Testar se não há nulos em time_id
- Testar se a menor data é 0000
- Testar se a maior data é 2359
- Testar se as horas vão de 0 a 23
- Testar se os minutos vão de 0 a 59

In [0]:
# Testando qualidade dos dados
test_col_not_null(time_dim_df,'time_id')
test_value_range(time_dim_df,'time_id','>= 0000')
test_value_range(time_dim_df,'time_id','<= 2359')
test_value_range(time_dim_df,'hour','>= 0 and hour <= 23')
test_value_range(time_dim_df,'minute','>= 0 and minute <= 59')


Avaliando a condição time_id não contem nulos
Avaliando a condição time_id >= 0000
Avaliando a condição time_id <= 2359
Avaliando a condição hour >= 0 and hour <= 23
Avaliando a condição minute >= 0 and minute <= 59


## Registrando dados no banco
Após aprovação, salvamos o dado sanitizado no banco e verificamos se tivemos sucesso

In [0]:
# Cria o banco de dados se ele não existir
database_name = 'gold_database'
table_name = 'gold_time_dim'


spark.sql(f"CREATE DATABASE IF NOT EXISTS {database_name}")

# Salva o DataFrame como tabela Delta
time_dim_df.write.mode("overwrite").format("delta").option("mergeSchema", "true").saveAsTable(
    f"{database_name}.{table_name}"
)

In [0]:
%sql
SELECT * from gold_database.gold_time_dim

time_id,hour,minute
1800,18,0
1801,18,1
1802,18,2
1803,18,3
1804,18,4
1805,18,5
1806,18,6
1807,18,7
1808,18,8
1809,18,9


In [0]:
'''
Finalizando build_time_dim
'''

'\nFinalizando build_time_dim\n'