## Criação de tabelas Delta

A criação de tabelas Delta, registrando-as no catálogo do Spark, é uma etapa fundamental para garantir que os dados na camada Gold estejam acessíveis para consultas SQL otimizadas e análises futuras. Abaixo está o passo a passo com explicação em cada etapa do código que você forneceu.

###Criando Banco de dados

In [0]:
# Criar o banco de dados
# O comando abaixo cria um banco de dados chamado 'lhdw_vendas', se ainda não existir.
spark.sql("CREATE DATABASE IF NOT EXISTS lhdw_vendas")

# Usar o banco de dados
# Este comando ativa o banco de dados 'lhdw_vendas' para que as tabelas criadas sejam registradas nele.
spark.sql("USE lhdw_vendas")


Out[1]: DataFrame[]

####Criando Tabelas Delta

In [0]:

# Registro da tabela Delta - Dimensão Produto
# Define o caminho onde os dados Delta da dimensão Produto estão armazenados.
delta_table_path = "dbfs:/mnt/lhdw/gold/vendas_delta/dim_produto"

# O comando SQL abaixo registra a tabela Delta no catálogo do Spark, 
# associando-a ao banco de dados 'lhdw_vendas'.
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS lhdw_vendas.dim_produto
    USING DELTA
    LOCATION '{delta_table_path}'
""")

# Verificar as tabelas criadas
# Lista todas as tabelas existentes no banco de dados atual ('lhdw_vendas').
spark.sql("SHOW TABLES").show()

+-----------+-----------+-----------+
|   database|  tableName|isTemporary|
+-----------+-----------+-----------+
|lhdw_vendas|dim_produto|      false|
+-----------+-----------+-----------+



In [0]:
# Registro da tabela Delta - Dimensão Categoria
# Define o caminho dos dados Delta para a dimensão Categoria.
delta_table_path = "dbfs:/mnt/lhdw/gold/vendas_delta/dim_categoria"

# Registra a tabela DimCategoria no banco de dados 'lhdw_vendas'.
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS lhdw_vendas.dim_categoria
    USING DELTA
    LOCATION '{delta_table_path}'
""")

# Verifica se a tabela foi criada corretamente.
spark.sql("SHOW TABLES").show()

+-----------+-------------+-----------+
|   database|    tableName|isTemporary|
+-----------+-------------+-----------+
|lhdw_vendas|dim_categoria|      false|
|lhdw_vendas|  dim_produto|      false|
+-----------+-------------+-----------+



In [0]:
# Registro da tabela Delta - Dimensão Segmento
# Define o caminho dos dados Delta para a dimensão Segmento.
delta_table_path = "dbfs:/mnt/lhdw/gold/vendas_delta/dim_segmento"

# Registra a tabela DimSegmento no banco de dados 'lhdw_vendas'.
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS lhdw_vendas.dim_segmento
    USING DELTA
    LOCATION '{delta_table_path}'
""")

# Confirmação das tabelas criadas no banco de dados.
spark.sql("SHOW TABLES").show()

+-----------+-------------+-----------+
|   database|    tableName|isTemporary|
+-----------+-------------+-----------+
|lhdw_vendas|dim_categoria|      false|
|lhdw_vendas|  dim_produto|      false|
|lhdw_vendas| dim_segmento|      false|
+-----------+-------------+-----------+



In [0]:
# Registro da tabela Delta - Dimensão Fabricante
# Define o caminho dos dados Delta para a dimensão Fabricante.
delta_table_path = "dbfs:/mnt/lhdw/gold/vendas_delta/dim_fabricante"

# Registra a tabela DimFabricante no banco de dados 'lhdw_vendas'.
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS lhdw_vendas.dim_fabricante
    USING DELTA
    LOCATION '{delta_table_path}'
""")

# Lista todas as tabelas no banco de dados para garantir o registro correto.
spark.sql("SHOW TABLES").show()

+-----------+--------------+-----------+
|   database|     tableName|isTemporary|
+-----------+--------------+-----------+
|lhdw_vendas| dim_categoria|      false|
|lhdw_vendas|dim_fabricante|      false|
|lhdw_vendas|   dim_produto|      false|
|lhdw_vendas|  dim_segmento|      false|
+-----------+--------------+-----------+



In [0]:
# Registro da tabela Delta - Dimensão Geografia
# Define o caminho dos dados Delta para a dimensão Geografia.
delta_table_path = "dbfs:/mnt/lhdw/gold/vendas_delta/dim_geografia"

# Registra a tabela DimGeografia no banco de dados 'lhdw_vendas'.
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS lhdw_vendas.dim_geografia
    USING DELTA
    LOCATION '{delta_table_path}'
""")

# Verifica se a tabela DimGeografia foi registrada.
spark.sql("SHOW TABLES").show()

+-----------+--------------+-----------+
|   database|     tableName|isTemporary|
+-----------+--------------+-----------+
|lhdw_vendas| dim_categoria|      false|
|lhdw_vendas|dim_fabricante|      false|
|lhdw_vendas| dim_geografia|      false|
|lhdw_vendas|   dim_produto|      false|
|lhdw_vendas|  dim_segmento|      false|
+-----------+--------------+-----------+



In [0]:
# Registro da tabela Delta - Dimensão Cliente
# Define o caminho dos dados Delta para a dimensão Cliente.
delta_table_path = "dbfs:/mnt/lhdw/gold/vendas_delta/dim_cliente"

# Registra a tabela DimCliente no banco de dados 'lhdw_vendas'.
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS lhdw_vendas.dim_cliente
    USING DELTA
    LOCATION '{delta_table_path}'
""")

# Confirmação da criação da tabela DimCliente.
spark.sql("SHOW TABLES").show()

+-----------+--------------+-----------+
|   database|     tableName|isTemporary|
+-----------+--------------+-----------+
|lhdw_vendas| dim_categoria|      false|
|lhdw_vendas|   dim_cliente|      false|
|lhdw_vendas|dim_fabricante|      false|
|lhdw_vendas| dim_geografia|      false|
|lhdw_vendas|   dim_produto|      false|
|lhdw_vendas|  dim_segmento|      false|
+-----------+--------------+-----------+



In [0]:
# ---- Registro da Tabela Delta para Fato Vendas ----
# Caminho onde os dados Delta da tabela fato vendas estão armazenados
delta_table_path = "dbfs:/mnt/lhdw/gold/vendas_delta/fato_vendas"

# Registrar a tabela Delta no catálogo do Spark
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS lhdw_vendas.fato_vendas
    USING DELTA
    LOCATION '{delta_table_path}'
""")

# Verificar as tabelas criadas no banco de dados atual
# Mostra todas as tabelas registradas no banco de dados `lhdw_vendas`
spark.sql("SHOW TABLES").show()


+-----------+--------------+-----------+
|   database|     tableName|isTemporary|
+-----------+--------------+-----------+
|lhdw_vendas| dim_categoria|      false|
|lhdw_vendas|   dim_cliente|      false|
|lhdw_vendas|dim_fabricante|      false|
|lhdw_vendas| dim_geografia|      false|
|lhdw_vendas|   dim_produto|      false|
|lhdw_vendas|  dim_segmento|      false|
|lhdw_vendas|   fato_vendas|      false|
+-----------+--------------+-----------+



In [0]:
# ---- Limpeza de Memória ----
import gc
# Limpar os caches do Spark para liberar memória ocupada
spark.catalog.clearCache()

# Realizar a coleta de lixo no Python para liberar objetos em desuso
gc.collect()

Out[9]: 445