## Informações Gerais
| Informações | Detalhes |
| ----------- | -------- |
| Nome Tabela | gold.venda_total_estabelecimentos |
| Origem | silver.pedidos |

## Historico de atualização
| Data | Desenvolvido por | Motivo |
| ----------- | -------- | -------|
| 06/10/2024 | Matheus | Criação do Notebook |

In [0]:
from pyspark.sql.functions import current_date, current_timestamp, expr

In [0]:
database = "gold"
tabela = "venda_total_estabelecimentos"

In [0]:
#Funções
# Função que aplica os comentarios na tabela
def adicionaComentariosTabela(a, b, c, d):
    spark.sql(f"COMMENT ON TABLE {a}.{b} IS '{c}'")
    for key, value in d.items():
        sqlaux = f"ALTER TABLE {a}.{b} CHANGE COLUMN {key} COMMENT '{value}'"
        spark.sql(sqlaux)

In [0]:
df_pedidos = spark.sql(
    f"""
    SELECT
        CAST(id_estabelecimento AS INT),
        nome_estabelecimento,
        produto AS nome_produto,
        CAST(SUM(quantidade) AS INT) AS quantidade_total,
        CAST(SUM(preco) AS DECIMAL(20,2)) AS valor_total
    FROM
        silver.pedidos
    GROUP BY ALL
    """
)

In [0]:
df_pedidos = df_pedidos.withColumn("data_carga", current_date())
df_pedidos = df_pedidos.withColumn("data_hora_carga", expr("current_timestamp() - INTERVAL 3 HOURS"))

In [0]:
df_pedidos.display()

id_estabelecimento,nome_estabelecimento,nome_produto,quantidade_total,valor_total,data_carga,data_hora_carga
17,Botequim do Chico,Vinho ABC,773,19.64,2024-10-06,2024-10-06T19:14:44.512Z
32,Chocolateria,Cerveja XYZ,215,15.64,2024-10-06,2024-10-06T19:14:44.512Z
38,Restaurante Francês,Vinho ABC,313,15.36,2024-10-06,2024-10-06T19:14:44.512Z
23,Academia Fit,Suco Natural,488,14.85,2024-10-06,2024-10-06T19:14:44.512Z
32,Chocolateria,Água Mineral,327,11.68,2024-10-06,2024-10-06T19:14:44.512Z
29,Lanchonete Top,Cerveja XYZ,1488,42.35,2024-10-06,2024-10-06T19:14:44.512Z
43,Restaurante Brasileiro,Refrigerante 123,414,1.42,2024-10-06,2024-10-06T19:14:44.512Z
7,Pizzaria Bella,Vinho ABC,205,11.64,2024-10-06,2024-10-06T19:14:44.512Z
13,Hamburgueria Prime,Vinho ABC,106,10.19,2024-10-06,2024-10-06T19:14:44.512Z
47,Doceria Fina,Suco Natural,900,11.68,2024-10-06,2024-10-06T19:14:44.512Z


In [0]:
comentario_tabela = 'Entidade os produtos mais vendidos por estabelecimento'

lista_comentario_colunas = {
    'id_estabelecimento': 'Id do estabelecimento.',
    'nome_estabelecimento': 'Nome do estabelecimento.',
    'nome_produto': 'Nome do produto.',
    'quantidade_total': 'Quantidade total vendida.',
    'valor_total': 'Valor total vendido.',
    'data_carga': 'Data que o registro foi carregado.',
    'data_hora_carga': 'Data e hora que o registro foi carregado.'
}


In [0]:
df_pedidos.write \
    .format('delta') \
    .mode('overwrite') \
    .clusterBy("id_estabelecimento") \
    .option('overwriteSchema', 'true') \
    .saveAsTable(f'{database}.{tabela}')
adicionaComentariosTabela(database, tabela, comentario_tabela, lista_comentario_colunas)
print("Comentarios adicionados nas tabelas")
print("Dados gravados com sucesso!")

Comentarios adicionados nas tabelas
Dados gravados com sucesso!


In [0]:
spark.sql(f"OPTIMIZE {database}.{tabela}")
print("Processo de otmização finalizado!")

Processo de otmização finalizado!


In [0]:
%sql
select * 
from 
gold.venda_total_estabelecimentos
order by quantidade_total desc
limit 5

id_estabelecimento,nome_estabelecimento,nome_produto,quantidade_total,valor_total,data_carga,data_hora_carga
29,Lanchonete Top,Cerveja XYZ,1488,42.35,2024-10-06,2024-10-06T19:18:08.681Z
50,Bar do João,Suco Natural,1313,50.75,2024-10-06,2024-10-06T19:18:08.681Z
39,Bar da Esquina,Vinho ABC,1268,38.05,2024-10-06,2024-10-06T19:18:08.681Z
27,Oficina Mecânica,Cerveja XYZ,1247,38.26,2024-10-06,2024-10-06T19:18:08.681Z
41,Pizzaria Italiana,Cerveja XYZ,1068,27.4,2024-10-06,2024-10-06T19:18:08.681Z


Databricks visualization. Run in Databricks to view.