In [0]:
from pyspark.sql import SparkSession
import logging
import sys
import os

sys.path.append(os.path.join(os.path.dirname(os.path.abspath('')), 'src'))

from utils.data_validation import valida_fonte, ler_fonte, valida_dados
from utils.metadata_handler import adiciona_metadados
from utils.table_operations import cria_tabela
from transformations.posts_transformations import transforma_timestamp
from config.pipeline_config import configura_bronze_posts, configura_silver_posts

## Camada bronze

In [0]:
bronze_config = configura_bronze_posts()
filename = bronze_config["source_filename"].split('.')[0]

logging.basicConfig(level=getattr(logging, bronze_config["log_level"]))
logger = logging.getLogger(__name__)

print(f"Pipeline da camada bronze iniciado em {bronze_config['processing_timestamp']}")
print(f"Fonte: {bronze_config['source']}")

Pipeline da camada bronze iniciado em 2025-08-19 23:58:17.895000
Fonte: /Volumes/workspace/default/dataeng_raw/posts_creator.json.gz


In [0]:
try:
    if not valida_fonte(spark, bronze_config):
        raise FileNotFoundError(f"Fonte inacessível: {bronze_config['source']}")

    bronze_df = ler_fonte(spark, bronze_config)
    bronze_config = valida_dados(bronze_df, bronze_config)
    bronze_df = adiciona_metadados(bronze_df, bronze_config)
    
    success = cria_tabela(spark, bronze_df, bronze_config)
    if success:
        print("Camada bronze criada com sucesso!")
    else:
        raise Exception("Erro na criação da tabela bronze")
        
except Exception as e:
    print(f"Erro ao processar camada bronze: {str(e)}")
    raise

INFO:utils.data_validation:Fonte validada: /Volumes/workspace/default/dataeng_raw/posts_creator.json.gz
INFO:utils.table_operations:Iniciada a criação da tabela delta na camada bronze: workspace.default.bronze_post_creator
INFO:utils.table_operations:Metadados da tabela - Camada: bronze, Salvo em: workspace.default.bronze_post_creator
INFO:utils.table_operations:Tabela criada em 2025-08-19T23:58:17.895000
INFO:utils.table_operations:Linhas: 12045
INFO:utils.table_operations:Colunas: 7
INFO:utils.table_operations:Batch ID: f24967cb
INFO:utils.table_operations:Contém dados: True
INFO:utils.table_operations:Tabela criada com sucesso: workspace.default.bronze_post_creator
INFO:utils.table_operations:Comentário com metadados adicionado com sucesso


Camada bronze criada com sucesso!


## Camada silver

In [0]:
silver_config = configura_silver_posts()

print(f"Pipeline da camada silver iniciado em {silver_config['processing_timestamp']}")
print(f"Fonte: {silver_config['source']}")

Pipeline da camada silver iniciado em 2025-08-20 00:02:57.009370
Fonte: workspace.default.bronze_post_creator


In [0]:
try:
    if not valida_fonte(spark, silver_config):
        raise FileNotFoundError(f"Fonte inacessível: {silver_config['source']}")

    silver_df = ler_fonte(spark, silver_config)
    silver_df = transforma_timestamp(silver_df, silver_config)
    silver_config = valida_dados(silver_df, silver_config)
    silver_df = adiciona_metadados(silver_df, silver_config)
    
    success = cria_tabela(spark, silver_df, silver_config)
    if success:
        print("Camada silver criada com sucesso!")
    else:
        raise Exception("Erro na criação da tabela silver")
        
except Exception as e:
    print(f"Erro ao processar camada silver: {str(e)}")
    raise

INFO:utils.data_validation:Fonte validada: workspace.default.bronze_post_creator
INFO:transformations.posts_transformations:Convertendo colunas de timestamp: ['published_at']
INFO:transformations.posts_transformations:Convertendo coluna 'published_at' de Unix timestamp para SQL timestamp
INFO:transformations.posts_transformations:Conversão concluída para colunas: published_at
INFO:utils.table_operations:Iniciada a criação da tabela delta na camada silver: workspace.default.silver_post_creator
INFO:utils.table_operations:Metadados da tabela - Camada: silver, Salvo em: workspace.default.silver_post_creator
INFO:utils.table_operations:Tabela criada em 2025-08-20T00:02:57.009370
INFO:utils.table_operations:Linhas: 12045
INFO:utils.table_operations:Colunas (exceto metadados): 7
INFO:utils.table_operations:Contém dados: True
INFO:utils.table_operations:Percentual de completude: 100.0%
INFO:utils.table_operations:Problemas de qualidade: []
INFO:utils.table_operations:Qualidade atestada: True


Camada silver criada com sucesso!
