In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType

In [0]:
# Inicializa SparkSession
spark = SparkSession.builder.getOrCreate()

In [0]:
def validate_table_not_empty(table_name: str):
    # Verifica se a tabela não está vazia
    df = spark.table(table_name)
    if df.count() == 0:
        raise Exception(f"[BRONZE] Tabela {table_name} está vazia.")


def validate_required_columns(table_name: str, required_columns: list):
    # Verifica se todas as colunas obrigatórias existem na tabela
    df = spark.table(table_name)
    for col in required_columns:
        if col not in df.columns:
            raise Exception(f"[BRONZE] Coluna obrigatória '{col}' não encontrada em {table_name}.")


def validate_struct_column(table_name: str, column_name: str):
    # Verifica se a coluna é do tipo StructType
    df = spark.table(table_name)
    if column_name in df.columns:
        if not isinstance(df.schema[column_name].dataType, StructType):
            raise Exception(f"[BRONZE] Coluna '{column_name}' não é StructType em {table_name}.")

In [0]:
def run_validations():
    # atletas
    validate_table_not_empty("project_data_football_bronze.atletas")
    validate_required_columns(
        "project_data_football_bronze.atletas",
        ["atleta_id", "dt_ingestao"]
    )
    validate_struct_column(
        "project_data_football_bronze.atletas",
        "scout"
    )
# clubes
    validate_table_not_empty("project_data_football_bronze.clubes")
    validate_required_columns(
        "project_data_football_bronze.clubes",
        ["clube_id", "dt_ingestao"]
    )
    # partidas_rodada
    validate_table_not_empty("project_data_football_bronze.partidas_rodada")
    validate_required_columns(
        "project_data_football_bronze.partidas_rodada",
        ["partida_id", "rodada", "campeonato_id"]
    )

    print("Validações BRONZE concluídas com sucesso.")


if __name__ == "__main__":
    run_validations()