# üî∂ Passo a Passo: Criando o Cat√°logo no Metastore do Databricks - Gold

- 1Ô∏è‚É£ Criar um Database no Metastore
- 2Ô∏è‚É£ Registrar a Tabela Delta no Metastore
- 3Ô∏è‚É£ Validar se a tabela foi registrada corretamente

### üîπ 1. Criar um Database no Metastore do Databricks

No Databricks, as tabelas s√£o organizadas dentro de um Database. Vamos criar um database espec√≠fico para armazenar os metadados.




In [0]:
%run "./00-Configuracao"

In [0]:
%sql
CREATE DATABASE IF NOT EXISTS catalogo_de_dados
LOCATION 's3://mvp-brasileirao-2024/gold/catalogo_de_dados';

CREATE DATABASE IF NOT EXISTS marts_mvp_brasileirao

Leitura das credenciais de forma segura pelo Spark üîê


Caminhos definidos:
üìÇ Bronze: s3a://mvp-brasileirao-2024/bronze/ | üìÇ Silver: s3a://mvp-brasileirao-2024/silver/ | üìÇ Gold: s3a://mvp-brasileirao-2024/gold/


‚úÖ Credenciais configuradas com sucesso!



### üîπ Registro das Tabela no Metastore

In [0]:
%sql
CREATE TABLE IF NOT EXISTS marts_mvp_brasileirao.classificacao_tier
USING PARQUET
LOCATION 's3a://mvp-brasileirao-2024/gold/Classificacao_Tier';

CREATE TABLE IF NOT EXISTS marts_mvp_brasileirao.desempenho_clubes
USING PARQUET
LOCATION 's3a://mvp-brasileirao-2024/gold/Mart_Desempenho_Clubes';

CREATE TABLE IF NOT EXISTS marts_mvp_brasileirao.desempenho_jogadores
USING PARQUET
LOCATION 's3a://mvp-brasileirao-2024/gold/Mart_Desempenho_Jogadores';

CREATE TABLE IF NOT EXISTS marts_mvp_brasileirao.informacao_jogadores
USING PARQUET
LOCATION 's3a://mvp-brasileirao-2024/gold/Mart_Info_Jogadores';

CREATE TABLE IF NOT EXISTS marts_mvp_brasileirao.todas_partidas
USING PARQUET
LOCATION 's3a://mvp-brasileirao-2024/gold/todas_partidas';

### üîπ 3. Validar o Registro no Metastore

Agora, vamos verificar se a tabela foi registrada corretamente.



In [0]:
%sql
SHOW TABLES IN marts_mvp_brasileirao;

database,tableName,isTemporary
marts_mvp_brasileirao,classificacao_tier,False
marts_mvp_brasileirao,desempenho_clubes,False
marts_mvp_brasileirao,desempenho_jogadores,False
marts_mvp_brasileirao,informacao_jogadores,False
marts_mvp_brasileirao,todas_partidas,False


# üî∂ Cria√ß√£o do Cat√°logo de Dados


## üî∑ classificacao_tier

### üîπ Criando o Metadata do dataframe

In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import col, count, countDistinct, min, max, sum, expr

# Nome da tabela que queremos analisar (mudar para cada dataset da Silver)
tabela_gold = "marts_mvp_brasileirao.classificacao_tier"

# Ler os dados da Silver diretamente do Metastore
df = spark.read.table(tabela_gold)

# Criar DataFrame com estat√≠sticas (incluindo contagem de nulos correta e duplicatas)
metadata_df = df.agg(
    *[count(col(c)).alias(f"{c}_count") for c in df.columns],  # Contagem total de registros N√ÉO NULOS
    *[countDistinct(col(c)).alias(f"{c}_distinct") for c in df.columns],  # Contagem de valores distintos
    *[min(col(c)).alias(f"{c}_min") for c in df.columns],  # Valor m√≠nimo
    *[max(col(c)).alias(f"{c}_max") for c in df.columns],  # Valor m√°ximo
    *[sum(col(c).isNull().cast("int")).alias(f"{c}_nulls") for c in df.columns],  # Contagem correta de nulos
    *[(count(col(c)) - countDistinct(col(c))).alias(f"{c}_duplicates") for c in df.columns]  # Contagem de valores duplicados
)

### üîπ Cria√ß√£o do Dicion√°rio de descri√ß√µes

In [0]:
col_descriptions = {
    "posicao": (
        "Posi√ß√£o final do clube na tabela de classifica√ß√£o do campeonato.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o.",
        "Bronze ‚Üí Silver ‚Üí Gold"
    ),
    "clube": (
        "Nome do clube participante do campeonato.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o. Padroniza√ß√£o dos nomes dos clubes para garantir consist√™ncia entre os datasets.",
        "Bronze ‚Üí Silver ‚Üí Gold"
    ),
    "pontuacao": (
        "Total de pontos acumulados pelo clube ao longo da competi√ß√£o.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o.",
        "Bronze ‚Üí Silver ‚Üí Gold"
    ),
    "tier_clubes": (
        "Segmento (Tier) do clube com base na posi√ß√£o final (ex.: Tier S, A, B ou C).",
        "Coluna derivada com base na posi√ß√£o na classifica√ß√£o geral.",
        "Silver ‚Üí Gold"
    ),
    "vitorias": (
        "Quantidade total de vit√≥rias conquistadas pelo clube.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o.",
        "Bronze ‚Üí Silver ‚Üí Gold"
    ),
    "empates": (
        "Quantidade total de empates registrados pelo clube.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o.",
        "Bronze ‚Üí Silver ‚Üí Gold"
    ),
    "derrotas": (
        "Quantidade total de derrotas sofridas pelo clube.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o.",
        "Bronze ‚Üí Silver ‚Üí Gold"
    ),
    "gols_marcados": (
        "N√∫mero total de gols marcados pelo clube durante a competi√ß√£o.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o.",
        "Bronze ‚Üí Silver ‚Üí Gold"
    ),
    "avg_gols_marcados_tier": (
        "M√©dia de gols marcados pelos clubes do mesmo Tier.",
        "C√°lculo agregado por Tier a partir dos dados da tabela de classifica√ß√£o.",
        "Silver ‚Üí Gold"
    ),
    "avg_gols_marcados_geral": (
        "M√©dia geral de gols marcados por todos os clubes da competi√ß√£o.",
        "C√°lculo agregado geral com base nos dados de gols marcados.",
        "Silver ‚Üí Gold"
    ),
    "gols_sofridos": (
        "N√∫mero total de gols sofridos pelo clube durante a competi√ß√£o.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o.",
        "Bronze ‚Üí Silver ‚Üí Gold"
    ),
    "avg_gols_sofridos_tier": (
        "M√©dia de gols sofridos pelos clubes do mesmo Tier.",
        "C√°lculo agregado por Tier a partir dos dados da tabela de classifica√ß√£o.",
        "Silver ‚Üí Gold"
    ),
    "avg_gols_sofridos_geral": (
        "M√©dia geral de gols sofridos por todos os clubes da competi√ß√£o.",
        "C√°lculo agregado geral com base nos dados de gols sofridos.",
        "Silver ‚Üí Gold"
    )
}


### üîπ Criando o Dataframe do Cat√°logo

In [0]:
# Criar lista de metadados para o Cat√°logo de Dados
catalog_data = []

# Iterar sobre as colunas da tabela Silver
for index, col_name in enumerate(df.columns, start=1):
    col_type = df.select(col(col_name)).schema.fields[0].dataType.simpleString()  # Tipo da coluna
    col_count = metadata_df.collect()[0][f"{col_name}_count"]  # Contagem total (n√£o nulos)
    col_distinct = metadata_df.collect()[0][f"{col_name}_distinct"]  # Valores distintos
    col_nulls = metadata_df.collect()[0][f"{col_name}_nulls"]  # Contagem correta de valores nulos
    col_min = metadata_df.collect()[0][f"{col_name}_min"] if f"{col_name}_min" in metadata_df.columns else "N/A"
    col_max = metadata_df.collect()[0][f"{col_name}_max"] if f"{col_name}_max" in metadata_df.columns else "N/A"
    col_duplicates = metadata_df.collect()[0][f"{col_name}_duplicates"] if f"{col_name}_duplicates" in metadata_df.columns else 0  # Contagem de duplicados

    # Buscar defini√ß√£o, regra de transforma√ß√£o e linhagem dos dados no dicion√°rio
    col_definition, transformations_applied, lineage_info = col_descriptions.get(
        col_name, (f"Descri√ß√£o da coluna {col_name}", "Nenhuma altera√ß√£o aplicada.", "Origem desconhecida")
    )

    # Definir observa√ß√µes sobre a coluna (pode ser preenchido manualmente se necess√°rio)
    comments = "Sem observa√ß√µes adicionais."

    # Adicionar √† lista
    catalog_data.append(Row(ID_Coluna=index,
                            Coluna=col_name, 
                            Tipo_de_Dado=col_type, 
                            Defini√ß√£o=col_definition,
                            Valores_Min_Max=f"{col_min} | {col_max}", 
                            Qtd_Valores_Registrados=col_count,
                            Qtd_Valores_Nulos=col_nulls,
                            Qtd_Valores_Distintos=col_distinct,
                            Qtd_Valores_Duplicados=col_duplicates,
                            Regras_de_Transforma√ß√£o=transformations_applied,
                            Linhagem_Dados=lineage_info,  # ‚úÖ Agora vem direto do dicion√°rio!
                            Observacoes=comments,
                            Fonte="Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil",
                            Link_Fonte="https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/",
                            Arquivo_Original="classificacao_brasileirao_2024.csv",
                            Arquivo_S3="s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/"
                            ))                            

# Criar o DataFrame do Cat√°logo de Dados
catalog_df = spark.createDataFrame(catalog_data)


### üîπ Salvando o Cat√°logo no S3 camada Gold

In [0]:
# Caminho no S3 para salvar o Cat√°logo Estat√≠stico
delta_catalogo_estatistico_path = "s3://mvp-brasileirao-2024/gold/catalogo_de_dados/classificacao_tier"

dbutils.fs.rm(delta_catalogo_estatistico_path, recurse=True)
print("üö® Arquivos antigos do Delta removidos com sucesso!")

# Salvar a tabela Delta com as estat√≠sticas
catalog_df.write.format("delta").mode("overwrite").save(delta_catalogo_estatistico_path)

print("‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!")

üö® Arquivos antigos do Delta removidos com sucesso!
‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!


### üîπ Criando Tabela de Cat√°logos no Hive

In [0]:
%sql
DROP TABLE IF EXISTS catalogo_de_dados.catalog_classificacao_tier;

CREATE TABLE catalogo_de_dados.catalog_classificacao_tier
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/gold/catalogo_de_dados/classificacao_tier';

### üîπ Exibindo o Cat√°logo de Dados via SQL

In [0]:
%sql
select * from catalogo_de_dados.catalog_classificacao_tier

ID_Coluna,Coluna,Tipo_de_Dado,Defini√ß√£o,Valores_Min_Max,Qtd_Valores_Registrados,Qtd_Valores_Nulos,Qtd_Valores_Distintos,Qtd_Valores_Duplicados,Regras_de_Transforma√ß√£o,Linhagem_Dados,Observacoes,Fonte,Link_Fonte,Arquivo_Original,Arquivo_S3
12,avg_gols_sofridos_tier,double,M√©dia de gols sofridos pelos clubes do mesmo Tier.,35.8 | 52.4,20,0,4,16,C√°lculo agregado por Tier a partir dos dados da tabela de classifica√ß√£o.,Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
13,avg_gols_sofridos_geral,double,M√©dia geral de gols sofridos por todos os clubes da competi√ß√£o.,46.45 | 46.45,20,0,1,19,C√°lculo agregado geral com base nos dados de gols sofridos.,Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
2,clube,string,Nome do clube participante do campeonato.,Athletico-PR | Vasco da Gama,20,0,20,0,Renomea√ß√£o da coluna para padroniza√ß√£o. Padroniza√ß√£o dos nomes dos clubes para garantir consist√™ncia entre os datasets.,Bronze ‚Üí Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
3,pontuacao,int,Total de pontos acumulados pelo clube ao longo da competi√ß√£o.,30 | 79,20,0,17,3,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
4,tier_clubes,string,"Segmento (Tier) do clube com base na posi√ß√£o final (ex.: Tier S, A, B ou C).",TIER A | TIER S,20,0,4,16,Coluna derivada com base na posi√ß√£o na classifica√ß√£o geral.,Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
7,derrotas,int,Quantidade total de derrotas sofridas pelo clube.,5 | 22,20,0,12,8,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
8,gols_marcados,int,N√∫mero total de gols marcados pelo clube durante a competi√ß√£o.,29 | 61,20,0,15,5,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
10,avg_gols_marcados_geral,double,M√©dia geral de gols marcados por todos os clubes da competi√ß√£o.,46.45 | 46.45,20,0,1,19,C√°lculo agregado geral com base nos dados de gols marcados.,Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
11,gols_sofridos,int,N√∫mero total de gols sofridos pelo clube durante a competi√ß√£o.,29 | 61,20,0,18,2,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/
9,avg_gols_marcados_tier,double,M√©dia de gols marcados pelos clubes do mesmo Tier.,36.8 | 57.2,20,0,4,16,C√°lculo agregado por Tier a partir dos dados da tabela de classifica√ß√£o.,Silver ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,s3://mvp-brasileirao-2024/Gold/Classificacao_Tier/


## üî∑ desempenho_clubes

### üîπ Criando o Metadata do dataframe

In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import col, count, countDistinct, min, max, sum, expr

# Nome da tabela que queremos analisar (mudar para cada dataset da Silver)
tabela_gold = "marts_mvp_brasileirao.desempenho_clubes"

# Ler os dados da Silver diretamente do Metastore
df = spark.read.table(tabela_gold)

# Criar DataFrame com estat√≠sticas (incluindo contagem de nulos correta e duplicatas)
metadata_df = df.agg(
    *[count(col(c)).alias(f"{c}_count") for c in df.columns],  # Contagem total de registros N√ÉO NULOS
    *[countDistinct(col(c)).alias(f"{c}_distinct") for c in df.columns],  # Contagem de valores distintos
    *[min(col(c)).alias(f"{c}_min") for c in df.columns],  # Valor m√≠nimo
    *[max(col(c)).alias(f"{c}_max") for c in df.columns],  # Valor m√°ximo
    *[sum(col(c).isNull().cast("int")).alias(f"{c}_nulls") for c in df.columns],  # Contagem correta de nulos
    *[(count(col(c)) - countDistinct(col(c))).alias(f"{c}_duplicates") for c in df.columns]  # Contagem de valores duplicados
)

### üîπ Cria√ß√£o do Dicion√°rio de descri√ß√µes

In [0]:
col_descriptions = {
    "posicao": (
        "Posi√ß√£o final do clube na classifica√ß√£o geral.",
        "Derivado da tabela de classifica√ß√£o.",
        "classificacao_tier"
    ),
    "clube": (
        "Nome do clube.",
        "Derivado da tabela de classifica√ß√£o.",
        "classificacao_tier"
    ),
    "tier_clubes": (
        "Tierlist do clube com base na sua posi√ß√£o (S, A, B, C).",
        "Derivado com regras de segmenta√ß√£o por posi√ß√£o.",
        "classificacao_tier"
    ),
    "norm_gols_sofridos": (
        "Total de gols sofridos pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "classificacao_tier ‚Üí Mart_Desempenho_Defensivo_Clubes ‚Üí Gold"
    ),
    "norm_desarmes": (
        "Total de desarmes realizados pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Defensivo_Clubes ‚Üí Gold"
    ),
    "norm_interceptacoes": (
        "Total de intercepta√ß√µes feitas pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Defensivo_Clubes ‚Üí Gold"
    ),
    "norm_bloqueios": (
        "Total de bloqueios realizados pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Defensivo_Clubes ‚Üí Gold"
    ),
    "norm_gols_marcados": (
        "Total de gols marcados pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_assistencias": (
        "Total de assist√™ncias feitas pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_penaltis_batidos": (
        "Total de p√™naltis batidos pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_total_chutes": (
        "Total de chutes realizados pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_chutes_gol": (
        "Total de chutes no alvo do clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_gols_esperados": (
        "Total de gols esperados (xG) do clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_ass_esperadas": (
        "Total de assist√™ncias esperadas (xA) do clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_acoes_de_criacao": (
        "Total de a√ß√µes de cria√ß√£o de jogadas do clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_acoes_de_gol": (
        "Total de a√ß√µes que levaram a gol, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold"
    ),
    "norm_eficiencia": (
        "√çndice de efici√™ncia geral ofensiva e defensiva do clube, normalizado com Min-Max Scaling (0 a 10).",
        "M√©dia ponderada de m√©tricas-chave, normalizada por Min-Max com ajuste para escala de 0 a 10.",
        "c√°lculo pr√≥prio"
    ),
    "norm_passes_completos": (
        "Total de passes completos do clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Criacao_Clubes ‚Üí Gold"
    ),
    "norm_passes_tentados": (
        "Total de passes tentados pelo clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Criacao_Clubes ‚Üí Gold"
    ),
    "norm_conducoes_de_bola": (
        "Total de condu√ß√µes de bola do clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Criacao_Clubes ‚Üí Gold"
    ),
    "norm_conducoes_progressivas": (
        "Total de condu√ß√µes progressivas de bola do clube, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado",
        "Estatisticas_PorClube ‚Üí Mart_Desempenho_Criacao_Clubes ‚Üí Gold"
    ),
    "score_defensivo": (
        "Score defensivo agregado do clube.",
        "Pontua√ß√£o calculada com base nas m√©tricas defensivas normalizadas (desarmes, intercepta√ß√µes, bloqueios e gols sofridos), ponderadas e combinadas.",
        "c√°lculo pr√≥prio"
    ),
    "score_ofensivo": (
        "Score ofensivo agregado do clube.",
        "Pontua√ß√£o calculada com base nas m√©tricas ofensivas normalizadas (gols marcados, assist√™ncias, chutes, xG, etc.), ponderadas e combinadas.",
        "c√°lculo pr√≥prio"
    ),
    "score_criacao": (
        "Score de cria√ß√£o de jogadas do clube.",
        "Pontua√ß√£o baseada em m√©tricas de cria√ß√£o (a√ß√µes de cria√ß√£o, passes esperados, assist√™ncias, etc.), normalizadas e combinadas.",
        "c√°lculo pr√≥prio"
)
}


### üîπ Criando o Dataframe do Cat√°logo

In [0]:
# Criar lista de metadados para o Cat√°logo de Dados
catalog_data = []

# Iterar sobre as colunas da tabela Silver
for index, col_name in enumerate(df.columns, start=1):
    col_type = df.select(col(col_name)).schema.fields[0].dataType.simpleString()  # Tipo da coluna
    col_count = metadata_df.collect()[0][f"{col_name}_count"]  # Contagem total (n√£o nulos)
    col_distinct = metadata_df.collect()[0][f"{col_name}_distinct"]  # Valores distintos
    col_nulls = metadata_df.collect()[0][f"{col_name}_nulls"]  # Contagem correta de valores nulos
    col_min = metadata_df.collect()[0][f"{col_name}_min"] if f"{col_name}_min" in metadata_df.columns else "N/A"
    col_max = metadata_df.collect()[0][f"{col_name}_max"] if f"{col_name}_max" in metadata_df.columns else "N/A"
    col_duplicates = metadata_df.collect()[0][f"{col_name}_duplicates"] if f"{col_name}_duplicates" in metadata_df.columns else 0  # Contagem de duplicados

    # Buscar defini√ß√£o, regra de transforma√ß√£o e linhagem dos dados no dicion√°rio
    col_definition, transformations_applied, lineage_info = col_descriptions.get(
        col_name, (f"Descri√ß√£o da coluna {col_name}", "Nenhuma altera√ß√£o aplicada.", "Origem desconhecida")
    )

    # Definir observa√ß√µes sobre a coluna (pode ser preenchido manualmente se necess√°rio)
    comments = "Sem observa√ß√µes adicionais."

    catalog_data.append(Row(
        ID_Coluna=index,
        Coluna=col_name,
        Tipo_de_Dado=col_type,
        Defini√ß√£o=col_definition,
        Valores_Min_Max=f"{col_min} | {col_max}",
        Qtd_Valores_Registrados=col_count,
        Qtd_Valores_Nulos=col_nulls,
        Qtd_Valores_Distintos=col_distinct,
        Qtd_Valores_Duplicados=col_duplicates,
        Regras_de_Transforma√ß√£o=transformations_applied,
        Linhagem_Dados=lineage_info,
        Observacoes=comments,
        Fonte="Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.",
        Link_Fonte="https://fbref.com/",
        Arquivo_Original="BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv",
        Arquivo_S3="s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/"
    ))

catalog_df = spark.createDataFrame(catalog_data)


### üîπ Salvando o Cat√°logo no S3 camada Gold

In [0]:
# Caminho no S3 para salvar o Cat√°logo Estat√≠stico
delta_catalogo_estatistico_path = "s3://mvp-brasileirao-2024/gold/catalogo_de_dados/desempenho_clubes"

dbutils.fs.rm(delta_catalogo_estatistico_path, recurse=True)
print("üö® Arquivos antigos do Delta removidos com sucesso!")

# Salvar a tabela Delta com as estat√≠sticas
catalog_df.write.format("delta").mode("overwrite").save(delta_catalogo_estatistico_path)

print("‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!")

üö® Arquivos antigos do Delta removidos com sucesso!
‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!


### üîπ Criando Tabela de Cat√°logos no Hive

In [0]:
%sql
DROP TABLE IF EXISTS catalogo_de_dados.catalog_desempenho_clubes;

CREATE TABLE catalogo_de_dados.catalog_desempenho_clubes
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/gold/catalogo_de_dados/desempenho_clubes';

### üîπ Exibindo o Cat√°logo de Dados via SQL

In [0]:
%sql
select * from catalogo_de_dados.catalog_desempenho_clubes

ID_Coluna,Coluna,Tipo_de_Dado,Defini√ß√£o,Valores_Min_Max,Qtd_Valores_Registrados,Qtd_Valores_Nulos,Qtd_Valores_Distintos,Qtd_Valores_Duplicados,Regras_de_Transforma√ß√£o,Linhagem_Dados,Observacoes,Fonte,Link_Fonte,Arquivo_Original,Arquivo_S3
13,norm_gols_esperados,double,"Total de gols esperados (xG) do clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,20,0,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
14,norm_ass_esperadas,double,"Total de assist√™ncias esperadas (xA) do clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,20,0,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
15,norm_acoes_de_criacao,double,"Total de a√ß√µes de cria√ß√£o de jogadas do clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,20,0,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
19,norm_passes_tentados,double,"Total de passes tentados pelo clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,20,0,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Criacao_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
20,norm_conducoes_de_bola,double,"Total de condu√ß√µes de bola do clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,20,0,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Criacao_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
21,norm_conducoes_progressivas,double,"Total de condu√ß√µes progressivas de bola do clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,20,0,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Criacao_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
10,norm_penaltis_batidos,double,"Total de p√™naltis batidos pelo clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,10,10,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
11,norm_total_chutes,double,"Total de chutes realizados pelo clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,19,1,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
12,norm_chutes_gol,double,"Total de chutes no alvo do clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,20,0,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,Estatisticas_PorClube ‚Üí Mart_Desempenho_Ofensivo_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/
4,norm_gols_sofridos,double,"Total de gols sofridos pelo clube, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,20,0,18,2,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado,classificacao_tier ‚Üí Mart_Desempenho_Defensivo_Clubes ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da agrega√ß√£o de estat√≠sticas individuais dos jogadores por clube.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Clubes/


## üî∑ desempenho_jogadores

### üîπ Criando o Metadata do dataframe

In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import col, count, countDistinct, min, max, sum, expr

# Nome da tabela que queremos analisar (mudar para cada dataset da Silver)
tabela_gold = "marts_mvp_brasileirao.desempenho_jogadores"

# Ler os dados da Silver diretamente do Metastore
df = spark.read.table(tabela_gold)

# Criar DataFrame com estat√≠sticas (incluindo contagem de nulos correta e duplicatas)
metadata_df = df.agg(
    *[count(col(c)).alias(f"{c}_count") for c in df.columns],  # Contagem total de registros N√ÉO NULOS
    *[countDistinct(col(c)).alias(f"{c}_distinct") for c in df.columns],  # Contagem de valores distintos
    *[min(col(c)).alias(f"{c}_min") for c in df.columns],  # Valor m√≠nimo
    *[max(col(c)).alias(f"{c}_max") for c in df.columns],  # Valor m√°ximo
    *[sum(col(c).isNull().cast("int")).alias(f"{c}_nulls") for c in df.columns],  # Contagem correta de nulos
    *[(count(col(c)) - countDistinct(col(c))).alias(f"{c}_duplicates") for c in df.columns]  # Contagem de valores duplicados
)

### üîπ Cria√ß√£o do Dicion√°rio de descri√ß√µes

In [0]:
col_descriptions = {
    "jogador": (
        "Nome do jogador.",
        "Derivado da tabela de Estatisticas_PorJogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "clube": (
        "Nome do clube ao qual o jogador pertence.",
        "Derivado da tabela de Estatisticas_PorJogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "numero_camisa": (
        "N√∫mero da camisa do jogador.",
        "Derivado da tabela de Estatisticas_PorJogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "minutos_em_campo": (
        "Total de minutos que o jogador esteve em campo ao longo da competi√ß√£o.",
        "Derivado da tabela de Estatisticas_PorJogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_gols_sofridos_clube": (
        "Gols sofridos pelo clube enquanto o jogador estava em campo, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_desarmes": (
        "Total de desarmes realizados pelo jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_interceptacoes": (
        "Total de intercepta√ß√µes feitas pelo jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_bloqueios": (
        "Total de bloqueios realizados pelo jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_gols_marcados": (
        "Total de gols marcados pelo jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_ass": (
        "Total de assist√™ncias do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_penaltis_batidos": (
        "Total de p√™naltis batidos pelo jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_total_chutes": (
        "Total de chutes do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_chutes_gol": (
        "Total de chutes no alvo do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_gols_esperados": (
        "xG (gols esperados) do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_ass_esperadas": (
        "xA (assist√™ncias esperadas) do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_acoes_de_criacao": (
        "Total de a√ß√µes de cria√ß√£o de jogadas do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_acoes_de_gol": (
        "Total de a√ß√µes diretamente ligadas a gols do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_eficiencia": (
        "√çndice geral de efici√™ncia do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "c√°lculo pr√≥prio"
    ),
    "norm_passes_completos": (
        "Total de passes completos do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_passes_tentados": (
        "Total de passes tentados pelo jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_conducoes_de_bola": (
        "Total de condu√ß√µes de bola do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "norm_conducoes_progressivas": (
        "Condu√ß√µes progressivas (em dire√ß√£o ao ataque) do jogador, normalizado com Min-Max Scaling (0 a 10).",
        "C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "score_defensivo": (
        "Score defensivo agregado do jogador.",
        "Pontua√ß√£o calculada com base nas m√©tricas defensivas normalizadas (desarmes, intercepta√ß√µes, bloqueios e gols sofridos), ponderadas e combinadas.",
        "c√°lculo pr√≥prio"
    ),
    "score_ofensivo": (
        "Score ofensivo agregado do jogador.",
        "Pontua√ß√£o calculada com base nas m√©tricas ofensivas normalizadas (gols marcados, assist√™ncias, chutes, xG, etc.), ponderadas e combinadas.",
        "c√°lculo pr√≥prio"
    ),
    "score_criacao": (
        "Score de cria√ß√£o de jogadas do jogador.",
        "Pontua√ß√£o baseada em m√©tricas de cria√ß√£o (a√ß√µes de cria√ß√£o, passes esperados, assist√™ncias, etc.), normalizadas e combinadas.",
        "c√°lculo pr√≥prio"
    )
}


### üîπ Criando o Dataframe do Cat√°logo

In [0]:
# Criar lista de metadados para o Cat√°logo de Dados
catalog_data = []

# Iterar sobre as colunas da tabela Silver
for index, col_name in enumerate(df.columns, start=1):
    col_type = df.select(col(col_name)).schema.fields[0].dataType.simpleString()  # Tipo da coluna
    col_count = metadata_df.collect()[0][f"{col_name}_count"]  # Contagem total (n√£o nulos)
    col_distinct = metadata_df.collect()[0][f"{col_name}_distinct"]  # Valores distintos
    col_nulls = metadata_df.collect()[0][f"{col_name}_nulls"]  # Contagem correta de valores nulos
    col_min = metadata_df.collect()[0][f"{col_name}_min"] if f"{col_name}_min" in metadata_df.columns else "N/A"
    col_max = metadata_df.collect()[0][f"{col_name}_max"] if f"{col_name}_max" in metadata_df.columns else "N/A"
    col_duplicates = metadata_df.collect()[0][f"{col_name}_duplicates"] if f"{col_name}_duplicates" in metadata_df.columns else 0  # Contagem de duplicados

    # Buscar defini√ß√£o, regra de transforma√ß√£o e linhagem dos dados no dicion√°rio
    col_definition, transformations_applied, lineage_info = col_descriptions.get(
        col_name, (f"Descri√ß√£o da coluna {col_name}", "Nenhuma altera√ß√£o aplicada.", "Origem desconhecida")
    )

    # Definir observa√ß√µes sobre a coluna (pode ser preenchido manualmente se necess√°rio)
    comments = "Sem observa√ß√µes adicionais."

    catalog_data.append(Row(
        ID_Coluna=index,
        Coluna=col_name,
        Tipo_de_Dado=col_type,
        Defini√ß√£o=col_definition,
        Valores_Min_Max=f"{col_min} | {col_max}",
        Qtd_Valores_Registrados=col_count,
        Qtd_Valores_Nulos=col_nulls,
        Qtd_Valores_Distintos=col_distinct,
        Qtd_Valores_Duplicados=col_duplicates,
        Regras_de_Transforma√ß√£o=transformations_applied,
        Linhagem_Dados=lineage_info,
        Observacoes=comments,
        Fonte="Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.",
        Link_Fonte="https://fbref.com/",
        Arquivo_Original="BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv",
        Arquivo_S3="s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/"
    ))

catalog_df = spark.createDataFrame(catalog_data)

### üîπ Salvando o Cat√°logo no S3 camada Gold

In [0]:
# Caminho no S3 para salvar o Cat√°logo Estat√≠stico
delta_catalogo_estatistico_path = "s3://mvp-brasileirao-2024/gold/catalogo_de_dados/desempenho_jogadores"

dbutils.fs.rm(delta_catalogo_estatistico_path, recurse=True)
print("üö® Arquivos antigos do Delta removidos com sucesso!")

# Salvar a tabela Delta com as estat√≠sticas
catalog_df.write.format("delta").mode("overwrite").save(delta_catalogo_estatistico_path)

print("‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!")

üö® Arquivos antigos do Delta removidos com sucesso!
‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!


### üîπ Criando Tabela de Cat√°logos no Hive

In [0]:
%sql
DROP TABLE IF EXISTS catalogo_de_dados.catalog_desempenho_jogadores;

CREATE TABLE catalogo_de_dados.catalog_desempenho_jogadores
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/gold/catalogo_de_dados/desempenho_jogadores';

### üîπ Exibindo o Cat√°logo de Dados via SQL

In [0]:
%sql
select * from catalogo_de_dados.catalog_desempenho_jogadores

ID_Coluna,Coluna,Tipo_de_Dado,Defini√ß√£o,Valores_Min_Max,Qtd_Valores_Registrados,Qtd_Valores_Nulos,Qtd_Valores_Distintos,Qtd_Valores_Duplicados,Regras_de_Transforma√ß√£o,Linhagem_Dados,Observacoes,Fonte,Link_Fonte,Arquivo_Original,Arquivo_S3
22,norm_conducoes_progressivas,double,"Condu√ß√µes progressivas (em dire√ß√£o ao ataque) do jogador, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,838,0,83,755,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
23,score_defensivo,double,Score defensivo agregado do jogador.,0.0 | 9.46,838,0,430,408,"Pontua√ß√£o calculada com base nas m√©tricas defensivas normalizadas (desarmes, intercepta√ß√µes, bloqueios e gols sofridos), ponderadas e combinadas.",c√°lculo pr√≥prio,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
24,score_ofensivo,double,Score ofensivo agregado do jogador.,0.01 | 7.81,582,256,255,327,"Pontua√ß√£o calculada com base nas m√©tricas ofensivas normalizadas (gols marcados, assist√™ncias, chutes, xG, etc.), ponderadas e combinadas.",c√°lculo pr√≥prio,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
25,score_criacao,double,Score de cria√ß√£o de jogadas do jogador.,0.0 | 9.19,838,0,283,555,"Pontua√ß√£o baseada em m√©tricas de cria√ß√£o (a√ß√µes de cria√ß√£o, passes esperados, assist√™ncias, etc.), normalizadas e combinadas.",c√°lculo pr√≥prio,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
19,norm_passes_completos,double,"Total de passes completos do jogador, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,838,0,351,487,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
20,norm_passes_tentados,double,"Total de passes tentados pelo jogador, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,838,0,381,457,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
21,norm_conducoes_de_bola,double,"Total de condu√ß√µes de bola do jogador, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,838,0,360,478,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
7,norm_interceptacoes,double,"Total de intercepta√ß√µes feitas pelo jogador, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,838,0,48,790,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
8,norm_bloqueios,double,"Total de bloqueios realizados pelo jogador, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,838,0,51,787,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/
9,norm_gols_marcados,double,"Total de gols marcados pelo jogador, normalizado com Min-Max Scaling (0 a 10).",0.0 | 10.0,838,0,15,823,C√°lculo Normaliza√ß√£o Min-Max (escala de 0 a 10) aplicado.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da extra√ß√£o e processamento das estat√≠sticas individuais dos jogadores.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Desempenho_Jogadores/


## üî∑ informacao_jogadores

### üîπ Criando o Metadata do dataframe

In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import col, count, countDistinct, min, max, sum, expr

# Nome da tabela que queremos analisar (mudar para cada dataset da Silver)
tabela_gold = "marts_mvp_brasileirao.informacao_jogadores"

# Ler os dados da Silver diretamente do Metastore
df = spark.read.table(tabela_gold)

# Criar DataFrame com estat√≠sticas (incluindo contagem de nulos correta e duplicatas)
metadata_df = df.agg(
    *[count(col(c)).alias(f"{c}_count") for c in df.columns],  # Contagem total de registros N√ÉO NULOS
    *[countDistinct(col(c)).alias(f"{c}_distinct") for c in df.columns],  # Contagem de valores distintos
    *[min(col(c)).alias(f"{c}_min") for c in df.columns],  # Valor m√≠nimo
    *[max(col(c)).alias(f"{c}_max") for c in df.columns],  # Valor m√°ximo
    *[sum(col(c).isNull().cast("int")).alias(f"{c}_nulls") for c in df.columns],  # Contagem correta de nulos
    *[(count(col(c)) - countDistinct(col(c))).alias(f"{c}_duplicates") for c in df.columns]  # Contagem de valores duplicados
)

### üîπ Cria√ß√£o do Dicion√°rio de descri√ß√µes

In [0]:
col_descriptions = {
    "Jogador": (
        "Nome do jogador.",
        "Derivado da tabela de Estatisticas_PorJogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "Clube": (
        "Clube que o jogador representou no Campeonato Brasileiro de 2024.",
        "Derivado da tabela de Estatisticas_PorJogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "Nacionalidade": (
        "Pa√≠s de origem do jogador.",
        "Derivado da tabela de Estatisticas_PorJogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold"
    ),
    "Posicao_Principal": (
        "Posi√ß√£o em que o jogador atuou com maior frequ√™ncia na temporada.",
        "Calculado a partir das posi√ß√µes registradas na Estatisticas_PorJogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold"
    ),
    "Nome_Posicao_Principal": (
        "Nome da posi√ß√£o principal que o jogador jogou na partida.",
        "Derivado da coluna `posicao_principal`, com tradu√ß√£o das siglas para facilitar a leitura e interpreta√ß√£o.",
        "Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold"
    ),    
    "jogos_Posicao_Principal": (
        "Quantidade de partidas em que o jogador atuou na sua posi√ß√£o principal.",
        "Calculado por meio da contagem das partidas por posi√ß√£o.",
        "Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold"
    ),
    "Improvisacao": (
        "Outra posi√ß√£o em que o jogador foi escalado, diferente da sua fun√ß√£o original.",
        "Derivado da an√°lise de m√∫ltiplas posi√ß√µes por jogador.",
        "Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold"
    ),
    "Nome_Improvisacao": (
        "Nome da posi√ß√£o em que o jogador atuou improvisado durante a partida",
        "Derivado da coluna `improvisacao`, com tradu√ß√£o das siglas de posi√ß√£o para facilitar a an√°lise.",
        "Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold"
    ),    
    "jogos_improvisados": (
        "Quantidade de partidas em que o jogador foi escalado fora da sua posi√ß√£o principal.",
        "Contagem de jogos em posi√ß√µes diferentes da principal.",
        "Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold"
    )
}


### üîπ Criando o Dataframe do Cat√°logo

In [0]:
# Criar lista de metadados para o Cat√°logo de Dados
catalog_data = []

# Iterar sobre as colunas da tabela Silver
for index, col_name in enumerate(df.columns, start=1):
    col_type = df.select(col(col_name)).schema.fields[0].dataType.simpleString()  # Tipo da coluna
    col_count = metadata_df.collect()[0][f"{col_name}_count"]  # Contagem total (n√£o nulos)
    col_distinct = metadata_df.collect()[0][f"{col_name}_distinct"]  # Valores distintos
    col_nulls = metadata_df.collect()[0][f"{col_name}_nulls"]  # Contagem correta de valores nulos
    col_min = metadata_df.collect()[0][f"{col_name}_min"] if f"{col_name}_min" in metadata_df.columns else "N/A"
    col_max = metadata_df.collect()[0][f"{col_name}_max"] if f"{col_name}_max" in metadata_df.columns else "N/A"
    col_duplicates = metadata_df.collect()[0][f"{col_name}_duplicates"] if f"{col_name}_duplicates" in metadata_df.columns else 0  # Contagem de duplicados

    # Buscar defini√ß√£o, regra de transforma√ß√£o e linhagem dos dados no dicion√°rio
    col_definition, transformations_applied, lineage_info = col_descriptions.get(
        col_name, (f"Descri√ß√£o da coluna {col_name}", "Nenhuma altera√ß√£o aplicada.", "Origem desconhecida")
    )

    # Definir observa√ß√µes sobre a coluna (pode ser preenchido manualmente se necess√°rio)
    comments = "Sem observa√ß√µes adicionais."

    catalog_data.append(Row(
        ID_Coluna=index,
        Coluna=col_name,
        Tipo_de_Dado=col_type,
        Defini√ß√£o=col_definition,
        Valores_Min_Max=f"{col_min} | {col_max}",
        Qtd_Valores_Registrados=col_count,
        Qtd_Valores_Nulos=col_nulls,
        Qtd_Valores_Distintos=col_distinct,
        Qtd_Valores_Duplicados=col_duplicates,
        Regras_de_Transforma√ß√£o=transformations_applied,
        Linhagem_Dados=lineage_info,
        Observacoes=comments,
        Fonte = "Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.",
        Link_Fonte = "https://fbref.com/",
        Arquivo_Original = "BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv",
        Arquivo_S3 = "s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/"

    ))

catalog_df = spark.createDataFrame(catalog_data)

### üîπ Salvando o Cat√°logo no S3 camada Gold

In [0]:
# Caminho no S3 para salvar o Cat√°logo Estat√≠stico
delta_catalogo_estatistico_path = "s3://mvp-brasileirao-2024/gold/catalogo_de_dados/informacao_jogadores"

dbutils.fs.rm(delta_catalogo_estatistico_path, recurse=True)
print("üö® Arquivos antigos do Delta removidos com sucesso!")

# Salvar a tabela Delta com as estat√≠sticas
catalog_df.write.format("delta").mode("overwrite").save(delta_catalogo_estatistico_path)

print("‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!")

üö® Arquivos antigos do Delta removidos com sucesso!
‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!


### üîπ Criando Tabela de Cat√°logos no Hive

In [0]:
%sql
DROP TABLE IF EXISTS catalogo_de_dados.catalog_informacao_jogadores;

CREATE TABLE catalogo_de_dados.catalog_informacao_jogadores
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/gold/catalogo_de_dados/informacao_jogadores';

### üîπ Exibindo o Cat√°logo de Dados via SQL

In [0]:
%sql
select * from catalogo_de_dados.catalog_informacao_jogadores

ID_Coluna,Coluna,Tipo_de_Dado,Defini√ß√£o,Valores_Min_Max,Qtd_Valores_Registrados,Qtd_Valores_Nulos,Qtd_Valores_Distintos,Qtd_Valores_Duplicados,Regras_de_Transforma√ß√£o,Linhagem_Dados,Observacoes,Fonte,Link_Fonte,Arquivo_Original,Arquivo_S3
5,Nome_Posicao_Principal,string,Nome da posi√ß√£o principal que o jogador jogou na partida.,Ala | Zagueiro,726,0,13,713,"Derivado da coluna `posicao_principal`, com tradu√ß√£o das siglas para facilitar a leitura e interpreta√ß√£o.",Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/
8,Nome_Improvisacao,string,Nome da posi√ß√£o em que o jogador atuou improvisado durante a partida,Ala | Zagueiro,569,157,12,557,"Derivado da coluna `improvisacao`, com tradu√ß√£o das siglas de posi√ß√£o para facilitar a an√°lise.",Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/
9,jogos_improvisados,bigint,Quantidade de partidas em que o jogador foi escalado fora da sua posi√ß√£o principal.,1 | 18,569,157,16,553,Contagem de jogos em posi√ß√µes diferentes da principal.,Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/
4,Posicao_Principal,string,Posi√ß√£o em que o jogador atuou com maior frequ√™ncia na temporada.,AM | WB,726,0,13,713,Calculado a partir das posi√ß√µes registradas na Estatisticas_PorJogador.,Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/
7,Improvisacao,string,"Outra posi√ß√£o em que o jogador foi escalado, diferente da sua fun√ß√£o original.",AM | WB,569,157,12,557,Derivado da an√°lise de m√∫ltiplas posi√ß√µes por jogador.,Estatisticas_PorJogador ‚Üí Mart_Info_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/
2,Clube,string,Clube que o jogador representou no Campeonato Brasileiro de 2024.,Athletico-PR | Vasco da Gama,726,0,20,706,Derivado da tabela de Estatisticas_PorJogador.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/
3,Nacionalidade,string,Pa√≠s de origem do jogador.,ANG | VEN,726,0,24,702,Derivado da tabela de Estatisticas_PorJogador.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/
1,Jogador,string,Nome do jogador.,Abner | √ìscar Romero,726,0,653,73,Derivado da tabela de Estatisticas_PorJogador.,Estatisticas_PorJogador ‚Üí Mart_Desempenho_Jogadores ‚Üí Gold,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/
6,jogos_posicao_principal,bigint,Descri√ß√£o da coluna jogos_posicao_principal,1 | 38,726,0,38,688,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Tabela constru√≠da a partir da an√°lise da posi√ß√£o principal e das improvisa√ß√µes dos jogadores ao longo da temporada.,https://fbref.com/,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv,s3://mvp-brasileirao-2024/Gold/Mart_Info_Jogadores/


## üî∑ todas_partidas

### üîπ Criando o Metadata do dataframe

In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import col, count, countDistinct, min, max, sum, expr

# Nome da tabela que queremos analisar (mudar para cada dataset da Silver)
tabela_gold = "marts_mvp_brasileirao.todas_partidas"

# Ler os dados da Silver diretamente do Metastore
df = spark.read.table(tabela_gold)

# Criar DataFrame com estat√≠sticas (incluindo contagem de nulos correta e duplicatas)
metadata_df = df.agg(
    *[count(col(c)).alias(f"{c}_count") for c in df.columns],  # Contagem total de registros N√ÉO NULOS
    *[countDistinct(col(c)).alias(f"{c}_distinct") for c in df.columns],  # Contagem de valores distintos
    *[min(col(c)).alias(f"{c}_min") for c in df.columns],  # Valor m√≠nimo
    *[max(col(c)).alias(f"{c}_max") for c in df.columns],  # Valor m√°ximo
    *[sum(col(c).isNull().cast("int")).alias(f"{c}_nulls") for c in df.columns],  # Contagem correta de nulos
    *[(count(col(c)) - countDistinct(col(c))).alias(f"{c}_duplicates") for c in df.columns]  # Contagem de valores duplicados
)

### üîπ Cria√ß√£o do Dicion√°rio de descri√ß√µes

In [0]:
col_descriptions = {
    # Colunas originais da Bronze (renomeadas na Silver)
    "pais": ("Pa√≠s onde o campeonato foi disputado", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver ‚Üí Gold"),
    "liga": ("Nome da liga do campeonato", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver ‚Üí Gold"),
    "temporada": ("Ano da temporada do campeonato", "Renomea√ß√£o da coluna para padroniza√ß√£o | Filtragem para manter apenas 2024", "Bronze ‚Üí Silver ‚Üí Gold"),
    
    # üîπ Atualiza√ß√£o da coluna "Data"
    "data": ("Data em que a partida foi disputada", 
             "Renomea√ß√£o da coluna e convers√£o para formato de data | Ajuste das datas das partidas n√£o encontradas na base Estatistica por Jogador (-1 dia, quando necess√°rio)", 
             "Bronze ‚Üí Silver ‚Üí Gold"),
    
    "horario": ("Hor√°rio da partida", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver ‚Üí Gold"),
    
    # Novas colunas criadas na Silver
    "match_id": ("Identificador √∫nico da partida", "Criado concatenando 'Match_' com um ID incremental", "Silver (Coluna nova) ‚Üí Gold"),
    "trimestre": ("Trimestre em que a partida foi disputada", "Criado a partir da data do jogo", "Silver (Coluna nova) ‚Üí Gold"),
    "turno": ("Indica√ß√£o se a partida foi no primeiro ou segundo turno do campeonato", "Criado com base na data do jogo", "Silver (Coluna nova) ‚Üí Gold"),
    
    # Transforma√ß√µes para an√°lise individual de cada time
    "clube": ("Nome do time participante da partida (mandante ou visitante)", "Criado a partir das colunas Home e Away, e unificando em uma √∫nica coluna", "Silver (Transforma√ß√£o) ‚Üí Gold"),
    "mandantevisitante": ("Indica se o time jogou em casa ('Mandante') ou fora ('Visitante')", "Transformado a partir dos DataFrames 'df_home' e 'df_away' e criado a partir da uni√£o de ambos", "Silver (Transforma√ß√£o) ‚Üí Gold"),
    "goals": ("N√∫mero de gols marcados pelo time na partida", "Criado unificando HG (gols do mandante) e AG (gols do visitante)", "Silver (Coluna nova) ‚Üí Gold"),
    
    # Transforma√ß√µes aplicadas √† coluna Resultado
    "resultado": ("Resultado da partida do ponto de vista do time (Vit√≥ria, Derrota ou Empate)", "Ajustado conforme a posi√ß√£o do time na partida", "Silver (Transforma√ß√£o) ‚Üí Gold"),
    
    # üîπ Nova coluna "Status_Ajuste"
    "status_ajustes": ("Indica se a data da partida foi ajustada", 
                      "Criado para identificar altera√ß√µes na data das partidas. Valores poss√≠veis: 'Ajustado -1 dia' ou 'Sem modifica√ß√£o'", 
                      "Silver (Coluna nova) ‚Üí Gold")
}


### üîπ Cria√ß√£o do Dicion√°rio de observa√ß√µes

In [0]:
observacoes = {
    "data": "‚ö†Ô∏è Ajuste manual: Datas ajustadas para garantir a correspond√™ncia entre os arquivos de partidas e estat√≠sticas. Quando necess√°rio, foi subtra√≠do 1 dia das partidas n√£o encontradas na estat√≠stica."
}

### üîπ Criando o Dataframe do Cat√°logo

In [0]:
# Criar lista de metadados para o Cat√°logo de Dados
catalog_data = []

# Iterar sobre as colunas da tabela Silver
for index, col_name in enumerate(df.columns, start=1):
    col_type = df.select(col(col_name)).schema.fields[0].dataType.simpleString()  # Tipo da coluna
    col_count = metadata_df.collect()[0][f"{col_name}_count"]  # Contagem total (n√£o nulos)
    col_distinct = metadata_df.collect()[0][f"{col_name}_distinct"]  # Valores distintos
    col_nulls = metadata_df.collect()[0][f"{col_name}_nulls"]  # Contagem correta de valores nulos
    col_min = metadata_df.collect()[0][f"{col_name}_min"] if f"{col_name}_min" in metadata_df.columns else "N/A"
    col_max = metadata_df.collect()[0][f"{col_name}_max"] if f"{col_name}_max" in metadata_df.columns else "N/A"
    col_duplicates = metadata_df.collect()[0][f"{col_name}_duplicates"] if f"{col_name}_duplicates" in metadata_df.columns else 0  # Contagem de duplicados

    # Buscar defini√ß√£o, regra de transforma√ß√£o e linhagem dos dados no dicion√°rio
    col_definition, transformations_applied, lineage_info = col_descriptions.get(
        col_name, (f"Descri√ß√£o da coluna {col_name}", "Nenhuma altera√ß√£o aplicada.", "Origem desconhecida")
    )

    # Definir observa√ß√µes sobre a coluna (pode ser preenchido manualmente se necess√°rio)
    comments = observacoes.get(col_name, "Sem observa√ß√µes adicionais.")

    # Adicionar √† lista
    catalog_data.append(Row(ID_Coluna=index,
                            Coluna=col_name, 
                            Tipo_de_Dado=col_type, 
                            Defini√ß√£o=col_definition,
                            Valores_Min_Max=f"{col_min} | {col_max}", 
                            Qtd_Valores_Registrados=col_count,
                            Qtd_Valores_Nulos=col_nulls,
                            Qtd_Valores_Distintos=col_distinct,
                            Qtd_Valores_Duplicados=col_duplicates,
                            Regras_de_Transforma√ß√£o=transformations_applied,
                            Linhagem_Dados=lineage_info,  # ‚úÖ Agora vem direto do dicion√°rio!
                            Observacoes=comments,
                            Fonte="Kaggle",
                            Link_Fonte="https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship",
                            Arquivo_Original="BRA.csv",
                            Arquivo_S3="s3://mvp-brasileirao-2024/Gold/todas_partidas/"
                            ))                            

# Criar o DataFrame do Cat√°logo de Dados
catalog_df = spark.createDataFrame(catalog_data)

### üîπ Salvando o Cat√°logo no S3 camada Gold

In [0]:
# Caminho no S3 para salvar o Cat√°logo Estat√≠stico
delta_catalogo_estatistico_path = "s3://mvp-brasileirao-2024/gold/catalogo_de_dados/todas_partidas"

dbutils.fs.rm(delta_catalogo_estatistico_path, recurse=True)
print("üö® Arquivos antigos do Delta removidos com sucesso!")

# Salvar a tabela Delta com as estat√≠sticas
catalog_df.write.format("delta").mode("overwrite").save(delta_catalogo_estatistico_path)

print("‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!")

üö® Arquivos antigos do Delta removidos com sucesso!
‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!


### üîπ Criando Tabela de Cat√°logos no Hive

In [0]:
%sql
DROP TABLE IF EXISTS catalogo_de_dados.catalog_todas_partidas;

CREATE TABLE catalogo_de_dados.catalog_todas_partidas
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/gold/catalogo_de_dados/todas_partidas';

### üîπ Exibindo o Cat√°logo de Dados via SQL

In [0]:
%sql
select * from catalogo_de_dados.catalog_todas_partidas

ID_Coluna,Coluna,Tipo_de_Dado,Defini√ß√£o,Valores_Min_Max,Qtd_Valores_Registrados,Qtd_Valores_Nulos,Qtd_Valores_Distintos,Qtd_Valores_Duplicados,Regras_de_Transforma√ß√£o,Linhagem_Dados,Observacoes,Fonte,Link_Fonte,Arquivo_Original,Arquivo_S3
7,Clube,string,Descri√ß√£o da coluna Clube,Athletico-PR | Vasco da Gama,760,0,20,740,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
8,MandanteVisitante,string,Descri√ß√£o da coluna MandanteVisitante,Mandante | Visitante,760,0,2,758,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
12,Data,date,Descri√ß√£o da coluna Data,2024-04-13 | 2024-12-08,760,0,110,650,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
13,Status_Ajustes,string,Descri√ß√£o da coluna Status_Ajustes,Sem modifica√ß√£o | Sem modifica√ß√£o,760,0,1,759,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
10,Resultado,string,Descri√ß√£o da coluna Resultado,Derrota | Vitoria,760,0,3,757,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
11,Match_ID,string,Descri√ß√£o da coluna Match_ID,Match_0 | Match_99,760,0,380,380,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
2,Liga,string,Descri√ß√£o da coluna Liga,Serie A | Serie A,760,0,1,759,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
3,Temporada,int,Descri√ß√£o da coluna Temporada,2024 | 2024,760,0,1,759,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
5,Trimestre,int,Descri√ß√£o da coluna Trimestre,2 | 4,760,0,3,757,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
6,Turno,string,Descri√ß√£o da coluna Turno,Primeiro Turno | Segundo Turno,760,0,2,758,Nenhuma altera√ß√£o aplicada.,Origem desconhecida,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,s3://mvp-brasileirao-2024/Gold/todas_partidas/
