# üìå Passo a Passo: Criando o Cat√°logo no Metastore do Databricks - Silver

In [0]:
%run "/Users/caio.santos.cavalheiro@gmail.com/00-Configuracao"

## üî∑ Cria√ß√£o Database




In [0]:
%sql
CREATE DATABASE IF NOT EXISTS catalogo_de_dados
LOCATION 's3://mvp-brasileirao-2024/silver/catalogo_de_dados';

Leitura das credenciais de forma segura pelo Spark üîê


Caminhos definidos:
üìÇ Bronze: s3a://mvp-brasileirao-2024/bronze/ | üìÇ Silver: s3a://mvp-brasileirao-2024/silver/ | üìÇ Gold: s3a://mvp-brasileirao-2024/gold/


‚úÖ Credenciais configuradas com sucesso!


‚úÖ Conex√£o bem-sucedida! Arquivos encontrados na camada Bronze e Silver:


### üîπ Registro das Tabela Delta no Metastore


In [0]:
%sql
DROP TABLE IF EXISTS default.brasil_seriea_2024_silver_todas_partidas;
CREATE TABLE default.brasil_seriea_2024_silver_todas_partidas
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/silver/delta/brasil_seriea_2024_todas_partidas';

DROP TABLE IF EXISTS default.brasil_seriea_2024_silver_classificacao;
CREATE TABLE default.brasil_seriea_2024_silver_classificacao
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/silver/delta/brasil_seriea_2024_classificacao';

DROP TABLE IF EXISTS default.brasil_seriea_2024_silver_estatistica_jogador;
CREATE TABLE default.brasil_seriea_2024_silver_estatistica_jogador
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/silver/delta/brasil_seriea_2024_estatistica_jogador';


### üîπ Validar o Registro no Metastore

Agora, vamos verificar se a tabela foi registrada corretamente.



In [0]:
%sql
SHOW TABLES IN default;


database,tableName,isTemporary
default,brasil_seriea_2024_classificacao,False
default,brasil_seriea_2024_estatistica_jogador,False
default,brasil_seriea_2024_silver_classificacao,False
default,brasil_seriea_2024_silver_estatistica_jogador,False
default,brasil_seriea_2024_silver_todas_partidas,False
default,brasil_seriea_2024_todas_partidas,False


# üìå Adicionando o outro Cat√°logo - Catalogo Estatistico


## üî∑ brasil_seriea_2024_silver_classificacao

####üîπ Criando o Metadata do dataframe

In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import col, count, countDistinct, min, max, sum, expr

# Nome da tabela que queremos analisar (mudar para cada dataset da Silver)
tabela_silver = "default.brasil_seriea_2024_silver_classificacao"

# Ler os dados da Silver diretamente do Metastore
df = spark.read.table(tabela_silver)

# Criar DataFrame com estat√≠sticas (incluindo contagem de nulos correta e duplicatas)
metadata_df = df.agg(
    *[count(col(c)).alias(f"{c}_count") for c in df.columns],  # Contagem total de registros N√ÉO NULOS
    *[countDistinct(col(c)).alias(f"{c}_distinct") for c in df.columns],  # Contagem de valores distintos
    *[min(col(c)).alias(f"{c}_min") for c in df.columns],  # Valor m√≠nimo
    *[max(col(c)).alias(f"{c}_max") for c in df.columns],  # Valor m√°ximo
    *[sum(col(c).isNull().cast("int")).alias(f"{c}_nulls") for c in df.columns],  # Contagem correta de nulos
    *[(count(col(c)) - countDistinct(col(c))).alias(f"{c}_duplicates") for c in df.columns]  # Contagem de valores duplicados
)


#### üîπ Cria√ß√£o do Dicion√°rio de descri√ß√µes

In [0]:
col_descriptions = {
    "Posicao": ("Posi√ß√£o do clube na tabela de classifica√ß√£o", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver"),
    "Clube": ("Nome do clube participante do campeonato", "Renomea√ß√£o da coluna para padroniza√ß√£o | Padroniza√ß√£o dos nomes dos clubes para garantir consist√™ncia nos datasets.", "Bronze ‚Üí Silver"),
    "Pontuacao": ("Pontos acumulados pelo clube na competi√ß√£o", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver"),
    "Partidas_Jogadas": ("N√∫mero de partidas jogadas pelo clube", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver"),
    "Vitorias": ("Quantidade de vit√≥rias conquistadas pelo clube", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver"),
    "Empates": ("Quantidade de empates do clube", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver"),
    "Derrotas": ("Quantidade de derrotas do clube", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver"),
    "Gols_Marcados": ("Gols marcados pelo clube ao longo da competi√ß√£o", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver"),
    "Gols_Sofridos": ("Gols sofridos pelo clube ao longo da competi√ß√£o", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver"),
    "Saldo_de_Gols": ("Saldo de gols do clube (Gols Marcados - Gols Sofridos)", "Renomea√ß√£o da coluna para padroniza√ß√£o.", "Bronze ‚Üí Silver")
}


#### üîπ Criando o Dataframe do Cat√°logo

In [0]:
# Criar lista de metadados para o Cat√°logo de Dados
catalog_data = []

# Iterar sobre as colunas da tabela Silver
for index, col_name in enumerate(df.columns, start=1):
    col_type = df.select(col(col_name)).schema.fields[0].dataType.simpleString()  # Tipo da coluna
    col_count = metadata_df.collect()[0][f"{col_name}_count"]  # Contagem total (n√£o nulos)
    col_distinct = metadata_df.collect()[0][f"{col_name}_distinct"]  # Valores distintos
    col_nulls = metadata_df.collect()[0][f"{col_name}_nulls"]  # Contagem correta de valores nulos
    col_min = metadata_df.collect()[0][f"{col_name}_min"] if f"{col_name}_min" in metadata_df.columns else "N/A"
    col_max = metadata_df.collect()[0][f"{col_name}_max"] if f"{col_name}_max" in metadata_df.columns else "N/A"
    col_duplicates = metadata_df.collect()[0][f"{col_name}_duplicates"] if f"{col_name}_duplicates" in metadata_df.columns else 0  # Contagem de duplicados

    # Buscar defini√ß√£o, regra de transforma√ß√£o e linhagem dos dados no dicion√°rio
    col_definition, transformations_applied, lineage_info = col_descriptions.get(
        col_name, (f"Descri√ß√£o da coluna {col_name}", "Nenhuma altera√ß√£o aplicada.", "Origem desconhecida")
    )

    # Definir observa√ß√µes sobre a coluna (pode ser preenchido manualmente se necess√°rio)
    comments = "Sem observa√ß√µes adicionais."

    # Adicionar √† lista
    catalog_data.append(Row(ID_Coluna=index,
                            Coluna=col_name, 
                            Tipo_de_Dado=col_type, 
                            Defini√ß√£o=col_definition,
                            Valores_Min_Max=f"{col_min} | {col_max}", 
                            Qtd_Valores_Registrados=col_count,
                            Qtd_Valores_Nulos=col_nulls,
                            Qtd_Valores_Distintos=col_distinct,
                            Qtd_Valores_Duplicados=col_duplicates,
                            Regras_de_Transforma√ß√£o=transformations_applied,
                            Linhagem_Dados=lineage_info,  # ‚úÖ Agora vem direto do dicion√°rio!
                            Observacoes=comments,
                            Fonte="Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil",
                            Link_Fonte="https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/",
                            Arquivo_Original="classificacao_brasileirao_2024.csv",
                            Arquivo_S3="BrasilSerieA_2024_ClassificacaoFinal.csv"
                            ))                            

# Criar o DataFrame do Cat√°logo de Dados
catalog_df = spark.createDataFrame(catalog_data)


#### üîπ Salvando o Cat√°logo no S3 camada _Bronze_

In [0]:
# Caminho no S3 para salvar o Cat√°logo Estat√≠stico
delta_catalogo_estatistico_path = "s3://mvp-brasileirao-2024/silver/delta/catalog_classificacao"

dbutils.fs.rm(delta_catalogo_estatistico_path, recurse=True)
print("üö® Arquivos antigos do Delta removidos com sucesso!")

# Salvar a tabela Delta com as estat√≠sticas
catalog_df.write.format("delta").mode("overwrite").save(delta_catalogo_estatistico_path)

print("‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!")

üö® Arquivos antigos do Delta removidos com sucesso!
‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!


#### üîπ Criando Tabela de Cat√°logos no Hive

In [0]:
%sql
DROP TABLE IF EXISTS catalogo_de_dados.catalog_classificacao_silver;

CREATE TABLE catalogo_de_dados.catalog_classificacao_silver
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/silver/delta/catalog_classificacao';

#### üîπ Exibindo o Cat√°logo de Dados via SQL

In [0]:
%sql
select * from catalogo_de_dados.catalog_classificacao_silver

ID_Coluna,Coluna,Tipo_de_Dado,Defini√ß√£o,Valores_Min_Max,Qtd_Valores_Registrados,Qtd_Valores_Nulos,Qtd_Valores_Distintos,Qtd_Valores_Duplicados,Regras_de_Transforma√ß√£o,Linhagem_Dados,Observacoes,Fonte,Link_Fonte,Arquivo_Original,Arquivo_S3
2,Clube,string,Nome do clube participante do campeonato,Athletico-PR | Vasco da Gama,20,0,20,0,Renomea√ß√£o da coluna para padroniza√ß√£o | Padroniza√ß√£o dos nomes dos clubes para garantir consist√™ncia nos datasets.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
9,Gols_Sofridos,int,Gols sofridos pelo clube ao longo da competi√ß√£o,29 | 61,20,0,18,2,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
10,Saldo_de_Gols,int,Saldo de gols do clube (Gols Marcados - Gols Sofridos),-29 | 30,20,0,17,3,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
4,Partidas_Jogadas,int,N√∫mero de partidas jogadas pelo clube,38 | 38,20,0,1,19,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
5,Vitorias,int,Quantidade de vit√≥rias conquistadas pelo clube,6 | 23,20,0,15,5,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
8,Gols_Marcados,int,Gols marcados pelo clube ao longo da competi√ß√£o,29 | 61,20,0,15,5,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
3,Pontuacao,int,Pontos acumulados pelo clube na competi√ß√£o,30 | 79,20,0,17,3,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
1,Posicao,int,Posi√ß√£o do clube na tabela de classifica√ß√£o,1 | 20,20,0,20,0,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
7,Derrotas,int,Quantidade de derrotas do clube,5 | 22,20,0,12,8,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv
6,Empates,int,Quantidade de empates do clube,7 | 14,20,0,7,13,Renomea√ß√£o da coluna para padroniza√ß√£o.,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Tabela criada manualmente com base na classifica√ß√£o do Campeonato Brasileiro 2024 dispon√≠vel no site da CNN Brasil,https://www.cnnbrasil.com.br/esportes/futebol/tabela-do-brasileirao/,classificacao_brasileirao_2024.csv,BrasilSerieA_2024_ClassificacaoFinal.csv


## üî∑ brasil_seriea_2024_silver_todas_partidas

####üîπ Criando o Metadata do dataframe

In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import col, count, countDistinct, min, max, sum

# Nome da tabela que queremos analisar (mudar para cada dataset da Silver)
tabela_silver = "default.brasil_seriea_2024_silver_todas_partidas"

# Ler os dados da Silver diretamente do Metastore
df = spark.read.table(tabela_silver)

# Criar DataFrame com estat√≠sticas (incluindo contagem de nulos correta e duplicatas)
metadata_df = df.agg(
    *[count(col(c)).alias(f"{c}_count") for c in df.columns],  # Contagem total de registros N√ÉO NULOS
    *[countDistinct(col(c)).alias(f"{c}_distinct") for c in df.columns],  # Contagem de valores distintos
    *[min(col(c)).alias(f"{c}_min") for c in df.columns],  # Valor m√≠nimo
    *[max(col(c)).alias(f"{c}_max") for c in df.columns],  # Valor m√°ximo
    *[sum(col(c).isNull().cast("int")).alias(f"{c}_nulls") for c in df.columns],  # Contagem correta de nulos
    *[(count(col(c)) - countDistinct(col(c))).alias(f"{c}_duplicates") for c in df.columns]  # Contagem de valores duplicados
)

#### üîπ Cria√ß√£o do Dicion√°rio de descri√ß√µes

In [0]:
col_descriptions = {
    # Colunas originais da Bronze (renomeadas na Silver)
    "Pais": ("Pa√≠s onde o campeonato foi disputado", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Liga": ("Nome da liga do campeonato", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Temporada": ("Ano da temporada do campeonato", "Renomea√ß√£o da coluna para padroniza√ß√£o | Filtragem para manter apenas 2024", "Bronze ‚Üí Silver"),
    
    # üîπ Atualiza√ß√£o da coluna "Data"
    "Data": ("Data em que a partida foi disputada", 
             "Renomea√ß√£o da coluna e convers√£o para formato de data | Ajuste das datas das partidas n√£o encontradas na base Estatistica por Jogador (-1 dia, quando necess√°rio)", 
             "Bronze ‚Üí Silver"),
    
    "Horario": ("Hor√°rio da partida", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    
    # Novas colunas criadas na Silver
    "Match_ID": ("Identificador √∫nico da partida", "Criado concatenando 'Match_' com um ID incremental", "Silver (Coluna nova)"),
    "Trimestre": ("Trimestre em que a partida foi disputada", "Criado a partir da data do jogo", "Silver (Coluna nova)"),
    "Turno": ("Indica√ß√£o se a partida foi no primeiro ou segundo turno do campeonato", "Criado com base na data do jogo", "Silver (Coluna nova)"),
    
    # Transforma√ß√µes para an√°lise individual de cada time
    "Clube": ("Nome do time participante da partida (mandante ou visitante)", "Criado a partir das colunas Home e Away, e unificando em uma √∫nica coluna", "Silver (Transforma√ß√£o)"),
    "MandanteVisitante": ("Indica se o time jogou em casa ('Mandante') ou fora ('Visitante')", "Transformado a partir dos DataFrames 'df_home' e 'df_away' e criado a partir da uni√£o de ambos", "Silver (Transforma√ß√£o)"),
    "Goals": ("N√∫mero de gols marcados pelo time na partida", "Criado unificando HG (gols do mandante) e AG (gols do visitante)", "Silver (Coluna nova)"),
    
    # Transforma√ß√µes aplicadas √† coluna Resultado
    "Resultado": ("Resultado da partida do ponto de vista do time (Vit√≥ria, Derrota ou Empate)", "Ajustado conforme a posi√ß√£o do time na partida", "Silver (Transforma√ß√£o)"),
    
    # üîπ Nova coluna "Status_Ajuste"
    "Status_Ajustes": ("Indica se a data da partida foi ajustada", 
                      "Criado para identificar altera√ß√µes na data das partidas. Valores poss√≠veis: 'Ajustado -1 dia' ou 'Sem modifica√ß√£o'", 
                      "Silver (Coluna nova)")
}


In [0]:
observacoes = {
    "Data": "‚ö†Ô∏è Ajuste manual: Datas ajustadas para garantir a correspond√™ncia entre os arquivos de partidas e estat√≠sticas. Quando necess√°rio, foi subtra√≠do 1 dia das partidas n√£o encontradas na estat√≠stica."
}

#### üîπ Criando o Dataframe do Cat√°logo

In [0]:
# Criar lista de metadados para o Cat√°logo de Dados
catalog_data = []

# Iterar sobre as colunas da tabela Silver
for index, col_name in enumerate(df.columns, start=1):
    col_type = df.select(col(col_name)).schema.fields[0].dataType.simpleString()  # Tipo da coluna
    col_count = metadata_df.collect()[0][f"{col_name}_count"]  # Contagem total (n√£o nulos)
    col_distinct = metadata_df.collect()[0][f"{col_name}_distinct"]  # Valores distintos
    col_nulls = metadata_df.collect()[0][f"{col_name}_nulls"]  # Contagem correta de valores nulos
    col_min = metadata_df.collect()[0][f"{col_name}_min"] if f"{col_name}_min" in metadata_df.columns else "N/A"
    col_max = metadata_df.collect()[0][f"{col_name}_max"] if f"{col_name}_max" in metadata_df.columns else "N/A"
    col_duplicates = metadata_df.collect()[0][f"{col_name}_duplicates"] if f"{col_name}_duplicates" in metadata_df.columns else 0  # Contagem de duplicados

    # Buscar defini√ß√£o, regra de transforma√ß√£o e linhagem dos dados no dicion√°rio
    col_definition, transformations_applied, lineage_info = col_descriptions.get(
        col_name, (f"Descri√ß√£o da coluna {col_name}", "Nenhuma altera√ß√£o aplicada.", "Origem desconhecida")
    )

    # Definir observa√ß√µes sobre a coluna (pode ser preenchido manualmente se necess√°rio)
    comments = observacoes.get(col_name, "Sem observa√ß√µes adicionais.")

    # Adicionar √† lista
    catalog_data.append(Row(ID_Coluna=index,
                            Coluna=col_name, 
                            Tipo_de_Dado=col_type, 
                            Defini√ß√£o=col_definition,
                            Valores_Min_Max=f"{col_min} | {col_max}", 
                            Qtd_Valores_Registrados=col_count,
                            Qtd_Valores_Nulos=col_nulls,
                            Qtd_Valores_Distintos=col_distinct,
                            Qtd_Valores_Duplicados=col_duplicates,
                            Regras_de_Transforma√ß√£o=transformations_applied,
                            Linhagem_Dados=lineage_info,  # ‚úÖ Agora vem direto do dicion√°rio!
                            Observacoes=comments,
                            Fonte="Kaggle",
                            Link_Fonte="https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship",
                            Arquivo_Original="BRA.csv",
                            Arquivo_S3="BrasilSerieA_2024_TodasPartidas.csv"
                            ))                            

# Criar o DataFrame do Cat√°logo de Dados
catalog_df = spark.createDataFrame(catalog_data)


#### üîπ Salvando o Cat√°logo no S3 camada _Bronze_

In [0]:
# Caminho no S3 para salvar o Cat√°logo Estat√≠stico
delta_catalogo_estatistico_path = "s3://mvp-brasileirao-2024/silver/delta/catalog_todas_partidas"

dbutils.fs.rm(delta_catalogo_estatistico_path, recurse=True)
print("üö® Arquivos antigos do Delta removidos com sucesso!")

# Salvar a tabela Delta com as estat√≠sticas
catalog_df.write.format("delta").mode("overwrite").save(delta_catalogo_estatistico_path)

print("‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!")

üö® Arquivos antigos do Delta removidos com sucesso!
‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!


#### üîπ Criando Tabela de Cat√°logos no Hive

In [0]:
%sql
DROP TABLE IF EXISTS catalogo_de_dados.catalog_todas_partidas_silver;

CREATE TABLE catalogo_de_dados.catalog_todas_partidas_silver
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/silver/delta/catalog_todas_partidas';

#### üîπ Exibindo o Cat√°logo de Dados via SQL

In [0]:
%sql
select * from catalogo_de_dados.catalog_todas_partidas_silver

ID_Coluna,Coluna,Tipo_de_Dado,Defini√ß√£o,Valores_Min_Max,Qtd_Valores_Registrados,Qtd_Valores_Nulos,Qtd_Valores_Distintos,Qtd_Valores_Duplicados,Regras_de_Transforma√ß√£o,Linhagem_Dados,Observacoes,Fonte,Link_Fonte,Arquivo_Original,Arquivo_S3
4,Data,date,Data em que a partida foi disputada,2024-04-13 | 2024-12-08,760,0,110,650,"Renomea√ß√£o da coluna e convers√£o para formato de data | Ajuste das datas das partidas n√£o encontradas na base Estatistica por Jogador (-1 dia, quando necess√°rio)",Bronze ‚Üí Silver,"‚ö†Ô∏è Ajuste manual: Datas ajustadas para garantir a correspond√™ncia entre os arquivos de partidas e estat√≠sticas. Quando necess√°rio, foi subtra√≠do 1 dia das partidas n√£o encontradas na estat√≠stica.",Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
9,MandanteVisitante,string,Indica se o time jogou em casa ('Mandante') ou fora ('Visitante'),Mandante | Visitante,760,0,2,758,Transformado a partir dos DataFrames 'df_home' e 'df_away' e criado a partir da uni√£o de ambos,Silver (Transforma√ß√£o),Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
12,Match_ID,string,Identificador √∫nico da partida,Match_0 | Match_99,760,0,380,380,Criado concatenando 'Match_' com um ID incremental,Silver (Coluna nova),Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
13,Status_Ajustes,string,Indica se a data da partida foi ajustada,Ajustado -1 dia | Sem modifica√ß√£o,760,0,2,758,Criado para identificar altera√ß√µes na data das partidas. Valores poss√≠veis: 'Ajustado -1 dia' ou 'Sem modifica√ß√£o',Silver (Coluna nova),Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
7,Turno,string,Indica√ß√£o se a partida foi no primeiro ou segundo turno do campeonato,Primeiro Turno | Segundo Turno,760,0,2,758,Criado com base na data do jogo,Silver (Coluna nova),Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
8,Clube,string,Nome do time participante da partida (mandante ou visitante),Athletico-PR | Vasco da Gama,760,0,20,740,"Criado a partir das colunas Home e Away, e unificando em uma √∫nica coluna",Silver (Transforma√ß√£o),Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
10,Goals,int,N√∫mero de gols marcados pelo time na partida,0 | 6,760,0,7,753,Criado unificando HG (gols do mandante) e AG (gols do visitante),Silver (Coluna nova),Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
11,Resultado,string,"Resultado da partida do ponto de vista do time (Vit√≥ria, Derrota ou Empate)",Derrota | Vitoria,760,0,3,757,Ajustado conforme a posi√ß√£o do time na partida,Silver (Transforma√ß√£o),Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
2,Liga,string,Nome da liga do campeonato,Serie A | Serie A,760,0,1,759,Renomea√ß√£o da coluna para padroniza√ß√£o,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv
3,Temporada,int,Ano da temporada do campeonato,2024 | 2024,760,0,1,759,Renomea√ß√£o da coluna para padroniza√ß√£o | Filtragem para manter apenas 2024,Bronze ‚Üí Silver,Sem observa√ß√µes adicionais.,Kaggle,https://www.kaggle.com/datasets/gabrielmeireles/brazilian-football-championship,BRA.csv,BrasilSerieA_2024_TodasPartidas.csv


## üî∑ brasil_seriea_2024_silver_estatistica_jogador

####üîπ Criando o Metadata do dataframe

In [0]:
from pyspark.sql import Row
from pyspark.sql.functions import col, count, countDistinct, min, max, sum

# Nome da tabela que queremos analisar (mudar para cada dataset da Silver)
tabela_silver = "default.brasil_seriea_2024_silver_estatistica_jogador"

# Ler os dados da Silver diretamente do Metastore
df = spark.read.table(tabela_silver)

# Criar DataFrame com estat√≠sticas (incluindo contagem de nulos correta e duplicatas)
metadata_df = df.agg(
    *[count(col(c)).alias(f"{c}_count") for c in df.columns],  # Contagem total de registros N√ÉO NULOS
    *[countDistinct(col(c)).alias(f"{c}_distinct") for c in df.columns],  # Contagem de valores distintos
    *[min(col(c)).alias(f"{c}_min") for c in df.columns],  # Valor m√≠nimo
    *[max(col(c)).alias(f"{c}_max") for c in df.columns],  # Valor m√°ximo
    *[sum(col(c).isNull().cast("int")).alias(f"{c}_nulls") for c in df.columns],  # Contagem correta de nulos
    *[(count(col(c)) - countDistinct(col(c))).alias(f"{c}_duplicates") for c in df.columns]  # Contagem de valores duplicados
)

#### üîπ Cria√ß√£o do Dicion√°rio de descri√ß√µes

In [0]:
col_descriptions = {
    # Colunas originais da Bronze (renomeadas na Silver)
    "Jogador": ("Nome do jogador que participou da partida", "Nenhuma altera√ß√£o aplicada", "Bronze ‚Üí Silver"),
    "Clube": ("Nome do clube do jogador", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Numero_Camisa": ("N√∫mero da camisa do jogador na partida", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Nacionalidade": ("Nacionalidade do jogador", "Renomea√ß√£o da coluna para padroniza√ß√£o | Valores nulos preenchidos com 'N/D' para manter padr√£o de 3 caracteres", "Bronze ‚Üí Silver"),
    "Posicao_em_Campo": ("Posi√ß√£o do jogador dentro de campo", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "idade": ("Idade do jogador na data da partida (anos e dias)", "Extra√≠dos apenas os dois primeiros caracteres para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    
    # üîπ Atualiza√ß√£o da coluna "Minutos_em_Campo"
    "Minutos_em_Campo": ("Minutos jogados pelo atleta na partida", 
                         "Renomea√ß√£o da coluna para padroniza√ß√£o | Valores nulos preenchidos com 0 para representar jogadores que n√£o entraram | Convers√£o do tipo de dado para double", 
                         "Bronze ‚Üí Silver"),
    
    # Estat√≠sticas de gols e assist√™ncias
    "Gols": ("N√∫mero de gols marcados na partida pelo jogador", "Nenhuma altera√ß√£o aplicada", "Bronze ‚Üí Silver"),
    "Assitencias": ("N√∫mero de assist√™ncias realizadas pelo jogador", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),

    # Estat√≠sticas de p√™naltis e chutes
    "Penaltis_Batidos": ("P√™naltis cobrados pelo jogador", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Penaltis_Tentados": ("P√™naltis tentados pelo jogador (considerando acertos e erros)", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Total_Chutes": ("Total de chutes realizados (n√£o inclui cobran√ßas de p√™nalti)", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Chutes_a_Gol": ("Chutes a gol (n√£o inclui cobran√ßas de p√™nalti)", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),

    # Estat√≠sticas disciplinares
    "Cartao_Amarelo": ("Quantidade de cart√µes amarelos recebidos", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Cartao_Vermelho": ("Quantidade de cart√µes vermelhos recebidos", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),

    # Estat√≠sticas defensivas
    "Toques_na_Bola": ("N√∫mero total de vezes que o jogador tocou na bola (conta-se receber, driblar e passar como um toque)", 
                       "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                       "Bronze ‚Üí Silver"),
    "Desarmes": ("N√∫mero de desarmes bem-sucedidos realizados pelo jogador", 
                 "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                 "Bronze ‚Üí Silver"),
    "Interceptacoes": ("N√∫mero de intercepta√ß√µes defensivas feitas pelo jogador", "Renomea√ß√£o da coluna para padroniza√ß√£o", "Bronze ‚Üí Silver"),
    "Bloqueios": ("N√∫mero de bloqueios defensivos (intercepta√ß√£o de chutes, passes ou cruzamentos perigosos)", 
                  "Nenhuma altera√ß√£o aplicada | Convers√£o do tipo de dado para double", 
                  "Bronze ‚Üí Silver"),
    
    # Estat√≠sticas de Expectativa
    "Gols_Esperados": ("M√©trica que estima a probabilidade de um chute resultar em gol, com base em vari√°veis como dist√¢ncia do gol, √¢ngulo, tipo de finaliza√ß√£o, entre outros.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o",
        "Bronze ‚Üí Silver"),
    "Assistencias_Esperadas": ("M√©trica que estima a probabilidade de um passe resultar em assist√™ncia, com base na qualidade da chance criada.",
        "Renomea√ß√£o da coluna para padroniza√ß√£o",
        "Bronze ‚Üí Silver"),

    # Estat√≠sticas de cria√ß√£o
    "Acoes_de_Criacao": ("A√ß√µes que resultaram em chutes a gol (Shot-Creating Actions)", 
                         "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para integer", 
                         "Bronze ‚Üí Silver"),
    "Acoes_de_Gol": ("A√ß√µes que resultaram em gols (Goal-Creating Actions)", 
                     "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                     "Bronze ‚Üí Silver"),

    # Estat√≠sticas de passes
    "Passes_Completos": ("N√∫mero de passes completados com sucesso", 
                         "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                         "Bronze ‚Üí Silver"),
    "Passes_Tentados": ("Total de passes tentados", 
                        "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                        "Bronze ‚Üí Silver"),
    "Prct_Passes_Certos": ("Percentual de passes completados com sucesso", 
                           "Renomea√ß√£o da coluna para padroniza√ß√£o | Removidos caracteres n√£o num√©ricos e convertida para string", 
                           "Bronze ‚Üí Silver"),
    "Passes_Progressivos": ("Passes progressivos (passes em dire√ß√£o ao gol advers√°rio)", 
                            "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                            "Bronze ‚Üí Silver"),

    # Estat√≠sticas de condu√ß√£o e drible
    "Conducoes_de_Bola": ("N√∫mero total de condu√ß√µes de bola bem-sucedidas (dom√≠nio de bola com os p√©s)", 
                          "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                          "Bronze ‚Üí Silver"),
    "Conducoes_Progressivas": ("Condu√ß√µes progressivas (condu√ß√µes para frente que resultam em ganho de espa√ßo)", 
                               "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                               "Bronze ‚Üí Silver"),
    "Dribles_Tentados": ("N√∫mero total de tentativas de drible", 
                         "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                         "Bronze ‚Üí Silver"),
    "Dribles_Completos": ("N√∫mero de dribles bem-sucedidos", 
                          "Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double", 
                          "Bronze ‚Üí Silver"),

    # üîπ Atualiza√ß√£o da coluna "Data"
    "Data": ("Data da partida disputada", 
             "Convers√£o para formato de data | Ajuste dos registros ausentes adicionados manualmente", 
             "Bronze ‚Üí Silver"),

    # üîπ Nova coluna "Origem_Dado"
    "Origem_Dado": ("Criada para identificar se os registros s√£o originais da base ou foram adicionados manualmente. Valores poss√≠veis: 'Original' ou 'Input Manual", 
                    "Nenhuma altera√ß√£o aplicada, al√©m da cria√ß√£o '", 
                    "Silver (Coluna nova)")
}


In [0]:
observacoes = {
    "idade": "‚ö†Ô∏è Ajuste manual: Preenchidos valores faltantes para o jogador Felipe Vieira em partidas espec√≠ficas. Fontes Externas confirmadas: https://www.ogol.com.br/jogador/felipe-andrade/620537?epoca_id=153",
    "Data": "‚ö†Ô∏è Ajuste manual: Datas ajustadas e registros ausentes inclu√≠dos manualmente para garantir consist√™ncia com os dados de partidas."
}


#### üîπ Criando o Dataframe do Cat√°logo

In [0]:
# Criar lista de metadados para o Cat√°logo de Dados
catalog_data = []

# Iterar sobre as colunas da tabela Silver
for index, col_name in enumerate(df.columns, start=1):
    col_type = df.select(col(col_name)).schema.fields[0].dataType.simpleString()  # Tipo da coluna
    col_count = metadata_df.collect()[0][f"{col_name}_count"]  # Contagem total (n√£o nulos)
    col_distinct = metadata_df.collect()[0][f"{col_name}_distinct"]  # Valores distintos
    col_nulls = metadata_df.collect()[0][f"{col_name}_nulls"]  # Contagem correta de valores nulos
    col_min = metadata_df.collect()[0][f"{col_name}_min"] if f"{col_name}_min" in metadata_df.columns else "N/A"
    col_max = metadata_df.collect()[0][f"{col_name}_max"] if f"{col_name}_max" in metadata_df.columns else "N/A"
    col_duplicates = metadata_df.collect()[0][f"{col_name}_duplicates"] if f"{col_name}_duplicates" in metadata_df.columns else 0  # Contagem de duplicados

    # Buscar defini√ß√£o, regra de transforma√ß√£o e linhagem dos dados no dicion√°rio
    col_definition, transformations_applied, lineage_info = col_descriptions.get(
        col_name, (f"Descri√ß√£o da coluna {col_name}", "Nenhuma altera√ß√£o aplicada.", "Origem desconhecida")
    )

    # Definir observa√ß√µes sobre a coluna (pode ser preenchido manualmente se necess√°rio)
    comments = observacoes.get(col_name, "‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados")

    # Adicionar √† lista
    catalog_data.append(Row(ID_Coluna=index,
                            Coluna=col_name, 
                            Tipo_de_Dado=col_type, 
                            Defini√ß√£o=col_definition,
                            Valores_Min_Max=f"{col_min} | {col_max}", 
                            Qtd_Valores_Registrados=col_count,
                            Qtd_Valores_Nulos=col_nulls,
                            Qtd_Valores_Distintos=col_distinct,
                            Qtd_Valores_Duplicados=col_duplicates,
                            Regras_de_Transforma√ß√£o=transformations_applied,
                            Linhagem_Dados=lineage_info,  # ‚úÖ Agora vem direto do dicion√°rio!
                            Observacoes=comments,
                            Fonte="Kaggle",
                            Link_Fonte="https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024",
                            Arquivo_Original= "database.csv",
                            Arquivo_S3 = "BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv"
                        ))                        

# Criar o DataFrame do Cat√°logo de Dados
catalog_df = spark.createDataFrame(catalog_data)


#### üîπ Salvando o Cat√°logo no S3 camada _Bronze_

In [0]:
# Caminho no S3 para salvar o Cat√°logo Estat√≠stico
delta_catalogo_estatistico_path = "s3://mvp-brasileirao-2024/silver/delta/catalog_estatistica_jogador"

dbutils.fs.rm(delta_catalogo_estatistico_path, recurse=True)
print("üö® Arquivos antigos do Delta removidos com sucesso!")

# Salvar a tabela Delta com as estat√≠sticas
catalog_df.write.format("delta").mode("overwrite").save(delta_catalogo_estatistico_path)

print("‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!")

üö® Arquivos antigos do Delta removidos com sucesso!
‚úÖ Cat√°logo Estat√≠stico salvo no formato Delta com sucesso!


#### üîπ Criando Tabela de Cat√°logos no Hive

In [0]:
%sql
DROP TABLE IF EXISTS catalogo_de_dados.catalog_estatistica_jogador_silver;

CREATE TABLE catalogo_de_dados.catalog_estatistica_jogador_silver
USING DELTA
LOCATION 's3://mvp-brasileirao-2024/silver/delta/catalog_estatistica_jogador';

#### üîπ Exibindo o Cat√°logo de Dados via SQL

In [0]:
%sql
select * from catalogo_de_dados.catalog_estatistica_jogador_silver

ID_Coluna,Coluna,Tipo_de_Dado,Defini√ß√£o,Valores_Min_Max,Qtd_Valores_Registrados,Qtd_Valores_Nulos,Qtd_Valores_Distintos,Qtd_Valores_Duplicados,Regras_de_Transforma√ß√£o,Linhagem_Dados,Observacoes,Fonte,Link_Fonte,Arquivo_Original,Arquivo_S3
17,Desarmes,double,N√∫mero de desarmes bem-sucedidos realizados pelo jogador,0.0 | 12.0,11746,0,13,11733,Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
18,Interceptacoes,int,N√∫mero de intercepta√ß√µes defensivas feitas pelo jogador,0 | 8,11746,0,9,11737,Renomea√ß√£o da coluna para padroniza√ß√£o,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
19,Bloqueios,double,"N√∫mero de bloqueios defensivos (intercepta√ß√£o de chutes, passes ou cruzamentos perigosos)",0.0 | 7.0,11746,0,8,11738,Nenhuma altera√ß√£o aplicada | Convers√£o do tipo de dado para double,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
20,Gols_Esperados,double,"M√©trica que estima a probabilidade de um chute resultar em gol, com base em vari√°veis como dist√¢ncia do gol, √¢ngulo, tipo de finaliza√ß√£o, entre outros.",0.0 | 1.7,11731,15,18,11713,Renomea√ß√£o da coluna para padroniza√ß√£o,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
25,Passes_Tentados,double,Total de passes tentados,0.0 | 130.0,11746,0,118,11628,Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
26,Prct_Passes_Certos,double,Percentual de passes completados com sucesso,0.0 | 991.0,11696,50,466,11230,Renomea√ß√£o da coluna para padroniza√ß√£o | Removidos caracteres n√£o num√©ricos e convertida para string,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
27,Passes_Progressivos,double,Passes progressivos (passes em dire√ß√£o ao gol advers√°rio),0.0 | 27.0,11746,0,24,11722,Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
28,Conducoes_de_Bola,double,N√∫mero total de condu√ß√µes de bola bem-sucedidas (dom√≠nio de bola com os p√©s),0.0 | 106.0,11746,0,94,11652,Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
29,Conducoes_Progressivas,double,Condu√ß√µes progressivas (condu√ß√µes para frente que resultam em ganho de espa√ßo),0.0 | 17.0,11746,0,16,11730,Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
30,Dribles_Tentados,double,N√∫mero total de tentativas de drible,0.0 | 16.0,11746,0,17,11729,Renomea√ß√£o da coluna para padroniza√ß√£o | Convers√£o do tipo de dado para double,Bronze ‚Üí Silver,‚ö†Ô∏è Ajuste manual: Registros adicionados manualmente a partir do arquivo 'BrasilSerieA_2024_EstatisticaJogador_InputManual.csv' para garantir consist√™ncia dos dados,Kaggle,https://www.kaggle.com/datasets/eduardopalmieri/brasileiro-player-stats-2024,database.csv,BrasilSerieA_2024_EstatisticaJogadorPorPartida.csv
