%md
Carregar e Renomear Colunas

In [0]:
from pyspark.sql import functions as F
from pyspark.sql.types import IntegerType, FloatType, StringType

# Função para exibir valores nulos
def exibir_valores_nulos(df):
    null_counts = df.select([F.count(F.when(F.col(c).isNull(), c)).alias(c) for c in df.columns])
    display(null_counts)

# Carregar tabelas Bronze
cartoes_bronze_df = spark.table("campeonato_brasileiro_cartoes_csv")
gols_bronze_df = spark.table("campeonato_brasileiro_gols_csv")
estatisticas_bronze_df = spark.table("campeonato_brasileiro_estatisticas_full_csv")
full_bronze_df = spark.table("campeonato_brasileiro_full_csv")

# Renomear colunas
cartoes_bronze_df = cartoes_bronze_df.withColumnRenamed("_c0", "partida_id") \
                                     .withColumnRenamed("_c1", "rodata") \
                                     .withColumnRenamed("_c2", "clube") \
                                     .withColumnRenamed("_c3", "cartao") \
                                     .withColumnRenamed("_c4", "atleta") \
                                     .withColumnRenamed("_c5", "num_camisa") \
                                     .withColumnRenamed("_c6", "posicao") \
                                     .withColumnRenamed("_c7", "minuto")

gols_bronze_df = gols_bronze_df.withColumnRenamed("_c0", "partida_id") \
                               .withColumnRenamed("_c1", "rodata") \
                               .withColumnRenamed("_c2", "clube") \
                               .withColumnRenamed("_c3", "atleta") \
                               .withColumnRenamed("_c4", "minuto") \
                               .withColumnRenamed("_c5", "tipo_de_gol")

estatisticas_bronze_df = estatisticas_bronze_df.withColumnRenamed("_c0", "partida_id") \
                                               .withColumnRenamed("_c1", "rodata") \
                                               .withColumnRenamed("_c2", "clube") \
                                               .withColumnRenamed("_c3", "chutes") \
                                               .withColumnRenamed("_c4", "chutes_no_alvo") \
                                               .withColumnRenamed("_c5", "posse_de_bola") \
                                               .withColumnRenamed("_c6", "passes") \
                                               .withColumnRenamed("_c7", "precisao_passes") \
                                               .withColumnRenamed("_c8", "faltas") \
                                               .withColumnRenamed("_c9", "cartao_amarelo") \
                                               .withColumnRenamed("_c10", "cartao_vermelho") \
                                               .withColumnRenamed("_c11", "impedimentos") \
                                               .withColumnRenamed("_c12", "escanteios")

full_bronze_df = full_bronze_df.withColumnRenamed("_c0", "ID") \
                               .withColumnRenamed("_c1", "rodata") \
                               .withColumnRenamed("_c2", "data") \
                               .withColumnRenamed("_c3", "hora") \
                               .withColumnRenamed("_c4", "mandante") \
                               .withColumnRenamed("_c5", "visitante") \
                               .withColumnRenamed("_c6", "formacao_mandante") \
                               .withColumnRenamed("_c7", "formacao_visitante") \
                               .withColumnRenamed("_c8", "tecnico_mandante") \
                               .withColumnRenamed("_c9", "tecnico_visitante") \
                               .withColumnRenamed("_c10", "vencedor") \
                               .withColumnRenamed("_c11", "arena") \
                               .withColumnRenamed("_c12", "mandante_Placar") \
                               .withColumnRenamed("_c13", "visitante_Placar") \
                               .withColumnRenamed("_c14", "mandante_Estado") \
                               .withColumnRenamed("_c15", "visitante_Estado")

# Converter colunas para os tipos de dados apropriados
cartoes_bronze_df = cartoes_bronze_df.withColumn("partida_id", F.col("partida_id").cast(IntegerType())) \
                                     .withColumn("rodata", F.col("rodata").cast(IntegerType())) \
                                     .withColumn("num_camisa", F.col("num_camisa").cast(IntegerType())) \
                                     .withColumn("minuto", F.col("minuto").cast(IntegerType()))

gols_bronze_df = gols_bronze_df.withColumn("partida_id", F.col("partida_id").cast(IntegerType())) \
                               .withColumn("rodata", F.col("rodata").cast(IntegerType())) \
                               .withColumn("minuto", F.col("minuto").cast(IntegerType()))

estatisticas_bronze_df = estatisticas_bronze_df.withColumn("partida_id", F.col("partida_id").cast(IntegerType())) \
                                               .withColumn("rodata", F.col("rodata").cast(IntegerType())) \
                                               .withColumn("chutes", F.col("chutes").cast(IntegerType())) \
                                               .withColumn("chutes_no_alvo", F.col("chutes_no_alvo").cast(IntegerType())) \
                                               .withColumn("posse_de_bola", F.col("posse_de_bola").cast(FloatType())) \
                                               .withColumn("passes", F.col("passes").cast(IntegerType())) \
                                               .withColumn("precisao_passes", F.col("precisao_passes").cast(FloatType())) \
                                               .withColumn("faltas", F.col("faltas").cast(IntegerType())) \
                                               .withColumn("cartao_amarelo", F.col("cartao_amarelo").cast(IntegerType())) \
                                               .withColumn("cartao_vermelho", F.col("cartao_vermelho").cast(IntegerType())) \
                                               .withColumn("impedimentos", F.col("impedimentos").cast(IntegerType())) \
                                               .withColumn("escanteios", F.col("escanteios").cast(IntegerType()))

full_bronze_df = full_bronze_df.withColumn("ID", F.col("ID").cast(IntegerType())) \
                               .withColumn("rodata", F.col("rodata").cast(IntegerType())) \
                               .withColumn("mandante_Placar", F.col("mandante_Placar").cast(IntegerType())) \
                               .withColumn("visitante_Placar", F.col("visitante_Placar").cast(IntegerType()))

# Verificar colunas e tipos de dados
cartoes_bronze_df.printSchema()
gols_bronze_df.printSchema()
estatisticas_bronze_df.printSchema()
full_bronze_df.printSchema()

root
 |-- partida_id: integer (nullable = true)
 |-- rodata: integer (nullable = true)
 |-- clube: string (nullable = true)
 |-- cartao: string (nullable = true)
 |-- atleta: string (nullable = true)
 |-- num_camisa: integer (nullable = true)
 |-- posicao: string (nullable = true)
 |-- minuto: integer (nullable = true)

root
 |-- partida_id: integer (nullable = true)
 |-- rodata: integer (nullable = true)
 |-- clube: string (nullable = true)
 |-- atleta: string (nullable = true)
 |-- minuto: integer (nullable = true)
 |-- tipo_de_gol: string (nullable = true)

root
 |-- partida_id: integer (nullable = true)
 |-- rodata: integer (nullable = true)
 |-- clube: string (nullable = true)
 |-- chutes: integer (nullable = true)
 |-- chutes_no_alvo: integer (nullable = true)
 |-- posse_de_bola: float (nullable = true)
 |-- passes: integer (nullable = true)
 |-- precisao_passes: float (nullable = true)
 |-- faltas: integer (nullable = true)
 |-- cartao_amarelo: integer (nullable = true)
 |-- car

Limpeza e Transformação de Dados

In [0]:
# Limpeza de Dados - Cartões
cartoes_silver_df = cartoes_bronze_df.dropDuplicates()
cartoes_silver_df = cartoes_silver_df.fillna({"posicao": "Desconhecido", "num_camisa": 0})
cartoes_silver_df = cartoes_silver_df.fillna({"cartao": "Desconhecido", "atleta": "Desconhecido"})
cartoes_silver_df = cartoes_silver_df.dropna(subset=["partida_id", "rodata", "clube", "minuto"])

# Verificar valores nulos
exibir_valores_nulos(cartoes_silver_df)

# Criar tabela temporária e salvar como tabela permanente
cartoes_silver_df.createOrReplaceTempView("campeonato_brasileiro_cartoes_silver")
cartoes_silver_df.write.format("parquet").mode("overwrite").saveAsTable("campeonato_brasileiro_cartoes_silver")

print("Cartões Silver corrigidos e salvos com sucesso.")

partida_id,rodata,clube,cartao,atleta,num_camisa,posicao,minuto
0,0,0,0,0,0,0,0


Cartões Silver corrigidos e salvos com sucesso.


In [0]:
# Limpeza de Dados - Gols
gols_silver_df = gols_bronze_df.dropDuplicates()
gols_silver_df = gols_silver_df.fillna({"tipo_de_gol": "Desconhecido"})
gols_silver_df = gols_silver_df.fillna({"atleta": "Desconhecido"})
gols_silver_df = gols_silver_df.dropna(subset=["partida_id", "rodata", "clube", "minuto"])

# Verificar valores nulos
exibir_valores_nulos(gols_silver_df)

# Criar tabela temporária e salvar como tabela permanente
gols_silver_df.createOrReplaceTempView("campeonato_brasileiro_gols_silver")
gols_silver_df.write.format("parquet").mode("overwrite").saveAsTable("campeonato_brasileiro_gols_silver")

print("Gols Silver corrigidos e salvos com sucesso.")

partida_id,rodata,clube,atleta,minuto,tipo_de_gol
0,0,0,0,0,0


Gols Silver corrigidos e salvos com sucesso.


In [0]:
# Remover duplicatas e preencher valores nulos
estatisticas_silver_df = estatisticas_bronze_df.dropDuplicates()
estatisticas_silver_df = estatisticas_silver_df.fillna({
    "partida_id": 0,
    "rodata": 0,
    "chutes": 0, 
    "chutes_no_alvo": 0, 
    "posse_de_bola": 0,
    "passes": 0, 
    "precisao_passes": 0, 
    "faltas": 0, 
    "cartao_amarelo": 0, 
    "cartao_vermelho": 0,
    "impedimentos": 0, 
    "escanteios": 0
})

# Calcular a média para a coluna 'precisao_passes'
media_precisao_passes = estatisticas_silver_df.agg(F.mean("precisao_passes")).first()[0]
estatisticas_silver_df = estatisticas_silver_df.fillna({"precisao_passes": media_precisao_passes})

# Verificar valores nulos
exibir_valores_nulos(estatisticas_silver_df)

# Criar tabela temporária e salvar como tabela permanente
estatisticas_silver_df.createOrReplaceTempView("campeonato_brasileiro_estatisticas_silver")
estatisticas_silver_df.write.format("parquet").mode("overwrite").saveAsTable("campeonato_brasileiro_estatisticas_silver")

print("Estatísticas Silver corrigidas e salvas com sucesso.")

partida_id,rodata,clube,chutes,chutes_no_alvo,posse_de_bola,passes,precisao_passes,faltas,cartao_amarelo,cartao_vermelho,impedimentos,escanteios
0,0,0,0,0,0,0,0,0,0,0,0,0


Estatísticas Silver corrigidas e salvas com sucesso.


In [0]:
# Limpeza de Dados - Full
full_silver_df = full_bronze_df.dropDuplicates()
full_silver_df = full_silver_df.fillna({
    "formacao_mandante": "Desconhecido", 
    "formacao_visitante": "Desconhecido",
    "tecnico_mandante": "Desconhecido", 
    "tecnico_visitante": "Desconhecido", 
    "arena": "Desconhecido"
})
full_silver_df = full_silver_df.dropna(subset=["ID", "rodata", "data", "hora", "mandante", "visitante", "mandante_Placar", "visitante_Placar"])

# Verificar valores nulos
exibir_valores_nulos(full_silver_df)

# Criar tabela temporária e salvar como tabela permanente
full_silver_df.createOrReplaceTempView("campeonato_brasileiro_full_silver")
full_silver_df.write.format("parquet").mode("overwrite").saveAsTable("campeonato_brasileiro_full_silver")

print("Full Silver corrigidos e salvos com sucesso.")

ID,rodata,data,hora,mandante,visitante,formacao_mandante,formacao_visitante,tecnico_mandante,tecnico_visitante,vencedor,arena,mandante_Placar,visitante_Placar,mandante_Estado,visitante_Estado
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


Full Silver corrigidos e salvos com sucesso.
