# MVP 2025 - ENGENHARIA DE DADOS

- Sprint: Engenharia de Dados
- Professor: Victor Almeida
- Aluno: Carlos Yuri Martins Braga Farias

A proposta é realizar o tratamento e análise de dados relacionados ao desempenho de jogadores de futebol durante partidas, buscando extrair insights relevantes.

Este MVP terá como base um conjunto de dados estatísticos contendo atributos como gols, assistências, minutos jogados, passes, chutes, cartões, entre outros indicadores de performance individual por partida. O objetivo é construir um modelo analítico estruturado em um modelo dimensional (Esquema Estrela) e implementar um pipeline completo de ingestão, transformação, carga e análise dos dados.

#### Perguntas

- 01 - Qual jogador com maior participação em gols?
- 02 - Quais jogadores com mais tempo de jogo?
- 03 - Top 10 Jogadores com mais minutos jogados têm melhor desempenho ofensivo?
- 04 - Quantidade de jogadores por país?
- 05 - Clubes com mais jogadores estrangeiros?
- 06 - Quais os jogadores que tomaram mais cartões no campeonato?
- 07 - Qual o total de gols do campeonato, listar o top 5 artilheiros e os líderes em assistencia?
- 08 - Qual o clube com o maior numero de gols? Qual o clube com a maior média de gols por jogador?
- 09 - Quais os jogadores com maior número de dribles certos?
- 10 - Evolução dos gols ao longo do campeonato (por mês ou rodada). 

#### Fonte de dados

Fonte: Kaggle

O conjunto de dados utilizado neste MVP consiste em estatísticas de desempenho de jogadores de futebol, coletadas em nível de partida. As informações incluem atributos individuais como gols, assistências, minutos jogados, passes, conduções, chutes, cartões, entre outros.

#### Modelagem

A modelagem dos dados foi realizada no formato Esquema Estrela, com uma tabela fato central contendo as métricas de desempenho dos jogadores em cada partida, relacionada a tabelas de dimensão que descrevem entidades analíticas como jogadores, times e tempo.

Tabela Fato: 
- fato_desempenho_jogador

Dimensões: 
- dim_jogador: Infomações básicas dos jogadores
- dim_clube: Lista de clubes
- dim_posicao: Lista de posições
- dim_tempo: Tabela temporal
- dim_pais: Lista de países dos jogadores


#### Dicionário de Dados

##### 🔹 `dim_jogador`

| Nome da Coluna | Tipo de Dado | Descrição                          |
|----------------|--------------|------------------------------------|
| `id_jogador`   | int          | Identificador único do jogador     |
| `nome`         | string       | Nome do jogador                    |
| `clube`        | string       | Clube atual do jogador             |
| `idade`        | string       | Idade do jogador                   |
---



##### 🔹 `dim_clube`

| Nome da Coluna | Tipo de Dado | Descrição                      |
|----------------|--------------|--------------------------------|
| `id_clube`     | int          | Identificador único do clube   |
| `clube`        | string       | Nome do clube                  |
---

##### 🔹 `dim_pais`

| Nome da Coluna | Tipo de Dado | Descrição                           |
|----------------|--------------|-------------------------------------|
| `id_pais`      | int          | Identificador único do país         |
| `sigla_pais`   | string       | Sigla do país (ex: BRA, ARG, etc.)    |
| `pais`         | string       | Nome do país                        |
| `continente`   | string       | Continente ao qual o país pertence  |

---

###### 🔹 `dim_posicao`

| Nome da Coluna       | Tipo de Dado | Descrição                                            |
|----------------------|--------------|------------------------------------------------------|
| `id_posicao`         | int          | Identificador único da posição                      |
| `posicao`            | string       | Sigla da posição (ex: ZAG, MEI)                      |
| `posicao_completa`   | string       | Nome completo da posição (ex: Zagueiro, Meio-Campo) |
| `tipo_posicao`       | string       | Tipo da posição (Defesa, Meio, Ataque, etc.)         |
| `descricao_tatica`   | string       | Descrição tática da função na equipe                |

---

###### 🔹 `dim_tempo`

| Nome da Coluna   | Tipo de Dado | Descrição                                  |
|------------------|--------------|--------------------------------------------|
| `data`           | date         | Data no formato AAAA-MM-DD                 |
| `ano`            | int          | Ano da data                                |
| `mes`            | string       | Mês por extenso                            |
| `dia`            | string       | Dia do mês                                 |
| `dia_semana`     | string       | Dia da semana (em português)               |
| `trimestre`      | int          | Trimestre correspondente à data (1 a 4)    |
---

###### 🔸 `fato_desempenho_jogador`

| Nome da Coluna        | Tipo de Dado | Descrição                               |
|------------------------|---------------|-----------------------------------------|
| `id_jogador`             | int           | FK para dim_jogador                     |
| `id_clube`               | int           | FK para dim_clube                       |
| `id_pais`                | int           | FK para dim_pais                        |
| `id_posicao`             | int           | FK para dim_posicao                     |
| `data`                   | date          | FK para dim_tempo                       |
| `minutos`                | int           | Minutos jogados                         |
| `gols`                   | int           | Gols marcados                           |
| `assistencias`           | int           | Assistências                            |
| `passes_basicos`         | int           | Passes simples                          |
| `passes_totais`          | int           | Total de passes                         |
| `toques_curtos`          | int           | Toques curtos                           |
| `chutes_a_gol`           | int           | Finalizações no gol                     |
| `cartoes_amarelos`       | int           | Número de cartões amarelos              |
| `cartoes_vermelhos`      | int           | Número de cartões vermelhos             |
| `contatos`               | int           | Total de contatos com a bola            |
| `divisoes`               | int           | Divisões disputadas                     |
| `cruzamentos`            | int           | Cruzamentos realizados                  |
| `bloqueios`              | int           | Bloqueios efetuados                     |
| `xg`                     | float         | Expected Goals                          |
| `npxg`                   | float         | Expected Goals sem pênaltis             |
| `xag`                    | float         | Expected Assists                        |
| `sca`                    | int           | Shot-Creating Actions                   |
| `gca`                    | int           | Goal-Creating Actions                   |
| `passes_completos`       | int           | Passes completados                      |
| `passes_tentados`        | int           | Passes tentados                         |
| `porcentagem_passes`     | float         | Porcentagem de acerto nos passes        |
| `passes_prog`            | int           | Passes progressivos                     |
| `conducoes`              | int           | Conduções de bola                       |
| `conducoes_prog`         | int           | Conduções progressivas                  |
| `dribles_tentados`       | int           | Total de dribles                        |
| `dribles_sucesso`        | int           | Dribles bem-sucedidos                   |
| `ingestao_data`          | timestamp     | Data de ingestão dos dados              |

---

## 1.0 - Pipeline de ETL

##### 1.1 - Importando bibliotecas

In [0]:
# Importando bilbiotecas
import pandas as pd
import io
import requests
from pyspark.sql.functions import current_timestamp
from pyspark.sql.functions import to_date
from pyspark.sql.functions import col
from pyspark.sql.window import Window
from pyspark.sql.functions import row_number
from pyspark.sql.functions import substring
from pyspark.sql.functions import max
from pyspark.sql.functions import create_map, lit
from itertools import chain
from pyspark.sql.functions import coalesce, lit
from pyspark.sql.functions import lit, create_map, col
from pyspark.sql.functions import split, explode, when
from pyspark.sql.functions import col, to_date, year, month, dayofweek, date_format
from pyspark.sql.types import DateType
from datetime import datetime, timedelta


# importação do pyplot
import matplotlib.pyplot as plt
import seaborn as sns



##### 1.2 - Importando dados do github

In [0]:
# Importando dados

url = "https://raw.githubusercontent.com/cyurimartins/mvp-data-engineering/main/dados/camp_br_2024.csv"
csv = pd.read_csv(url)

df = spark.createDataFrame(csv)

In [0]:
# Leitura da tabela bruta
df_br2024 = df

# Adiciona timestamp
df_br2024 = df_br2024.withColumn("ingestao_data", current_timestamp())

### 1.3 - Camada Bronze

Criando a camada bronze para gravar as tabelas brutas, sem nenhum tipo de tratamento, garantindo a persistência dos dados originais, então possibilita reprocessamento futuro.

In [0]:
spark.sql("CREATE SCHEMA IF NOT EXISTS bronze")

Criando e inserindo dados na tabela camp_br_2024 e realizando.

In [0]:
# Apagando a tabela se ela existir no BD Bronze
spark.sql("DROP TABLE IF EXISTS bronze.camp_br_2024")

# Criando a tabela bruta camp_br_2024
df_br2024.write \
    .format("delta") \
    .mode("overwrite") \
    .saveAsTable("bronze.camp_br_2024")


### 1.4 - Camada Prata

Criando o bando de dados Camada Prata

In [0]:
# Criando banco de dados prata (camada prata)
spark.sql("CREATE SCHEMA IF NOT EXISTS prata")


In [0]:
# Realizando a leitura da tabela bronze
df_bronze_camp_br_2024 = spark.read.table("bronze.camp_br_2024")

Criando dicionário para renomear as colunas do dataframe

In [0]:
# Criando dicionário com novos nomes da coluna
colunas_renomeadas = {
    "Jogador": "jogador",
    "Time": "time",
    "#": "numero_camisa",
    "Nação": "pais",
    "Pos.": "posicao",
    "Idade": "idade",
    "Min.": "minutos",
    "Gols": "gols",
    "Assis.": "assistencias",
    "PB": "passes_basicos",
    "PT": "passes_totais",
    "TC": "toques_curtos",
    "CaG": "chutes_a_gol",
    "CrtsA": "cartoes_amarelos",
    "CrtV": "cartoes_vermelhos",
    "Contatos": "contatos",
    "Div": "divisoes",
    "Crts": "cruzamentos",
    "Bloqueios": "bloqueios",
    "xG": "xg",
    "npxG": "npxg",
    "xAG": "xag",
    "SCA": "sca",
    "GCA": "gca",
    "Cmp": "passes_completos",
    "Att": "passes_tentados",
    "Cmp%": "porcentagem_passes",
    "PrgP": "passes_prog",
    "ConduÃ§Ãµes": "conducoes",
    "PrgC": "conducoes_prog",
    "Tent": "dribles_tentados",
    "Suc": "dribles_sucesso",
    "Data": "data_partida",
    "ingestao_data": "ingestao_data"
}

In [0]:
# Aplicando os novos nomes das colunas
for original, novo in colunas_renomeadas.items():
    df_bronze_camp_br_2024 = df_bronze_camp_br_2024.withColumnRenamed(original, novo)

A campo idade possui valores que não são relevantes, então utilizei um substring para pegar apenas a idade dos jogadores.

In [0]:
df_bronze_camp_br_2024 = df_bronze_camp_br_2024.withColumn("idade", substring("idade", 1, 2))

Criando tabela camp_br_2024 no BD Prata e inserindo dados.

In [0]:
# Excluindo a tabela se ela existir
spark.sql("drop table if exists prata.camp_br_2024")

# Gravando a tabela na camada prata
df_bronze_camp_br_2024.write.format("delta") \
    .mode("overwrite") \
    .saveAsTable("prata.camp_br_2024")

In [0]:
# Lê a tabela da camada Prata
df_prata_camp_br_2024 = spark.read.table("prata.camp_br_2024")

#### Dimensão Clube

Criando a dimensão clube, utilizando como origem a tabela camp_br_2024.

tabela: dim_clube

In [0]:
# Seleciona os nomes dos times distintos
df_dim_clube = df_prata_camp_br_2024.select("time") \
                      .distinct() \
                      .withColumnRenamed("time", "clube")

In [0]:
# Janela para ordenação dos nomes (opcional, só pra manter estabilidade)
janela = Window.orderBy("clube")

# Adiciona a coluna ID sequencial a partir de 1
df_dim_clube = df_dim_clube.withColumn("id_clube", row_number().over(janela))

Ordenando o dataframe

In [0]:
df_dim_clube = df_dim_clube.select("id_clube", "clube")

In [0]:
df_dim_clube.display()

Apagando a tabela, caso exista, e logo em seguida criando novamente na camada prata.

In [0]:
spark.sql("drop table if exists prata.dim_clube")

# Gravando a dimensao clube na camada prata
df_dim_clube.write.format("delta") \
    .mode("overwrite") \
    .saveAsTable("prata.dim_clube")

In [0]:
%sql
select * from prata.dim_clube

#### Dimensão Jogador

Criando a dimensão jogador, utilizando como origem a tabela camp_br_2024.

Tabela: dim_jogador

Foi encontrado um problema, os jogadores estavam com o campo posição não normalizado, existia mais posições dentro do atributo, necessário colocar na 3FN para normalizar. Foi considerado a posição mais recente do jogador, assim como o número da sua camisa. 

In [0]:
# Janela por jogador, ordenando pela data mais recente
janela = Window.partitionBy("jogador").orderBy(df_prata_camp_br_2024.data_partida.desc())

# Adiciona a linha com o número da ordem
df_jogador = df_prata_camp_br_2024.withColumn("linha", row_number().over(janela))

# Filtra a linha mais recente por jogador
df_jogador_recente = df_jogador.filter("linha = 1").select("jogador", "time", "idade", "numero_camisa", "posicao")

In [0]:
# Seleciona os jogadores
df_jogador_recente = df_jogador_recente.select("jogador", "time", "idade", "numero_camisa", "posicao").distinct()

In [0]:
# Agrupa por jogador, time e numero_camisa e pega a idade máxima
df_jogador_recente = df_jogador_recente.groupBy("jogador", "time", "numero_camisa").agg(max("idade").alias("idade"))

In [0]:
df_filtro = df_jogador_recente.filter(df_jogador_recente.time == "Flamengo")

In [0]:
df_filtro.orderBy("jogador").display()

In [0]:
# Renomeia as colunas
df_jogador = df_jogador_recente.withColumnRenamed("jogador", "nome").withColumnRenamed("time", "clube").withColumn("idade", substring("idade", 1, 2))

df_jogador

In [0]:
# Cria janela para gerar o ID
janela = Window.orderBy("nome", "clube")

# Adiciona o ID
df_jogador = df_jogador.withColumn("id_jogador", row_number().over(janela))

In [0]:
# Reorganizar colunas
df_jogador = df_jogador.select("id_jogador", "nome", "clube","idade")

In [0]:
spark.sql("drop table if exists prata.dim_jogador")

# Gravando a tabela jogador na camada prata
df_jogador.write.format("delta").mode("overwrite").saveAsTable("prata.dim_jogador")

In [0]:
%sql
select * from prata.dim_jogador

#### Dimensão País

Criando a dimensão país, utilizando como origem a tabela camp_br_2024.

Tabela: dim_pais

In [0]:
# Selecionando os países da fonte de dados
df_dim_pais = df_prata_camp_br_2024.select("pais").distinct()

In [0]:
df_dim_pais = df_dim_pais.withColumnRenamed("pais", "sigla_pais")

In [0]:
# Dicionário de códigos para nomes completos
codigo_pais_to_nome = {
    "BRA": "Brasil",
    "FRA": "França",
    "COD": "República Democrática do Congo",
    "ITA": "Itália",
    "PAR": "Paraguai",
    "VEN": "Venezuela",
    "POR": "Portugal",
    "DEN": "Dinamarca",
    "URU": "Uruguai",
    "ANG": "Angola",
    "PER": "Peru",
    "CRC": "Costa Rica",
    "COL": "Colômbia",
    "ARG": "Argentina",
    "ESP": "Espanha",
    "ECU": "Equador",
    "CHI": "Chile",
    "NED": "Países Baixos",
    "SUI": "Suíça",
    "BUL": "Bulgária",
    "NIR": "Irlanda do Norte",
    "NGA": "Nigéria",
    "NCA": "Nicarágua",
}

In [0]:
# Cria o mapa para o Spark
map_expr = create_map([lit(x) for x in chain(*codigo_pais_to_nome.items())])

# Adiciona a coluna de nome completo
df_dim_pais = df_dim_pais.withColumn("pais", map_expr.getItem(col("sigla_pais")))

A tabela está com poucas informações sobre o país, então é necessário realizar o enriquecimento da tabela dimensão país com o atributo continente. 

In [0]:

# Dicionário de países e continentes
continente_map = {
    "BRA": "América do Sul",
    "ARG": "América do Sul",
    "URU": "América do Sul",
    "PAR": "América do Sul",
    "CHI": "América do Sul",
    "VEN": "América do Sul",
    "COL": "América do Sul",
    "ECU": "América do Sul",
    "PER": "América do Sul",
    "FRA": "Europa",
    "ITA": "Europa",
    "ESP": "Europa",
    "POR": "Europa",
    "NED": "Europa",
    "SUI": "Europa",
    "BUL": "Europa",
    "NIR": "Europa",
    "DEN": "Europa",
    "COD": "África",
    "ANG": "África",
    "NGA": "África",
    "CRC": "América Central",
    "NCA": "América Central"
}

# Transformar dicionário em expressão do PySpark
map_expr = create_map([lit(x) for x in chain(*continente_map.items())])

# Adicionar coluna 'continente'
df_dim_pais = df_dim_pais.withColumn("continente", map_expr.getItem(col("sigla_pais")))


In [0]:
# Tratando nulos
df_dim_pais = df_dim_pais \
    .withColumn("pais",coalesce(col("pais"), lit("Não Informado"))) \
    .withColumn("sigla_pais",coalesce(col("sigla_pais"), lit("N/I")))\
    .withColumn("continente",coalesce(col("continente"), lit("Não Informado")))

In [0]:
# Cria janela para gerar o ID
janela = Window.orderBy("sigla_pais")

# Adiciona o ID
df_dim_pais = df_dim_pais.withColumn("id_pais", row_number().over(janela))

In [0]:
# Reorganizar colunas
df_dim_pais = df_dim_pais.select("id_pais", "sigla_pais", "pais","continente")

In [0]:
df_dim_pais.display()

In [0]:
spark.sql("drop table if exists prata.dim_pais")

# Gravando a dimensao clube na camada prata
df_dim_pais.write.format("delta") \
    .mode("overwrite") \
    .saveAsTable("prata.dim_pais")

In [0]:
%sql
select  * from prata.camp_br_2024

#### Dimensão Posição

Criando a dimensão posição, utilizando como origem a tabela camp_br_2024.

Tabela: dim_posicao

In [0]:
# Selecionando os países da fonte de dados
df_dim_posicao = df_prata_camp_br_2024.select("posicao").distinct()

In [0]:
# Mudar para 3FN

# 1. Dividir por vírgula
df_split = df_dim_posicao.withColumn("posicao", split(col("posicao"), ","))

# 2. Explodir em várias linhas
df_dim_posicao_normalizado = df_split.select(explode(col("posicao")).alias("posicao")).distinct()



In [0]:
# Criando descrição das posições
posicoes_dict = {
    "AM": "Meia Ofensivo",
    "LM": "Meia Esquerda",
    "FW": "Atacante",
    "LB": "Lateral Esquerdo",
    "LW": "Ponta Esquerda",
    "GK": "Goleiro",
    "RB": "Lateral Direito",
    "WB": "Ala (Wing Back)",
    "CM": "Meia Central",
    "RW": "Ponta Direita",
    "DM": "Volante",
    "CB": "Zagueiro",
    "RM": "Meia Direita"
}

In [0]:
# Transformar dicionário em expressão do PySpark
map_expr = create_map([lit(x) for x in chain(*posicoes_dict.items())])

# Adicionar coluna 'continente'
df_dim_posicao = df_dim_posicao_normalizado.withColumn("posicao_completa", map_expr.getItem(col("posicao")))

In [0]:
# Cria janela para gerar o ID
janela = Window.orderBy("posicao_completa")

# Adiciona o ID
df_dim_posicao = df_dim_posicao.withColumn("id_posicao", row_number().over(janela))

# Reorganizar colunas
df_dim_posicao = df_dim_posicao.select("id_posicao", "posicao", "posicao_completa")

In [0]:
df_dim_posicao = df_dim_posicao.withColumn(
    "tipo_posicao",
    when(col("posicao").isin("FW", "LW", "RW", "AM"), "Ataque")
    .when(col("posicao").isin("CM", "DM", "RM", "LM"), "Meio-Campo")
    .when(col("posicao").isin("CB", "LB", "RB", "WB", "GK"), "Defesa")
    .otherwise("Desconhecido")
)

In [0]:
descricao_tatica_dict = {
    "AM": "Responsável por criar jogadas ofensivas e conectar o meio com o ataque.",
    "LM": "Atua pela faixa esquerda do meio-campo, apoiando tanto a defesa quanto o ataque.",
    "FW": "Atacante central, com foco em finalizações e presença na área.",
    "LB": "Defensor lateral esquerdo, com funções defensivas e apoio nas subidas ao ataque.",
    "LW": "Extremo esquerdo ofensivo, busca abrir o campo e criar chances de gol.",
    "GK": "Último defensor da equipe, protege o gol e inicia jogadas com os pés ou mãos.",
    "RB": "Defensor lateral direito, participa da construção ofensiva e protege o lado direito.",
    "WB": "Ala com liberdade para atacar e defender pelos lados do campo.",
    "CM": "Meio-campista central com equilíbrio entre defesa e criação de jogadas.",
    "RW": "Extremo direito, busca amplitude ofensiva e cruzamentos para a área.",
    "DM": "Volante responsável por marcar e proteger a linha de defesa.",
    "CB": "Zagueiro central com função de interceptar ataques e organizar a defesa.",
    "RM": "Meia pela direita, faz transição entre defesa e ataque pelo lado do campo."
}

In [0]:
# Transformar dicionário em expressão do PySpark
map_expr = create_map([lit(x) for x in chain(*descricao_tatica_dict.items())])

# Adicionar coluna 'continente'
df_dim_posicao = df_dim_posicao.withColumn("descricao_tatica", map_expr.getItem(col("posicao")))

In [0]:
spark.sql("drop table if exists prata.dim_posicao")

# Gravando a dimensao clube na camada prata
df_dim_posicao.write.format("delta") \
    .mode("overwrite") \
    .saveAsTable("prata.dim_posicao")

#### Dimensão Tempo

Criando a dimensão tempo, utilizando como origem a tabela camp_br_2024.

Tabela: dim_tempo

In [0]:
# Definindo intervalo de datas
datainicio = datetime(2018, 1, 1)
datafim = datetime(2030, 12, 31)

In [0]:
# Criando lista de datas
data_lista = [(datainicio + timedelta(days=x)) for x in range(0, (datafim - datainicio).days + 1)]

# Criando o DataFrame
df_dim_tempo = spark.createDataFrame([(d,) for d in data_lista], ["data"])

In [0]:
# Adicionando colunas
df_dim_tempo = df_dim_tempo.withColumn("ano", year("data")) \
                   .withColumn("mes", month("data")) \
                   .withColumn("dia", date_format("data", "dd")) \
                   .withColumn("dia_semana", date_format("data", "EEEE")) \
                   .withColumn("mes", date_format("data", "MMMM")) \
                   .withColumn("trimestre", ((month("data") - 1) / 3 + 1).cast("int"))

In [0]:
# Traduzindo os dias da semana
df_dim_tempo = df_dim_tempo.withColumn(
    "dia_semana", when(col("dia_semana") == "Monday", "Segunda-feira")
                 .when(col("dia_semana") == "Tuesday", "Terça-feira")
                 .when(col("dia_semana") == "Wednesday", "Quarta-feira")
                 .when(col("dia_semana") == "Thursday", "Quinta-feira")
                 .when(col("dia_semana") == "Friday", "Sexta-feira")
                 .when(col("dia_semana") == "Saturday", "Sábado")
                 .when(col("dia_semana") == "Sunday", "Domingo")
)

In [0]:
# Traduzindo os dias da semana

df_dim_tempo = df_dim_tempo.withColumn(
          "mes",when(col("mes") == "January", "Janeiro")
               .when(col("mes") == "February", "Fevereiro")
               .when(col("mes") == "March", "Março")
               .when(col("mes") == "April", "Abril")
               .when(col("mes") == "May", "Maio")
               .when(col("mes") == "June", "Junho")
               .when(col("mes") == "July", "Julho")
               .when(col("mes") == "August", "Agosto")
               .when(col("mes") == "September", "Setembro")
               .when(col("mes") == "October", "Outubro")
               .when(col("mes") == "November", "Novembro")
               .when(col("mes") == "December", "Dezembro")
)

In [0]:
df_dim_tempo = df_dim_tempo.withColumn("data", to_date("data"))


In [0]:
spark.sql("drop table if exists prata.dim_tempo")

# Gravando a dimensao clube na camada prata
df_dim_tempo.write.format("delta") \
    .mode("overwrite") \
    .saveAsTable("prata.dim_tempo")

In [0]:
%sql
select * from prata.dim_tempo
where ano = '2025'

In [0]:
%sql
select jogador, posicao, time,  round(sum(minutos) / 60, 4) as horas from prata.camp_br_2024
group by jogador, posicao, time
order by 4 desc

In [0]:
df_prata_camp_br_2024.columns

#### Fato Desempenho Jogador

In [0]:
%sql

drop table if exists prata.fato_desempenho_jogador;

CREATE OR REPLACE TABLE prata.fato_desempenho_jogador AS
SELECT
    j.id_jogador,
    c.id_clube,
    p.id_pais,
    pos.id_posicao,
    t.data,

    e.minutos,
    e.gols,
    e.assistencias,
    e.passes_basicos,
    e.passes_totais,
    e.toques_curtos,
    e.chutes_a_gol,
    e.cartoes_amarelos,
    e.cartoes_vermelhos,
    e.contatos,
    e.divisoes,
    e.cruzamentos,
    e.bloqueios,
    e.xg,
    e.npxg,
    e.xag,
    e.sca,
    e.gca,
    e.passes_completos,
    e.passes_tentados,
    e.porcentagem_passes,
    e.passes_prog,
    --e.conducoes,
    e.conducoes_prog,
    e.dribles_tentados,
    e.dribles_sucesso

FROM prata.camp_br_2024 e
JOIN prata.dim_jogador j    ON e.jogador = j.nome
JOIN prata.dim_clube c      ON e.time = c.clube
JOIN prata.dim_pais p       ON e.pais = p.sigla_pais
JOIN prata.dim_posicao pos  ON e.posicao = pos.posicao
JOIN prata.dim_tempo t      ON TO_DATE(e.data_partida) = t.data

Verificando a criação da tabela fato

Após realizar uma contagem das linhas da tabela fato, foi identificado 10.480 registros. 

### 1.5 - Camada Ouro

Criando a camada ouro (Banco de dados ouro).

In [0]:
# Criando banco de dados ouro (camada ouro)
spark.sql("CREATE SCHEMA IF NOT EXISTS ouro")

In [0]:
%sql 

select * from  prata.fato_desempenho_jogador

#### View vw_desempenho

Criando view de desempenho dos jogadores.

In [0]:
%sql
CREATE OR REPLACE VIEW ouro.vw_desempenho AS

SELECT 
    j.nome as nome_jogador,
    j.idade,
    pos.posicao_completa as posicao,
    pos.tipo_posicao,
    c.clube,
    p.pais,
    p.continente,
    t.data as data_partida,
    f.minutos,
    f.gols,
    f.assistencias,
    f.passes_basicos,
    f.toques_curtos,
    f.dribles_tentados,
    f.dribles_sucesso,
    f.cartoes_amarelos as cartao_amarelo,
    f.cartoes_vermelhos as cartao_vermelho
FROM 
    prata.fato_desempenho_jogador f

LEFT JOIN prata.dim_jogador j 
  ON f.id_jogador = j.id_jogador

LEFT JOIN prata.dim_clube c 
  ON f.id_clube = c.id_clube

LEFT JOIN prata.dim_pais p 
  ON f.id_pais = p.id_pais

LEFT JOIN prata.dim_posicao pos 
  ON f.id_posicao = pos.id_posicao

LEFT JOIN prata.dim_tempo t 
  ON f.data = t.data

### 1.6 - Perguntas e Respostas

####Pergunta 01
Qual jogador com maior participação em gols? 

In [0]:
%sql

select nome_jogador, clube, sum(assistencias+gols) as participacao_gol  
from ouro.vw_desempenho
group by nome_jogador, clube
order by sum(assistencias+gols) desc
limit 5

##### Resposta 01
O Estevão do Palmeiras é o jogador com maior participação em gols no campeontato BR, logo em seguida tem Rodrigo Garro e Alerrandro.

#### Pergunta 02
Quais jogadores com mais tempo de jogo?

In [0]:
%sql
select nome_jogador, clube, sum(minutos) 
from ouro.vw_desempenho
group by nome_jogador, clube
order by sum(minutos)  desc
limit 10

##### Resposta 02
Léo Jardim do Vasco da Gama, e João Ricardo do Fortaleza, são os jogadores com maior minutagem de jogo.


#### Pergunta 03
Top 10 Jogadores com mais minutos jogados têm melhor desempenho ofensivo?

In [0]:
%sql
select nome_jogador, clube, round(sum(gols/minutos),4) as gols_minuto, sum(gols), sum(minutos), round(sum(minutos/60),4) as horas 
from ouro.vw_desempenho
group by nome_jogador, clube
order by sum(gols/minutos) desc
limit 10

##### Resposta 02
O jogador do Atlético Goianiense Mateo Zuleta, ficou apenas 27 minutos em campo e fez 1 gol, lidera o ranking de mais participações em gols. 

#### Pergunta 04
Quantidade de jogadores por país? 

In [0]:
%sql
select pais, count(distinct nome_jogador) qtd_jogador 
from ouro.vw_desempenho
group by pais
order by count( distinct nome_jogador) desc

##### Resposta 04 
Pesquisa realizada com ordenação decrescente com relação a quantidade de jogadores por país (nacionalidade). O Brasil possui 495 jogadores nos clubes, Argentina possui 47 jogadores. 

#### Pergunta 05 
Clubes com mais jogadores estrangeiros?

In [0]:
%sql
select clube, count( distinct nome_jogador) qtd_jogador 
from ouro.vw_desempenho
where pais <> 'Brasil'
group by clube
order by count(distinct nome_jogador) desc 

##### Resposta 05
O Grêmio é o clube com mais jogadores estrangeiros, totalizando 13.  O Internacional aparece em segundo, possui 11 jogadores estrangeiros. Curiosamente os times do sul contratam mais jogadores estrangeiros.

####Pergunta 06
Quais os jogadores que tomaram mais cartões no campeonato?

In [0]:
%sql
select 
  nome_jogador, 
  clube, 
  sum(cartao_amarelo + cartao_vermelho) as qtd_cartoes, 
  sum(cartao_amarelo) , 
  sum(cartao_vermelho)
from ouro.vw_desempenho
group by nome_jogador, clube
order by sum(cartao_amarelo + cartao_vermelho) desc
limit 10


##### Resposta 06
O jogador Zé Marcos do Juventude foi o atleta que mais levou cartões durante o campeoanto, totalizando 12 amarelos e 2 vermelhos. 

#### Pergunta 07
Qual o total de gols do campeonato, listar o top 5 artilheiros e os líderes em assistencia? 

In [0]:
%sql
select sum(gols) total_gols, round(avg(gols),4) media_gols from ouro.vw_desempenho

O campeonato teve 782 gols.

In [0]:
%sql
select nome_jogador, clube, sum(gols) 
from ouro.vw_desempenho
group by nome_jogador, clube
order by sum(gols) desc
limit 5

In [0]:
%sql
select nome_jogador, clube, sum(assistencias) 
from ouro.vw_desempenho
group by nome_jogador, clube
order by sum(assistencias) desc
limit 5

##### Resposta 07
- O campeonato brasileiro 2024 teve 782 gols. 
- O artileiro do Brasileirão foi o Alerrandro do Vitória com 15 gols. 
- O líder em assistência foi o Rodrigo Garro do Corinthians, com 10 passes para gols.

#### Pergunta 08
Qual o clube com o maior numero de gols? Qual o clube com a maior média de gols por jogador?

In [0]:
%sql
select 
  clube, 
  sum(gols) total_gols, 
  count(distinct nome_jogador) qtd_jogador, 
  round(sum(gols) / count(distinct nome_jogador),4) as media_gols_jogadores 
from ouro.vw_desempenho
group by clube
order by sum(gols) desc
limit 5

In [0]:
%sql
select 
  clube, 
  sum(gols) total_gols, 
  count(distinct nome_jogador) qtd_jogador, 
  round(sum(gols) / count(distinct nome_jogador),4) as media_gols_jogadores 
from ouro.vw_desempenho
group by clube
order by round(sum(gols) / count(distinct nome_jogador),4) desc
limit 5

##### Resposta 08

- O Flamengo é o clube com o maior numero de gols, totalizando 51 gols na temporada. 
- O Fortaleza é o clube com a maior média de gols por jogadores, possui uma média de 1,5 gols. São 43 gols por 28 jogadores no clube, então o clube possui uma grande efetividade ofensiva no seu elenco. 

#### Pergunta 09
Quais os jogadores com maior número de dribles certos?

In [0]:
%sql
SELECT 
    t.ano,
    t.mes,
    SUM(f.gols) AS total_gols
FROM 
    prata.fato_desempenho_jogador f
JOIN 
    prata.dim_tempo t ON f.data = t.data
GROUP BY 
    t.ano, t.mes
ORDER BY 
    t.ano, 
    CASE 
        WHEN t.mes = 'Janeiro' THEN 1
        WHEN t.mes = 'Fevereiro' THEN 2
        WHEN t.mes = 'Março' THEN 3
        WHEN t.mes = 'Abril' THEN 4
        WHEN t.mes = 'Maio' THEN 5
        WHEN t.mes = 'Junho' THEN 6
        WHEN t.mes = 'Julho' THEN 7
        WHEN t.mes = 'Agosto' THEN 8
        WHEN t.mes = 'Setembro' THEN 9
        WHEN t.mes = 'Outubro' THEN 10
        WHEN t.mes = 'Novembro' THEN 11
        WHEN t.mes = 'Dezembro' THEN 12
    END;

In [0]:
%sql
select nome_jogador, clube, sum(dribles_sucesso) 
from ouro.vw_desempenho
group by nome_jogador, clube
order by sum(dribles_sucesso) desc
limit 5

In [0]:
%sql
select 
  nome_jogador, 
  clube, 
  sum(dribles_tentados), 
  sum(dribles_sucesso), 
  round((sum(dribles_sucesso) / sum(dribles_tentados) ),4) * 100 as percentual_dribles 
from ouro.vw_desempenho
group by nome_jogador, clube
order by sum(dribles_sucesso) desc
limit 10

##### Resposta 09
- Luiz Henrique o Botafogo é o jogador com a maior quantidade de dribles certos, 82 dribles, existe uma diferença de 14 dribles, que é bem considerável para o segundo colocado que é o Estevão do Palmeiras com 68 dribles certos. 
- Luiz Henrique acertou 57% desses dribles, dentro do top 10 maiores dribladores do campeonato, cabe um destaque para o Denilson do Cuiabá, que possui 68,4 % de acertos nos dribles. 

#### Pergunta 10
Evolução dos gols ao longo do campeonato (por mês ou rodada). 

In [0]:
# Plot
plt.figure(figsize=(12,6))
bars = plt.bar(df['mes'], df['total_gols'], color='royalblue')
plt.title('Evolução dos Gols por Mês - Campeonato Brasileiro 2024')
plt.xlabel('Mês')
plt.ylabel('Total de Gols')
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Adiciona os valores no topo das barras
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2, height + 1, f'{int(height)}',
             ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()


##### Resposta 10

- Junho e Julho foram os meses com mais gols, 146 e 138, respectivamente. 
- Maio foi o mês com o pior total de gols. 

### 1.7 Conclusão

O projeto desenvolvido foi bastante enriquecedor, proporcionou um desafio bem interessante na construção de um pipeline de dados completo, desde a ingestão até a análise. A escolha do Campeonato Brasileiro de 2024 como tema permitiu explorar dados reais e relevantes, com foco na qualidade, modelagem e visualização dos dados de desempenho dos jogadores.

As análises realizadas foram eficazes para responder as perguntas sobre o campeonato.

Como oportunidade de melhoria futura, destaca-se o enriquecimento da base com informações adicionais sobre as partidas, como placar, local, condições climáticas e dados táticos, o que ampliaria ainda mais o escopo analítico do projeto e permitiria análises mais profundas.

