## üéØ Problema a ser resolvido

O objetivo deste MVP √© analisar o desempenho dos times do **Campeonato Brasileiro da S√©rie A** ao longo das temporadas de **2003 a 2022**, buscando entender fatores que influenciam os resultados das partidas e comportamentos recorrentes entre os times mais bem-sucedidos (campe√µes, classificados para a Libertadores) e os de pior desempenho (rebaixados).

A partir dessa an√°lise, queremos extrair insights relevantes que ajudem a responder perguntas como:

- üìå **O mando de campo ainda tem forte influ√™ncia nos resultados?**
- üìå **Os gols marcados tem forte influ√™ncia nos resultados?**
- üìå **Como foi o aproveitamento dos times com base no mando de campo e gols marcados/sofridos?**

---

### üìÇ Dataset escolhido

Para come√ßar, escolhi no Kaggle o dataset:

**Brazilian League Matches 2003‚Äì2022**  
üîó [Link do dataset no Kaggle](https://www.kaggle.com/datasets/fabrciomacena/brazilian-league-matches-2003-2022)

Este dataset cont√©m informa√ß√µes detalhadas de todas as partidas da S√©rie A entre os anos de 2003 e 2022. Ele inclui:

- Nomes dos times
- Resultados dos jogos
- Datas das partidas
- Locais e est√°dios

---

### üîß Etapa inicial

Vou come√ßar **baixando o dataset e subindo para o Databricks**, para que eu possa manipul√°-lo diretamente na plataforma, aplicando transforma√ß√µes, an√°lises e visualiza√ß√µes.


In [0]:
# Leitura do CSV
df = spark.read.option("header", "true").option("inferSchema", "true").csv("/FileStore/tables/jogos_brasileirao.csv")
df.show(5)
df.printSchema()

+-----+--------------+------------+----------+----------+-----------+----+
|round|       stadium|   home_team|home_score|away_score|  away_team|year|
+-----+--------------+------------+----------+----------+-----------+----+
|    1|Brinco de Ouro|     Guarani|       4.0|       2.0|      Vasco|2003|
|    1|   Ligga Arena|Athletico-PR|       2.0|       0.0|     Gr√™mio|2003|
|    1|Alfredo Jaconi|   Juventude|       2.0|       2.0|  S√£o Paulo|2003|
|    1|      Mineir√£o|    Cruzeiro|       2.0|       2.0|S√£o Caetano|2003|
|    1|      Maracan√£|    Flamengo|       1.0|       1.0|   Coritiba|2003|
+-----+--------------+------------+----------+----------+-----------+----+
only showing top 5 rows

root
 |-- round: integer (nullable = true)
 |-- stadium: string (nullable = true)
 |-- home_team: string (nullable = true)
 |-- home_score: double (nullable = true)
 |-- away_score: double (nullable = true)
 |-- away_team: string (nullable = true)
 |-- year: integer (nullable = true)



Visto que correu tudo bem, vou criar um banco de dados chamado bronze.

In [0]:
%sql

CREATE DATABASE IF NOT EXISTS bronze;

USE bronze;

Vou criar uma tabela chamada jogos e importar os dados do csv para essa tabela.

In [0]:

df = spark.read.option("header", "true").option("inferSchema", "true").csv("/FileStore/tables/jogos_brasileirao.csv")

df.write.format("delta").mode("overwrite").saveAsTable("bronze.jogos")

In [0]:
%sql
SELECT * FROM bronze.jogos LIMIT 5;

round,stadium,home_team,home_score,away_score,away_team,year
1,Brinco de Ouro,Guarani,4.0,2.0,Vasco,2003
1,Ligga Arena,Athletico-PR,2.0,0.0,Gr√™mio,2003
1,Alfredo Jaconi,Juventude,2.0,2.0,S√£o Paulo,2003
1,Mineir√£o,Cruzeiro,2.0,2.0,S√£o Caetano,2003
1,Maracan√£,Flamengo,1.0,1.0,Coritiba,2003


### Esquema Estrela
Optei por implementar um modelo dimensional em Esquema Estrela, onde os dados s√£o organizados em torno de uma tabela fato (fato_jogos) e diversas tabelas dimens√£o relacionadas, com o objetivo de facilitar an√°lises por diferentes perspectivas como time, data e local.


A seguir vou criar a tabela silver fazendo algumas transforma√ß√µes:

In [0]:
from pyspark.sql.functions import col, when

from pyspark.sql.functions import col, when

# Leitura da camada bronze
df = spark.table("bronze.jogos")

# Transforma√ß√µes
df_silver = df.withColumnRenamed("home_team", "time_mandante") \
              .withColumnRenamed("away_team", "time_visitante") \
              .withColumnRenamed("home_score", "gols_mandante") \
              .withColumnRenamed("away_score", "gols_visitante") \
              .withColumnRenamed("date", "data_partida") \
              .withColumnRenamed("stadium", "estadio") \
              .withColumn("resultado", when(col("gols_mandante") > col("gols_visitante"), "Mandante")
                                        .when(col("gols_mandante") < col("gols_visitante"), "Visitante")
                                        .otherwise("Empate"))

# Cria√ß√£o de uma view tempor√°ria para usar no SQL
df_silver.createOrReplaceTempView("vw_jogos_silver")

In [0]:
%sql
-- Cria√ß√£o do schema silver se ainda n√£o existir
CREATE SCHEMA IF NOT EXISTS silver;

-- Cria√ß√£o da tabela a partir da view tempor√°ria
CREATE OR REPLACE TABLE silver.jogos_silver AS
SELECT * FROM vw_jogos_silver;

num_affected_rows,num_inserted_rows


In [0]:
%sql
SELECT * FROM silver.jogos_silver LIMIT 5;

round,estadio,time_mandante,gols_mandante,gols_visitante,time_visitante,year,resultado
1,Brinco de Ouro,Guarani,4.0,2.0,Vasco,2003,Mandante
1,Ligga Arena,Athletico-PR,2.0,0.0,Gr√™mio,2003,Mandante
1,Alfredo Jaconi,Juventude,2.0,2.0,S√£o Paulo,2003,Empate
1,Mineir√£o,Cruzeiro,2.0,2.0,S√£o Caetano,2003,Empate
1,Maracan√£,Flamengo,1.0,1.0,Coritiba,2003,Empate


Agora vou criar a camada gold.

Vou criar uma tabela com estat√≠sticas agregadas por time mandante, por exemplo:

- Total de jogos como mandante

- Total de vit√≥rias, empates, derrotas

- Total de gols marcados e sofridos

- Aproveitamento de pontos (em %)

In [0]:
from pyspark.sql.functions import col, count, sum, when, round

# Leitura da camada Silver
df = spark.table("silver.jogos_silver")

# C√°lculo por time mandante
df_gold = df.groupBy("time_mandante").agg(
    count("*").alias("jogos_mandante"),
    sum(when(col("resultado") == "Mandante", 1).otherwise(0)).alias("vitorias"),
    sum(when(col("resultado") == "Empate", 1).otherwise(0)).alias("empates"),
    sum(when(col("resultado") == "Visitante", 1).otherwise(0)).alias("derrotas"),
    sum(col("gols_mandante")).alias("gols_feitos"),
    sum(col("gols_visitante")).alias("gols_sofridos")
).withColumn(
    "aproveitamento", 
    round((col("vitorias") * 3 + col("empates")) / (col("jogos_mandante") * 3) * 100, 2)
)

# Criar uma view tempor√°ria para salvar com SQL
df_gold.createOrReplaceTempView("vw_gold_estatisticas_mandante")

In [0]:
%sql
-- Criar schema gold se ainda n√£o existir
CREATE SCHEMA IF NOT EXISTS gold;

-- Criar a tabela gold com os dados agregados
CREATE OR REPLACE TABLE gold.estatisticas_mandante AS
SELECT * FROM vw_gold_estatisticas_mandante;

num_affected_rows,num_inserted_rows


In [0]:
%sql
SELECT * FROM gold.estatisticas_mandante LIMIT 5;

time_mandante,jogos_mandante,vitorias,empates,derrotas,gols_feitos,gols_sofridos,aproveitamento
Fortaleza,158,73,41,44,232.0,178.0,54.85
Santos,410,231,106,73,732.0,391.0,64.96
Botafogo,348,162,92,94,532.0,379.0,55.36
Flamengo,409,224,105,80,680.0,383.0,63.33
Atl√©tico-MG,390,218,83,89,677.0,408.0,62.99


## üìö Cat√°logo de Dados ‚Äì Camada Gold (`gold.estatisticas_mandante`)

| Tabela                  | Coluna         | Tipo       | Descri√ß√£o                                           | Dom√≠nio / Faixa Esperada                         |
|------------------------|----------------|------------|-----------------------------------------------------|--------------------------------------------------|
| estatisticas_mandante  | time_mandante  | String     | Nome do time que atuou como mandante                | Nomes oficiais de clubes brasileiros             |
| estatisticas_mandante  | total_jogos    | Integer    | Total de partidas em que o time foi mandante        | Inteiros positivos (> 0)                         |
| estatisticas_mandante  | vitorias       | Integer    | N√∫mero de vit√≥rias como mandante                    | 0 at√© total_jogos                                |
| estatisticas_mandante  | empates        | Integer    | N√∫mero de empates como mandante                     | 0 at√© total_jogos                                |
| estatisticas_mandante  | derrotas       | Integer    | N√∫mero de derrotas como mandante                    | 0 at√© total_jogos                                |
| estatisticas_mandante  | gols_feitos    | Integer    | Total de gols marcados em casa                      | 0 at√© dezenas (dependendo do n√∫mero de jogos)    |
| estatisticas_mandante  | gols_sofridos  | Integer    | Total de gols sofridos em casa                      | 0 at√© dezenas                                    |
| estatisticas_mandante  | saldo_gols     | Integer    | Diferen√ßa entre gols feitos e sofridos              | Pode ser negativo, zero ou positivo              |
| estatisticas_mandante  | aproveitamento | Float (%)  | Percentual de aproveitamento em casa                | 0.0 a 100.0                                       |

Agora que nossa base esta pronta, podemos fazer algumas consultas para responder algumas perguntas.

### 1. Quais times mais venceram como mandantes entre 2002 e 2022?

In [0]:
%sql
SELECT time_mandante, vitorias
FROM gold.estatisticas_mandante
ORDER BY vitorias DESC
LIMIT 10;

time_mandante,vitorias
S√£o Paulo,235
Santos,231
Internacional,229
Flamengo,224
Athletico-PR,221
Atl√©tico-MG,218
Gr√™mio,218
Palmeiras,212
Corinthians,211
Fluminense,206


- Podemos ver que S√£o Paulo, Santos, Internacional, Flamengo e Athletico-PR foram os times com maior n√∫mero de vitorias jogando em casa.

### 2. Qual time teve o maior aproveitamento como mandante?

In [0]:
%sql
SELECT time_mandante, aproveitamento
FROM gold.estatisticas_mandante
ORDER BY aproveitamento DESC
LIMIT 10;

time_mandante,aproveitamento
Gr√™mio,66.76
Internacional,66.67
S√£o Paulo,66.34
Athletico-PR,65.38
Santos,64.96
Palmeiras,64.94
Barueri,64.91
Corinthians,63.42
Flamengo,63.33
Atl√©tico-MG,62.99


- Podemos perceber que Gr√™mio, Internacional, S√£o Paulo, Athletico-PR e Santos s√£o os times com maior aproveitamento como mandante. 
- Mas como √© poss√≠vel o Gr√™mio ser o time com maior aproveitamento se na an√°lise anterior vimos que o S√£o Paulo √© o time com maior vit√≥rias jogando como mandante?
- A resposta √© simples, o aproveitamento leva em conta a efici√™ncia e n√£o o n√∫mero de jogos, os times podem ter a quantidade de jogos diferente.

### 3. Existe correla√ß√£o entre gols marcados como mandante e aproveitamento?

In [0]:
%sql
SELECT time_mandante, gols_feitos, aproveitamento
FROM gold.estatisticas_mandante;

time_mandante,gols_feitos,aproveitamento
Fortaleza,232.0,54.85
Santos,732.0,64.96
Botafogo,532.0,55.36
Flamengo,680.0,63.33
Atl√©tico-MG,677.0,62.99
Vasco,463.0,53.9
Goi√°s,478.0,56.27
Internacional,635.0,66.67
Fluminense,630.0,59.27
Cear√°,160.0,51.13


- Podemos perceber que geralmente os times que marcam muitos gols, tem um aproveitamento melhor.

### 4. Quais times s√£o mais equilibradas entre ataque e defesa em casa?

In [0]:
%sql
SELECT time_mandante,
       gols_feitos,
       gols_sofridos,
       (gols_feitos - gols_sofridos) AS saldo_gols
FROM gold.estatisticas_mandante
ORDER BY saldo_gols DESC
LIMIT 10;

time_mandante,gols_feitos,gols_sofridos,saldo_gols
Santos,732.0,391.0,341.0
S√£o Paulo,688.0,354.0,334.0
Gr√™mio,640.0,330.0,310.0
Internacional,635.0,335.0,300.0
Flamengo,680.0,383.0,297.0
Athletico-PR,645.0,357.0,288.0
Palmeiras,641.0,368.0,273.0
Atl√©tico-MG,677.0,408.0,269.0
Cruzeiro,608.0,374.0,234.0
Corinthians,586.0,355.0,231.0


- Neste caso Santos, S√£o Paulo, Gr√™mio, Internacional e Flamengo tem o maior saldo de gols, o que sugere um equil√≠brio entre ataque e defesa.

### 5. Quais times sofrem mais gols como mandantes?

In [0]:
%sql
SELECT time_mandante, gols_sofridos
FROM gold.estatisticas_mandante
ORDER BY gols_sofridos DESC
LIMIT 10;

time_mandante,gols_sofridos
Fluminense,418.0
Atl√©tico-MG,408.0
Santos,391.0
Flamengo,383.0
Botafogo,379.0
Cruzeiro,374.0
Vasco,369.0
Palmeiras,368.0
Athletico-PR,357.0
Corinthians,355.0


- Fluminense, Atl√©tico-MG, Santos, Flamengo e Botafogo indicam fragilidade defensiva mesmo jogando em casa, o que pode ajudar a explicar baixos aproveitamentos, mas nem tanto, visto que o Santos est√° no Top 5 de melhor aproveitamento, as vezes um time pode tomar muitos gols em casa, mas fazer mais ainda, o que compensa o n√∫mero de gols tomados.

## üìå Conclus√µes Finais

Ao longo deste projeto, foi poss√≠vel perceber como a **an√°lise de dados no futebol** vai muito al√©m de observar estat√≠sticas isoladas. Os n√∫meros contam hist√≥rias, revelam padr√µes e trazem insights, mas tamb√©m mostram que o futebol √© um esporte extremamente complexo, onde in√∫meros fatores t√©cnicos, t√°ticos, emocionais e at√© ambientais influenciam diretamente o resultado de uma partida.

Durante a an√°lise, ficou evidente que m√©tricas como **gols marcados**, **gols sofridos** e **aproveitamento** n√£o devem ser vistas de forma desassociada. Um exemplo interessante foi o caso do **Santos**, que mesmo figurando entre os cinco times que mais sofreram gols jogando em casa, tamb√©m aparece entre os cinco com melhor aproveitamento como mandante. Esse aparente paradoxo mostra que, mesmo com uma defesa mais vulner√°vel, o clube conseguiu manter alta taxa de vit√≥rias ‚Äî possivelmente devido a um ataque eficiente ou desempenho pontual em jogos decisivos.

Esse tipo de observa√ß√£o s√≥ √© poss√≠vel gra√ßas √†:

- ‚úÖ Modelagem adequada dos dados  
- ‚úÖ Constru√ß√£o de pipelines robustos de transforma√ß√£o e carga  
- ‚úÖ Formula√ß√£o de perguntas relevantes com base nos objetivos definidos no in√≠cio do projeto

Utilizando a **plataforma Databricks**, conseguimos transformar uma base de dados bruta em uma estrutura anal√≠tica que nos permitiu explorar diferentes dimens√µes do jogo.

---

### üîç Novas Perguntas Levantadas

Mais do que responder √†s perguntas levantadas inicialmente, este projeto despertou novas curiosidades:

- ‚ùì Como se comportam os times fora de casa?  
- ‚ùì H√° padr√£o de desempenho por d√©cada?  
- ‚ùì Times que marcam mais gols em casa tamb√©m vencem fora?  
- ‚ùì Existe uma correla√ß√£o entre tipo de est√°dio e desempenho?

Essas e muitas outras quest√µes poderiam ser exploradas com o mesmo dataset ou com a inclus√£o de **novas fontes de dados** ‚Äî como escala√ß√µes, treinadores, presen√ßa de torcida, entre outros fatores.

---

### üéì Considera√ß√µes Finais

Foi extremamente enriquecedor ver como os dados podem transformar algo t√£o emocional como o futebol em um campo f√©rtil para **an√°lise racional** e **tomada de decis√µes**. A combina√ß√£o entre a **paix√£o pelo esporte** e o **poder da an√°lise de dados** abre espa√ßo para projetos ainda mais amplos e completos no futuro.
