In [None]:
<!--

#‚öΩ 01 ‚Äî EDA Brasileir√£o (CBF 2003‚Äì2023)

Este notebook faz a **an√°lise explorat√≥ria (EDA)** e valida√ß√µes b√°sicas de qualidade do dataset da CBF (via Base dos Dados).

**Objetivos:**
- Validar cobertura por ano/rodada
- Checar nulos/duplicatas e consist√™ncia de placares
- Criar target `resultado` (H/D/A)
- Exportar uma base m√≠nima e limpa em `data/interim` para uso nos pr√≥ximos notebooks

**Sa√≠da:**
- `data/interim/cbf_2003_2024.parquet` (somente colunas essenciais)

-->

In [1]:
from google.colab import drive
drive.mount("/content/drive")

import pandas as pd
import numpy as np
from pathlib import Path

pd.set_option("display.max_columns", 200)
pd.set_option("display.width", 200)

PROJECT = Path("/content/drive/MyDrive/DataProjects/BRMP-Brazilian-Match-Prediction")
RAW = PROJECT / "data" / "raw"
INTERIM = PROJECT / "data" / "interim"
INTERIM.mkdir(parents=True, exist_ok=True)

RAW, INTERIM


Mounted at /content/drive


(PosixPath('/content/drive/MyDrive/DataProjects/BRMP-Brazilian-Match-Prediction/data/raw'),
 PosixPath('/content/drive/MyDrive/DataProjects/BRMP-Brazilian-Match-Prediction/data/interim'))

In [2]:
FILE = RAW / "brasileirao_serie_a_2003_2024.csv"
assert FILE.exists(), f"Arquivo n√£o encontrado: {FILE}"

df = pd.read_csv(FILE)

# Parse + ordena√ß√£o
df["data"] = pd.to_datetime(df["data"], errors="coerce")
invalid_dates = df["data"].isna().sum()
assert invalid_dates == 0, f"Datas inv√°lidas: {invalid_dates}"

df = df.sort_values("data").reset_index(drop=True)

df.shape, df.head(3)


((8453, 35),
    ano_campeonato       data  rodada                             estadio arbitro  publico  publico_max time_mandante time_visitante tecnico_mandante tecnico_visitante  colocacao_mandante  \
 0            2003 2003-03-29       1  Est√°dio Brinco de Ouro da Princesa     NaN      NaN          NaN       Guarani  Vasco da Gama              NaN               NaN                 NaN   
 1            2003 2003-03-29       1                    Arena da Baixada     NaN      NaN          NaN   Atl√©tico-PR         Gr√™mio              NaN               NaN                 NaN   
 2            2003 2003-03-30       1  Est√°dio Governador Magalh√£es Pinto     NaN      NaN          NaN      Cruzeiro    S√£o Caetano              NaN               NaN                 NaN   
 
    colocacao_visitante  valor_equipe_titular_mandante  valor_equipe_titular_visitante  idade_media_titular_mandante  idade_media_titular_visitante  gols_mandante  gols_visitante  \
 0                  NaN          

In [3]:
print("Shape:", df.shape)
display(df.head(5))

print("\n--- INFO ---")
display(df.info())

print("\n--- Cobertura por ano (jogos) ---")
games_by_year = df.groupby("ano_campeonato").size()
display(games_by_year)

print("\n--- Rodadas por ano (n√∫mero de rodadas distintas) ---")
rounds_by_year = df.groupby("ano_campeonato")["rodada"].nunique().sort_index()
display(rounds_by_year)

print("\n--- Rodadas de 2024 (lista) ---")
rounds_2024 = sorted(df.loc[df["ano_campeonato"] == 2024, "rodada"].dropna().unique())
print("Total rodadas distintas em 2024:", len(rounds_2024))
print(rounds_2024)

print("\n--- Contagem de jogos por rodada em 2024 ---")
games_2024_by_round = (
    df[df["ano_campeonato"] == 2024]
    .groupby("rodada")
    .size()
    .rename("jogos")
    .to_frame()
)
display(games_2024_by_round)

print("\n--- % Nulos (top 15) ---")
null_pct = (df.isna().mean().sort_values(ascending=False).head(15))
display(null_pct)

print("\n--- Duplicatas l√≥gicas (data + mandante + visitante) ---")
dup_mask = df.duplicated(subset=["data", "time_mandante", "time_visitante"], keep=False)
print("Total duplicatas l√≥gicas:", int(dup_mask.sum()))
if dup_mask.any():
    display(df.loc[dup_mask, ["data", "time_mandante", "time_visitante", "gols_mandante", "gols_visitante"]].head(10))

print("\n--- Sanity placares ---")
print("Gols mandante nulos:", df["gols_mandante"].isna().sum())
print("Gols visitante nulos:", df["gols_visitante"].isna().sum())
print("Min/Max gols mandante:", (df["gols_mandante"].min(), df["gols_mandante"].max()))
print("Min/Max gols visitante:", (df["gols_visitante"].min(), df["gols_visitante"].max()))


Shape: (8453, 35)


Unnamed: 0,ano_campeonato,data,rodada,estadio,arbitro,publico,publico_max,time_mandante,time_visitante,tecnico_mandante,tecnico_visitante,colocacao_mandante,colocacao_visitante,valor_equipe_titular_mandante,valor_equipe_titular_visitante,idade_media_titular_mandante,idade_media_titular_visitante,gols_mandante,gols_visitante,gols_1_tempo_mandante,gols_1_tempo_visitante,escanteios_mandante,escanteios_visitante,faltas_mandante,faltas_visitante,chutes_bola_parada_mandante,chutes_bola_parada_visitante,defesas_mandante,defesas_visitante,impedimentos_mandante,impedimentos_visitante,chutes_mandante,chutes_visitante,chutes_fora_mandante,chutes_fora_visitante
0,2003,2003-03-29,1,Est√°dio Brinco de Ouro da Princesa,,,,Guarani,Vasco da Gama,,,,,,,,,4.0,2.0,,,,,,,,,,,,,,,,
1,2003,2003-03-29,1,Arena da Baixada,,,,Atl√©tico-PR,Gr√™mio,,,,,,,,,2.0,0.0,,,,,,,,,,,,,,,,
2,2003,2003-03-30,1,Est√°dio Governador Magalh√£es Pinto,,,,Cruzeiro,S√£o Caetano,,,,,,,,,2.0,2.0,,,,,,,,,,,,,,,,
3,2003,2003-03-30,1,Est√°dio Jornalista M√°rio Filho,,,,Flamengo,Coritiba FC,,,,,,,,,1.0,1.0,,,,,,,,,,,,,,,,
4,2003,2003-03-30,1,Est√°dio Governador Pl√°cido Castelo,,,,Fortaleza,EC Bahia,,,,,,,,,0.0,0.0,,,,,,,,,,,,,,,,



--- INFO ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8453 entries, 0 to 8452
Data columns (total 35 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   ano_campeonato                  8453 non-null   int64         
 1   data                            8453 non-null   datetime64[ns]
 2   rodada                          8453 non-null   int64         
 3   estadio                         8442 non-null   object        
 4   arbitro                         6743 non-null   object        
 5   publico                         6742 non-null   float64       
 6   publico_max                     4181 non-null   float64       
 7   time_mandante                   8453 non-null   object        
 8   time_visitante                  8453 non-null   object        
 9   tecnico_mandante                6299 non-null   object        
 10  tecnico_visitante               6299 non-null   object    

None


--- Cobertura por ano (jogos) ---


Unnamed: 0_level_0,0
ano_campeonato,Unnamed: 1_level_1
2003,456
2004,456
2005,418
2006,380
2007,380
2008,380
2009,380
2010,380
2011,380
2012,380



--- Rodadas por ano (n√∫mero de rodadas distintas) ---


Unnamed: 0_level_0,rodada
ano_campeonato,Unnamed: 1_level_1
2003,38
2004,38
2005,38
2006,38
2007,38
2008,38
2009,38
2010,38
2011,38
2012,38



--- Rodadas de 2024 (lista) ---
Total rodadas distintas em 2024: 29
[np.int64(1), np.int64(2), np.int64(3), np.int64(4), np.int64(5), np.int64(6), np.int64(7), np.int64(8), np.int64(9), np.int64(12), np.int64(13), np.int64(14), np.int64(15), np.int64(16), np.int64(17), np.int64(18), np.int64(19), np.int64(20), np.int64(21), np.int64(22), np.int64(23), np.int64(24), np.int64(25), np.int64(26), np.int64(27), np.int64(28), np.int64(29), np.int64(30), np.int64(31)]

--- Contagem de jogos por rodada em 2024 ---


Unnamed: 0_level_0,jogos
rodada,Unnamed: 1_level_1
1,10
2,10
3,10
4,10
5,10
6,10
7,10
8,10
9,10
12,10



--- % Nulos (top 15) ---


Unnamed: 0,0
chutes_fora_visitante,0.753105
defesas_visitante,0.753105
defesas_mandante,0.753105
faltas_mandante,0.753105
faltas_visitante,0.753105
chutes_bola_parada_visitante,0.753105
chutes_fora_mandante,0.753105
impedimentos_visitante,0.753105
impedimentos_mandante,0.753105
chutes_visitante,0.753105



--- Duplicatas l√≥gicas (data + mandante + visitante) ---
Total duplicatas l√≥gicas: 0

--- Sanity placares ---
Gols mandante nulos: 1
Gols visitante nulos: 1
Min/Max gols mandante: (0.0, 7.0)
Min/Max gols visitante: (0.0, 7.0)


In [4]:
# Remove linhas sem placar (se existirem)
df = df.dropna(subset=["gols_mandante", "gols_visitante"]).copy()

def compute_result(row):
    if row["gols_mandante"] > row["gols_visitante"]:
        return "H"
    elif row["gols_mandante"] < row["gols_visitante"]:
        return "A"
    return "D"

df["resultado"] = df.apply(compute_result, axis=1)

print("--- Distribui√ß√£o geral (H/D/A) ---")
display(df["resultado"].value_counts())

print("\n--- Distribui√ß√£o por ano (%) ---")
dist_year = (
    df.groupby(["ano_campeonato", "resultado"])
      .size()
      .groupby(level=0)
      .apply(lambda s: s / s.sum())
      .unstack()
      .fillna(0)
)
display(dist_year.tail(10))


--- Distribui√ß√£o geral (H/D/A) ---


Unnamed: 0_level_0,count
resultado,Unnamed: 1_level_1
H,4182
D,2248
A,2022



--- Distribui√ß√£o por ano (%) ---


Unnamed: 0_level_0,resultado,A,D,H
ano_campeonato,ano_campeonato,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,2015,0.234211,0.239474,0.526316
2016,2016,0.218997,0.248021,0.532982
2017,2017,0.289474,0.271053,0.439474
2018,2018,0.178947,0.289474,0.531579
2019,2019,0.257895,0.257895,0.484211
2020,2020,0.265789,0.284211,0.45
2021,2021,0.244737,0.297368,0.457895
2022,2022,0.273684,0.284211,0.442105
2023,2023,0.273684,0.257895,0.468421
2024,2024,0.243816,0.261484,0.4947


In [5]:
df = df[df["ano_campeonato"] <= 2023].copy()


In [6]:
# Base m√≠nima para os pr√≥ximos passos (modelagem e compara√ß√µes)
cols = [
    "data",
    "ano_campeonato",
    "rodada",
    "time_mandante",
    "time_visitante",
    "gols_mandante",
    "gols_visitante",
    "resultado",
]

cbf_base = df[cols].copy()

out = INTERIM / "cbf_2003_2023.parquet"
cbf_base.to_parquet(out, index=False)

print("‚úÖ Export conclu√≠do:", out)
print("Shape:", cbf_base.shape)
display(cbf_base.head(5))


‚úÖ Export conclu√≠do: /content/drive/MyDrive/DataProjects/BRMP-Brazilian-Match-Prediction/data/interim/cbf_2003_2023.parquet
Shape: (8169, 8)


Unnamed: 0,data,ano_campeonato,rodada,time_mandante,time_visitante,gols_mandante,gols_visitante,resultado
0,2003-03-29,2003,1,Guarani,Vasco da Gama,4.0,2.0,H
1,2003-03-29,2003,1,Atl√©tico-PR,Gr√™mio,2.0,0.0,H
2,2003-03-30,2003,1,Cruzeiro,S√£o Caetano,2.0,2.0,D
3,2003-03-30,2003,1,Flamengo,Coritiba FC,1.0,1.0,D
4,2003-03-30,2003,1,Fortaleza,EC Bahia,0.0,0.0,D


In [9]:
<!--
## üßæ Sum√°rio Final ‚Äî EDA Brasileir√£o (CBF 2003‚Äì2023)

Este notebook realizou a an√°lise explorat√≥ria e valida√ß√µes b√°sicas do dataset hist√≥rico do Campeonato Brasileiro (S√©rie A), considerando **exclusivamente o per√≠odo de 2003 a 2023**.

### üîç Principais verifica√ß√µes realizadas
- Leitura e ordena√ß√£o temporal dos dados
- Valida√ß√£o de datas, placares e consist√™ncia geral
- An√°lise de cobertura por ano e rodadas
- Avalia√ß√£o de valores ausentes e duplicatas l√≥gicas
- Cria√ß√£o do target **resultado** (`H`, `D`, `A`)

### üìä Cobertura temporal
- Per√≠odo analisado: **2003 ‚Üí 2023**
- Cobertura anual consistente, com aproximadamente **380 jogos por temporada** nos anos de pontos corridos
- N√£o foram identificadas inconsist√™ncias graves de duplicidade de partidas

### üéØ Target (Resultado da Partida)
O target foi definido a partir do placar final:
- **H** ‚Äî Vit√≥ria do mandante
- **D** ‚Äî Empate
- **A** ‚Äî Vit√≥ria do visitante

A distribui√ß√£o do target mostrou-se **realista e est√°vel ao longo dos anos**, com maior incid√™ncia de vit√≥rias do mandante, padr√£o esperado no futebol brasileiro.

### ‚ö†Ô∏è Observa√ß√µes importantes
- A temporada **2024 foi explicitamente removida** deste notebook para evitar:
  - dados incompletos
  - rodadas faltantes
  - poss√≠veis distor√ß√µes na an√°lise explorat√≥ria
- A resolu√ß√£o de diferen√ßas entre fontes e tratamento de temporadas recentes √© feita no notebook
  **`02_compare_sources.ipynb`**

### üíæ Sa√≠da do Notebook
Foi gerada uma base m√≠nima e limpa contendo apenas colunas essenciais:

- `data`
- `ano_campeonato`
- `rodada`
- `time_mandante`
- `time_visitante`
- `gols_mandante`
- `gols_visitante`
- `resultado`

üì¶ Arquivo exportado: data/interim/cbf_2003_2023.parquet

### ‚û°Ô∏è Pr√≥ximo passo
O pr√≥ximo notebook do pipeline √©:

**`02_compare_sources.ipynb`**
Respons√°vel por:
- Comparar a base da CBF com `football-data.co.uk`
- Resolver diverg√™ncias temporais (¬±1 dia)
- Definir a fonte final para modelagem preditiva

-->


SyntaxError: invalid character '‚Üí' (U+2192) (ipython-input-3119272192.py, line 14)