In [None]:
import pandas as pd
import glob
import os

# Usar caminhos absolutos para não haver erro
path_fbref = r"d:/Diogo/Ambiente de Trabalho/PROJETO/Datasets/FBRef/dataset_completo_final.csv"
path_fd = r"d:/Diogo/Ambiente de Trabalho/PROJETO/Datasets/football_data_co_uk/"

# Carregar FBRef
try:
    df_fbref = pd.read_csv(path_fbref)
    print("FBRef carregado com sucesso!")
except FileNotFoundError:
    print(f"Erro: Não encontrei o ficheiro em {path_fbref}")

# Carregar jogos todos
files = glob.glob(os.path.join(path_fd, "P1_*.csv"))
dfs = []
for f in files:
    dfs.append(pd.read_csv(f))

if dfs:
    df_matches = pd.concat(dfs, ignore_index=True)
    df_matches['Date'] = pd.to_datetime(df_matches['Date'], dayfirst=True, errors='coerce')
    
    # FIX: Remover linhas com datas inválidas (NaT) para não dar erro no cálculo da época
    # E fazer .copy() para evitar o aviso de fragmentação
    df_matches = df_matches.dropna(subset=['Date']).copy()
    
    df_matches = df_matches.sort_values('Date')
    print("Jogos carregados com sucesso!")
else:
    print("Aviso: Não encontrei ficheiros CSV na pasta football_data_co_uk")

In [None]:
# Mapeamento de equipas (Football Data -> FBRef)
mapping = {
    "AVS": "AVS Futebol",
    "Academica": "Académica",
    "Beira Mar": "Beira-Mar",
    "Famalicao": "Famalicão",
    "Maritimo": "Marítimo",
    "Pacos Ferreira": "Paços de Ferreira",
    "Sp Braga": "Braga",
    "Sp Lisbon": "Sporting CP",
    "Setubal": "Vitória Setúbal",
    "Uniao Madeira": "União",
    "Guimaraes": "Vitória",
    "Gil Vicente": "Gil Vicente", # Vamos normalizar o FBRef para "Gil Vicente" também
    "Nacional": "Nacional",
    "Estrela": "Estrela",
    "Leiria": "União de Leiria",
    "Leixoes": "Leixões",
    "Feirense": "Feirense",
    "Belenenses": "Belenenses", # Vamos normalizar o FBRef (B-SAD) para Belenenses
}

# 1. Limpar espaços em branco nos nomes do Football Data
if 'df_matches' in locals():
    df_matches['HomeTeam'] = df_matches['HomeTeam'].str.strip()
    df_matches['AwayTeam'] = df_matches['AwayTeam'].str.strip()

# 2. Normalizar nomes no FBRef (para resolver inconsistências internas como Gil Vicente vs Gil Vicente FC)
if 'df_fbref' in locals():
    fbref_mapping = {
        "Gil Vicente FC": "Gil Vicente",
        "B-SAD": "Belenenses",
        "Sporting": "Sporting CP", # Garantir consistência
    }
    df_fbref['Equipa'] = df_fbref['Equipa'].replace(fbref_mapping)

# 3. Aplicar o mapeamento no Football Data
if 'df_matches' in locals():
    df_matches['HomeTeam'] = df_matches['HomeTeam'].replace(mapping)
    df_matches['AwayTeam'] = df_matches['AwayTeam'].replace(mapping)
    
    print("Mapeamento e Limpeza aplicados!")

In [None]:
# --- FASE DE MERGE ---

def get_season(date):
    # Se o mês for >= 8 (Agosto), pertence à época que começa nesse ano.
    # Ex: 10/08/2023 -> Época 2023-2024
    # Se for < 8 (até Julho), pertence à época que começou no ano anterior.
    # Ex: 05/05/2024 -> Época 2023-2024
    if date.month >= 8:
        return f"{date.year}-{date.year + 1}"
    else:
        return f"{date.year - 1}-{date.year}"

def get_previous_season(season_str):
    # Recebe "2023-2024" e devolve "2022-2023"
    # Proteção contra valores não-string
    if not isinstance(season_str, str):
        return None
    start_year = int(season_str.split('-')[0])
    return f"{start_year - 1}-{start_year}"

if 'df_matches' in locals() and 'df_fbref' in locals():
    # 1. Determinar a época de cada jogo
    df_matches['Season'] = df_matches['Date'].apply(get_season)
    
    # 2. Determinar a época ANTERIOR (para ir buscar as stats históricas)
    df_matches['Previous_Season'] = df_matches['Season'].apply(get_previous_season)
    
    print("Épocas calculadas. Exemplo:")
    print(df_matches[['Date', 'Season', 'Previous_Season']].head())
    
    # 3. Preparar o FBRef para o merge
    # Vamos renomear as colunas do FBRef para não colidirem e para sabermos que são "históricas"
    # Mantemos 'Equipa' e 'Epoca' para a chave de junção
    cols_to_rename = {col: f"hist_{col}" for col in df_fbref.columns if col not in ['Equipa', 'Epoca']}
    df_fbref_hist = df_fbref.rename(columns=cols_to_rename)
    
    # 4. Merge para a equipa da CASA (HomeTeam)
    # Juntamos quando: HomeTeam == Equipa E Previous_Season == Epoca
    df_merged = pd.merge(
        df_matches,
        df_fbref_hist,
        left_on=['HomeTeam', 'Previous_Season'],
        right_on=['Equipa', 'Epoca'],
        how='left',
        suffixes=('', '_Home')
    )
    
    # Renomear as colunas que vieram do merge para indicar que são da equipa da casa
    cols_home = {col: f"Home_{col}" for col in df_fbref_hist.columns if col not in ['Equipa', 'Epoca']}
    df_merged = df_merged.rename(columns=cols_home)
    
    # Remover as colunas de junção redundantes
    if 'Equipa' in df_merged.columns: df_merged = df_merged.drop(columns=['Equipa'])
    if 'Epoca' in df_merged.columns: df_merged = df_merged.drop(columns=['Epoca'])

    # 5. Merge para a equipa de FORA (AwayTeam)
    df_merged = pd.merge(
        df_merged,
        df_fbref_hist,
        left_on=['AwayTeam', 'Previous_Season'],
        right_on=['Equipa', 'Epoca'],
        how='left',
        suffixes=('', '_Away')
    )
    
    # Renomear para Away
    cols_away = {col: f"Away_{col}" for col in df_fbref_hist.columns if col not in ['Equipa', 'Epoca']}
    df_merged = df_merged.rename(columns=cols_away)
    
    # Limpeza final
    if 'Equipa' in df_merged.columns: df_merged = df_merged.drop(columns=['Equipa'])
    if 'Epoca' in df_merged.columns: df_merged = df_merged.drop(columns=['Epoca'])
    
    print(f"Merge concluído! Shape final: {df_merged.shape}")
    
    # 6. Guardar o ficheiro
    output_file = "dataset_final_merged.csv"
    df_merged.to_csv(output_file, index=False)
    print(f"Ficheiro guardado como: {output_file}")