In [2]:
# importar as bibliotecas
import pandas as pd
import numpy as np


In [3]:
# 1. Carregar os datasets
try:
  # arquivo dos resultados das partidas internacionais
  df_partidas = pd.read_csv('results.csv')

  # ranking da FIFA
  df_ranking = pd.read_csv('fifa_ranking.csv')

  print("Datasets carregados com sucesso!")
except FileNotFoundError:
  print("Erro: Arquivo CSV não encontrado.")
  print("Por favor, verifique o caminho para os arquivos")

  df_partidas = None
  df_ranking = None


Datasets carregados com sucesso!


In [4]:
# 2. Exploração dos dados
if df_partidas is not None and df_ranking is not None:
  print("\n--- Amostra do Dataset de partidas (df_partidas.head()) ---")
  print(df_partidas.head())

  print("\n--- Amostra do Dataset de ranking (df_ranking.head()) ---")
  print(df_ranking.head())


--- Amostra do Dataset de partidas (df_partidas.head()) ---
         date home_team away_team  home_score  away_score tournament     city  \
0  1872-11-30  Scotland   England           0           0   Friendly  Glasgow   
1  1873-03-08   England  Scotland           4           2   Friendly   London   
2  1874-03-07  Scotland   England           2           1   Friendly  Glasgow   
3  1875-03-06   England  Scotland           2           2   Friendly   London   
4  1876-03-04  Scotland   England           3           0   Friendly  Glasgow   

    country  neutral  
0  Scotland    False  
1   England    False  
2  Scotland    False  
3   England    False  
4  Scotland    False  

--- Amostra do Dataset de ranking (df_ranking.head()) ---
    rank       country_full country_abrv  total_points  previous_points  \
0  140.0  Brunei Darussalam          BRU           2.0              0.0   
1   33.0           Portugal          POR          38.0              0.0   
2   32.0             Zambia   

In [5]:
print("\n --- Informações sobre as colunas (df_partidas.info()) ---")
df_partidas.info()

print("\n --- Informações sobre as colunas (df_ranking.info()) ---")
df_ranking.info()


 --- Informações sobre as colunas (df_partidas.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48673 entries, 0 to 48672
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   date        48673 non-null  object
 1   home_team   48673 non-null  object
 2   away_team   48673 non-null  object
 3   home_score  48673 non-null  int64 
 4   away_score  48673 non-null  int64 
 5   tournament  48673 non-null  object
 6   city        48673 non-null  object
 7   country     48673 non-null  object
 8   neutral     48673 non-null  bool  
dtypes: bool(1), int64(2), object(6)
memory usage: 3.0+ MB

 --- Informações sobre as colunas (df_ranking.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67472 entries, 0 to 67471
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   rank             67463 non-null  float64
 1   country_full     67472 

In [6]:
import pandas as pd


In [7]:
# 1.b Limpeza e preparação dos dados
if df_partidas is not None and df_ranking is not None:
  print("\n--- Iniciando Limpeza de Dados ---")

  # Conversão de datas
  # Converte as colunas de data de 'object' (texto) para 'datetime' (data real)
  df_partidas['date'] = pd.to_datetime(df_partidas['date'])
  df_ranking['rank_date'] = pd.to_datetime(df_ranking['rank_date'])

  print("Colunas 'date' e 'rank_date' convertidas com sucesso!")


--- Iniciando Limpeza de Dados ---
Colunas 'date' e 'rank_date' convertidas com sucesso!


In [8]:
# 2 Verificação inicial dos nomes
times_partidas = df_partidas['home_team'].unique()
times_ranking = df_ranking['country_full'].unique()

print(f"\nTimes únidos em 'partidas': {len(times_partidas)}")
print(f"Times únidos em 'ranking': {len(times_ranking)}")



Times únidos em 'partidas': 325
Times únidos em 'ranking': 216


In [9]:
print("\n--- Verificação pós limpeza de datas (df_partidas.info()) ---")
df_partidas.info()

print("\n--- Verificação pós limpeza de datas (df_ranking.info()) ---")
df_ranking.info()


--- Verificação pós limpeza de datas (df_partidas.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48673 entries, 0 to 48672
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   date        48673 non-null  datetime64[ns]
 1   home_team   48673 non-null  object        
 2   away_team   48673 non-null  object        
 3   home_score  48673 non-null  int64         
 4   away_score  48673 non-null  int64         
 5   tournament  48673 non-null  object        
 6   city        48673 non-null  object        
 7   country     48673 non-null  object        
 8   neutral     48673 non-null  bool          
dtypes: bool(1), datetime64[ns](1), int64(2), object(5)
memory usage: 3.0+ MB

--- Verificação pós limpeza de datas (df_ranking.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67472 entries, 0 to 67471
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         


In [10]:
import pandas as pd

In [11]:
if df_partidas is not None and df_ranking is not None:
  print("\n--- Iniciando Merge ---")


--- Iniciando Merge ---


In [14]:
df_ranking = df_ranking.rename(columns={
        'country_full': 'time',  # Nome genérico que usaremos para juntar
        'rank_date': 'data_ranking' # Nome claro da data do ranking
    })



In [17]:
# ordenar os dataframes pela data
df_partidas = df_partidas.sort_values(by='date')
df_ranking = df_ranking.sort_values(by='data_ranking')

print("Dataframes ordenados por data.")

Dataframes ordenados por data.


In [21]:
# Merge 1: Pegar o ranking do time da casa
df_merged = pd.merge_asof(
        df_partidas,
        df_ranking,
        left_on='date',
        right_on='data_ranking',
        left_by='home_team',
        right_by='time',
        direction='backward', # Pega o ranking mais recente antes (ou igual) da data do jogo
        suffixes=('_partida', '_home')
    )

print("Merge 1 (Time da Casa) concluída.")

Merge 1 (Time da Casa) concluída.


In [22]:
# Merge 2: Pegar o ranking do time visitante
df_final = pd.merge_asof(
        df_merged,
        df_ranking,
        left_on='date',
        right_on='data_ranking',
        left_by='away_team',
        right_by='time',
        direction='backward',
        suffixes=('_home', '_away') # Agora, 'rank' vira 'rank_away'
    )

print("Merge 2 (Time Visitante) concluída.")

Merge 2 (Time Visitante) concluída.


In [24]:
# Verificação pós merge
print("\n--- Amostra do Dataset Final (df_final.head()) ---")
colunas_interesse = [
        'date',
        'home_team',
        'away_team',
        'home_score',
        'away_score',
        'rank_home', # Criado no Merge 1
        'rank_away'  # Criado no Merge 2
    ]

print(df_final[colunas_interesse].head())


--- Amostra do Dataset Final (df_final.head()) ---
        date home_team away_team  home_score  away_score  rank_home  rank_away
0 1872-11-30  Scotland   England           0           0        NaN        NaN
1 1873-03-08   England  Scotland           4           2        NaN        NaN
2 1874-03-07  Scotland   England           2           1        NaN        NaN
3 1875-03-06   England  Scotland           2           2        NaN        NaN
4 1876-03-04  Scotland   England           3           0        NaN        NaN


In [26]:
# Verificando dados faltantes
print("\n--- Verificação de Dados Faltantes (NaN) ---")

missing_home = df_final['rank_home'].isnull().sum()
missing_away = df_final['rank_away'].isnull().sum()
total_rows = len(df_final)

print(f"Linhas totais: {total_rows}")
print(f"Rankings do time da casa faltando (NaN): {missing_home} ({missing_home/total_rows:.1%})")
print(f"Rankings do time visitante faltando (NaN): {missing_away} ({missing_away/total_rows:.1%})")


--- Verificação de Dados Faltantes (NaN) ---
Linhas totais: 48673
Rankings do time da casa faltando (NaN): 22368 (46.0%)
Rankings do time visitante faltando (NaN): 22410 (46.0%)


In [27]:
import pandas as pd
import numpy as np


In [28]:
if 'df_final' in locals() and df_final is not None:
  print("\n--- Iniciando limpeza final e Engenharia de Features ---")


--- Iniciando limpeza final e Engenharia de Features ---


In [29]:
# Removendo dados faltantes
df_modelo = df_final.dropna(subset=['rank_home', 'rank_away'])

print(f"Linhas antes da limpeza de NaN: {len(df_final)}")
print(f"Linhas após a limpeza de NaN: {len(df_modelo)}")
print(f"Jogos removidos (principalmente pré-1992): {len(df_final) - len(df_modelo)}")

Linhas antes da limpeza de NaN: 48673
Linhas após a limpeza de NaN: 23852
Jogos removidos (principalmente pré-1992): 24821


In [30]:
# Criação da variável alvo
# O modelo precisa prever uma categoria: 0 (Casa Venceu), 1 (Empate), 2 (Visitante Venceu)

conditions = [
        (df_modelo['home_score'] > df_modelo['away_score']),  # Vitória Casa
        (df_modelo['home_score'] == df_modelo['away_score']), # Empate
        (df_modelo['home_score'] < df_modelo['away_score'])   # Vitória Visitante
    ]

choices = [0, 1, 2] # 0=Casa, 1=Empate, 2=Visitante

df_modelo['resultado'] = np.select(conditions, choices)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_modelo['resultado'] = np.select(conditions, choices)


In [32]:
# Criação de Features Preditivas
# Um ranking menor é melhor (ex: Rank 1 é melhor que Rank 50).

# (Rank Visitante - Rank Casa).
# Se positivo: Casa é melhor ranqueada.
# Se negativo: Visitante é melhor ranqueado.
df_modelo['diferenca_ranking'] = df_modelo['rank_away'] - df_modelo['rank_home']

# Feature: O jogo é de Copa do Mundo? (Isso pode ter um peso diferente de um amistoso)
if 'tournament' in df_modelo.columns:
    df_modelo['e_copa_do_mundo'] = df_modelo['tournament'].apply(
        lambda x: 1 if 'FIFA World Cup' in x else 0
        )
else:
  df_modelo['e_copa_do_mundo'] = 0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_modelo['diferenca_ranking'] = df_modelo['rank_away'] - df_modelo['rank_home']
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_modelo['e_copa_do_mundo'] = df_modelo['tournament'].apply(


In [36]:
# Seleção dos dados para o modelo
# Estas são as colunas que o modelo usará para aprender (X)
features = ['diferenca_ranking', 'e_copa_do_mundo']

# Esta é a coluna que o modelo tentará prever (y)
target = 'resultado'

# Criando os dataframes X (features) e y (target)
if 'df_modelo' in locals() and df_modelo is not None:
    X = df_modelo[features]
    y = df_modelo[target]

    print("\n--- Dataset pronto para modelagem! ---")
    print("\nFeatures (X) que o modelo usará (amostra):")
    print(X.head())
    print("\nAlvo (y) que o modelo preverá (amostra):")
    print(y.head())

    print(f"\nTotal de jogos que usaremos para treinar: {len(X)}")
else:
    print("Erro: O dataframe 'df_modelo' não foi encontrado. Rode o passo anterior.")


--- Dataset pronto para modelagem! ---

Features (X) que o modelo usará (amostra):
       diferenca_ranking  e_copa_do_mundo
18703               30.0                0
18704               42.0                0
18705               90.0                0
18706              -28.0                0
18707              -16.0                0

Alvo (y) que o modelo preverá (amostra):
18703    1
18704    1
18705    0
18706    0
18707    2
Name: resultado, dtype: int64

Total de jogos que usaremos para treinar: 23852


In [38]:
# Treinar e avaliar o modelo
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [39]:
if 'X' in locals() and 'y' in locals():

    print("\n--- Iniciando Modelagem de Machine Learning ---")


--- Iniciando Modelagem de Machine Learning ---


In [41]:
# Divisão dos dados (treino e teste)
# 80% treino, 20% teste

X_treino, X_teste, y_treino, y_teste = train_test_split(
        X, y,
        test_size=0.2, # 20% para teste
        random_state=42
    )

print(f"Tamanho do conjunto de Treino: {len(X_treino)} jogos")
print(f"Tamanho do conjunto de Teste: {len(X_teste)} jogos")

Tamanho do conjunto de Treino: 19081 jogos
Tamanho do conjunto de Teste: 4771 jogos


In [42]:
# Criação e treinamento do modelo
print("\nTreinando o modelo RandomForestClassifier...")

modelo = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)


modelo.fit(X_treino, y_treino)

print("Modelo treinado com sucesso!")


Treinando o modelo RandomForestClassifier...
Modelo treinado com sucesso!


In [44]:
# Avaliação do modelo
print("\nAvaliando o modelo no conjunto de Teste (dados nunca vistos)...")

if 'X_teste' in locals() and 'y_teste' in locals() and 'modelo' in locals():
    # Pedimos ao modelo para prever os resultados de X_teste
    y_predicoes = modelo.predict(X_teste)

    # Comparamos as previsões (y_predicoes) com os resultados reais (y_teste)
    acuracia = accuracy_score(y_teste, y_predicoes)

    print("\n--- RESULTADOS ---")
    print(f"Acurácia do Modelo: {acuracia * 100:.2f}%")

    # Vamos ver um relatório mais detalhado
    # 0 = Vitória Casa, 1 = Empate, 2 = Vitória Visitante
    print("\nRelatório de Classificação Detalhado:")
    print(classification_report(y_teste, y_predicoes, target_names=['Casa Vence', 'Empate', 'Visitante Vence']))

else:
    print("Erro: Variáveis X (features) e y (target) não encontradas. Rode o passo anterior.")


Avaliando o modelo no conjunto de Teste (dados nunca vistos)...

--- RESULTADOS ---
Acurácia do Modelo: 56.11%

Relatório de Classificação Detalhado:
                 precision    recall  f1-score   support

     Casa Vence       0.60      0.84      0.70      2321
         Empate       0.27      0.03      0.06      1133
Visitante Vence       0.49      0.52      0.51      1317

       accuracy                           0.56      4771
      macro avg       0.46      0.47      0.42      4771
   weighted avg       0.49      0.56      0.50      4771



In [45]:
# re-treinando com class_weight='balanced'
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [46]:
if 'X' in locals() and 'y' in locals():

    print("\n--- Iniciando Modelagem (Versão 2: Balanceada) ---")


--- Iniciando Modelagem (Versão 2: Balanceada) ---


In [47]:
X_treino, X_teste, y_treino, y_teste = train_test_split(
        X, y,
        test_size=0.2,
        random_state=42
    )

In [49]:
print("\nTreinando o modelo RandomForestClassifier com class_weight='balanced'...")

# Criação e treinamento do modelo balanceado
modelo_balanceado = RandomForestClassifier(
    n_estimators=100,
    random_state=42,
    n_jobs=-1,
    class_weight='balanced' # <-- AQUI ESTÁ A MUDANÇA
)

# Treinamento do modelo balanceado
modelo_balanceado.fit(X_treino, y_treino)

print("Modelo treinado com sucesso!")


Treinando o modelo RandomForestClassifier com class_weight='balanced'...
Modelo treinado com sucesso!


In [51]:
modelo_balanceado.fit(X_treino, y_treino)

print("Modelo balanceado treinado com sucesso!")

Modelo balanceado treinado com sucesso!


In [53]:
print("\nAvaliando o modelo BALANCEADO no conjunto de Teste...")

if 'X_teste' in locals() and 'y_teste' in locals() and 'modelo_balanceado' in locals():
    y_predicoes_balanceado = modelo_balanceado.predict(X_teste)

    acuracia_balanceada = accuracy_score(y_teste, y_predicoes_balanceado)

    print("\n--- RESULTADOS (Modelo Balanceado) ---")
    print(f"Acurácia do Modelo: {acuracia_balanceada * 100:.2f}%")

    print("\nRelatório de Classificação Detalhado (Modelo Balanceado):")
    print(classification_report(y_teste, y_predicoes_balanceado, target_names=['Casa Vence', 'Empate', 'Visitante Vence']))

else:
    print("Erro: Variáveis X (features) e y (target) não encontradas. Rode o passo anterior.")


Avaliando o modelo BALANCEADO no conjunto de Teste...

--- RESULTADOS (Modelo Balanceado) ---
Acurácia do Modelo: 48.96%

Relatório de Classificação Detalhado (Modelo Balanceado):
                 precision    recall  f1-score   support

     Casa Vence       0.70      0.55      0.61      2321
         Empate       0.25      0.34      0.29      1133
Visitante Vence       0.47      0.52      0.50      1317

       accuracy                           0.49      4771
      macro avg       0.48      0.47      0.47      4771
   weighted avg       0.53      0.49      0.50      4771



In [54]:
# Engenharia de Features Avançada (Rolling Averages)
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [55]:
if 'df_final' not in locals() or df_final is None:
    print("Erro: df_final não encontrado. Por favor, rode os passos anteriores de carga e merge.")
else:
    print("--- Iniciando Engenharia de Features Avançada ---")

--- Iniciando Engenharia de Features Avançada ---


In [57]:
# Recriar o Dataframe 'df_full'
df_full = df_final.dropna(subset=['rank_home', 'rank_away']).copy()

# Adicionar um ID único para cada partida para o merge
df_full = df_full.reset_index().rename(columns={'index': 'match_id'})


# Criar a variável alvo (resultado)
conditions = [
        (df_full['home_score'] > df_full['away_score']),
        (df_full['home_score'] == df_full['away_score']),
        (df_full['home_score'] < df_full['away_score'])
    ]
choices = [0, 1, 2] # 0=Casa, 1=Empate, 2=Visitante
df_full['resultado'] = np.select(conditions, choices)

print("1. Dataframe 'df_full' recriado com 'match_id' e 'resultado'.")

1. Dataframe 'df_full' recriado com 'match_id' e 'resultado'.


In [59]:
# criar dataframe por time
# Seleciona e renomeia colunas do time da CASA
df_home_stats = df_full[['match_id', 'date', 'home_team', 'home_score', 'away_score']].rename(columns={
    'home_team': 'team',
    'home_score': 'goals_scored',
    'away_score': 'goals_conceded'
})

# Seleciona e renomeia colunas do time VISITANTE
df_away_stats = df_full[['match_id', 'date', 'away_team', 'away_score', 'home_score']].rename(columns={
    'away_team': 'team',
    'away_score': 'goals_scored',
    'home_score': 'goals_conceded'
})

# Concatena os dois dataframes
df_long_stats = pd.concat([df_home_stats, df_away_stats])

# Ordena por time e data
df_long_stats = df_long_stats.sort_values(by=['team', 'date'])

print("2. Dataframe 'longo' (df_long_stats) criado.")

2. Dataframe 'longo' (df_long_stats) criado.


In [60]:
# calcular estatísticas de janela
df_long_stats['avg_scored'] = df_long_stats.groupby('team')['goals_scored'].rolling(window=5, min_periods=1).mean().shift(1).reset_index(level=0, drop=True)
df_long_stats['avg_conceded'] = df_long_stats.groupby('team')['goals_conceded'].rolling(window=5, min_periods=1).mean().shift(1).reset_index(level=0, drop=True)

df_long_stats = df_long_stats.fillna(0)

print("3. Estatísticas rolling (avg_scored, avg_conceded) calculadas.")

3. Estatísticas rolling (avg_scored, avg_conceded) calculadas.


In [62]:
# Merge
# time da casa
df_full = pd.merge(
        df_full,
        df_long_stats[['match_id', 'team', 'avg_scored', 'avg_conceded']],
        left_on=['match_id', 'home_team'],
        right_on=['match_id', 'team'],
        suffixes=('', '_drop')
    ).rename(columns={
        'avg_scored': 'avg_scored_home',
        'avg_conceded': 'avg_conceded_home'
    }).drop(columns=['team', 'team_drop'], errors='ignore')

# time visitante
df_full = pd.merge(
        df_full,
        df_long_stats[['match_id', 'team', 'avg_scored', 'avg_conceded']],
        left_on=['match_id', 'away_team'],
        right_on=['match_id', 'team'],
        suffixes=('', '_drop')
    ).rename(columns={
        'avg_scored': 'avg_scored_away',
        'avg_conceded': 'avg_conceded_away'
    }).drop(columns=['team', 'team_drop'], errors='ignore')

print("4. Novas features (média de gols) juntadas ao dataframe 'df_full'.")

4. Novas features (média de gols) juntadas ao dataframe 'df_full'.


In [65]:
# treinar novo modelo
df_full['diferenca_ranking'] = df_full['rank_away'] - df_full['rank_home']

# Feature: Jogo de Copa do Mundo
if 'tournament' in df_full.columns:
    df_full['e_copa_do_mundo'] = df_full['tournament'].apply(lambda x: 1 if 'FIFA World Cup' in x else 0)
else:
    df_full['e_copa_do_mundo'] = 0

features = [
        'diferenca_ranking',
        'e_copa_do_mundo',
        'avg_scored_home',    # Nova
        'avg_conceded_home',  # Nova
        'avg_scored_away',    # Nova
        'avg_conceded_away'   # Nova
    ]

target = 'resultado'

X_novo = df_full[features]
y_novo = df_full[target]

# Divisão Treino/Teste
X_treino_n, X_teste_n, y_treino_n, y_teste_n = train_test_split(
    X_novo, y_novo,
    test_size=0.2,
    random_state=42
)

print("\n--- Treinando Modelo (Versão 3: Features Avançadas + Balanceado) ---")
modelo_avancado = RandomForestClassifier(
        n_estimators=100,
        random_state=42,
        n_jobs=-1,
        class_weight='balanced'
)

modelo_avancado.fit(X_treino_n, y_treino_n)

print("Modelo avançado treinado com sucesso!")

# avaliação
y_pred_avancado = modelo_avancado.predict(X_teste_n)
acuracia_avancada = accuracy_score(y_teste_n, y_pred_avancado)
print("\n--- RESULTADOS (Modelo 3: Features Avançadas) ---")
print(f"Acurácia do Modelo: {acuracia_avancada * 100:.2f}%")

print("\nRelatório de Classificação Detalhado (Modelo 3):")
print(classification_report(y_teste_n, y_pred_avancado, target_names=['Casa Vence', 'Empate', 'Visitante Vence']))


--- Treinando Modelo (Versão 3: Features Avançadas + Balanceado) ---
Modelo avançado treinado com sucesso!

--- RESULTADOS (Modelo 3: Features Avançadas) ---
Acurácia do Modelo: 54.29%

Relatório de Classificação Detalhado (Modelo 3):
                 precision    recall  f1-score   support

     Casa Vence       0.61      0.77      0.68      2321
         Empate       0.28      0.14      0.19      1133
Visitante Vence       0.52      0.49      0.50      1317

       accuracy                           0.54      4771
      macro avg       0.47      0.47      0.46      4771
   weighted avg       0.50      0.54      0.51      4771



In [66]:
# criando modelo 4
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [67]:
if 'X_novo' in locals() and 'y_novo' in locals():
  print("\n--- Treinando Modelo (Versão 4: Features Avançadas, Sem Balanceamento) ---")


--- Treinando Modelo (Versão 4: Features Avançadas, Sem Balanceamento) ---


In [68]:
X_treino_4, X_teste_4, y_treino_4, y_teste_4 = train_test_split(
        X_novo, y_novo,
        test_size=0.2,
        random_state=42
    )

In [70]:
print("Treinando o modelo RandomForestClassifier (sem balanceamento)...")

# A linha 'class_weight' foi removida
modelo_final_acc = RandomForestClassifier(
    n_estimators=100,
    random_state=42,
    n_jobs=-1
)

# Treinamos o novo modelo
modelo_final_acc.fit(X_treino_4, y_treino_4)

print("Modelo treinado com sucesso!")

Treinando o modelo RandomForestClassifier (sem balanceamento)...
Modelo treinado com sucesso!


In [72]:
print("\nAvaliando o modelo (Foco na Acurácia) no conjunto de Teste...")

if 'X_novo' in locals() and 'y_novo' in locals():
    y_pred_4 = modelo_final_acc.predict(X_teste_4)

    acuracia_4 = accuracy_score(y_teste_4, y_pred_4)

    print("\n--- RESULTADOS (Modelo 4: Foco na Acurácia Máxima) ---")
    print(f"Acurácia do Modelo: {acuracia_4 * 100:.2f}%")

    print("\nRelatório de Classificação Detalhado (Modelo 4):")
    print(classification_report(y_teste_4, y_pred_4, target_names=['Casa Vence', 'Empate', 'Visitante Vence']))

else:
    print("Erro: Variáveis 'X_novo' e 'y_novo' não encontradas. Rode o passo anterior de engenharia de features.")


Avaliando o modelo (Foco na Acurácia) no conjunto de Teste...

--- RESULTADOS (Modelo 4: Foco na Acurácia Máxima) ---
Acurácia do Modelo: 53.70%

Relatório de Classificação Detalhado (Modelo 4):
                 precision    recall  f1-score   support

     Casa Vence       0.61      0.76      0.68      2321
         Empate       0.26      0.14      0.18      1133
Visitante Vence       0.50      0.49      0.50      1317

       accuracy                           0.54      4771
      macro avg       0.46      0.46      0.45      4771
   weighted avg       0.50      0.54      0.51      4771



##### Iniciei com um modelo base (M1) que usava apenas o Ranking da FIFA. Embora tenha atingido 56.1% de acurácia, uma análise mais profunda (Relatório de Classificação) revelou um modelo falho, com viés severo para prever 'Vitória da Casa' e incapaz de prever 'Empates' (apenas 3% de recall).

##### Para corrigir isso, criei features de momentum (média de gols marcados/sofridos nos últimos 5 jogos). Essas novas features tornaram o modelo mais robusto, aumentando o recall de 'Empate' de 3% para 14%.

##### O modelo final (M3), combinando as features avançadas com a técnica de balanceamento (class_weight='balanced'), provou ser o melhor modelo "all-around", atingindo uma acurácia de 54.3% e demonstrando o melhor equilíbrio (trade-off) entre acurácia geral e a capacidade de prever os três resultados.

In [73]:
# Função de previsão
import pandas as pd
import warnings

In [74]:
warnings.filterwarnings('ignore', category=UserWarning, module='pandas')

In [75]:
# Função auxiliar
def get_latest_rank(team_name, ranking_df):
    """Busca o ranking mais recente de um time."""
    try:
        # Filtra o time e pega o último registro (mais recente)
        rank = ranking_df[ranking_df['time'] == team_name].iloc[-1]['rank']
        return rank
    except IndexError:
        # Se o time não for encontrado, retorna um rank "médio/ruim" para não quebrar
        print(f"Aviso: Time '{team_name}' não encontrado no ranking. Usando rank 150 (padrão).")
        return 150

def get_latest_stats(team_name, stats_df):
    """Busca as médias de gols mais recentes (últimos 5 jogos) de um time."""
    try:
        # Filtra o time e pega o último registro (último jogo jogado)
        stats = stats_df[stats_df['team'] == team_name].iloc[-1]
        return stats['avg_scored'], stats['avg_conceded']
    except IndexError:
        print(f"Aviso: Time '{team_name}' não encontrado nas estatísticas. Usando média 0.")
        return 0, 0

In [80]:
# Função principal
def prever_jogo(time_casa, time_visitante, is_world_cup, modelo, ranking_df, stats_df):
    """
    Prevê o resultado de um jogo usando o modelo treinado.
    """

    # Mapa de resultados
    mapa_resultados = {0: 'Vitória da Casa', 1: 'Empate', 2: 'Vitória do Visitante'}
# 1. Coletar Dados do Time da Casa
    rank_home = get_latest_rank(time_casa, ranking_df)
    avg_scored_home, avg_conceded_home = get_latest_stats(time_casa, stats_df)

# 2. Coletar Dados do Time Visitante
    rank_away = get_latest_rank(time_visitante, ranking_df)
    avg_scored_away, avg_conceded_away = get_latest_stats(time_visitante, stats_df)

# 3. Montar o Vetor de Features
    dados_jogo = {
        'diferenca_ranking': rank_away - rank_home,
        'e_copa_do_mundo': 1 if is_world_cup else 0,
        'avg_scored_home': avg_scored_home,
        'avg_conceded_home': avg_conceded_home,
        'avg_scored_away': avg_scored_away,
        'avg_conceded_away': avg_conceded_away
    }
    df_predict = pd.DataFrame([dados_jogo])

# 4. Fazer a previsão
    probabilidades = modelo.predict_proba(df_predict)[0]

# 5. Formatar a Saída
    print("\n--- ⚽ PREVISÃO DO JOGO ⚽ ---")
    print(f"Jogo: {time_casa} (Casa) vs. {time_visitante} (Visitante)")
    print("-" * 30)
    print("Probabilidades:")
    print(f"   {mapa_resultados[0]} ({time_casa}): {probabilidades[0] * 100:.2f}%")
    print(f"   {mapa_resultados[1]}: {probabilidades[1] * 100:.2f}%")
    print(f"   {mapa_resultados[2]} ({time_visitante}): {probabilidades[2] * 100:.2f}%")
    print("-" * 30)

# Resultado mais provável
    resultado_final = mapa_resultados[probabilidades.argmax()]
    print(f"Resultado Mais Provável: **{resultado_final}**")

    return resultado_final

In [81]:
# Exemplo de uso
# Exemplo 1
prever_jogo(
    time_casa="Brazil",
    time_visitante="Argentina",
    is_world_cup=True,
    modelo=modelo_avancado,
    ranking_df=df_ranking,
    stats_df=df_long_stats
)


--- ⚽ PREVISÃO DO JOGO ⚽ ---
Jogo: Brazil (Casa) vs. Argentina (Visitante)
------------------------------
Probabilidades:
   Vitória da Casa (Brazil): 36.00%
   Empate: 35.00%
   Vitória do Visitante (Argentina): 29.00%
------------------------------
Resultado Mais Provável: **Vitória da Casa**


'Vitória da Casa'

In [82]:
#Exemplo 2
prever_jogo(
    time_casa="England",
    time_visitante="Germany",
    is_world_cup=False,
    modelo=modelo_avancado,
    ranking_df=df_ranking,
    stats_df=df_long_stats
)


--- ⚽ PREVISÃO DO JOGO ⚽ ---
Jogo: England (Casa) vs. Germany (Visitante)
------------------------------
Probabilidades:
   Vitória da Casa (England): 40.00%
   Empate: 47.00%
   Vitória do Visitante (Germany): 13.00%
------------------------------
Resultado Mais Provável: **Empate**


'Empate'

In [83]:
# salvar os artefatos
import joblib
import pandas as pd

print("Salvando artefatos...")

# --- 1. Salvar o Modelo ---
# Salva o modelo treinado em um único arquivo
joblib.dump(modelo_avancado, 'modelo_avancado.joblib')
print("Modelo salvo como 'modelo_avancado.joblib'")


# --- 2. Salvar o Dataframe de Ranking ---
df_ranking_api = df_ranking.rename(columns={'country_full': 'time', 'rank_date': 'data_ranking'})
df_ranking_api = df_ranking_api.sort_values(by='data_ranking')
df_ranking_api.to_csv('ranking_data.csv', index=False)
print("Dados de ranking salvos como 'ranking_data.csv'")


# --- 3. Salvar o Dataframe de Estatísticas ---
df_stats_api = df_long_stats.sort_values(by=['team', 'date'])
df_stats_api.to_csv('stats_data.csv', index=False)
print("Dados de estatísticas salvos como 'stats_data.csv'")

print("\nArtefatos prontos!")

Salvando artefatos...
Modelo salvo como 'modelo_avancado.joblib'
Dados de ranking salvos como 'ranking_data.csv'
Dados de estatísticas salvos como 'stats_data.csv'

Artefatos prontos!
