In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, classification_report, f1_score
from imblearn.under_sampling import RandomUnderSampler
import numpy as np


In [2]:
# Carregar os dados
df = pd.read_csv('dados_preprocessados.csv')

# Selecionar colunas relevantes
features = ['colocacao_mandante', 'colocacao_visitante',
            'media_gols_mandante', 'media_gols_visitante',
            'partidas_jogadas_mandante', 'partidas_jogadas_visitante', 
            'saldo_acumulado_mandante', 'saldo_acumulado_visitante']


In [3]:
# Definir as features (X) e o target (y)
X = df[features]
y = np.where(df['gols_mandante'] > df['gols_visitante'], 1, 
             np.where(df['gols_mandante'] < df['gols_visitante'], 2, 0))


In [4]:
# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Balanceamento dos dados com RandomUnderSampler
rus = RandomUnderSampler(random_state=42)
X_train_res, y_train_res = rus.fit_resample(X_train, y_train)


In [5]:
# Treinar o modelo RandomForestClassifier
modelo_rf = RandomForestClassifier(random_state=42)
modelo_rf.fit(X_train_res, y_train_res)

# Fazer previsões no conjunto de teste
previsoes = modelo_rf.predict(X_test)

In [6]:
# Avaliar a precisão do modelo
acuracia = accuracy_score(y_test, previsoes)
precisao = precision_score(y_test, previsoes, average=None)
sensibilidade = recall_score(y_test, previsoes, average=None)
f1_scores = f1_score(y_test, previsoes, average=None)
print("Acurácia do modelo Random Forest:", acuracia)
print("Precisão para cada classe (Empate, Vitória mandante, Vitória visitante):", precisao)
print("Sensibilidade para cada classe (Empate, Vitória mandante, Vitória visitante):", sensibilidade)
print("F1-Score para cada classe (Empate, Vitória mandante, Vitória visitante):", f1_scores)

Acurácia do modelo Random Forest: 0.5033840947546532
Precisão para cada classe (Empate, Vitória mandante, Vitória visitante): [0.29943503 0.6964657  0.44380403]
Sensibilidade para cada classe (Empate, Vitória mandante, Vitória visitante): [0.33974359 0.56302521 0.56      ]
F1-Score para cada classe (Empate, Vitória mandante, Vitória visitante): [0.31831832 0.62267658 0.49517685]


In [7]:
# Imprimir relatório de classificação completo
print("Relatório de classificação:")
print(classification_report(y_test, previsoes, target_names=['Empate', 'Vitória mandante', 'Vitória visitante']))

Relatório de classificação:
                   precision    recall  f1-score   support

           Empate       0.30      0.34      0.32       312
 Vitória mandante       0.70      0.56      0.62       595
Vitória visitante       0.44      0.56      0.50       275

         accuracy                           0.50      1182
        macro avg       0.48      0.49      0.48      1182
     weighted avg       0.53      0.50      0.51      1182

