In [None]:
# Reimportar bibliotecas após reset
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import numpy as np

# Recarregar o arquivo CSV após o reset
df = pd.read_csv("jogos_com_clima_open_meteo_23_24.csv")

# Criação da variável alvo com base no placar 
def resultado_mandante(placar):
    try:
        gols_m, gols_v = map(int, placar.split(" x "))
        if gols_m > gols_v:
            return 1  # Vitória do mandante
        elif gols_m == gols_v:
            return 0  # Empate
        else:
            return -1  # Derrota do mandante
    except:
        return np.nan

df["Resultado"] = df["Placar"].apply(resultado_mandante)
df.dropna(subset=["Resultado"], inplace=True)

# Seleção de features
features = [
    "Mandante", "Visitante", "Estádio", "Cidade",
    "Temperatura (°C)", "Umidade (%)", "Vento (km/h)"
]
X = df[features]
y = df["Resultado"]

# variáveis categóricas
cat_cols = ["Mandante", "Visitante", "Estádio", "Cidade"]
encoders = {col: LabelEncoder().fit(X[col]) for col in cat_cols}
for col, le in encoders.items():
    X[col] = le.transform(X[col])

# Padronização de variáveis numéricas
num_cols = ["Temperatura (°C)", "Umidade (%)", "Vento (km/h)"]
scaler = StandardScaler()
X[num_cols] = scaler.fit_transform(X[num_cols])

# Separação treino/teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

# Treinamento do modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Avaliação
y_pred = model.predict(X_test)
report = classification_report(y_test, y_pred, output_dict=True)
matriz_confusao = confusion_matrix(y_test, y_pred)

# Resultado como dicionário para fácil leitura
resultado = {
    "Relatório de Classificação": report,
    "Matriz de Confusão": matriz_confusao.tolist()
}
resultado

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X[col] = le.transform(X[col])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X[col] = le.transform(X[col])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X[col] = le.transform(X[col])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value 

{'Relatório de Classificação': {'-1': {'precision': 0.39622641509433965,
   'recall': 0.3088235294117647,
   'f1-score': 0.34710743801652894,
   'support': 68.0},
  '0': {'precision': 0.21621621621621623,
   'recall': 0.2807017543859649,
   'f1-score': 0.24427480916030533,
   'support': 57.0},
  '1': {'precision': 0.5148514851485149,
   'recall': 0.5048543689320388,
   'f1-score': 0.5098039215686274,
   'support': 103.0},
  'accuracy': 0.39035087719298245,
  'macro avg': {'precision': 0.37576470548635693,
   'recall': 0.3647932175765895,
   'f1-score': 0.36706205624848726,
   'support': 228.0},
  'weighted avg': {'precision': 0.4048132610571774,
   'recall': 0.39035087719298245,
   'f1-score': 0.3948981308282018,
   'support': 228.0}},
 'Matriz de Confusão': [[21, 20, 27], [19, 16, 22], [13, 38, 52]]}

Comparando modelos 

In [13]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix

# Função para extrair o resultado do jogo com base no placar
def resultado_mandante(placar):
    try:
        gols_m, gols_v = map(int, placar.split(" x "))
        if gols_m > gols_v:
            return 1  # Vitória do mandante
        elif gols_m == gols_v:
            return 0  # Empate
        else:
            return -1  # Derrota do mandante
    except Exception as e:
        print(f"Erro ao processar placar '{placar}': {e}")
        return np.nan

# Carrega o arquivo CSV com as variáveis (jogos + clima)
df = pd.read_csv("jogos_com_clima_open_meteo_23_24.csv")

# Cria a variável alvo 'Resultado'
df["Resultado"] = df["Placar"].apply(resultado_mandante)
df.dropna(subset=["Resultado"], inplace=True)

# Seleção de features para o modelo
features = [
    "Mandante", "Visitante", "Estádio", "Cidade",
    "Temperatura (°C)", "Umidade (%)", "Vento (km/h)"
]
X = df[features]
y = df["Resultado"]

# Codificação das variáveis categóricas usando LabelEncoder
cat_cols = ["Mandante", "Visitante", "Estádio", "Cidade"]
encoders = {}
for col in cat_cols:
    le = LabelEncoder()
    X[col] = le.fit_transform(X[col])
    encoders[col] = le

# Padronização das variáveis numéricas
num_cols = ["Temperatura (°C)", "Umidade (%)", "Vento (km/h)"]
scaler = StandardScaler()
X[num_cols] = scaler.fit_transform(X[num_cols])

# Divisão em treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.30, random_state=42
)

# Define os modelos a serem comparados em um dicionário
modelos = {
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "Logistic Regression": LogisticRegression(max_iter=1000, random_state=42),
    "SVC": SVC(random_state=42)  # SVC usa kernel RBF por padrão
}

# Dicionário para armazenar os resultados
resultados_modelos = {}

# Treina e avalia cada modelo
for nome, modelo in modelos.items():
    print(f"\nTreinando o modelo: {nome}...")
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    relatorio = classification_report(y_test, y_pred, output_dict=True)
    matriz = confusion_matrix(y_test, y_pred)
    resultados_modelos[nome] = {
        "Relatório de Classificação": relatorio,
        "Matriz de Confusão": matriz.tolist()
    }
    print(f"\nResultados para {nome}:")
    print(classification_report(y_test, y_pred))
    print("Matriz de Confusão:")
    print(matriz)

# Se desejar, você pode visualizar o dicionário completo:
print("\nComparação completa dos modelos:")
print(resultados_modelos)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X[col] = le.fit_transform(X[col])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X[col] = le.fit_transform(X[col])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X[col] = le.fit_transform(X[col])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_index


Treinando o modelo: Random Forest...

Resultados para Random Forest:
              precision    recall  f1-score   support

          -1       0.40      0.31      0.35        68
           0       0.22      0.28      0.24        57
           1       0.51      0.50      0.51       103

    accuracy                           0.39       228
   macro avg       0.38      0.36      0.37       228
weighted avg       0.40      0.39      0.39       228

Matriz de Confusão:
[[21 20 27]
 [19 16 22]
 [13 38 52]]

Treinando o modelo: Logistic Regression...

Resultados para Logistic Regression:
              precision    recall  f1-score   support

          -1       0.44      0.06      0.10        68
           0       0.23      0.16      0.19        57
           1       0.48      0.84      0.61       103

    accuracy                           0.44       228
   macro avg       0.39      0.35      0.30       228
weighted avg       0.41      0.44      0.36       228

Matriz de Confusão:
[[ 4 16 4

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
