In [4]:
# ============================================================
# Multi-output regression : prédire [Score_RDC, Score_NIG]
# à partir des statistiques moyennes des 10 derniers matchs
# ============================================================

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.multioutput import MultiOutputRegressor
from sklearn.metrics import mean_squared_error, r2_score

# -------------------------------
# 1. Chargement du dataset
# -------------------------------
# Assure-toi que ce fichier est dans le même dossier que ton script / notebook
df = pd.read_excel("score_multi_output.xlsx")
print("Aperçu des données :")
print(df.head())
print("\nColonnes :", df.columns.tolist())

# -------------------------------
# 2. Préparation des features X et de la cible Y
# -------------------------------

# Si une colonne d'identifiant "Match" existe, on l'enlève
cols_to_drop = ["Score_RDC", "Score_NIG"]
if "Match" in df.columns:
    cols_to_drop.append("Match")  # on enlève aussi la colonne Match des features

# X = toutes les colonnes sauf Score_RDC, Score_NIG (et Match si présent)
X = df.drop(cols_to_drop, axis=1)
Y = df[["Score_RDC", "Score_NIG"]]

print("\nFeatures utilisées pour X :", X.columns.tolist())
print("Shape X :", X.shape, " | Shape Y :", Y.shape)

# -------------------------------
# 3. Split Train / Test
# -------------------------------
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size=0.2, random_state=42
)

# -------------------------------
# 4. Définition et entraînement du modèle multi-output
# -------------------------------
base_model = RandomForestRegressor(
    n_estimators=300,
    random_state=42
)

model = MultiOutputRegressor(base_model)
model.fit(X_train, Y_train)

# -------------------------------
# 5. Prédiction sur le test set
# -------------------------------
Y_pred = model.predict(X_test)

# -------------------------------
# 6. Évaluation du modèle
# -------------------------------
# MSE global (moyenne sur les deux sorties)
mse_global = mean_squared_error(Y_test, Y_pred)
# R2 global (moyenne uniforme)
r2_global = r2_score(Y_test, Y_pred, multioutput="uniform_average")

print("\n===== ÉVALUATION GLOBALE =====")
print("MSE global :", mse_global)
print("RMSE global :", np.sqrt(mse_global))
print("R² global  :", r2_global)

# MSE / R2 par sortie (Score_RDC et Score_NIG séparément)
print("\n===== ÉVALUATION PAR SCORE =====")
targets = ["Score_RDC", "Score_NIG"]
for i, target_name in enumerate(targets):
    mse_i = mean_squared_error(Y_test.iloc[:, i], Y_pred[:, i])
    r2_i = r2_score(Y_test.iloc[:, i], Y_pred[:, i])
    print(f"{target_name} -> MSE = {mse_i:.4f} | RMSE = {np.sqrt(mse_i):.4f} | R² = {r2_i:.4f}")

# -------------------------------
# 7. Exemple de prédiction pour un nouveau match
# -------------------------------
# IMPORTANT : respecter exactement les mêmes colonnes que X.columns
nouveau_match = pd.DataFrame([{
    "RDC_buts_moy": 2.2,
    "RDC_enc_moy": 1.5,
    "RDC_tirs_moy": 14,
    "RDC_conf": 0.8,
    "NIG_buts_moy": 1.5,
    "NIG_enc_moy": 1.7,
    "NIG_tirs_moy": 9,
    "NIG_conf": 0.6
}])

# Si tu as d'autres features dans X, il faut les ajouter ici aussi, avec des valeurs cohérentes.

print("\nNouveau match (features) :")
print(nouveau_match)

pred_scores = model.predict(nouveau_match)[0]
score_rdc_pred = pred_scores[0]
score_nig_pred = pred_scores[1]

print("\n===== PRÉDICTION NOUVEAU MATCH =====")
print(f"Score prédit RDC : {score_rdc_pred:.2f}")
print(f"Score prédit NIG : {score_nig_pred:.2f}")
print(f"Score approximatif : RDC {round(score_rdc_pred)} – Nigeria {round(score_nig_pred)}")


Aperçu des données :
   Match  RDC_buts_moy  RDC_enc_moy  RDC_tirs_moy  RDC_conf  NIG_buts_moy  \
0      1           1.2          1.8             8       0.5           2.3   
1      2           1.4          1.5             9       0.6           2.1   
2      3           1.5          1.4            10       0.6           1.9   
3      4           1.6          1.3            11       0.7           1.8   
4      5           1.8          1.4            12       0.7           1.7   

   NIG_enc_moy  NIG_tirs_moy  NIG_conf  Score_RDC  Score_NIG  
0          0.9            11       0.8          0          2  
1          1.0            10       0.7          1          2  
2          1.1             9       0.7          1          1  
3          1.3            10       0.6          2          1  
4          1.5             9       0.6          2          1  

Colonnes : ['Match', 'RDC_buts_moy', 'RDC_enc_moy', 'RDC_tirs_moy', 'RDC_conf', 'NIG_buts_moy', 'NIG_enc_moy', 'NIG_tirs_moy', 'NIG_conf'