In [53]:
import pandas as pd
import numpy as np
import os
from datetime import datetime
import pickle
import joblib

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [54]:
# Charger les données
data = pd.read_csv('Données/dataset.csv')

# Remplir les valeurs manquantes avec 0 (si nécessaire)
#data.fillna(0, inplace=True)

In [55]:
# Sélectionner les fonctionnalités
features = ['FTHG', 'FTAG', 'HTGS', 'ATGS', 'HTGC'
            , 'ATGC', 'HTP', 'ATP', 'MW', 'HTFormPts', 'ATFormPts'
            , 'HTWinStreak3', 'HTWinStreak5', 'HTLossStreak3', 'HTLossStreak5'
            , 'ATWinStreak3', 'ATWinStreak5', 'ATLossStreak3', 'ATLossStreak5'
            , 'HTGD', 'ATGD', 'DiffPts', 'DiffFormPts']

In [56]:
# Initialiser les modèles de régression linéaire
models = {feature: LinearRegression() for feature in features}
scalers = {feature: StandardScaler() for feature in features}

In [57]:
# Entraîner un modèle pour chaque fonctionnalité
for feature in features:
    X = data[features].drop(columns=[feature]) # Retirer la colonne que l'on souhaite prédire
    y = data[feature]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Normaliser
    X_train_scaled = scalers[feature].fit_transform(X_train)
    X_test_scaled = scalers[feature].transform(X_test)

    models[feature].fit(X_train_scaled, y_train)

    y_pred = models[feature].predict(X_test_scaled)
    mse = np.mean((y_pred - y_test) ** 2)
    print(f"MSE pour {feature}: {mse}")

MSE pour FTHG: 1.4440130382663776
MSE pour FTAG: 1.2180614077561605
MSE pour HTGS: 22.92092061288901
MSE pour ATGS: 23.312658800405337
MSE pour HTGC: 19.52716498801564
MSE pour ATGC: 21.31147703626085
MSE pour HTP: 1.925598256452369e-30
MSE pour ATP: 3.0228044877316518e-30
MSE pour MW: 4.581460978512325
MSE pour HTFormPts: 2.9539711190718214
MSE pour ATFormPts: 2.951828511720623
MSE pour HTWinStreak3: 0.03894659750470024
MSE pour HTWinStreak5: 0.01366547225081605
MSE pour HTLossStreak3: 0.03484590185547092
MSE pour HTLossStreak5: 0.010255215196860437
MSE pour ATWinStreak3: 0.03621295349910149
MSE pour ATWinStreak5: 0.01120446373399995
MSE pour ATLossStreak3: 0.03222532049682414
MSE pour ATLossStreak5: 0.006964885716210765
MSE pour HTGD: 0.06767812570219839
MSE pour ATGD: 0.06508168607975043
MSE pour DiffPts: 2.0737817089464915e-30
MSE pour DiffFormPts: 0.022152394676078425


In [59]:
# Chemin pour enregistrer les dictionnaires des modèles
models_path = 'Modèles\models.pkl'
scalers_path = 'Modèles\scalers.pkl'

# Enregistrer le dictionnaire des modèles dans un fichier
with open(models_path, 'wb') as file:
    pickle.dump(models, file)
print(f"Models saved to '{models_path}'")

# Enregistrer le dictionnaire des scalers dans un fichier
with open(scalers_path, 'wb') as file:
    pickle.dump(scalers, file)
print(f"Scalers saved to '{scalers_path}'")

Models saved to 'Modèles\models.pkl'
Scalers saved to 'Modèles\scalers.pkl'
