In [37]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [38]:
# Charger les données
data = pd.read_csv('Données/dataset.csv')

data = data.drop(columns=['Unnamed: 0'])

# Remplir les valeurs manquantes avec 0 (si nécessaire)
#data.fillna(0, inplace=True)

In [39]:
data.columns

Index(['Date', 'HomeTeam', 'AwayTeam', 'FTHG', 'FTAG', 'FTR', 'HTGS', 'ATGS',
       'HTGC', 'ATGC', 'HTP', 'ATP', 'HM1', 'HM2', 'HM3', 'HM4', 'HM5', 'AM1',
       'AM2', 'AM3', 'AM4', 'AM5', 'MW', 'HTFormPtsStr', 'ATFormPtsStr',
       'HTFormPts', 'ATFormPts', 'HTWinStreak3', 'HTWinStreak5',
       'HTLossStreak3', 'HTLossStreak5', 'ATWinStreak3', 'ATWinStreak5',
       'ATLossStreak3', 'ATLossStreak5', 'HTGD', 'ATGD', 'DiffPts',
       'DiffFormPts'],
      dtype='object')

In [40]:
# Sélectionner les fonctionnalités
features = ['FTHG', 'FTAG', 'HTGS', 'ATGS', 'HTGC'
            , 'ATGC', 'HTP', 'ATP', 'MW', 'HTFormPts', 'ATFormPts'
            , 'HTWinStreak3', 'HTWinStreak5', 'HTLossStreak3', 'HTLossStreak5'
            , 'ATWinStreak3', 'ATWinStreak5', 'ATLossStreak3', 'ATLossStreak5'
            , 'HTGD', 'ATGD', 'DiffPts', 'DiffFormPts']

In [41]:
# Saisir l'équipe à domicile et l'équipe à l'extérieur
home_team = 'Chelsea' #input("Enter the Home Team: ")
away_team = 'Arsenal' #input("Enter the Away Team: ")

In [51]:
training_data = data.loc[np.where((data['HomeTeam'] == home_team) | (data['AwayTeam'] == away_team))] # np.where((data['HomeTeam'] == home_team) & (data['AwayTeam'] == away_team))

In [52]:
training_data.shape

(666, 39)

In [54]:
# Initialiser les modèles de régression linéaire
model = {feature: LinearRegression() for feature in features}
scaler = {feature: StandardScaler() for feature in features}

In [55]:
models = [] # Liste pour stocker les modèles

# Entraîner un modèle pour chaque fonctionnalité
for feature in features:
    
    X = training_data[features].drop(columns=[feature]) # Retirer la colonne que l'on souhaite prédire
    y = training_data[feature]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Normaliser
    X_train_scaled = scaler[feature].fit_transform(X_train)
    X_test_scaled = scaler[feature].transform(X_test)

    model[feature].fit(X_train_scaled, y_train)
    models.append(model)

    y_pred = model[feature].predict(X_test_scaled)
    mse = np.mean((y_pred - y_test) ** 2)
    print(f"MSE pour {feature}: {mse}")

MSE pour FTHG: 1.9412975493115734


MSE pour FTAG: 0.8612624543150496
MSE pour HTGS: 30.847766911539587
MSE pour ATGS: 35.35532628475825
MSE pour HTGC: 18.170209084050487
MSE pour ATGC: 22.54303993187963
MSE pour HTP: 9.163425200234605e-30
MSE pour ATP: 2.4003641017920485e-30
MSE pour MW: 4.848552966637113
MSE pour HTFormPts: 2.3217640836072846
MSE pour ATFormPts: 3.2022103863160836
MSE pour HTWinStreak3: 0.06051993990545248
MSE pour HTWinStreak5: 0.02187195865258697
MSE pour HTLossStreak3: 0.015165337601605787
MSE pour HTLossStreak5: 0.005866425318287916
MSE pour ATWinStreak3: 0.048239104912921715
MSE pour ATWinStreak5: 0.025220952779508737
MSE pour ATLossStreak3: 0.025485548469346295
MSE pour ATLossStreak5: 0.00625410351688142
MSE pour HTGD: 0.04707068155270433
MSE pour ATGD: 0.07416494612850826
MSE pour DiffPts: 1.0093012836340714e-30
MSE pour DiffFormPts: 0.026318543468455798


In [None]:
if not home_team_data.empty and not away_team_data.empty:
    # Utiliser les données de la dernière rencontre pour faire des prédictions
    combined_data = pd.concat([home_team_data, away_team_data], axis=0)

    # Filtrer uniquement les colonnes numériques pour le calcul de la moyenne
    combined_data_numeric = combined_data[features].mean(axis=0)

    # Créer une DataFrame temporaire pour contenir les valeurs moyennes des caractéristiques / .T transpose la matrice pour obtenir une ligne unique de valeurs moyennes
    combined_data_df = pd.DataFrame(combined_data_numeric).T

    predicted_features = {}
    for feature in features:
        combined_data_scaled = scalers[feature].transform(combined_data_df.drop(columns=[feature]))
        predicted_features[feature] = models[feature].predict(combined_data_scaled)[0]

    # Créer un DataFrame avec les résultats
    results = pd.DataFrame({
        'HomeTeam': [home_team],
        'AwayTeam': [away_team],
        'FTHG': [predicted_features['FTHG']],
        'FTAG': [predicted_features['FTAG']],
        'FTR': [np.nan],  # La colonne FTR est initialisée avec NaN pour être prédite ensuite
        'HTGS': [predicted_features['HTGS']],
        'ATGS': [predicted_features['ATGS']],
        'HTGC': [predicted_features['HTGC']],
        'ATGC': [predicted_features['ATGC']],
        'HTP': [predicted_features['HTP']],
        'ATP': [predicted_features['ATP']],
        'MW': [predicted_features['MW']],
        'HTFormPts': [predicted_features['HTFormPts']],
        'ATFormPts': [predicted_features['ATFormPts']],
        'HTWinStreak3': [predicted_features['HTWinStreak3']],
        'HTWinStreak5': [predicted_features['HTWinStreak5']],
        'HTLossStreak3': [predicted_features['HTLossStreak3']],
        'HTLossStreak5': [predicted_features['HTLossStreak5']],
        'ATWinStreak3': [predicted_features['ATWinStreak3']],
        'ATWinStreak5': [predicted_features['ATWinStreak5']],
        'ATLossStreak3': [predicted_features['ATLossStreak3']],
        'ATLossStreak5': [predicted_features['ATLossStreak5']],
        'HTGD': [predicted_features['HTGD']],
        'ATGD': [predicted_features['ATGD']],
        'DiffPts': [predicted_features['DiffPts']],
        'DiffFormPts': [predicted_features['DiffFormPts']]
    })

    # Enregistrer les résultats dans un fichier CSV
    results.to_csv('predicted_match_features.csv', index=False)
    print("Predicted features saved to 'predicted_match_features.csv'")
    
else:
    print("Les données pour les équipes spécifiées ne sont pas disponibles dans le dataset.")