In [3]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
from imblearn.over_sampling import RandomOverSampler
import joblib

In [4]:
# Chargement des données
data = pd.read_excel('Cleaned_Combined_Clubs_finals.xlsx')

# Affichage des colonnes du dataset
print(data.columns)

Index(['Formation', 'xG', 'xGA', 'Poss', 'xA', 'KP', 'PPA', 'PrgP'], dtype='object')


In [5]:
# Encodage de la variable cible (formations)
y = data['Formation']

label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)
X = data[['xG', 'xGA', 'Poss', 'xA', 'KP', 'PPA', 'PrgP']]

# Sur-échantillonnage avec RandomOverSampler pour gérer le déséquilibre des classes
oversampler = RandomOverSampler(random_state=42)
X_resampled, y_resampled = oversampler.fit_resample(X, y_encoded)

# Séparation du dataset en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)

In [6]:
# Initialisation du modèle Random Forest
rf_model = RandomForestClassifier(random_state=42)

# Entraînement du modèle
rf_model.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred = rf_model.predict(X_test)

# Rapport de classification et précision
print(classification_report(y_test, y_pred))
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")

              precision    recall  f1-score   support

           0       0.97      1.00      0.99       230
           1       0.97      1.00      0.99       222
           2       1.00      1.00      1.00       227
           3       0.93      0.95      0.94       240
           4       0.70      0.65      0.68       222
           5       1.00      1.00      1.00       242
           6       0.99      1.00      1.00       228
           7       0.87      0.86      0.86       233
           8       0.99      1.00      0.99       253
           9       0.91      1.00      0.95       212
          10       0.95      0.99      0.97       224
          11       0.98      0.97      0.98       232
          12       0.55      0.35      0.42       231
          13       1.00      1.00      1.00       213
          14       0.91      0.97      0.94       240
          15       1.00      1.00      1.00       236
          16       0.73      0.64      0.68       236
          17       0.98    

In [7]:
# Sauvegarde du modèle
joblib.dump(rf_model, 'best_rf_model.pkl')


In [8]:
# Chargement du modèle
best_rf_model = joblib.load('best_rf_model.pkl')

In [9]:
# Exemple de nouvelles données pour la prédiction
#les donnees de belguim
new_data = pd.DataFrame({
    'xG': [1.5], 'xGA': [2.6], 'Poss': [67], 'xA': [0.4], 'KP': [5], 'PPA': [9], 'PrgP': [53]
})

# Prédictions
predicted_formation = best_rf_model.predict(new_data)

# Conversion de la prédiction numérique en label de formation d'origine
predicted_formation_label = label_encoder.inverse_transform(predicted_formation)

print(f"Predicted formation: {predicted_formation_label[0]}")

Predicted formation: 4-3-3
