*Ce notebook couvre la phase de mod√©lisation, de s√©lection et d'√©valuation des mod√®les pour la pr√©diction de la long√©vit√© des joueurs en NBA.*

Il comprend :

- *Gestion des classes d√©s√©quilibr√©es*
-  *L'entra√Ænement et l'√©valuation de plusieurs mod√®les (Random Forest, Balanced Random Forest, XGBoost, SVC)*
- *L'optimisation des hyperparam√®tres avec GridSearchCV et Optuna*

#### 1. Importation des Biblioth√®ques

Nous utilisons les biblioth√®ques suivantes pour la mod√©lisation er l'√©valuation des mod√®les.

In [1]:
import sys

sys.path.append('../..')  

In [2]:
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split, GridSearchCV , StratifiedKFold
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.utils.class_weight import compute_class_weight
from sklearn.ensemble import RandomForestClassifier 
import optuna
from imblearn.ensemble import BalancedRandomForestClassifier
from sklearn.metrics import confusion_matrix, recall_score, precision_score, f1_score, balanced_accuracy_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import KFold
from sklearn.svm import SVC
import matplotlib.pyplot as plt
from imblearn.over_sampling import SMOTE
from ml.utils.scoring_kfold import score_classifier
from ml.utils.scoring_optim import score_classifier_with_tuning
from ml.utils.scoring_optuna import score_classifier_with_optuna

  from pandas.core import (


Dans le cadre de l'√©valuation des mod√®les de classification, plusieurs versions de la fonction de scoring ont √©t√© d√©velopp√©es pour affiner l'analyse des performances :

*Version 1 - score_classifier :*

Utilise une validation crois√©e K-Fold simple / stratified.
Calcule la matrice de confusion ainsi que les m√©triques pour les deux classes s√©par√©ment (Classe 0 et Classe 1).
Initialement, la version de base ne prenait en compte que le recall global, ce qui √©tait insuffisant dans notre contexte.
D√©sormais, cette fonction analyse s√©par√©ment la classe majoritaire (1) et la classe minoritaire (0), ce qui est essentiel pour √©viter les erreurs co√ªteuses.

*Version 2 - score_classifier_with_tuning :*

Ajoute une optimisation des hyperparam√®tres √† l'aide de GridSearchCV.
Permet d'identifier les meilleurs param√®tres pour chaque mod√®le afin d'am√©liorer sa performance.


*Version 3 - score_classifier_with_optuna :*

Utilise Optuna, une approche avanc√©e d'optimisation des hyperparam√®tres, qui est plus efficace et rapide que GridSearchCV.
Recherche automatiquement les meilleurs hyperparam√®tres en fonction de la performance du mod√®le.
Permet d'am√©liorer encore davantage la classification en √©vitant un exploration exhaustive du param√®tre space.


üëâ *Pour plus de d√©tails sur les fonctions de scoring, veuillez vous r√©f√©rer au rapport technique.*

Importation des fonctions de scoring

#### 2. Chargement et Pr√©paration des Donn√©es

Nous importons les donn√©es pr√©trait√©es dans le fichier pr√©c√©dent pour les utiliser dans la phase de mod√©lisation et d'√©valuation.

In [10]:
# Chargement des donn√©es
df = pd.read_csv("../data/processed/NBA_transf.csv")
df = df.drop(columns=["Unnamed: 0"])  # Suppression de la colonne inutile

# Extraction des labels et des features
labels = df['TARGET_5Yrs'].values  # Labels (Classe 0 = <5 ans, Classe 1 = ‚â•5 ans)
paramset = df.drop(['TARGET_5Yrs'], axis=1).columns.values  # Noms des features
df_vals = df.drop(['TARGET_5Yrs'], axis=1).values  # Valeurs des features

print(f"Taille du dataset: {df_vals.shape}")


Taille du dataset: (1328, 19)


Ce dataset contient l'ensemble des statistiques des joueurs, pr√©trait√©es dans l'√©tape pr√©c√©dente.

#### 3. √âquilibrage des Classes avec SMOTE

Dans notre jeu de donn√©es, la classe 1 (joueurs ayant une carri√®re ‚â•5 ans) est sur-repr√©sent√©e par rapport √† la classe 0 (joueurs ayant une carri√®re <5 ans).

Un mod√®le entra√Æn√© sur ces donn√©es non √©quilibr√©es risque de privil√©gier la classe majoritaire et de sous-estimer les joueurs ayant une carri√®re courte.

Nous avons test√© deux strat√©gies d‚Äô√©quilibrage :

Pond√©ration des classes dans les mod√®les (via class_weight='balanced').
Sur-√©chantillonnage de la classe minoritaire avec SMOTE (Synthetic Minority Over-sampling Technique).

üìå Apr√®s comparaison des performances des mod√®les avec les deux techniques, SMOTE a donn√© de meilleurs.
SMOTE g√©n√®re artificiellement des √©chantillons similaires √† la classe minoritaire, ce qui permet au mod√®le d‚Äôavoir plus d‚Äôexemples pour apprendre √† bien pr√©dire les joueurs √† carri√®re courte.



üëâ *Pour plus de d√©tails sur l‚Äôanalyse comparative des techniques d‚Äô√©quilibrage, voir la section d√©di√©e dans le document technique.*

In [11]:
# Application de SMOTE pour √©quilibrer les classes
oversample = SMOTE()
over_X, over_y = oversample.fit_resample(df_vals, labels)

print(f"Taille du dataset apr√®s SMOTE: {over_X.shape}")

Taille du dataset apr√®s SMOTE: (1648, 19)


SMOTE permet d'obtenir une meilleure balance entre pr√©cision et recall pour la classe minoritaire, tout en √©vitant de simplement ajuster les poids dans les mod√®les.

#### 4. Choix des Mod√®les de Classification

Pour cette t√¢che de classification, nous avons s√©lectionn√© trois mod√®les adapt√©s aux probl√©matiques d‚Äôapprentissage supervis√© sur des donn√©es d√©s√©quilibr√©es :

1Ô∏è‚É£ Random Forest (RF) -> Mod√®le bas√© sur un ensemble d‚Äôarbres de d√©cision.

2Ô∏è‚É£ Balanced Random Forest (BRF) -> Variante du Random Forest, o√π chaque arbre est entra√Æn√© sur un √©chantillon √©quilibr√© de la classe minoritaire et majoritaire.

3Ô∏è‚É£ XGBoost (XGB) -> Algorithme de boosting optimis√© pour la classification binaire.

üëâ *Pour plus de d√©tails sur le choix des mod√®les, voir la section d√©di√©e dans le document technique.*

#### 5. √âvaluation des Mod√®les & Comparaison

Nous appliquons diff√©rentes strat√©gies d‚Äô√©valuation sur chaque mod√®le pour comparer leurs performances et identifier le meilleur.

Trois m√©thodes d‚Äô√©valuation sont utilis√©es :

1Ô∏è‚É£ score_classifier ‚Üí Validation crois√©e KFold simple / stratified.

2Ô∏è‚É£ score_classifier_with_tuning ‚Üí Optimisation des hyperparam√®tres avec GridSearchCV.

3Ô∏è‚É£ score_classifier_with_optuna ‚Üí Optimisation avanc√©e avec Optuna.

üí° Objectif : Nous allons tester chaque mod√®le avec ces trois strat√©gies et analyser leur pr√©cision, recall et F1-score.

##### 5.1 Random Forest (RF)

In [12]:
# Version 1 - kfold simple
rf = RandomForestClassifier(random_state=42)
score_classifier(over_X, rf, over_y,"kfold")


üìä Confusion Matrix:
[[617. 207.]
 [247. 577.]]

üéØ Performance Metrics:
üîπ Precision: Class 1 (Long Career Players): 0.7383
üîπ Recall: Class 1 (Long Career Players): 0.7003
üîπ F1-score: Class 1 (Long Career Players): 0.7175
üîπ Precision: Class 0 (Short Career Players): 0.7149
üîπ Recall: Class 0 (Short Career Players): 0.7497
üîπ F1-score: Class 0 (Short Career Players): 0.7307

üìå Full Classification Report (Averaged Over 5 Folds):
              precision    recall  f1-score   support

         0.0       0.71      0.75      0.73       824
         1.0       0.74      0.70      0.72       824

    accuracy                           0.72      1648
   macro avg       0.73      0.72      0.72      1648
weighted avg       0.73      0.72      0.72      1648



Dans cette premi√®re version, le mod√®le a √©t√© test√© avec des hyperparam√®tres par d√©faut, sans optimisation sp√©cifique. 

On observe les r√©sultats suivants :

‚úÖ F1-score Classe 1 (Longue carri√®re) : 0.7175

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.7307

‚úÖ Accuracy globale : 0.72

üîç Analyse :

Le mod√®le montre une bonne capacit√© de g√©n√©ralisation, avec une pr√©cision et un rappel √©quilibr√©s entre les deux classes.
Toutefois, il ne parvient pas encore √† parfaitement diff√©rencier les joueurs ayant une longue carri√®re, avec un recall de 0.7003 pour la classe 1.
L√©g√®re sous-estimation des joueurs ayant une longue carri√®re, ce qui signifie que certains joueurs prometteurs ne sont pas bien identifi√©s.

In [14]:
#Version 2 - Optimisation GridSearchCV
param_grid_brf = {
    "n_estimators": [100, 300, 500],
    "max_depth": [3, 5, 7, None],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4],
    "max_features": ['sqrt', 'log2', None],

}

rf = RandomForestClassifier(random_state=42)

score_classifier_with_tuning(over_X, rf, over_y, param_grid_brf,5,"kfold")


Fitting 5 folds for each of 324 candidates, totalling 1620 fits


  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (


Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Fitting 5 folds for each of 324 candidates, totalling 1620 fits

üìä Average Confusion Matrix:
[[626. 198.]
 [233. 591.]]

üéØ Performance Metrics:
üîπ Precision (Class 1 - Long Career Players): 0.7505
üîπ Recall (Class 1 - Majority): 0.7172
üîπ F1-score (Class 1 - Long Career Players): 0.7329
üîπ Precision (Class 0 - Short Career Players): 0.7282
üîπ Recall (Class 0 - Minority): 0.7588
üîπ F1-score (Class 0 - Short Career Players): 0.7427

üìú Full Classification Report (average over folds):
              precision    recall  f1-score   support

         0.0       0.73      0.76      0.74       824
         1.0       0.75      0.72      0.73       824

    accuracy                           0.74      1648
   macro avg       0.74      0.74      0.74      1648
weighted avg       0.74      

L‚Äôajout d‚Äôune optimisation par recherche exhaustive (GridSearchCV) a permis de trouver les meilleurs hyperparam√®tres du mod√®le. 

Cette approche a entra√Æn√© une am√©lioration des performances :

‚úÖ F1-score Classe 1 (Longue carri√®re) : 0.7329 (+1.54%)

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.7427 (+1.2%)

‚úÖ Accuracy globale : 0.74 (+2 point)

üîç Analyse :

Le mod√®le fait de meilleurs choix, notamment pour la classe 1, avec une l√©g√®re augmentation du recall (0.7172 contre 0.7003 pr√©c√©demment).
Le F1-score de la classe 0 (joueurs avec une carri√®re courte) s‚Äôam√©liore √©galement, ce qui signifie que le mod√®le identifie mieux les joueurs qui ne d√©passeront pas 5 ans en NBA.
Am√©lioration globale de l‚Äô√©quilibre entre pr√©cision et rappel, gr√¢ce √† un r√©glage plus fin des param√®tres du mod√®le.

In [15]:
#Vesion 3 - Optimisation avec Optuna
rf = RandomForestClassifier(random_state=42)
rf_model = score_classifier_with_optuna(over_X, rf, over_y, 50, cv=5, use_stratified=False)
rf_model

[32m[I 2025-10-08 14:08:09,632][0m A new study created in memory with name: no-name-840316d4-3fe1-40e4-b1ff-9e6e54e980c6[0m
[32m[I 2025-10-08 14:08:43,309][0m Trial 0 finished with value: 0.7290058544289305 and parameters: {'n_estimators': 1000, 'max_depth': 10, 'min_samples_split': 8, 'min_samples_leaf': 10, 'max_features': None}. Best is trial 0 with value: 0.7290058544289305.[0m
[32m[I 2025-10-08 14:08:54,026][0m Trial 1 finished with value: 0.7246413395149316 and parameters: {'n_estimators': 900, 'max_depth': None, 'min_samples_split': 20, 'min_samples_leaf': 5, 'max_features': 'log2'}. Best is trial 0 with value: 0.7290058544289305.[0m
[32m[I 2025-10-08 14:08:57,667][0m Trial 2 finished with value: 0.7214846290982495 and parameters: {'n_estimators': 100, 'max_depth': 10, 'min_samples_split': 4, 'min_samples_leaf': 7, 'max_features': None}. Best is trial 0 with value: 0.7290058544289305.[0m
[32m[I 2025-10-08 14:09:30,985][0m Trial 3 finished with value: 0.727572940636


 Best Hyperparameters Found: {'n_estimators': 600, 'max_depth': None, 'min_samples_split': 2, 'min_samples_leaf': 3, 'max_features': None}

üìä Average Confusion Matrix:
[[634. 190.]
 [227. 597.]]

üéØ Performance Metrics:
üîπ Precision (Class 1 - Long Career Players): 0.7612
üîπ Recall (Class 1 - Majority): 0.7244
üîπ F1-score (Class 1 - Long Career Players): 0.7410
üîπ Precision (Class 0 - Short Career Players): 0.7367
üîπ Recall (Class 0 - Minority): 0.7688
üîπ F1-score (Class 0 - Short Career Players): 0.7513

üìú Full Classification Report:
              precision    recall  f1-score   support

         0.0       0.74      0.77      0.75       824
         1.0       0.76      0.72      0.74       824

    accuracy                           0.75      1648
   macro avg       0.75      0.75      0.75      1648
weighted avg       0.75      0.75      0.75      1648



L‚Äôutilisation d‚ÄôOptuna, une technique plus avanc√©e et adaptative d‚Äôoptimisation des hyperparam√®tres, a permis d‚Äôobtenir les meilleurs r√©sultats observ√©s jusque-l√† :

‚úÖ F1-score Classe 1 (Longue carri√®re) : 0.7410 (+2.35% par rapport √† la V1)

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.7513 (+2.06% par rapport √† la V1)

‚úÖ Accuracy globale : 0.75(+3 point) 

üîç Analyse :

L‚Äôoptimisation dynamique via Optuna a permis de mieux ajuster les hyperparam√®tres, ce qui se traduit par une meilleure s√©paration des classes.
Le recall pour la classe 1 (0.7244) continue d‚Äôaugmenter, ce qui signifie que plus de joueurs prometteurs sont correctement identifi√©s.
Le mod√®le r√©duit encore davantage les erreurs sur la classe 0, atteignant un recall de 0.7688 (meilleure valeur observ√©e).
Meilleure balance globale entre recall et pr√©cision, ce qui signifie que le mod√®le est plus fiable pour √©viter les faux positifs et les faux n√©gatifs.

üëâ *Le mod√®le final (Version 3 - Optuna) est plus performant que les versions pr√©c√©dentes, offrant une meilleure capacit√© de pr√©diction pour identifier les joueurs ayant une longue carri√®re NBA.*

##### 5.2 Balanced Random Forest (BRF)

In [None]:
# Version 1 - KFold Stratifi√©
brf = BalancedRandomForestClassifier(random_state=42)

score_classifier(df_vals, brf, labels,"stratified")



üìä Confusion Matrix:
[[324. 180.]
 [239. 585.]]

üéØ Performance Metrics:
üîπ Precision: Class 1 (Long Career Players): 0.7654
üîπ Recall: Class 1 (Long Career Players): 0.7099
üîπ F1-score: Class 1 (Long Career Players): 0.7359
üîπ Precision: Class 0 (Short Career Players): 0.5768
üîπ Recall: Class 0 (Short Career Players): 0.6428
üîπ F1-score: Class 0 (Short Career Players): 0.6069

üìå Full Classification Report (Averaged Over 5 Folds):
              precision    recall  f1-score   support

         0.0       0.58      0.64      0.61       504
         1.0       0.76      0.71      0.74       824

    accuracy                           0.68      1328
   macro avg       0.67      0.68      0.67      1328
weighted avg       0.69      0.68      0.69      1328



Dans cette premi√®re approche, nous avons utilis√© les hyperparam√®tres par d√©faut du mod√®le sans optimisation sp√©cifique.

‚úÖ F1-score Classe 1 (Longue carri√®re) : 0.7359

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.6069

‚úÖ Accuracy globale : 0.68

üîç Analyse :

Le mod√®le favorise fortement la classe majoritaire (Classe 1 - joueurs avec une longue carri√®re), avec un recall de 0.7099. Cela signifie qu'il parvient √† capturer un bon nombre de joueurs qui auront une longue carri√®re.
Cependant, le recall de la classe 0 (0.6428) est relativement faible, indiquant que le mod√®le ne d√©tecte pas bien les joueurs ayant une carri√®re courte.
Le d√©s√©quilibre des classes semble impacter les performances globales, avec une pr√©cision faible pour la classe 0 (0.5768)

In [17]:
# Version 2 - Optimisation GridSearchCV
param_grid_brf = {
    "n_estimators": [100, 300, 500],
    "max_depth": [3, 5, 7, None],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4],
    "max_features": ['sqrt', 'log2', None],
}

brf = BalancedRandomForestClassifier(random_state=42)

score_classifier_with_tuning(over_X, brf, over_y, param_grid_brf,5,"stratified")


Fitting 5 folds for each of 324 candidates, totalling 1620 fits


  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (


Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Fitting 5 folds for each of 324 candidates, totalling 1620 fits

üìä Average Confusion Matrix:
[[619. 205.]
 [239. 585.]]

üéØ Performance Metrics:
üîπ Precision (Class 1 - Long Career Players): 0.7398
üîπ Recall (Class 1 - Majority): 0.7100
üîπ F1-score (Class 1 - Long Career Players): 0.7242
üîπ Precision (Class 0 - Short Career Players): 0.7229
üîπ Recall (Class 0 - Minority): 0.7512
üîπ F1-score (Class 0 - Short Career Players): 0.7365

üìú Full Classification Report (average over folds):
              precision    recall  f1-score   support

         0.0       0.72      0.75      0.74       824
         1.0       0.74      0.71      0.72       824

    accuracy                           0.73      1648
   macro avg       0.73      0.73      0.73      1648
weighted avg       0.73      

Nous avons ensuite appliqu√© une optimisation avec GridSearchCV, permettant de tester plusieurs combinaisons d‚Äôhyperparam√®tres et d‚Äôam√©liorer la capacit√© du mod√®le √† diff√©rencier les deux classes.

‚úÖ F1-score Classe 1 (Longue carri√®re) :0.7242 

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.7365 

‚úÖ Accuracy globale : 0.73(+5 points)

üîç Analyse :

Am√©lioration notable du recall de la classe 0 (0.7512 vs 0.6428 en V1) ‚Üí Le mod√®le identifie mieux les joueurs ayant une courte carri√®re, ce qui r√©duit les faux positifs (√©viter de classer un joueur √† faible potentiel comme une future star).

√âquilibre entre pr√©cision et recall ‚Üí La pr√©cision pour les deux classes augmente, passant de 0.5768 √† 0.7229 pour la classe 0, ce qui montre une meilleure capacit√© du mod√®le √† ne pas confondre les joueurs des deux cat√©gories.

In [19]:
# Version 3 - Optimisation avec Optuna
brf = BalancedRandomForestClassifier(random_state=42)
brf_model = score_classifier_with_optuna(over_X, brf, over_y, 50, cv=5, use_stratified=True)
brf_model

[32m[I 2025-10-08 15:20:35,976][0m A new study created in memory with name: no-name-7b103fbd-437c-46a2-90bf-939cb309e1ab[0m
[32m[I 2025-10-08 15:21:23,244][0m Trial 0 finished with value: 0.7209842809987949 and parameters: {'n_estimators': 900, 'max_depth': 15, 'min_samples_split': 4, 'min_samples_leaf': 7, 'max_features': None}. Best is trial 0 with value: 0.7209842809987949.[0m
[32m[I 2025-10-08 15:22:14,827][0m Trial 1 finished with value: 0.7161189929611725 and parameters: {'n_estimators': 1000, 'max_depth': 15, 'min_samples_split': 5, 'min_samples_leaf': 10, 'max_features': None}. Best is trial 0 with value: 0.7209842809987949.[0m
[32m[I 2025-10-08 15:22:27,538][0m Trial 2 finished with value: 0.7254614582591007 and parameters: {'n_estimators': 700, 'max_depth': None, 'min_samples_split': 9, 'min_samples_leaf': 7, 'max_features': 'log2'}. Best is trial 2 with value: 0.7254614582591007.[0m
[32m[I 2025-10-08 15:22:36,473][0m Trial 3 finished with value: 0.7259721226071


 Best Hyperparameters Found: {'n_estimators': 600, 'max_depth': 15, 'min_samples_split': 9, 'min_samples_leaf': 4, 'max_features': 'log2'}

üìä Average Confusion Matrix:
[[614. 210.]
 [231. 593.]]

üéØ Performance Metrics:
üîπ Precision (Class 1 - Long Career Players): 0.7378
üîπ Recall (Class 1 - Majority): 0.7197
üîπ F1-score (Class 1 - Long Career Players): 0.7284
üîπ Precision (Class 0 - Short Career Players): 0.7279
üîπ Recall (Class 0 - Minority): 0.7451
üîπ F1-score (Class 0 - Short Career Players): 0.7361

üìú Full Classification Report:
              precision    recall  f1-score   support

         0.0       0.73      0.75      0.74       824
         1.0       0.74      0.72      0.73       824

    accuracy                           0.73      1648
   macro avg       0.73      0.73      0.73      1648
weighted avg       0.73      0.73      0.73      1648



L‚Äôoptimisation via Optuna permet une exploration plus fine et adaptative des hyperparam√®tres, am√©liorant la classification globale.

‚úÖ F1-score Classe 1 (Longue carri√®re) : 0.7284 

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.7361 

‚úÖ Accuracy globale : 0.73  (+5 points)

üîç Analyse :

Hausse du recall pour la classe 1 (0.7197 vs 0.7100 en V2) ‚Üí Le mod√®le d√©tecte encore mieux les joueurs qui auront une carri√®re longue.
Pr√©cision plus stable pour la classe 0 (0.7279) ‚Üí Moins de faux positifs, ce qui signifie que le mod√®le r√©duit les erreurs d‚Äôinvestissement sur des joueurs qui ne performeront pas.
Recall de la classe 0 atteint  0.7451 ‚Üí Le mod√®le identifie encore mieux les joueurs avec une carri√®re courte, renfor√ßant la prise de d√©cision des investisseurs NBA.
√âquilibre parfait entre recall et pr√©cision, ce qui permet d‚Äôavoir un mod√®le robuste et fiable.

üëâ *Le mod√®le final (Version 3 - Optuna) est plus performant que les versions pr√©c√©dentes, offrant une meilleure capacit√© de pr√©diction pour identifier les joueurs ayant une longue carri√®re NBA.*

#####  5.3 XGBoost (XGB)

In [20]:
# Version 1 - KFold Stratifi√©

# Initialize XGBoost classifier with class weighting
xgb_clf = xgb.XGBClassifier(
    objective='binary:logistic',
    random_state=42,
    eval_metric="logloss",
    tree_method="hist"
)

# Call the scoring function with the updated XGBoost classifier
score_classifier(over_X, xgb_clf, over_y,"stratified")



üìä Confusion Matrix:
[[595. 229.]
 [238. 586.]]

üéØ Performance Metrics:
üîπ Precision: Class 1 (Long Career Players): 0.7217
üîπ Recall: Class 1 (Long Career Players): 0.7112
üîπ F1-score: Class 1 (Long Career Players): 0.7146
üîπ Precision: Class 0 (Short Career Players): 0.7158
üîπ Recall: Class 0 (Short Career Players): 0.7220
üîπ F1-score: Class 0 (Short Career Players): 0.7173

üìå Full Classification Report (Averaged Over 5 Folds):
              precision    recall  f1-score   support

         0.0       0.71      0.72      0.72       824
         1.0       0.72      0.71      0.72       824

    accuracy                           0.72      1648
   macro avg       0.72      0.72      0.72      1648
weighted avg       0.72      0.72      0.72      1648



‚úÖ F1-score Classe 1 (Longue carri√®re) : 0.7146

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.7173

‚úÖ Accuracy globale : 0.72

üîç Analyse :

Le mod√®le montre une bonne pr√©cision g√©n√©rale et une balance entre les classes.
La pr√©cision de la classe 1 (0.7217) est correcte.
La classe 0 est √©galement bien prise en compte avec un recall de 0.7220.

In [21]:
# Version 2 - Optimisation GridSearchCV


xgb_clf = xgb.XGBClassifier(
    objective='binary:logistic',  
    random_state=42,
    eval_metric="logloss",  
    use_label_encoder=False,
    tree_method="hist"  
)


# Define parameter grid for tuning
param_grid_xgb = {
    'n_estimators': [100, 300, 1000],  # Number of trees
    'max_depth': [3, 5, 7],  # Tree depth
    'learning_rate': [0.01, 0.1, 0.2],  # Step size shrinkage
    'subsample': [0.7, 0.9],  # Fraction of samples used per tree
    'colsample_bytree': [0.7, 0.9],  # Fraction of features used per tree
}


score_classifier_with_tuning(over_X, xgb_clf, over_y, param_grid_xgb,5,"stratified")


Fitting 5 folds for each of 108 candidates, totalling 540 fits


  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
  from pandas.core import (
Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters:

Fitting 5 folds for each of 108 candidates, totalling 540 fits


Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encode

Fitting 5 folds for each of 108 candidates, totalling 540 fits


Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encode

Fitting 5 folds for each of 108 candidates, totalling 540 fits


Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encode

Fitting 5 folds for each of 108 candidates, totalling 540 fits


Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encode


üìä Average Confusion Matrix:
[[625. 199.]
 [233. 591.]]

üéØ Performance Metrics:
üîπ Precision (Class 1 - Long Career Players): 0.7472
üîπ Recall (Class 1 - Majority): 0.7173
üîπ F1-score (Class 1 - Long Career Players): 0.7314
üîπ Precision (Class 0 - Short Career Players): 0.7303
üîπ Recall (Class 0 - Minority): 0.7585
üîπ F1-score (Class 0 - Short Career Players): 0.7437

üìú Full Classification Report (average over folds):
              precision    recall  f1-score   support

         0.0       0.73      0.76      0.74       824
         1.0       0.75      0.72      0.73       824

    accuracy                           0.74      1648
   macro avg       0.74      0.74      0.74      1648
weighted avg       0.74      0.74      0.74      1648



‚úÖ F1-score Classe 1 (Longue carri√®re) : 0.7314

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.7437 

‚úÖ Accuracy globale : 0.74 (+2 V1)


In [22]:
# Version 3 - Optimisation avec Optuna


xgb_clf = xgb.XGBClassifier(
    objective='binary:logistic',  
    random_state=42,
    eval_metric="logloss",  
    use_label_encoder=False,
    tree_method="hist"  
)

XGB_model = score_classifier_with_optuna(over_X, xgb_clf, over_y, 50, cv=5, use_stratified=True)
XGB_model

[32m[I 2025-10-08 15:53:53,903][0m A new study created in memory with name: no-name-b9835421-229c-4acb-ac25-be5beccbf625[0m
Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

[32m[I 2025-10-08 15:53:54,182][0m Trial 0 finished with value: 0.7333832807379701 and parameters: {'n_estimators': 100, 'max_depth': 3, 'learning_rate': 0.17126099058155422, 'subsample': 0.7342937626376116, 'colsample_bytree': 0.6724601717241729}. Best is trial 0 with value: 0.7333832807379701.[0m
Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

[32m[I 2025-10-08 15:53:55,432][0m Trial 1 finished with v


 Best Hyperparameters Found: {'n_estimators': 200, 'max_depth': 3, 'learning_rate': 0.1025487957714749, 'subsample': 0.8541864515621024, 'colsample_bytree': 0.759217543234042}


Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.




üìä Average Confusion Matrix:
[[608. 216.]
 [214. 610.]]

üéØ Performance Metrics:
üîπ Precision (Class 1 - Long Career Players): 0.7378
üîπ Recall (Class 1 - Majority): 0.7403
üîπ F1-score (Class 1 - Long Career Players): 0.7386
üîπ Precision (Class 0 - Short Career Players): 0.7415
üîπ Recall (Class 0 - Minority): 0.7379
üîπ F1-score (Class 0 - Short Career Players): 0.7393

üìú Full Classification Report:
              precision    recall  f1-score   support

         0.0       0.74      0.74      0.74       824
         1.0       0.74      0.74      0.74       824

    accuracy                           0.74      1648
   macro avg       0.74      0.74      0.74      1648
weighted avg       0.74      0.74      0.74      1648



‚úÖ F1-score Classe 1 (Longue carri√®re) : 0.7386

‚úÖ F1-score Classe 0 (Courte carri√®re) : 0.7393 

‚úÖ Accuracy globale :  0.74 (+2 points V1)

üîç Analyse :

Meilleure performance globale avec une pr√©cision et un rappel plus √©quilibr√©s.
La classe 1 est mieux identifi√©e, avec un recall de 0.7403, r√©duisant ainsi les erreurs o√π un joueur prometteur est mal class√©.
Le recall de la classe 0 atteint 0.7379, ce qui signifie que le mod√®le est aussi plus efficace pour d√©tecter les joueurs qui √©choueront.
La pr√©cision des deux classes s‚Äôam√©liore, indiquant un mod√®le plus robuste et plus fiable pour l‚Äôaide √† la d√©cision.


üëâ *Optuna a permis d‚Äôobtenir les meilleures performances, avec un √©quilibre optimal entre recall et pr√©cision pour les deux classes.*

#### 6. Analyse des R√©sultats et S√©lection du Meilleur Mod√®le

L‚Äôobjectif est de choisir le mod√®le de classification offrant le meilleur compromis entre pr√©cision et recall, tout en assurant une bonne g√©n√©ralisation sur l‚Äôensemble des joueurs.

1- Random Forest (RF)

Meilleure pr√©cision (0.7612) pour la classe 1 (joueurs avec longue carri√®re). Meilleur F1-score global (0.7410 pour classe 1 et 0.7513 pour classe 0). Bon rappel pour la classe 0 (0.7688), garantissant que les joueurs qui √©choueront en NBA sont bien identifi√©s. 

üîª L√©ger d√©ficit en rappel pour la classe 1 (0.7244), ce qui signifie qu‚Äôil rate quelques talents prometteurs.

2Ô∏è- Balanced Random Forest (BalancedRF)

Bonne gestion du d√©s√©quilibre des classes, mais pr√©cision et rappel plus faibles que RF. F1-score global plus faible (0.7284 et 0.7361), ce qui montre une performance l√©g√®rement inf√©rieure √† RF et XGBoost.

üîª Moins performant que RF et XGBoost pour la d√©tection des talents prometteurs.

3Ô∏è- XGBoost

Tr√®s bon √©quilibre entre pr√©cision et rappel pour les deux classes. F1-score l√©g√®rement inf√©rieur √† RF (0.7386 pour la classe 1 et 0.7393 pour la classe 0).Meilleur rappel (0.7403) pour la classe 1, ce qui signifie qu'il identifie plus de joueurs prometteurs que RF.

üîª Pr√©cision l√©g√®rement inf√©rieure √† RF (0.7378 vs. 0.7612) ‚Üí peut g√©n√©rer plus de faux positifs (mauvais investissements).


#### *Le meilleur mod√®le est le Random Forest (RF) optimis√© avec Optuna.*

Meilleur compromis entre pr√©cision et rappel pour la classe 1 (joueurs avec longue carri√®re).Meilleur F1-score global, garantissant un bon √©quilibre entre les erreurs de classification.Meilleure pr√©cision g√©n√©rale, r√©duisant ainsi les faux positifs (√©vite de s√©lectionner des joueurs qui ne performeront pas).


In [26]:
# Enregistrer le meilleut mod√®le
import joblib
joblib.dump(rf_model, "rf_model.pkl")
print("‚úÖ Mod√®le RandomForest enregistr√© avec succ√®s sous 'rf_model.pkl'")

‚úÖ Mod√®le RandomForest enregistr√© avec succ√®s sous 'rf_model.pkl'
