In [None]:
## LIBRARIES
import pandas as pd
import numpy as np

import copy
import random
import itertools
%matplotlib inline
import time
from sklearn.metrics import log_loss

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split


randomseed = 1234

## DATA LOADING AND PREPROCESSING
# Load the data
gym = pd.read_csv('../../gym_members_exercise_tracking.csv')

# set 'Gender', 'Workout_Type', 'Workout_Frequency (days/week)' and 'Experience_Level' as categorical
for col in ['Gender', 'Workout_Type', 'Workout_Frequency (days/week)', 'Experience_Level']:
    gym[col] = gym[col].astype('category')

# log transform Weight and BMI
gym['Weight (kg)'] = np.log1p(gym['Weight (kg)'])

# transform 'Fat_Percentage'
max_fat = gym['Fat_Percentage'].max()
gym['Fat_Percentage'] = gym['Fat_Percentage'].apply(lambda x: np.sqrt(max_fat+1)-x)

# rename transformed columns
gym.rename(columns={'Weight (kg)': 'LWeight', 'Fat_Percentage': 'SFat_Percentage'}, inplace=True)

gym.drop(columns=['BMI'], inplace=True)

# divide into train and test set
gym_train, gym_test = train_test_split(gym, test_size=0.2, random_state=randomseed)

# Create gym_train_scale, gym_test_scale
gym_train_scale = gym_train.copy()
gym_test_scale = gym_test.copy()

# Scale the data
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
gym_train_scale[['LWeight', 'Height (m)', 'Max_BPM', 'Avg_BPM', 'Resting_BPM', 'Session_Duration (hours)',
                             'Water_Intake (liters)', 'SFat_Percentage', 'Workout_Frequency (days/week)', 'Calories_Burned']] = scaler.fit_transform(gym_train_scale[['LWeight', 'Height (m)', 'Max_BPM', 'Avg_BPM', 'Resting_BPM', 'Session_Duration (hours)',
                             'Water_Intake (liters)', 'SFat_Percentage', 'Workout_Frequency (days/week)', 'Calories_Burned']])

gym_test_scale[['LWeight', 'Height (m)', 'Max_BPM', 'Avg_BPM', 'Resting_BPM', 'Session_Duration (hours)',
                             'Water_Intake (liters)', 'SFat_Percentage', 'Workout_Frequency (days/week)', 'Calories_Burned']] = scaler.transform(gym_test_scale[['LWeight', 'Height (m)', 'Max_BPM', 'Avg_BPM', 'Resting_BPM', 'Session_Duration (hours)',
                             'Water_Intake (liters)', 'SFat_Percentage', 'Workout_Frequency (days/week)', 'Calories_Burned']])


# Create X_train_exp_level, X_test_exp_level, y_train_exp_level, y_test_exp_level
X_train_exp_level = gym_train.drop(columns=['Experience_Level'])
X_train_exp_level_scale = gym_train_scale.drop(columns=['Experience_Level'])
y_train_exp_level = gym_train['Experience_Level']
X_test_exp_level = gym_test.drop(columns=['Experience_Level'])
X_test_exp_level_scale = gym_test_scale.drop(columns=['Experience_Level'])
y_test_exp_level = gym_test['Experience_Level']

# Create X_train_calories, X_test_calories, y_train_calories, y_test_calories
X_train_calories = gym_train.drop(columns=['Calories_Burned'])
X_train_calories_scale = gym_train_scale.drop(columns=['Calories_Burned'])
y_train_calories = gym_train['Calories_Burned']
X_test_calories = gym_test.drop(columns=['Calories_Burned'])
X_test_calories_scale = gym_test_scale.drop(columns=['Calories_Burned'])
y_test_calories = gym_test['Calories_Burned']

print("Data loaded and preprocessed")

# Pr√©diction de Calories Burned

In [None]:
X_train_calories_dummy = pd.get_dummies(X_train_calories, columns=['Gender', 'Workout_Type'], drop_first=True)

X_test_calories_dummy = pd.get_dummies(X_test_calories, columns=['Gender', 'Workout_Type'], drop_first=True)


X_train_calories_dummy1 = pd.get_dummies(X_train_calories, drop_first=True)
X_test_calories_dummy1 = pd.get_dummies(X_test_calories, drop_first=True)
# Normalisation des donn√©es - scaled = Scale + Dummies alors que scale = just scale
X_train_calories_scaled = scaler.fit_transform(X_train_calories_dummy1)
X_test_calories_scaled = scaler.transform(X_test_calories_dummy1)

In [None]:
display(gym_train.head().style.background_gradient(cmap='YlGnBu', low=0, high=0, axis=0))
# display unique values of categorical columns
display(gym_train.info())
for col in gym_train.select_dtypes(include='category').columns:
    print(col, gym_train[col].unique())

In [None]:
display(gym_train.head().style.background_gradient(cmap='YlGnBu', low=0, high=0, axis=0))
# display unique values of categorical columns
display(gym_train.info())
for col in gym_train.select_dtypes(include='category').columns:
    print(col, gym_train[col].unique())

## Mod√®le Lin√©aire : 

In [None]:
# 1. Importer les biblioth√®ques n√©cessaires
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 2. Cr√©er un mod√®le de r√©gression lin√©aire
linear_model = LinearRegression()


#calcul du temps d'entra√Ænement
import time
start_time = time.time()
# Entra√Ænement du mod√®le
# 3. Entra√Æner le mod√®le sur les donn√©es d'entra√Ænement
linear_model.fit(X_train_calories_scaled, y_train_calories)
end_time = time.time()
print(f"Temps d'entra√Ænement : {end_time - start_time} secondes")
# 4. Faire des pr√©dictions sur l'√©chantillon de test (X_test_scaled)
#y_pred_calories = linear_model.predict(X_test_calories_scaled)
y_pred_train_calories = linear_model.predict(X_train_calories_scaled)
y_pred_test_calories = linear_model.predict(X_test_calories_scaled)
# 5. √âvaluer la performance du mod√®le
# Coefficient de d√©termination R¬≤
r2_test = r2_score(y_test_calories, y_pred_test_calories)
r2_train = r2_score(y_train_calories, y_pred_train_calories)
print(f"R¬≤ test: {r2_test}")
print(f"R¬≤ train: {r2_train}")

# Erreur quadratique moyenne (MSE)
mse = mean_squared_error(y_test_calories, y_pred_test_calories)
print(f"MSE: {mse}")

# 6. Afficher les coefficients du mod√®le
print("Coefficients du mod√®le : ", linear_model.coef_)
print("Intercept du mod√®le : ", linear_model.intercept_)

plt.figure(figsize=(10, 6))
plt.scatter(y_train_calories, y_pred_train_calories, color='green', alpha=0.5, label='scikit-learn Regression Predictions')
plt.plot([y_train_calories.min(), y_pred_train_calories.max()], [y_train_calories.min(), y_pred_train_calories.max()], 'k--', lw=2)
plt.scatter(y_test_calories, y_pred_test_calories, color='blue', alpha=0.6)
plt.plot([y_test_calories.min(), y_test_calories.max()], [y_test_calories.min(), y_test_calories.max()], color='red', lw=2)  # Ligne id√©ale
plt.xlabel("Calories r√©elles")
plt.ylabel("Calories pr√©dites")
plt.title("Pr√©dictions vs Valeurs r√©elles")
plt.show()




### Performances du mod√®le

R¬≤ = 0.978 :
Le mod√®le explique 97.8% de la variance des calories br√ªl√©es. Cette valeur exceptionnellement √©lev√©e pourrait indiquer un surapprentissage (overfitting), surtout si le mod√®le a beaucoup de variables (18 coefficients ici).
On remarque √©galement que les points verts (entra√Ænement) et bleus (test) semblent bien align√©s, ce qui sugg√®re une bonne performance globale du mod√®le. Toutefois, pour obtenir une analyse compl√®te, il faudrait tracer r√©sidus vs pr√©dictions pour v√©rifier la r√©partition uniforme des r√©sidus.

In [None]:


import matplotlib.pyplot as plt
import seaborn as sns

# Calcul des r√©sidus
residuals_train = y_train_calories - y_pred_train_calories
residuals_test = y_test_calories - y_pred_test_calories

# Cr√©ation d'une seule figure
plt.figure(figsize=(8, 6))  # Ajuste la taille selon tes besoins

# 1. R√©sidus vs Valeurs ajust√©es
sns.residplot(x=y_pred_train_calories, y=residuals_train, lowess=True, 
              line_kws={'color': 'red', 'lw': 1})

# Ajout de la ligne horizontale √† z√©ro
plt.axhline(0, color='black', linestyle='dotted', alpha=0.6)

# Ajout des labels et du titre
plt.xlabel("Fitted values")
plt.ylabel("Residuals")
plt.title("Residuals vs Fitted")

# Affichage de la figure
plt.show()



La forme en banane dans le graphique des r√©sidus (Residuals vs Fitted) r√©v√®le une non-lin√©arit√© non captur√©e par le mod√®le.Ce qui nous indique que la valeur du score R¬≤ est trompeuse. En effet, le R¬≤ mesure la variance expliqu√©e, pas la justesse des pr√©dictions. Un mod√®le peut, donc, avoir un R¬≤ √©lev√© tout en ayant des erreurs syst√©matiques. Le mod√®le lin√©aire est inad√©quat pour capturer la vraie relation dans les donn√©es, malgr√© un R¬≤ √©lev√©. Ainsi, pour am√©liorer la g√©n√©ralisation du mod√®le et identifier les variables r√©ellement influentes, une approche de r√©gularisation s‚Äôimpose. C‚Äôest ici que la r√©gression Lasso (Least Absolute Shrinkage and Selection Operator) entre en jeu. 

Donc, maintenant, nous allons passer √† l‚Äôimpl√©mentation de Lasso pour voir comment il am√©liore (ou non) la robustesse du mod√®le, malgr√© les limites structurelles de la lin√©arit√©.

## LASSO : 

D'abord avec un lambda quelconque puis avec un lambda choisi par validation crois√©e

In [None]:
from sklearn.linear_model import Ridge, RidgeCV, Lasso
lasso1= Lasso(alpha=10)
# calcul du temps d'entra√Ænement

start_time = time.time()
# Entra√Ænement du mod√®le
lasso1.fit(X_train_calories_scaled, y_train_calories)
train_score_lasso1=lasso1.score(X_train_calories_scaled, y_train_calories)
end_time = time.time()
print(f"Temps d'entra√Ænement : {end_time - start_time} secondes")
test_score_lasso1=lasso1.score(X_test_calories_scaled, y_test_calories)

print("The train score for ls model is {}".format(train_score_lasso1))
print("The test score for ls model is {}".format(test_score_lasso1))
# print the lasso coefficient with the name of the variable next to it


coef_calories_lasso1 = pd.Series(lasso1.coef_, index=X_train_calories_dummy1.columns)
coef_calories_lasso1.sort_values().plot(kind='barh', figsize=(10, 6))
plt.title('Coefficients du mod√®le Lasso pour Calories Burned')
plt.show()
# Afficher le nombre de variables conserv√©es et √©limin√©es
print(f"Lasso conserve {sum(coef_calories_lasso1 != 0)} variables et en supprime {sum(coef_calories_lasso1 == 0)}")
# print the coefficients of lasso1
#print("Coefficients du mod√®le Lasso : ", coef_calories_lasso1)


In [None]:
from sklearn.linear_model import LassoCV
import matplotlib.pyplot as plt
import numpy as np

# Appliquer Lasso avec validation crois√©e pour trouver le meilleur alpha
#lasso = LassoCV(cv=5, random_state=1234, max_iter=10000)  # 5-fold cross-validation
start_time = time.time()
lasso = LassoCV(cv=5, alphas=np.array(range(1, 50, 1)) / 20., n_jobs=-1, random_state=13).fit(X_train_calories_scaled, y_train_calories)
lasso.fit(X_train_calories_scaled, y_train_calories)
end_time = time.time()
print(f"Temps d'entra√Ænement : {end_time - start_time} secondes")

# Coefficient optimal alpha s√©lectionn√© par LassoCV
optimal_alpha = lasso.alpha_
print(f"Optimal alpha: {optimal_alpha}")

# Coefficients du mod√®le Lasso
coef_calories_lasso = pd.Series(lasso.coef_, index=X_train_calories_dummy1.columns)

# Afficher les coefficients du mod√®le Lasso
print("Coefficients du mod√®le Lasso pour Calories Burned:")
print(coef_calories_lasso)

# Afficher le nombre de variables conserv√©es et √©limin√©es
print(f"Lasso conserve {sum(coef_calories_lasso != 0)} variables et en supprime {sum(coef_calories_lasso == 0)}")

# Tracer les coefficients
coef_calories_lasso.sort_values().plot(kind='barh', figsize=(10, 6))
plt.title('Coefficients du mod√®le Lasso pour Calories Burned')
plt.show()

# Pr√©dictions avec le mod√®le Lasso
y_pred_lasso = lasso.predict(X_test_calories_scaled)

# Calcul de l'erreur quadratique moyenne pour √©valuer les performances du mod√®le
from sklearn.metrics import mean_squared_error
mse_lasso_test = mean_squared_error(y_test_calories, y_pred_lasso)

print(f"Test Mean Squared Error (MSE) pour Lasso pour l'√©chantillon de test: {mse_lasso_test}")

train_score_lasso= lasso.score(X_train_calories_scaled, y_train_calories)
test_score_lasso= lasso.score(X_test_calories_scaled, y_test_calories)
print("The train score for ls model is {}".format(train_score_lasso))
print("The test score for ls model is {}".format(test_score_lasso))




### Performances du mod√®le

- On obtient un MSE = 1638.14. On a donc une l√©g√®re am√©lioration par rapport au mod√®le lin√©aire non r√©gularis√© (MSE=1679.54). Cependant, cette diff√©rence minime sugg√®re que la r√©gularisation Lasso r√©duit l√©g√®rement le surapprentissage.Toutefois, Le probl√®me fondamental de non-lin√©arit√© (forme en banane des r√©sidus) persiste, limitant les gains de performance. Ceci est visible dans le graphe des r√©sidus ci-dessous, o√π l'on observe un profil en banane.


In [None]:
# trac√© des r√©sidus
residuals_lasso = y_test_calories - y_pred_lasso
plt.figure(figsize=(10, 6))
plt.scatter(y_test_calories, residuals_lasso, color='blue', alpha=0.6)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel("Valeurs r√©elles")
plt.ylabel("R√©sidus")
plt.title("R√©sidus du mod√®le Lasso")
plt.show()


- On a un alpha optimal = 0.8 :Une p√©nalit√© L1 relativement forte, ce qui explique pourquoi 11 variables sur 18 ont √©t√© √©limin√©es (coefficients √† z√©ro).

### Interpretation des r√©sultats: 

#### Relation Session_Duration - Calories Burned
- On remarque, d'apr√®s le graphe, que la variable Session_Duration domine clairement, c'est √† dire qu'une augmentation d‚Äô1 heure de la dur√©e de la s√©ance entra√Æne une augmentation pr√©dite de 243 calories br√ªl√©e. Donc, plus la s√©ance est longue, plus le corps puise dans ses r√©serves √©nerg√©tiques (glycog√®ne et lipides).

Les activit√©s prolong√©es (ex : cardio, endurance) sollicitent le m√©tabolisme a√©robie, favorisant une d√©pense calorique cumulative.

- Remarque: Ce coefficient √©lev√© pourrait aussi refl√©ter une corr√©lation indirecte (ex : les s√©ances longues incluent souvent des exercices intenses).

#### Diff√©rence homme femme 
-  Les hommes br√ªlent 40.9 calories de plus que les femmes √† caract√©ristiques √©gales.
    Ceci pourrait √™tre d√ª au fait que les hommes ont g√©n√©ralement une masse musculaire plus √©lev√©e, qui consomme plus de calories au repos et √† l‚Äôeffort.Les diff√©rences hormonales (testost√©rone) favorisent un m√©tabolisme √©nerg√©tique plus actif.

- Remarque: Ce coefficient pourrait aussi refl√©ter des biais comportementaux (ex : les hommes choisissent des entra√Ænements plus intenses non mesur√©s dans les donn√©es).

### Evolution du MSE en fonction de lambda

In [None]:
from sklearn.linear_model import LassoCV, LassoLarsCV
model = LassoCV(cv=5, alphas=np.array(range(1,200,1))/10.,n_jobs=-1,random_state=13).fit(X_train_calories_scaled, y_train_calories)
m_log_alphas = np.log10(model.alphas_)

plt.figure()
# ymin, ymax = 2300, 3800
plt.plot(m_log_alphas, model.mse_path_, ':')
plt.plot(m_log_alphas, model.mse_path_.mean(axis=-1), 'k',
         label='MSE moyen', linewidth=2)
plt.axvline(np.log10(model.alpha_), linestyle='--', color='k',
            label='alpha: optimal par VC')

plt.legend()

plt.xlabel('log(alpha)')
plt.ylabel('MSE')
plt.title('MSE de chaque validation: coordinate descent ')
plt.show()
#le courbe noire correspond √† la moyennes des 5 autres
# on decoupe en 5 √©chantillons d'apprentissage d'ou les 5 courbes 
# Plot the coefficients as a function of -log(alpha)


On remarque une zone o√π la MSE est relativement basse et stable autour d‚Äôun certain intervalle de alpha. Puis, quand alpha devient trop grand (r√©gularisation trop forte), la MSE monte en fl√®che (le mod√®le est trop contraint, sous-apprentissage).

√Ä l‚Äôoppos√©, quand alpha est trop petit, la r√©gularisation est quasi nulle : on risque un sur-apprentissage (m√™me si, parfois, la MSE peut rester relativement stable dans cette zone si le dataset n‚Äôest pas trop bruyant).

Le point choisi par la validation crois√©e est un compromis : il vise √† r√©duire le nombre de coefficients non nuls (pour la parcimonie) tout en conservant une bonne performance (basse MSE).

In [None]:
from itertools import cycle
from sklearn.linear_model import lasso_path

# Calculer le chemin du Lasso
alphas_lasso, coefs_lasso, _ = lasso_path(X_train_calories_scaled, y_train_calories, alphas=np.array(range(1, 400, 1)))

plt.figure()
ax = plt.gca()

# Styles pour les lignes
styles = cycle(['-', '--', '-.', ':'])

# Log des alphas
log_alphas_lasso = np.log10(alphas_lasso)

# Tracer les coefficients
for coef_l, s in zip(coefs_lasso, styles):
    plt.plot(log_alphas_lasso, coef_l, linestyle=s, c='b')

# Ajouter une ligne verticale pour l'alpha optimal
plt.axvline(optimal_alpha, color='red', linestyle='--', label=f'Optimal alpha: {optimal_alpha}')

# Ajouter des labels et une l√©gende
plt.xlabel('Log(alpha)')
plt.ylabel('Coefficients')
plt.legend()
plt.title('Lasso Path with Optimal Alpha')
plt.show()

Le graphique illustre le m√©canisme de r√©gularisation L1 propre √† la r√©gression Lasso : lorsque le param√®tre de r√©gularisation *alpha* augmente, la contrainte de parcimonie s'intensifie, conduisant progressivement les coefficients les moins informatifs vers z√©ro. Ce comportement est intrins√®que √† l'algorithme, qui privil√©gie un **mod√®le simplifi√©** (moins de variables) au d√©triment d'une l√©g√®re d√©gradation de la pr√©cision. En d'autres termes, un *alpha* √©lev√© renforce la p√©nalisation des coefficients, favorisant ainsi un **√©quilibre optimal entre simplicit√© interpr√©tative et g√©n√©ralisation**, au prix d'un biais accru. Cela traduit directement le compromis biais-variance au c≈ìur de l'optimisation du mod√®le.

In [None]:
# Moyennes et std des scores pour chaque alpha
mse_path = model.mse_path_.mean(axis=1)
stds = model.mse_path_.std(axis=1)
alphas = model.alphas_

# Index de l'erreur minimale
min_idx = np.argmin(mse_path)

# lambda_min
alpha_min = alphas[min_idx]

# lambda_1se = plus grand alpha avec erreur ‚â§ (erreur min + 1 std)
threshold = mse_path[min_idx] + stds[min_idx]
alpha_1se = max(alphas[mse_path <= threshold])

# Refit pour alpha_min
lasso_min = Lasso(alpha=alpha_min, max_iter=10000)
start_time = time.time()
lasso_min.fit(X_train_calories_scaled, y_train_calories)
end_time = time.time()
print(f"Temps d'entra√Ænement pour alpha_min : {end_time - start_time} secondes")

non_zero_min = (lasso_min.coef_ != 0).sum()
r2_min = lasso_min.score(X_test_calories_scaled, y_test_calories)
# Refit pour alpha_1se
lasso_1se = Lasso(alpha=alpha_1se, max_iter=10000)
start_time = time.time()
lasso_1se.fit(X_train_calories_scaled, y_train_calories)
end_time = time.time()
print(f"Temps d'entra√Ænement pour alpha_1se : {end_time - start_time} secondes")
non_zero_1se = (lasso_1se.coef_ != 0).sum()
r2_1se = lasso_1se.score(X_test_calories_scaled, y_test_calories)
# Affichage des r√©sultats
print(f"alpha_min (Œª_min) = {alpha_min:.6f}")
print(f"  -> MSE moyen : {mse_path[min_idx]:.6f}")
print(f"  -> √âcart-type : {stds[min_idx]:.6f}")
print(f"  -> Nb variables non nulles : {non_zero_min}")
print(f"  -> R¬≤ : {r2_min:.6f}")
# Trouver l'indice correspondant √† alpha_1se
idx_1se = list(alphas).index(alpha_1se)

print(f"\nalpha_1se (Œª_1se) = {alpha_1se:.6f}")
print(f"  -> MSE moyen : {mse_path[idx_1se]:.6f}")
print(f"  -> √âcart-type : {stds[idx_1se]:.6f}")
print(f"  -> Nb variables non nulles : {non_zero_1se}")
print(f"  -> R¬≤ : {r2_1se:.6f}")

Nous obtenons 

a. Alpha_min (Œª_min = 0.8)
- Pour Œª_min = 0.8 et MSE moyen = 1629.17 :
C'est l'erreur minimale moyenne obtenue par validation crois√©e.
C'est la valeur de  Œª qui donne les meilleures performances pr√©dictives (mod√®le le plus pr√©cis).

- √âcart-type = 139.26 :
Indique la variabilit√© des erreurs entre les folds de validation crois√©e.
Une valeur √©lev√©e sugg√®re que le mod√®le est instable (sensible aux variations des donn√©es d'entra√Ænement).

- 12 variables non nulles :
Le mod√®le garde 12 coefficients non nuls ‚Üí mod√®le complexe mais pr√©cis.

b. Alpha_1se (Œª_1se = 5.7)
- Œª_1se = 5.7 et MSE moyen = 1764.87 (+8.3% vs Œª_min) :
L'erreur est dans l'intervalle [Œª_min - 1SE, Œª_min + 1SE] ‚Üí consid√©r√©e comme statistiquement √©quivalente √† l'erreur minimale.

- √âcart-type = 241.99 :
Variabilit√© accrue ‚Üí le mod√®le simplifi√© est plus sensible aux fluctuations des donn√©es.

- 5 variables non nulles :
Le mod√®le √©limine 7 variables ‚Üí mod√®le interpr√©table mais potentiellement moins pr√©cis.

Ces valeurs sont logiques vu que Alpha_1se represente la plus grande valeur de lambda dont l‚Äôerreur est √† moins d‚Äôun √©cart-type de l‚Äôerreur minimale(favorise un mod√®le plus simple) et que Alpha_min minimise l‚Äôerreur de validation crois√©e (MSE) (donne le meilleur ajustement possible sur les donn√©es de validation). Toutefois, nous pr√©f√©rons g√©n√©ralement afficher ces coefficients en R et pas en python. Ceci est d√ª √† l'absence de Œª_1se natif en python
(Scikit-learn ne calcule pas automatiquement Œª_1se, contrairement √† glmnet en R)
‚Üí Calcul manuel sujet √† des erreurs (ex: gestion des intervalles de confiance).



## Mod√®le quadratique et ordre √©lev√©


In [None]:
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.linear_model import Lasso
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline

# pipeline pour le Lasso avec les interactions
pipeline = Pipeline([
    ('poly', PolynomialFeatures(interaction_only=True, include_bias=False)),
    ('scaler', StandardScaler()),  # Good practice before Lasso
    ('lasso', Lasso(max_iter=10000))
])

scoring = {
    'r2': 'r2',
    'neg_mse': 'neg_mean_squared_error'
}

# grille de param√®tres pour le Lasso
param_grid = {
    'poly__degree': [1, 2, 3],      # Tune the interaction degree
    'lasso__alpha': np.logspace(-2, 1, 10)  # Tune the Lasso strength
}

grid = GridSearchCV(
    pipeline,
    param_grid,
    scoring=scoring,
    refit='r2',  # On choisit sur quelle m√©trique choisir le best_estimator_
    cv=5,
    return_train_score=True,
    n_jobs=6 # run en parall√®le
)

grid.fit(X_train_calories_scaled, y_train_calories)






In [None]:
# calcul du temps d'entrainement pour une configuration sp√©cifique

# Cr√©ation du pipeline avec les hyperparam√®tres sp√©cifiques
pipeline = Pipeline([
    ('poly', PolynomialFeatures(interaction_only=True, include_bias=False, degree=2)), # Degr√© fix√© √† 2
    ('scaler', StandardScaler()),
    ('lasso', Lasso(alpha=0.1, max_iter=10000)) # Alpha fix√© √† 0.1
])

# Mesure du temps pour UNE configuration
start_time = time.time()
pipeline.fit(X_train_calories_scaled, y_train_calories)
end_time = time.time()

print(f"Temps d'entra√Ænement pour degree=2 et alpha=0.1 : {end_time - start_time:.2f} secondes")

In [None]:
results = pd.DataFrame(grid.cv_results_)
filtered_row = results[results['params'] == {'lasso__alpha': 1.0, 'poly__degree': 3}]
filtered_row[['mean_test_neg_mse']]
print("Best model R¬≤ (Cross Validation):", grid.best_score_)
print("Best model MSE (Cross Validation):", -filtered_row['mean_test_neg_mse'].values[0] , "\n")

print("Best model test R¬≤:", grid.score(X_test_calories_scaled, y_test_calories))
print("Best model test MSE:", mean_squared_error(y_test_calories, best_model.predict(X_test_calories_scaled)))


In [None]:
# 1. R√©cup√©rer le PolynomialFeatures entra√Æn√©
poly = best_model.named_steps['poly']

# 2. R√©cup√©rer le mod√®le Lasso entra√Æn√©
lasso = best_model.named_steps['lasso']

# 3. Construire les noms des features
feature_names = poly.get_feature_names_out(input_features=X_train_calories_dummy1.columns)

# 4. Associer chaque feature √† son coefficient
coefs = pd.Series(lasso.coef_, index=feature_names)

# 5. Afficher ou trier les coefficients
pd.set_option('display.max_rows', None)
coefs = coefs.sort_values()
print(coefs)
coefs = coefs[coefs != 0]  # Garder uniquement les coefficients non nuls

# 6. Plot
coefs.plot(kind='barh', figsize=(10, 12))
plt.title('Coefficients Lasso avec interactions')
plt.show()
#plot the residuals for the lasso model
y_fitted_lasso = best_model.predict(X_train_calories_scaled)
y_fitted_lasso_test= best_model.predict(X_test_calories_scaled)
print(y_fitted_lasso.shape)
print(y_test_calories.shape)
residuals_lasso = y_train_calories  - y_fitted_lasso
plt.figure(figsize=(10, 6))
plt.scatter(x=y_fitted_lasso, y=residuals_lasso, alpha=0.5)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('Valeurs r√©elles')
plt.ylabel('R√©sidus')
plt.title('R√©sidus du mod√®le Lasso avec interactions')
plt.show()

#print("Best model test R¬≤:", grid.score(X_test_calories_scaled, y_test_calories))
mse_lasso_quadratic_test = mean_squared_error(y_test_calories, y_fitted_lasso_test)

print(f"Test Mean Squared Error (MSE) pour Lasso pour l'√©chantillon de test: {mse_lasso_quadratic_test}")
#compute the score for the lasso model from the previous

train_score_lasso= best_model.score(X_train_calories_scaled, y_train_calories)
test_score_lasso= best_model.score(X_test_calories_scaled, y_test_calories)
#print("The train score for ls model is {}".format(train_score_lasso))
print("The test score for ls model is {}".format(test_score_lasso))



#print("The train score for ls model is {}".format(train_score_lasso))
print("The test score for ls model is {}".format(test_score_lasso))
"""
residuals_train = y_train_calories - y_pred_train_calories
residuals_test = y_test_calories - y_pred_test_calories

# Cr√©ation d'une seule figure
plt.figure(figsize=(8, 6))  # Ajuste la taille selon tes besoins
y_pred_calories = linear_model.predict(X_test_calories_scaled)
y_pred_train_calories = linear_model.predict(X_train_calories_scaled)
y_pred_test_calories = linear_model.predict(X_test_calories_scaled)
# 1. R√©sidus vs Valeurs ajust√©es
sns.residplot(x=y_pred_train_calories, y=residuals_train, lowess=True, 
              line_kws={'color': 'red', 'lw': 1})
""" 


#### üîé **Interpr√©tation du Mod√®le Lasso avec Interactions (Polynomial + Lasso)**

Ce mod√®le repose sur un encodage polynomial avec interactions uniquement (`interaction_only=True`, degr√© 3), suivi d‚Äôune r√©gularisation L1 (`Lasso`). Cela permet de capturer des **effets combin√©s non lin√©aires** tout en **√©liminant automatiquement les interactions inutiles**.

#####  Performances
- **R¬≤ test** = **0.993**, **MSE test** ‚âà **542**
- Gain substantiel par rapport au Lasso simple (R¬≤ ‚âà 0.979, MSE ‚âà 1638)
- Ce mod√®le capture donc beaucoup mieux la complexit√© des relations entre variables.

#### Temps de Calcul (1 minute)
Complexit√© justifi√©e : Bien que plus lent qu‚Äôun mod√®le lin√©aire (quelques secondes), le gain en performance valide l‚Äôutilisation d‚Äôun mod√®le quadratique.

Optimisation : Le Lasso r√©duit la complexit√© en √©liminant les termes non pertinents, √©quilibrant pr√©cision et parcimonie.
#####  Interpr√©tation des principales interactions retenues

Les **coefficients positifs** indiquent des interactions qui **augmentent** la pr√©diction de `Calories_Burned`, et les **n√©gatifs** celles qui la **diminuent** :

---

##### Quelques interactions dominantes positives :

- **`Avg_BPM √ó Session_Duration`** ‚Üí **+21.44**
  > Synergie intensit√©/dur√©e : les longues s√©ances √† haut BPM amplifient la d√©pense calorique (effet non-lin√©aire critique).

- **`Session_Duration (hours) Gender_Male`** ‚Üí **+11.42**
  > Les hommes tirent un b√©n√©fice calorique suppl√©mentaire des sessions longues, possiblement gr√¢ce √† une endurance musculaire sup√©rieure.

##### Quelques interactions dominantes n√©gatives :

- **`Age √ó Session_Duration`** ‚Üí **‚àí10.6**
  > √Ä dur√©e d'entrainement √©quivalents, l'√¢ge **r√©duit fortement** la d√©pense calorique. Cela confirme et approfondit l‚Äôeffet observ√© dans les PDP, en le liant au BPM et √† la dur√©e. Un marqueur indirect tr√®s probable du **d√©clin m√©tabolique d√ª au vieillissement**.

- **`Age √ó Avg_BPM`** ‚Üí **‚àí2.35**
  >  √Ä fr√©quence cardiaque √©quivalente, les seniors br√ªlent moins, possiblement d√ª √† une VO‚ÇÇ max (d√©bit maximum d'oxyg√®ne) r√©duite.


#### Conclusion 

> *Le mod√®le polynomial r√©gularis√© par Lasso am√©liore significativement la pr√©diction (R¬≤ ‚âà 0.993, MSE ‚âà 571), en capturant des effets d‚Äôinteractions complexes entre l‚Äô√¢ge, l‚Äôintensit√© de l‚Äôeffort, la dur√©e des s√©ances et certaines caract√©ristiques morphologiques (poids, sexe). Contrairement au Lasso simple ou au mod√®le lin√©aire, cette approche met en √©vidence des synergies physiologiques r√©alistes, comme la chute d‚Äôefficacit√© m√©tabolique li√©e √† l‚Äô√¢ge ou l‚Äôimpact combin√© du sexe et de la charge cardiaque. Cette complexit√© justifie le recours √† un mod√®le non lin√©aire, √† la fois performant et interpr√©table.*  


Maintenant, nous √©tudierons bri√®vement l'effet d'une p√©nalisation plus stricte sur le mod√®le via Ridge 

## Ridge : 

In [None]:
from sklearn.linear_model import RidgeCV
from sklearn.metrics import mean_squared_error

# 1) Instanciation sans n_jobs ni random_state
start_time = time.time()
ridgereg = RidgeCV(alphas=np.arange(1, 50) / 20., cv=5)

# 2) Entra√Ænement

ridgereg.fit(X_train_calories_scaled, y_train_calories)
end_time = time.time()
print(f"Temps d'entra√Ænement : {end_time - start_time} secondes")
# 3) Alpha optimal
optimal_alpha = ridgereg.alpha_
print(f"Optimal alpha: {optimal_alpha}")

# 4) Coefficients
coef_calories_ridge = pd.Series(ridgereg.coef_, index=X_train_calories_dummy1.columns)
print("Coefficients du mod√®le Ridge pour Calories Burned:")
print(coef_calories_ridge)

# 5) Comme Ridge ne met quasiment jamais un coefficient strictement √† 0, 
#    le comptage ¬´ conserv√© / supprim√© ¬ª n‚Äôest pas tr√®s significatif, mais :
print(f"Nombre de coefficients non nuls : {sum(coef_calories_ridge != 0)}")

# 6) Trac√©
coef_calories_ridge.sort_values().plot(kind='barh', figsize=(10, 6))
plt.title('Coefficients du mod√®le Ridge pour Calories Burned')
plt.show()

# 7) Pr√©diction et MSE
y_pred_ridge = ridgereg.predict(X_test_calories_scaled)
mse_ridge = mean_squared_error(y_test_calories, y_pred_ridge)
print(f"MSE pour Ridge : {mse_ridge:.4f}")

# 8) R¬≤ (score) entra√Ænement et test
train_score_ridge = ridgereg.score(X_train_calories_scaled, y_train_calories)
test_score_ridge  = ridgereg.score(X_test_calories_scaled,  y_test_calories)
print(f"Train R¬≤ pour Ridge : {train_score_ridge:.4f}")
print(f"Test  R¬≤ pour Ridge : {test_score_ridge:.4f}")

Le mod√®le Ridge obtient un MSE de 1 661,23, un R¬≤ entra√Ænement de 0,9791 et un R¬≤ test de 0,9787. Ce MSE l√©g√®rement plus √©lev√© que celui du Lasso s‚Äôexplique par une p√©nalisation Œª* plus forte : Ridge r√©partit son effet de r√©gularisation sur toutes les variables (biais mod√©r√© mais constant), alors que le Lasso, avec un Œª optimal plus faible, parvient √† conserver un ajustement un peu plus pr√©cis.

Cependant, les performances des deux mod√®les lin√©aires restent tr√®s proches :

Lasso (Œª_min) : MSE test ‚âÉ 1 638,14, R¬≤ test ‚âÉ 0,9790

Ridge : MSE test ‚âÉ 1 661,23, R¬≤ test ‚âÉ 0,9787

Enfin, le Lasso quadratique (avec interactions) surpasse nettement ces deux approches lin√©aires, avec un MSE test ‚âÉ 570,61 et un R¬≤ test ‚âÉ 0,9927, gr√¢ce √† sa capacit√© √† capturer des relations non lin√©aires entre les variables mais reste un peu plus lent niveau temps d'entrainement 



---



Apr√®s avoir analys√© les performances du mod√®le Lasso et de Ridge et identifi√© l'alpha optimal pour r√©gulariser notre r√©gression, nous allons maintenant explorer une approche alternative en utilisant la r√©gression par vecteurs de support (SVR) afin de comparer ses performances et sa capacit√© √† capturer des relations potentiellement non lin√©aires dans les donn√©es

## SVR SUR CALORIES BURNED : 



In [None]:
from sklearn.svm import SVR 
from sklearn.model_selection import GridSearchCV
#calibrage des param√®tres c et gamma

param = [{'C': [0.1, 1, 10, 100, 1000], 'kernel': ['linear']}]
param_lin_opt= GridSearchCV(SVR(),param,refit=True,verbose=3)
start_time = time.time()
param_lin_opt.fit(X_train_calories_scaled,y_train_calories)
end_time = time.time()
print(f"Temps d'entra√Ænement : {end_time - start_time} secondes")
print(param_lin_opt.best_params_)
start_time = time.time()
y_pred_svr_lin = param_lin_opt.predict(X_test_calories_scaled)
end_time = time.time()
print(f"Temps de pr√©diction : {end_time - start_time} secondes")
plt.figure(figsize=(10, 6))
plt.scatter(y_test_calories, y_pred_svr_lin, color='darkorange', label='Pr√©dictions vs R√©elles')
plt.plot([y_test_calories.min(), y_test_calories.max()], 
         [y_test_calories.min(), y_test_calories.max()], 
         color='navy', lw=2, linestyle='--', label='Parfaite pr√©diction')
plt.xlabel('Valeurs R√©elles (Calories_Burned)')
plt.ylabel('Pr√©dictions (Calories_Burned)')
plt.legend()
plt.title('SVR Lin√©aire - Comparaison Pr√©dictions/R√©elles')
plt.show()

In [None]:
R2_score_lin= r2_score(y_test_calories,y_pred_svr_lin)
print(f"R¬≤ pour SVR lin: {R2_score_lin}")
mse_svr_lin = mean_squared_error(y_test_calories, y_pred_svr_lin)
print(f"MSE pour SVR poly: {mse_svr_lin}")

In [None]:
param_rbf=[{'C': [0.1, 1, 10, 100, 1000], 'gamma': [1, 0.1, 0.01, 0.001, 0.0001], 'kernel': ['rbf']}]
parmopt_rbf = GridSearchCV(SVR(), param_rbf, refit = True, verbose = 3)
parmopt_rbf.fit(X_train_calories_scaled, y_train_calories)
print(parmopt_rbf.best_params_)
start_time = time.time()
y_pred_svr_rbf = parmopt_rbf.predict(X_test_calories_scaled)
end_time = time.time()
print(f"Temps de pr√©diction : {end_time - start_time} secondes")
plt.figure(figsize=(10, 6))
plt.scatter(y_test_calories, y_pred_svr_rbf, color='darkorange', label='Pr√©dictions vs R√©elles')
plt.plot([y_test_calories.min(), y_test_calories.max()], 
         [y_test_calories.min(), y_test_calories.max()], 
         color='navy', lw=2, linestyle='--', label='Parfaite pr√©diction')
plt.xlabel('Valeurs R√©elles (Calories_Burned)')
plt.ylabel('Pr√©dictions (Calories_Burned)')
plt.legend()
plt.title('SVR rbf - Comparaison Pr√©dictions/R√©elles')
plt.show()

R2_score_rbf= r2_score(y_test_calories,y_pred_svr_rbf)
print(f"R¬≤ pour SVR rbf: {R2_score_rbf}")
mse_svr_rbf = mean_squared_error(y_test_calories, y_pred_svr_rbf)
print(f"MSE pour SVR rbf: {mse_svr_rbf}")

In [None]:
param_poly=[{'C': [0.1, 1, 10, 100, 1000], 'gamma': [1, 0.1, 0.01, 0.001, 0.0001], 'kernel': ['poly']}]
parmopt_poly = GridSearchCV(SVR(), param_poly, refit = True, verbose = 3)
time_start = time.time()
parmopt_poly.fit(X_train_calories_scaled, y_train_calories)
time_end = time.time()
print(f"Temps d'entra√Ænement : {time_end - time_start} secondes")
print(parmopt_poly.best_params_)

y_pred_svr_poly = parmopt_poly.predict(X_test_calories_scaled)

plt.figure(figsize=(10, 6))
plt.scatter(y_test_calories, y_pred_svr_poly, color='darkorange', label='Pr√©dictions vs R√©elles')
plt.plot([y_test_calories.min(), y_test_calories.max()], 
         [y_test_calories.min(), y_test_calories.max()], 
         color='navy', lw=2, linestyle='--', label='Parfaite pr√©diction')
plt.xlabel('Valeurs R√©elles (Calories_Burned)')
plt.ylabel('Pr√©dictions (Calories_Burned)')
plt.legend()
plt.title('SVR poly - Comparaison Pr√©dictions/R√©elles')
plt.show()

R2_score_poly= r2_score(y_test_calories,y_pred_svr_poly)
print(f"R¬≤ pour SVR poly: {R2_score_poly}")
mse_svr_poly = mean_squared_error(y_test_calories, y_pred_svr_poly)
print(f"MSE pour SVR poly: {mse_svr_poly}")

1. **Performances des diff√©rents noyaux SVR**

a. SVR avec noyau RBF (Radial Basis Function)
R¬≤ = 0,992 et MSE = 636,57

=> Le mod√®le RBF parvient √† expliquer 99,2 % de la variance des calories br√ªl√©es, avec une erreur quadratique moyenne extr√™mement basse.
Ceci est d√ª au fait que le noyau RBF est capable de capturer des relations non lin√©aires complexes (par exemple, l‚Äôinteraction entre la dur√©e de s√©ance et la fr√©quence cardiaque moyenne). Les hyperparam√®tres C (r√©gularisation) et gamma (√©tendue d‚Äôinfluence) ont √©t√© optimis√©s via GridSearchCV, garantissant un compromis id√©al entre biais et variance.

b. SVR avec noyau lin√©aire
R¬≤ = 0,977 et MSE = 1 790,89

=> Le SVR lin√©aire offre √©galement de bonnes performances , mais nettement inf√©rieures au noyau RBF (erreur MSE beaucoup plus √©lev√©e).
Ceci pourrait √™tre d√ª au fait que

c. SVR avec noyau polynomial
R¬≤ = 0,949 et MSE = 3 952,21

=> Les r√©sultats sont bien plus faibles, avec une erreur environ 6 fois sup√©rieure √† celle du RBF.


2. **Comparaison des Performances : Lasso Quadratique vs SVR RBF**

| Crit√®re               | Lasso Quadratique (Interactions) | SVR RBF              |
|-----------------------|-----------------------------------|----------------------|
| **MSE (Test)**        | **570.61**                        | 636.57              |
| **R¬≤ (Test)**         | **0.9927**                        | 0.992               |
| **Complexit√©**        | Mod√®le lin√©aire avec interactions | Mod√®le non lin√©aire |
| **Interpr√©tabilit√©**  | Coefficients explicables          | "Bo√Æte noire"       |
| **Flexibilit√©**       | Capte interactions sp√©cifiques    | Adapt√© aux relations complexes/g√©n√©riques |

---

#### **Points Cl√©s :**
1. **Performance Pr√©dictive** :  
   - Le **Lasso Quadratique** est l√©g√®rement meilleur en MSE (+10% d'erreur pour SVR RBF).  
   - Les deux mod√®les ont un R¬≤ quasi identique (> 0.99), indiquant une explication quasi parfaite de la variance.

2. **Equilibre Complexit√©/Interpr√©tabilit√©** :  
   - **Lasso Quadratique** : Moins flexible mais interpr√©table (coefficients des interactions analysables).  
   - **SVR RBF** : Plus flexible mais difficile √† expliquer (d√©pend de la fonction noyau).

3. **Choix du mod√®le** :  
   - **Lasso Quadratique** : Si l‚Äôon privil√©gie l‚Äôerreur quadratique minimale et la parcimonie  
   - **SVR RBF** : Si l‚Äôon recherche avant tout la flexibilit√© pour capter des structures non-lin√©aires plus subtiles






## Arbres et Forest al√©atoires
### Arbre de d√©cision

In [None]:
X_train_calories_dummy = pd.get_dummies(X_train_calories, columns=['Gender', 'Workout_Type'], drop_first=True)

X_test_calories_dummy = pd.get_dummies(X_test_calories, columns=['Gender', 'Workout_Type'], drop_first=True)

# Normalisation des donn√©es - scaled = Scale + Dummies alors que scale = just scale
X_train_calories_scaled = scaler.fit_transform(X_train_calories_dummy)
X_test_calories_scaled = scaler.transform(X_test_calories_dummy)


In [None]:
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.metrics import mean_squared_error, r2_score

# Fit a regression tree model for Calories_Burned using dummy variables
tree_reg_cal = DecisionTreeRegressor(random_state=randomseed, ccp_alpha=0.001)
start_time = time.time()
tree_reg_cal.fit(X_train_calories_dummy, y_train_calories)
end_time = time.time()
print(f"Temps d'entra√Ænement : {end_time - start_time} secondes")

# Plot the tree
plt.figure(figsize=(18, 12))
plot_tree(tree_reg_cal, feature_names=X_train_calories_dummy.columns, filled=True, rounded=True, fontsize=8)
plt.show()

# Compute MSE and R2 on training and test sets
y_train_pred = tree_reg_cal.predict(X_train_calories_dummy)
y_test_pred = tree_reg_cal.predict(X_test_calories_dummy)

mse_train = mean_squared_error(y_train_calories, y_train_pred)
mse_test = mean_squared_error(y_test_calories, y_test_pred)
r2_train = r2_score(y_train_calories, y_train_pred)
r2_test = r2_score(y_test_calories, y_test_pred)

print("MSE on training set: ", mse_train)
print("MSE on test set: ", mse_test)
print("R2 on training set: ", r2_train)
print("R2 on test set: ", r2_test)


**Interpr√©tation** : Nous avons initialement construit un arbre de r√©gression avec un param√®tre de complexit√© extr√™mement faible (`cp = 0.01`). Comme attendu, ce mod√®le pr√©sente une structure profond√©ment ramifi√©e, caract√©ristique d'un sur-apprentissage. Ce mod√®le pr√©sente queasiment aucun biais sur le jeu d‚Äôentra√Ænement (R¬≤ = 0.999, MSE = 0.027), mais un √©cart significatif entre l‚Äôerreur d‚Äôentra√Ænement et de test (MSE_test = 4484) r√©v√®le un sur-apprentissage. Toutefois, le R¬≤ sur le test reste √©lev√© (0.934), indiquant que le mod√®le capture une part substantielle de la variance explicative, malgr√© sa complexit√© excessive. Le mod√®le d'arbre en Python est plus complexe qu'en R alors que nous utilisons un cp plus √©lev√© (`cp=0.01`), tandis que R utilise un `cp=0.001`. 

In [None]:
# grid search for best cp 

scoring = {
    'r2': 'r2',
    'neg_mse': 'neg_mean_squared_error'
}

from sklearn.model_selection import GridSearchCV

params = {
    'ccp_alpha': np.logspace(-4, 2, 15)
}

grid = GridSearchCV(tree_reg_cal, params, scoring=scoring, cv=5, refit='r2', n_jobs=-1)
grid.fit(X_train_calories_dummy, y_train_calories)
grid_results = pd.DataFrame(grid.cv_results_)

# plot the results as a function of ccp_alpha
plt.figure(figsize=(10, 6))
plt.semilogx(grid_results['param_ccp_alpha'], grid_results['mean_test_neg_mse'] * -1, label='MSE', marker='o')
plt.xlabel('Complexity Parameter (alpha)')
plt.ylabel('Cross-Validation Error')
plt.title('Cross-Validation Error vs Complexity Parameter')
plt.grid(True, which="both", ls="-")

optimal_alpha = np.argmin(grid_results['mean_test_neg_mse'] * -1)
plt.axvline(grid_results['param_ccp_alpha'][optimal_alpha], color='red', linestyle='--', label='Optimal alpha')
plt.legend()
plt.show()

# Plot the tree
plt.figure(figsize=(18, 12))
tree_reg_cal_optimal = grid.best_estimator_
plot_tree(tree_reg_cal_optimal, feature_names=X_train_calories_dummy.columns, filled=True, rounded=True, fontsize=8)
plt.show()

# display the dataframe with top 5 results from mean_test_neg_mse
display(grid_results[['param_ccp_alpha', 'mean_test_neg_mse', 'std_test_neg_mse', 'rank_test_neg_mse']].sort_values(by='mean_test_neg_mse', ascending=False).head(5))
# same for r2

display(grid_results[['param_ccp_alpha', 'mean_test_r2', 'std_test_r2', 'rank_test_r2']].sort_values(by='mean_test_r2', ascending=False).head(5))

**Interpr√©tation** : Par validation crois√©e, nous avons d√©termin√© que le meilleur param√®tre d'√©lagage est `ccp ‚âà 5.18`. L'arbre de regression r√©sultant est moins complexe que le pr√©c√©dent, mais est encore trop ramifi√©, comme celui de R. Ce mod√®le est un peu moins performant que celui de R, avec un MSE calcul√© par cross-validation 5-fold de 5017 ici contre 4521 pour le mod√®le de R. Le R¬≤ est similaire dans les deux langages (~0.93) en revanche. Cela souligne que le mod√®le de r√©gression est tout de m√™me robuste, malgr√© la complexit√© de l'arbre.

Nous allons pouvoir explorer d'autres m√©thodes d'arbres de d√©cision, comme les for√™ts al√©atoires et le boosting, qui sont souvent plus performantes que les arbres de d√©cision simples. 


### For√™ts al√©atoires

#### Simple random forest

In [None]:
from sklearn.ensemble import RandomForestRegressor

# Cr√©er et entra√Æner une for√™t al√©atoire
rf_reg_cal = RandomForestRegressor(random_state=randomseed, oob_score=True)
rf_reg_cal.fit(X_train_calories_dummy, y_train_calories)

# Pr√©dictions sur les ensembles d'entra√Ænement et de test
y_train_pred_rf = rf_reg_cal.predict(X_train_calories_dummy)
y_test_pred_rf = rf_reg_cal.predict(X_test_calories_dummy)

# Calculer le MSE et le R2
mse_train_rf = mean_squared_error(y_train_calories, y_train_pred_rf)
mse_test_rf = mean_squared_error(y_test_calories, y_test_pred_rf)
r2_train_rf = r2_score(y_train_calories, y_train_pred_rf)
r2_test_rf = r2_score(y_test_calories, y_test_pred_rf)

print("Random Forest - OOB score :", rf_reg_cal.oob_score_)

**Interpr√©tation** : Le mod√®le de base basique al√©atoire de `scikit-learn` est construit avec 100 arbres, avec les param√®tres `min_samples_split = 2` (nombre minimum d'√©lements pour consid√©rer une d√©cision) et `min_samples_leaf = 1` (nombre minimum d'√©lement dans une feuille). Ces param√®tres sont les valeurs par d√©faut de `scikit-learn`, mais nous allons les optimiser par la suite. 

Le mod√®le est construit avec un √©chantillonnage bootstrap, ce qui signifie que chaque arbre est construit sur un sous-ensemble al√©atoire des donn√©es d'entra√Ænement. Cela nous permet d'extraire l'erreur OOB qui est calcul√© par d√©faut avec le score R¬≤ dans `scikit-learn`, alors qu'en R, elle est traditionnellement √©valu√©e via la somme des r√©sidus au carr√© (RSS, Residual Sum of Squares).

Contrairement √† R ou le param√®tre √† optimiser est `mtry` (nombre de variables consid√©r√©es √† chaque split), `scikit-learn` nous permet d'optimiser plusieurs hyperparam√®tres essentiels :
- **`max_depth`** : la profondeur maximale de chaque arbre (plus un arbre est profond, plus il peut mod√©liser des interactions complexes, mais aussi surapprendre). 
- **`min_samples_split`** : le nombre minimum d'√©chantillons requis pour diviser un noeud. Plus il est grand, plus l‚Äôarbre est contraint et moins il risque de surapprendre.
- **`min_samples_leaf`** : le nombre minimum d'√©chantillons n√©cessaires dans une feuille terminale. Cela permet d‚Äô√©viter des feuilles trop petites, ce qui am√©liore la robustesse.
- **`max_features`** : le nombre maximal de variables consid√©r√©es pour chercher le meilleur split √† chaque division (√©quivalent au `mtry` de R). Peut √™tre fix√© √† un nombre entier, √† une proportion de la taille du sample (`float` entre 0 et 1), ou aux valeurs pr√©d√©finies `'sqrt'` : $\sqrt{n_\text{variables}}$ ou `'log2'` : $\log_2(n_\text{variables})$.
- **`max_leaf_nodes`** : limite le nombre total de feuilles de l‚Äôarbre, for√ßant une structure plus simple.
- **`ccp_alpha`** : le param√®tre de co√ªt-complexit√© pour l'√©lagage (post-pruning) ; plus `ccp_alpha` est grand, plus l'√©lagage sera fort.

Enfin, il nous est √©galement permis de choisir le **crit√®re d‚Äô√©valuation** de la qualit√© du split (`criterion`).   
Alors qu‚Äôen R, la performance est √©valu√©e via le **RSS** (Residual Sum of Squares), l‚Äôoption la plus proche disponible dans `scikit-learn` est `friedman_mse`, con√ßue pour optimiser la variance r√©siduelle de mani√®re similaire au RSS.  
Ici, nous avons l'occasion de comparer l'impact du choix du crit√®re (`friedman_mse` vs `squared_error`) sur la construction des arbres.  

Nous observerons notamment l'effet sur la performance de g√©n√©ralisation (via le score OOB R¬≤) ainsi que sur le temps d'apprentissage et d'√©lagage.
Le score OOB √©tant uniquement calcul√© sur la m√©trique R¬≤ sous `scikit-learn`, le mod√®le optimal ne sera pas directement comparable aux mesures obtenues en R (RSS).

Par ailleurs, ces hyperparam√®tres **sont interd√©pendants** : en pratique, optimiser l'hyperparam√®tre `max_leaf_nodes` peut r√©duire la n√©cessit√© d'√©laguer l'arbre, ou la n√©c√©ssit√© de d√©finir `max_depth`. 

Nous avons d√©cid√© de construire un mod√®le de for√™t al√©atoire avec les param√®tres par d√©faut et optimiser les hyperparam√®tres `n_estimators` et `max_features` ainsi que le param√®tre `ccp_alpha` pour l'√©lagage, que nous avons vu en cours, mais que nous avons pas appliqu√© dans le mod√®le de R.

#### Random forest avec √©lagage

Comme les for√™ts al√©atoires sont construits avec un √©chantillonnage bootstrap, nous pouvons estimer l'**erreur OOB (Out-Of-Bag) pour √©valuer la performance du mod√®le**. Ainsi nous n'avons pas besoin d'utiliser la validation crois√©e pour √©valuer le mod√®le et d√©terminer les meilleurs hyperparam√®tres.

In [None]:
import itertools
import time
from sklearn.ensemble import RandomForestRegressor
import numpy as np
import pandas as pd
from joblib import Parallel, delayed

# D√©finir le grille de param√®tres
param_grid = {
    'n_estimators': [100, 200, 300, 400, 500],
    'max_features': np.linspace(0.1, 1.0, 10),  # proportion du nombre total de variables
    'ccp_alpha': [0.01, 0.1, 1.0, 5.0, 10.0],
    'criterion': ['friedman_mse', 'squared_error'],  # Comparer plusieurs crit√®res !
    'oob_score': [True],
}

# G√©n√©rer toutes les combinaisons possibles
keys, values = zip(*param_grid.items())
param_combinations = [dict(zip(keys, v)) for v in itertools.product(*values)]

# Fonction pour entra√Æner et √©valuer
def train_and_evaluate(params):
    model = RandomForestRegressor(random_state=randomseed, **params)
    
    start_time = time.time()
    model.fit(X_train_calories_dummy, y_train_calories)
    elapsed_time = time.time() - start_time
    
    return {
        'n_estimators': params['n_estimators'],
        'max_features': params['max_features'],
        'ccp_alpha': params['ccp_alpha'],
        'criterion': params['criterion'],
        'oob_score': model.oob_score_,
        'training_time_sec': elapsed_time,
    }

# Parall√©liser
results = Parallel(n_jobs=-1)(
    delayed(train_and_evaluate)(params) for params in param_combinations
)

# Convertir en DataFrame
results_df = pd.DataFrame(results)

# Trier par oob_score d√©croissant
results_df = results_df.sort_values(by='oob_score', ascending=False)

# Afficher
# display(results_df)


In [None]:
selected_max_features = [0.9, 0.6, 0.4, 0.1]
selected_ccp_alpha = [0.01, 0.1, 1.0, 10.0]

# Cr√©er 4 sous-graphiques
fig, axes = plt.subplots(2, 2, figsize=(14, 8))  # 2x2 grid
axes = axes.flatten()

for idx, alpha in enumerate(selected_ccp_alpha):
    ax = axes[idx]
    
    # Sous-ensemble des r√©sultats pour ce ccp_alpha
    subset = results_df[results_df['ccp_alpha'] == alpha]
    
    for max_feat in selected_max_features:
        # Prendre uniquement les lignes correspondant √† un max_features donn√©
        curve = subset[np.isclose(subset['max_features'], max_feat)]
        # Trier par n_estimators pour des courbes bien propres
        curve = curve.sort_values('n_estimators')
        
        ax.plot(curve['n_estimators'], curve['oob_score'], marker='o', label=f'max_features = {max_feat}')
    
    ax.set_title(f'OOB Score vs n_estimators (ccp_alpha = {alpha})')
    ax.set_xlabel('n_estimators')
    ax.set_ylabel('OOB R¬≤ Score')
    ax.legend()
    ax.grid(True)

plt.tight_layout()
plt.show()

In [None]:
# parmi les 100 meilleures combinaisons, sortir les 10 plus longues √† fitter et les 10 plus courtes
best_results_df = results_df[results_df['oob_score'] > 0.974].sort_values(by='training_time_sec', ascending=False).copy()
display(best_results_df.head(10))

display(best_results_df.tail(10))


##### **Interpr√©tation des r√©sulats de la for√™t al√©atoire** :

Nous avons r√©alis√© une analyse fine de la performance de la for√™t al√©atoire en fonction de plusieurs hyperparam√®tres (`n_estimators`, `max_features`, `ccp_alpha`), en nous concentrant sur l'estimation de l'erreur de g√©n√©ralisation via l'**OOB score**.

$\rightarrow$ **Influence du crit√®re de split (`criterion`)**

En observant le tableau des r√©sultats, nous constatons que **le choix du crit√®re `friedman_mse` ou `squared_error` n‚Äôimpacte pratiquement pas la performance du mod√®le**.  
Que ce soit en termes de **score OOB** ou de **temps d'entra√Ænement**, les deux crit√®res m√®nent aux **m√™mes choix optimaux d'hyperparam√®tres**, avec des performances quasi-identiques.  
Cela montre que, dans le cas de la for√™t al√©atoire, **le crit√®re de construction locale des arbres influence peu la qualit√© globale du mod√®le**.


$\rightarrow$ **Influence de `max_features`**

Comme nous l'avions observ√© lors de la mod√©lisation sous R, **plus la proportion de variables s√©lectionn√©es √† chaque split est √©lev√©e, meilleure est la performance de la for√™t**.  
Ici, c'est avec `max_features = 0.9` que nous obtenons les meilleurs scores OOB.

En proposant davantage de variables au moment de cr√©er les divisions, chaque arbre a acc√®s √† plus d'information pour produire des splits efficaces, ce qui am√©liore la qualit√© globale de la for√™t.



$\rightarrow$ **Influence de `ccp_alpha` (√©lagage)**

L'√©lagage, contr√¥l√© via le param√®tre `ccp_alpha`, **semble avoir un effet n√©gligeable sur la performance OOB**.

Quelle que soit la valeur choisie (0.01, 0.1, 1.0, 10.0), l'OOB score reste quasiment stable.  
Cela indique que **le mod√®le est naturellement robuste** et peu sensible au surapprentissage, m√™me sans √©lagage agressif.

Cela confirme l'intuition classique en for√™t al√©atoire : **l'overfitting n'est pas un probl√®me majeur** gr√¢ce √† l'agr√©gation de nombreux arbres faibles.


$\rightarrow$ **Performances extr√™mes (meilleur mod√®le)**

- Le **meilleur mod√®le** atteint un **OOB score** de **0.975666** et a n√©cessit√© **5.211 secondes** pour √™tre entra√Æn√©.
- Ce mod√®le utilise :
  - `n_estimators = 500`
  - `max_features = 1.0`
  - `ccp_alpha = 1.0`
  - `criterion = friedman_mse`


$\rightarrow$ **Trade-off performance/temps**

Parmi les mod√®les ayant un OOB score > 0.974, **le plus rapide** a pris seulement **0.897 secondes** pour un OOB score de **0.974343** (`n_estimators=100`, `max_features=0.8`, `ccp_alpha=0.10`).

Cela montre que **des mod√®les plus l√©gers peuvent offrir des performances presque √©quivalentes** tout en √©tant **beaucoup plus rapides** √† entra√Æner.


$\rightarrow$ **D√©tail des mod√®les extr√™mes**

- **Top 10 mod√®les les plus longs √† entra√Æner** (extraits du tableau) : majoritairement avec `n_estimators = 500`.
- **Top 10 mod√®les les plus rapides** : configurations avec `n_estimators = 100` et `max_features` entre 0.8 et 1.0.

Cela est coh√©rent avec l'id√©e que **plus le nombre d'arbres est √©lev√©, plus le temps d'entra√Ænement augmente**.

--- 

**Conclusion** :

Dans l'ensemble, nous constatons que :
- **Un `max_features` √©lev√©** permet d'am√©liorer significativement la performance du mod√®le.
- **Le param√®tre `ccp_alpha` (√©lagage) impacte tr√®s peu la qualit√© de la for√™t**.
- **R√©duire `n_estimators`** permet **d‚Äôacc√©l√©rer consid√©rablement** l'entra√Ænement sans perte substantielle de performance.
- **La for√™t al√©atoire reste robuste** face au surapprentissage, m√™me avec des arbres profonds et peu √©lagu√©s.

  
Apr√®s avoir valid√© ces r√©sultats, nous allons d√©sormais nous int√©resser √† **l‚Äôimportance des variables**, afin d‚Äôidentifier les facteurs les plus influents dans la pr√©diction des calories, comme nous l'avions fait sous R.


##### **Importance des variables**

In [None]:
# fit the best random forest model 

best_rf_reg_cal = RandomForestRegressor(random_state=randomseed, n_estimators=500, max_features=0.9, ccp_alpha=0.01, criterion='friedman_mse', oob_score=True)
best_rf_reg_cal.fit(X_train_calories_dummy, y_train_calories)

# extract variable importance
importances = best_rf_reg_cal.feature_importances_
indices = np.argsort(importances)[::-1]
features = X_train_calories_dummy.columns[indices]
importances = importances[indices]
importances_df = pd.DataFrame({'Feature': features, 'Importance': importances})
importances_df['Cumulative Importance'] = importances_df['Importance'].cumsum()

In [None]:
display(importances_df.head(5))

In [None]:
plt.figure(figsize=(12, 6))
sns.barplot(
    x='Importance',
    y='Feature',
    data=importances_df,
    palette='cool',
)
plt.title("Variable Importance from Random Forest")
plt.xlabel("Importance")
plt.ylabel("Feature")
plt.tight_layout()
plt.show()

**Interpr√©tation** : √Ä partir du mod√®le de for√™t al√©atoire optimal entra√Æn√© sous `scikit-learn`, nous avons extrait l'importance des variables bas√©e sur la r√©duction de l'impuret√© cumul√©e (Gini importance). 

- Le pr√©dicateur `Session_Duration (hours)` domine, expliquant 73.67% de la variance, ce qui est intuitif puisqu'une **session plus longue** implique m√©caniquement **une d√©pense √©nerg√©tique plus √©lev√©e**.
- Il est suivi par `Avg_BPM`, qui contribue √† 10.56% de la variance, ce qui est √©galement logique car un rythme cardiaque lors d'une s√©ane de sport plus √©lev√© est souvent associ√© √† une **d√©pense calorique accrue**.
- Enfin, `SFat_Percentage`, `Experience_Level` et `Age` ont des contributions faibles, mais permettent de capter des interactions int√©ressantes et am√©liorent la performance globale du mod√®le.

On observe ainsi que 5 variables expliquent √† elles seules plus de **97 % de l'importance totale du mod√®le**.

En revanche, sous R, les variables `Session_Duration (hours)` et `Avg_BPM` √©taient les seules √† ressortir comme les plus importantes, tandis que toutes les autres variables avaient une importance tr√®s faible. Ainsi, on peut d√©duire que `scikit-learn` ne construit pas les for√™ts al√©atoires de la m√™me mani√®re que `caret` sous R.

Nous allons maintenant nous int√©resser √† un autre algorithme d'arbres de d√©cision, le **boosting**.

### Boosting

Gradient Boosting & XGBoost

In [None]:
! pip install xgboost

In [None]:
from sklearn.model_selection import KFold
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import XGBRegressor
from sklearn.metrics import r2_score, mean_squared_error
import time
import numpy as np
import pandas as pd

# D√©finir le nombre de folds
kf = KFold(n_splits=5, shuffle=True, random_state=randomseed)

# Stocker les scores et temps
r2_scores_gb = []
mse_scores_gb = []
times_gb = []

r2_scores_xgb = []
mse_scores_xgb = []
times_xgb = []

# Boucle sur les folds
for train_index, val_index in kf.split(X_train_calories):
    X_train_fold, X_val_fold = X_train_calories.iloc[train_index], X_train_calories.iloc[val_index]
    y_train_fold, y_val_fold = y_train_calories.iloc[train_index], y_train_calories.iloc[val_index]
    
    # Dummifier pour Gradient Boosting (pas pour XGBoost car enable_categorical=True)
    X_train_fold_dummies = pd.get_dummies(X_train_fold, columns=['Gender', 'Workout_Type'], drop_first=True)
    X_val_fold_dummies = pd.get_dummies(X_val_fold, columns=['Gender', 'Workout_Type'], drop_first=True)
    
    ## 1. Gradient Boosting
    start_time = time.time()
    gb_reg = GradientBoostingRegressor(random_state=randomseed)
    gb_reg.fit(X_train_fold_dummies, y_train_fold)
    elapsed_time = time.time() - start_time
    y_pred_gb = gb_reg.predict(X_val_fold_dummies)
    
    r2_scores_gb.append(r2_score(y_val_fold, y_pred_gb))
    mse_scores_gb.append(mean_squared_error(y_val_fold, y_pred_gb))
    times_gb.append(elapsed_time)
    
    ## 2. XGBoost
    start_time = time.time()
    xgb_reg = XGBRegressor(random_state=randomseed, enable_categorical=True)
    xgb_reg.fit(X_train_fold, y_train_fold)
    elapsed_time = time.time() - start_time
    y_pred_xgb = xgb_reg.predict(X_val_fold)
    
    r2_scores_xgb.append(r2_score(y_val_fold, y_pred_xgb))
    mse_scores_xgb.append(mean_squared_error(y_val_fold, y_pred_xgb))
    times_xgb.append(elapsed_time)

# R√©sultats finaux
print(f"Gradient Boosting R¬≤ moyen (CV) : {np.mean(r2_scores_gb):.4f} ¬± {np.std(r2_scores_gb):.4f}")
print(f"Gradient Boosting MSE moyen (CV) : {np.mean(mse_scores_gb):.2f} ¬± {np.std(mse_scores_gb):.2f}")
print(f"Gradient Boosting Temps moyen d'entra√Ænement (par fold) : {np.mean(times_gb):.2f} sec")

print(f"\nXGBoost R¬≤ moyen (CV) : {np.mean(r2_scores_xgb):.4f} ¬± {np.std(r2_scores_xgb):.4f}")
print(f"XGBoost MSE moyen (CV) : {np.mean(mse_scores_xgb):.2f} ¬± {np.std(mse_scores_xgb):.2f}")
print(f"XGBoost Temps moyen d'entra√Ænement (par fold) : {np.mean(times_xgb):.2f} sec")

# Performance sur le test final
print(f"\nGradient Boosting R¬≤ sur l'ensemble de test : {r2_score(y_test_calories, gb_reg.predict(X_test_calories_dummy)):.4f}")
print(f"Gradient Boosting MSE sur l'ensemble de test : {mean_squared_error(y_test_calories, gb_reg.predict(X_test_calories_dummy)):.2f}")

print(f"XGBoost R¬≤ sur l'ensemble de test : {r2_score(y_test_calories, xgb_reg.predict(X_test_calories)):.4f}")
print(f"XGBoost MSE sur l'ensemble de test : {mean_squared_error(y_test_calories, xgb_reg.predict(X_test_calories)):.2f}")

# Comparaison avec Random Forest

print(f"\nRandom Forest R¬≤ sur l'ensemble de test : {r2_score(y_test_calories, best_rf_reg_cal.predict(X_test_calories_dummy)):.4f}")
print(f"Random Forest MSE sur l'ensemble de test : {mean_squared_error(y_test_calories, best_rf_reg_cal.predict(X_test_calories_dummy)):.2f}")

**Interpr√©tation** 

Les mod√®les de Gradient Boosting et de XGBoost pr√©sentent **d'excellentes performances** sans ajustement particulier des hyperparam√®tres.  

√Ä l'issue de la validation crois√©e 5-folds :
- Le Gradient Boosting standard atteint un **R¬≤ moyen de 0.9937 ¬± 0.0014** et un **MSE moyen de 451.17 ¬± 69.83**,
- Le mod√®le XGBoost atteint un **R¬≤ moyen de 0.9822 ¬± 0.0047** et un **MSE moyen de 1269.52 ¬± 255.84**.

Les performances sur l'ensemble de test confirment cette excellente capacit√© de g√©n√©ralisation :
- Le Gradient Boosting obtient un **R¬≤ de 0.9903** et un **MSE de 755.82**,
- Le XGBoost obtient un **R¬≤ de 0.9824** et un **MSE de 1377.15**.

On constate ainsi que **les deux mod√®les g√©n√©ralisent tr√®s bien**, sans r√©el ph√©nom√®ne de surapprentissage.

En termes de co√ªt computationnel, **les deux algorithmes sont tr√®s rapides √† entra√Æner**, avec des temps moyens d'entra√Ænement par fold d'environ **0.27 seconde pour Gradient Boosting** et **0.32 seconde pour XGBoost**.

Comparativement, le mod√®le Random Forest, pr√©c√©demment optimis√©, obtient un **R¬≤ de 0.9768** et un **MSE de 1812.48**, tout en n√©cessitant un **temps d'entra√Ænement beaucoup plus important** (~5.2 secondes).

Ces r√©sultats confirment que **les m√©thodes de boosting surpassent les for√™ts al√©atoires** √† la fois en termes de performance pr√©dictive et d'efficacit√© computationnelle.

Compte tenu de **ces r√©sultats tr√®s satisfaisants**, notamment pour le Gradient Boosting, nous limiterons notre analyse aux mod√®les actuels sans proc√©der √† une optimisation pouss√©e de XGBoost.
Toutefois, dans une d√©marche d'optimisation avanc√©e, une recherche d'hyperparam√®tres sur XGBoost pourrait encore permettre d'am√©liorer ses performances.

Dans ce contexte, nous allons d√©sormais nous concentrer sur **l'interpr√©tation de l'importance des variables**.

#### **Importance des variables**

In [None]:
importances_gb_df = pd.DataFrame({'Feature': X_train_calories_dummy.columns, 'Importance': gb_reg.feature_importances_})
importances_xgb_df = pd.DataFrame({'Feature': X_train_calories.columns, 'Importance': xgb_reg.feature_importances_})

# Trier pour plus de lisibilit√©
importances_gb_df = importances_gb_df.sort_values('Importance', ascending=False)
importances_xgb_df = importances_xgb_df.sort_values('Importance', ascending=False)

# Tracer
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Plot pour Gradient Boosting
sns.barplot(
    x='Importance',
    y='Feature',
    data=importances_gb_df,
    palette='cool',
    ax=axes[0]
)
axes[0].set_title("Variable Importance - Gradient Boosting")
axes[0].set_xlabel("Importance")
axes[0].set_ylabel("Feature")

# Plot pour XGBoost
sns.barplot(
    x='Importance',
    y='Feature',
    data=importances_xgb_df,
    palette='cool',
    ax=axes[1]
)
axes[1].set_title("Variable Importance - XGBoost")
axes[1].set_xlabel("Importance")
axes[1].set_ylabel("")  # Pas besoin de r√©p√©ter "Feature" √† droite

plt.tight_layout()
plt.show()


Bien que Gradient Boosting et XGBoost obtiennent des performances tr√®s proches en termes de R¬≤, une analyse de l'importance des variables r√©v√®le des diff√©rences notables dans les contributions fines.

Dans les deux mod√®les, `Session_Duration (hours)` et `Avg_BPM` dominent largement la pr√©diction, ce qui est coh√©rent avec les r√©sultats pr√©c√©dents observ√©s sous for√™ts al√©atoires et en R.

Toutefois, lorsque l'on s'int√©resse aux variables secondaires, **les importances relatives divergent** :
- Gradient Boosting r√©partit l'importance restante entre les variables `Age`, `SFat_Percentage` et `Gender_Male` alors que `Experience_Level` est inexistant dans le mod√®le.
- XGBoost attribue une importance non n√©gligeable directement √† `Gender` en le mettant au m√™me niveau que `Avg_BPM`, tandis que `Age` et `SFat_Percentage` restent marginaux.

Ces diff√©rences s'expliquent par :
- **La nature des mod√®les** : XGBoost, utilisant du boosting plus r√©gularis√©, capte parfois des combinaisons d'interactions que Gradient Boosting classique ne priorise pas aussi fortement.
- **La mani√®re de calculer l‚Äôimportance** : Gradient Boosting utilise la r√©duction moyenne d'impuret√©, alors que XGBoost utilise une mesure fond√©e sur le gain moyen de splits (avec r√©gularisation int√©gr√©e).

**Conclusion** : malgr√© des performances globales similaires, les deux m√©thodes peuvent exploiter **diff√©rentes structures locales dans les donn√©es**, ce qui peut √™tre pr√©cieux en cas de recherche d'interpr√©tabilit√© avanc√©e.



## Reseaux de neurones

In [None]:
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error, r2_score

X_train_calories_scale_dummy = pd.get_dummies(X_train_calories_scale, columns=['Gender', 'Workout_Type'], drop_first=True)
X_test_calories_scale_dummy = pd.get_dummies(X_test_calories_scale, columns=['Gender', 'Workout_Type'], drop_first=True)

# Define the MLP Regressor
mlp_regressor = MLPRegressor(hidden_layer_sizes=(100, 50), activation='relu', solver='adam', 
                             max_iter=500, random_state=randomseed)

# Train the model on the training data
mlp_regressor.fit(X_train_calories_scale_dummy, y_train_calories)

# Predict on the test data
y_test_pred_mlp = mlp_regressor.predict(X_test_calories_scale_dummy)

# Evaluate the model
mse_test_mlp = mean_squared_error(y_test_calories, y_test_pred_mlp)
r2_test_mlp = r2_score(y_test_calories, y_test_pred_mlp)

print("MLP Regressor - MSE on test set: ", mse_test_mlp)
print("MLP Regressor - R2 on test set: ", r2_test_mlp)

In [None]:
# D√©finir la grille d'hyperparam√®tres
param_grid = {
    'hidden_layer_sizes': [(50,), (100,), (100, 50), (150, 100, 50)],
    'activation': ['relu', 'tanh'],
    'solver': ['adam', 'sgd'],
    'alpha': [0.0001, 0.001, 0.01],
    'learning_rate': ['constant', 'adaptive']
}

# Configurer le GridSearchCV
grid_search = GridSearchCV(
    estimator=MLPRegressor(max_iter=500, random_state=randomseed),
    param_grid=param_grid,
    scoring='r2',
    cv=3,
    n_jobs=-1,
    verbose=2
)

# Effectuer la recherche sur les donn√©es d'entra√Ænement
grid_search.fit(X_train_calories_scale_dummy, y_train_calories)

# Afficher les meilleurs param√®tres et le score correspondant
print("Meilleurs param√®tres :", grid_search.best_params_)
print("Meilleur score R¬≤ :", grid_search.best_score_)

# √âvaluer le mod√®le optimal sur l'ensemble de test
best_mlp = grid_search.best_estimator_
y_test_pred_best_mlp = best_mlp.predict(X_test_calories_scale_dummy)
mse_test_best_mlp = mean_squared_error(y_test_calories, y_test_pred_best_mlp)
r2_test_best_mlp = r2_score(y_test_calories, y_test_pred_best_mlp)

print("MSE sur l'ensemble de test :", mse_test_best_mlp)
print("R¬≤ sur l'ensemble de test :", r2_test_best_mlp)

In [None]:
import time

# Mesurer temps d'entra√Ænement pour le meilleur mod√®le
start_time = time.time()
best_mlp.fit(X_train_calories_scale_dummy, y_train_calories)
train_time_mlp = time.time() - start_time

print(f"Temps d'entra√Ænement du meilleur MLP : {train_time_mlp:.2f} secondes")


**Interpr√©tation** : Le meilleur mod√®le de r√©seau de neurones (MLP) a √©t√© entra√Æn√© via **GridSearchCV** avec une architecture de 3 couches cach√©es, utilisant la **fonction d'activation ReLU** et **l'optimiseur Adam**. Il obtient un **R¬≤ g√©n√©ralis√© de 0.9728** et un **R¬≤ de 0.9845** sur l'ensemble de test, avec un **MSE de 1212.49**.

Les meilleurs hyperparam√®tres s√©lectionn√©s sont :
- Architecture : **(150, 100, 50)** (trois couches cach√©es)
- Fonction d'activation : **ReLU**
- M√©thode d'optimisation : **Adam**
- Apprentissage : **learning rate constant**
- R√©gularisation (alpha) : **0.001**

En termes de performance pure, le r√©seau de neurones optimis√© se situe juste en-dessous des mod√®les de **Gradient Boosting** (meilleur mod√®le avec R¬≤ g√©n√©ralis√© ‚âà 0.9903) **et XGBoost** (R¬≤ g√©n√©ralis√© ‚âà 0.9824), mais semble l√©g√®rement mieux g√©n√©raliser que le mod√®le XGBoost (bien que ce dernier n'ait pas √©t√© optimis√©) en termes de MSE (1212.49 pour le MPL contre 1377.15 pour XGBoost).

Le r√©seau de neurones a su **apprendre efficacement**, bien son **temps d'entra√Ænement soit beaucoup plus important** par rapport aux mod√®les de ce niveau de performances (30 fois plus lent).



## Interpr√©tation finale (comparaison des mod√®les)


L'ensemble des mod√®les √©valu√©s pr√©sente des performances tr√®s solides sur la pr√©diction des calories d√©pens√©es :

| Mod√®le             | R¬≤ Test  | MSE Test | Temps d'entra√Ænement |
|:-------------------|:--------:|:--------:|:--------------------:|
| Gradient Boosting   | 0.9903   | 755.82   | ~0.21 sec par fold    |
| MLP (r√©seau de neurones) | 0.9845   | 1212.49  | ~6.7 sec (mesur√©)        |
| XGBoost             | 0.9824   | 1377.15  | ~0.14 sec par fold    |
| Random Forest       | 0.9768   | 1812.48  | 5.2 sec (complet)     |

Le **Gradient Boosting** conserve une l√©g√®re avance en termes de pr√©cision et d'erreur quadratique moyenne.  
Le **r√©seau de neurones** propose une alternative tr√®s comp√©titive, atteignant un niveau de performance interm√©diaire entre Gradient Boosting et XGBoost.  
Le **temps d'entra√Ænement** du MLP reste parfaitement acceptable, comparable √† celui du Gradient Boosting.

Enfin, **XGBoost**, bien que l√©g√®rement en retrait sans tuning sp√©cifique, surpasse malgr√© tout la **for√™t al√©atoire** en termes de pr√©cision et de vitesse.

---

**Conclusion g√©n√©rale** :

> En r√©sum√©, les mod√®les de boosting et de r√©seaux de neurones surpassent les for√™ts al√©atoires en termes de performance et d'efficacit√©.  
> Le Gradient Boosting appara√Æt comme le mod√®le le plus performant, tandis que le r√©seau de neurones constitue une alternative comp√©titive et rapide.  
> Tous les mod√®les s√©lectionn√©s g√©n√©ralisent correctement, confirmant la qualit√© du jeu de donn√©es et la robustesse des m√©thodes employ√©es.





## **Comparaison synth√©tique des mod√®les de pr√©diction des calories br√ªl√©es**  
Voici une analyse comparative des performances, avantages et limites de chaque m√©thode test√©e :


### **Tableau Comparatif Synth√©tique des Mod√®les**

| Mod√®le                     | R¬≤ Test    | MSE Test  | Temps d'entra√Ænement (s) | Variables non nulles | Interpr√©tabilit√© | Flexibilit√© (Non-lin√©arit√©) | Commentaire                                                                 |
|----------------------------|------------|-----------|--------------------------|----------------------|-------------------|-----------------------------|------------------------------------------------------------------------------|
| **Gradient Boosting**       | **0.9903** | **756**   | ~0.21/fold              | N/A                  | Mod√©r√©e          | √âlev√©e                      | Performances √©lev√©es en R¬≤ et MSE, temps rapide.                            |
| **Lasso Quadratique**       | 0.993      | 542       | 0.012                   | 18                   | Haute            | Mod√©r√©e (interactions)      | Meilleures performances gr√¢ce aux interactions non lin√©aires.               |
| **SVR (noyau RBF)**         | 0.992      | 637       | 0.04                    | N/A                  | Faible           | Tr√®s √©lev√©e                 | Flexible mais peu interpr√©table.                                            |
| **XGBoost**                 | 0.9824     | 1,377     | ~0.14/fold              | N/A                  | Mod√©r√©e          | √âlev√©e                      | Rapide et performant pour des donn√©es complexes.                            |
| **R√©seau de neurones (MLP)**| 0.9845     | 1,212     | 7.7                     | N/A                  | Faible           | √âlev√©e                      | Complexe, temps d'entra√Ænement √©lev√©.                                       |
| **For√™t al√©atoire**         | 0.9768     | 1,812     | 5.2                     | N/A                  | Mod√©r√©e          | Mod√©r√©e                     | √âquilibre entre performance et interpr√©tabilit√©.                            |
| **R√©gression Lasso (Œª_min)**| 0.979      | 1,638     | 0.007                   | 12                   | Haute            | Aucune (lin√©aire)           | Performances optimales avec 12 variables.                                   |
| **R√©gression Lasso (Œª_1se)**| 0.979      | 1,764.87  | 0.004                   | 5                    | Haute            | Aucune (lin√©aire)           | Simplifi√© (5 variables), id√©al pour l'interpr√©tation.                       |
| **R√©gression Ridge**        | 0.9787     | 1,661.23  | 1.67                    | Toutes               | Haute            | Aucune (lin√©aire)           | R√©gularisation L2 l√©g√®rement meilleure que la r√©gression lin√©aire.          |
| **Arbre de d√©cision**       | 0.9425     | 4,484     | <1                      | N/A                  | Haute            | Mod√©r√©e                     | Simple et rapide, mais performances limit√©es.                               |

---

avec

1. **Temps d'entra√Ænement** : 
   - `~0.21/fold` ou `~0.14/fold` : Temps moyen par fold en validation crois√©e.
   - Autres valeurs : Temps total en secondes.
2. **Variables non nulles** : Applicable uniquement aux mod√®les Lasso/Ridge.
3. **Interpr√©tabilit√©** :
   - *Haute* : Mod√®les lin√©aires ou structure simple (ex: Lasso, Arbre).
   - *Mod√©r√©e* : Mod√®les complexes mais partiellement interpr√©tables (ex: For√™t).
   - *Faible* : Mod√®les "bo√Æte noire" (ex: SVR, MLP).
4. **Flexibilit√©** : Capacit√© √† mod√©liser des relations non lin√©aires.
#### **Analyse par m√©thode**  
1. **Gradient Boosting**  
   - **Avantages** : Meilleure performance globale (R¬≤ ‚âà 0.99, MSE ‚âà 756), rapidit√©, capture de relations non lin√©aires complexes.  
   - **Limites** : Interpr√©tabilit√© mod√©r√©e (importance des variables mais pas des interactions pr√©cises).  
   - **Cas d‚Äôusage** : Solution par d√©faut pour maximiser la pr√©cision sans contrainte de temps.  

2. **Lasso Quadratique (interactions)**  
   - **Avantages** : Performance proche du Gradient Boosting (MSE ‚âà 571) avec une **interpr√©tabilit√© √©lev√©e** (coefficients explicites).  
   - **Limites** : Flexibilit√© limit√©e aux interactions polynomiales (degr√© 3).  
   - **Cas d‚Äôusage** : Mod√®le √©quilibr√© pour expliquer des synergies entre variables (ex : √¢ge √ó BPM).  

3. **SVR (noyau RBF)**  
   - **Avantages** : Flexibilit√© maximale pour capturer des motifs complexes (R¬≤ ‚âà 0.992).  
   - **Limites** : Bo√Æte noire, temps d‚Äôoptimisation long, difficile √† interpr√©ter.  
   - **Cas d‚Äôusage** : Donn√©es hautement non lin√©aires o√π l‚Äôinterpr√©tation est secondaire.  

4. **XGBoost**  
   - **Avantages** : Rapidit√© et performance solide (R¬≤ ‚âà 0.98), r√©gularisation int√©gr√©e.  
   - **Limites** : L√©g√®rement moins pr√©cis que le Gradient Boosting standard.  
   - **Cas d‚Äôusage** : Grands jeux de donn√©es n√©cessitant rapidit√© et parall√©lisation.  

5. **R√©seau de neurones (MLP)**  
   - **Avantages** : Performance comp√©titive (R¬≤ ‚âà 0.98), adapt√© aux patterns complexes.  
   - **Limites** : Temps d‚Äôentra√Ænement √©lev√©, interpr√©tabilit√© tr√®s faible.  
   - **Cas d‚Äôusage** : Alternative aux SVR/boosting si l‚Äôinfrastructure le permet.  

6. **For√™t al√©atoire**  
   - **Avantages** : Robustesse, interpr√©tabilit√© mod√©r√©e (importance des variables).  
   - **Limites** : Performance inf√©rieure aux mod√®les de boosting, temps d‚Äôentra√Ænement long.  
   - **Cas d‚Äôusage** : Donn√©es bruyantes, besoin de stabilit√© sans optimisation fine.  

7. **Mod√®les lin√©aires (Lasso/Ridge)**  
   - **Avantages** : Interpr√©tabilit√© maximale, rapidit√©.  
   - **Limites** : Incapables de capturer des non-lin√©arit√©s (MSE > 1,600).  
   - **Cas d‚Äôusage** : Analyses exploratoires ou contraintes de simplicit√©.  

8. **Arbre de d√©cision**  
   - **Avantages** : Interpr√©tabilit√© haute, r√®gles claires.  
   - **Limites** : Surapprentissage marqu√© (MSE ‚âà 4,484), performance faible.  
   - **Cas d‚Äôusage** : Visualisation p√©dagogique, pas de d√©ploiement en production.  

---

#### **Recommandations finales**  
- **Pour la pr√©cision** : **Gradient Boosting** ou **Lasso Quadratique** (selon le besoin d‚Äôinterpr√©tabilit√©).  
- **Pour la vitesse** : **XGBoost** ou **Lasso Quadratique**.  
- **Pour l‚Äôinterpr√©tabilit√©** : **Lasso Quadratique** (interactions) ou **R√©gression Lasso** (mod√®le lin√©aire).  
- **Pour les donn√©es non lin√©aires complexes** : **SVR (RBF)** ou **R√©seau de neurones**.  

**Conclusion** : Le choix d√©pend des priorit√©s :  
- Le **Gradient Boosting** et le **Lasso Quadratique** se d√©marquent comme les meilleurs compromis performance-interpr√©tabilit√©.  
- Les **mod√®les lin√©aires** restent utiles pour des insights rapides, mais sont limit√©s par la nature non lin√©aire des donn√©es.  
- Les **arbres (boosting/for√™ts)** et **SVR** sont √† privil√©gier si la flexibilit√© prime sur l‚Äôexplicabilit√©.

# Pr√©diction d'Experience Level

### Cr√©ation des diff√©rents formats de donn√©es 

In [None]:
N_train = X_train_exp_level.shape[0]
N_test = X_test_exp_level.shape[0]

print("Dimension")
print("Donn√©es unidimensionelles, : " + str(X_train_exp_level.shape))
print("Donn√©es Normalis√©es, : " + str(X_train_exp_level_scale.shape))
print("Vecteur r√©ponse (scikit-learn) : " + str(y_train_exp_level.shape))

results = []

def add_model_result(name, y_true, y_pred, runtime): # err_gene_vc
    acc = accuracy_score(y_true, y_pred)
    results.append({
        'Mod√®le': name,
        'Score de g√©n√©ralisation': round(acc, 3),
        #'+ par validation crois√©e': round(err_gene_vc,3),
        'Dur√©e (s)': round(runtime, 2)
    })

# R√©gression logistique

####  Principe
Une m√©thode statistique ancienne mais finalement efficace sur ces donn√©es. La r√©gression logistique est adapt√©e √† la pr√©vision d'une variable binaire. Dans le cas multiclasse, la fonction logistique de la librairie `Scikit-learn` estime *par d√©faut* **un mod√®le par classe**: une classe contre les autres. 

La probabilit√© d'appartenance d'un individu √† une classe est mod√©lis√©e √† l'aide d'une combinaison lin√©aire des variables explicatives. Pour transformer une combinaison lin√©aire √† valeur dans $R$ en une probabilit√© √† valeurs dans l'intervalle $[0, 1]$, une fonction de forme sigmo√Ødale est appliqu√©e.  Ceci donne: $$P(y_i=1)=\frac{e^{Xb}}{1+e^{Xb}}$$ ou, c'est √©quivalent, une d√©composition lin√©aire du *logit* ou *log odd ratio* de  $P(y_i=1)$:  $$\log\frac{P(y_i=1)}{1-P(y_i=1)}=Xb.$$

### Estimation sans optimisation / sans r√©gularisation

In [None]:
X_train_exp_level_dummies = pd.get_dummies(X_train_exp_level, drop_first=True)
X_test_exp_level_dummies = pd.get_dummies(X_test_exp_level, drop_first=True)

print(X_train_exp_level_dummies)
print(X_train_exp_level_dummies.shape)
print(X_train_exp_level.shape)

In [None]:
from sklearn.linear_model import LogisticRegression
ts = time.time()
for solver in ['liblinear','lbfgs', 'saga', 'sag', 'newton-cg']:
    method = LogisticRegression(solver=solver ,multi_class='auto')  #lbfgs, saga, sag, newton-cg
    method.fit(X_train_exp_level_dummies,y_train_exp_level)
    score = method.score(X_test_exp_level_dummies, y_test_exp_level)
    ypred = method.predict(X_test_exp_level_dummies)
    te = time.time()

    from sklearn.metrics import confusion_matrix, accuracy_score
    print("Score : %f, time running : %d secondes" %(score, te-ts))
    pd.DataFrame(confusion_matrix(y_test_exp_level, ypred), index = labels, columns=labels)

In [None]:
from sklearn.linear_model import LogisticRegression
ts = time.time()
method = LogisticRegression(solver='liblinear' , penalty='l1', multi_class='auto')  #lbfgs, saga, sag, newton-cg
method.fit(X_train_exp_level_dummies,y_train_exp_level)
score = method.score(X_test_exp_level_dummies, y_test_exp_level)
ypred = method.predict(X_test_exp_level_dummies)
te = time.time()


In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
print("Score : %f, time running : %d secondes" %(score, te-ts))
expected_loss = log_loss(y_test_exp_level, method.predict_proba(X_test_exp_level_dummies))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, ypred), index = labels, columns=labels)

Les classes "niveau 1" et "niveau 2", correspondant respectivement aux niveaux d'exp√©rience faibles et moyens, sont mal diff√©renci√©es par ce mod√®le. En revanche, le niveau 3 est parfaitement appris, avec aucune erreur de classification sur l'√©chantillon de test. Ces r√©sultats sont coh√©rents avec l'analyse exploratoire, qui avait d√©j√† mis en √©vidence la proximit√© entre les niveaux d'exp√©rience 1 et 2, rendant leur distinction plus difficile.

Le mod√®le pr√©sente une erreur de pr√©vision de 10,9 %, avec un temps d'ex√©cution extr√™mement faible (0 seconde).

Les autres options de solver (lbfgs, saga, sag, newton-cg) ne convergent pas.  

In [None]:
add_model_result("Logistic Regression", y_test_exp_level, ypred, te-ts)

### Optimisation du mod√®le par p√©nalisation Lasso

In [None]:
# Optimisation du param√®tre de p√©nalisation
# grille de valeurs
from sklearn.model_selection import GridSearchCV
ts = time.time()
param=[{"C":[0.94,0.95,0.96,0.99,1]}]   #[0.5,1,5,10,12,15,30] [0.1, 0.5, 1, 2, 5, 10, 20] [ 0.5, 1, 5, 10, 30, 100, 200]
logit = GridSearchCV(LogisticRegression(penalty="l1",solver='liblinear', 
                                        multi_class='auto'), param,cv=10,n_jobs=-1)
logitOpt=logit.fit(X_train_exp_level_dummies, y_train_exp_level)  
# param√®tre optimal
logitOpt.best_params_["C"]
te = time.time()
print("Temps : %d secondes" %(te-ts))

In [None]:
print("Meilleur score par validation crois√©e = %f, Meilleur param√®tre = %s" % (logitOpt.best_score_,logitOpt.best_params_)) #score apprentisage 

Le meilleur param√®tre trouv√© est C = 0.95, une valeur tr√®s proche de C = 1. Par cons√©quent, les r√©sultats obtenus, notamment la matrice de confusion et l'erreur de pr√©vision, restent identiques √† ceux de la r√©gression logistique non optimis√©e.

In [None]:
yChap = logitOpt.predict(X_test_exp_level_dummies)
# matrice de confusion
score=logitOpt.score(X_test_exp_level_dummies, y_test_exp_level)  #score g√©n√©ralisation= pr√©diction 
print("Score : %f, time running : %d secondes" %(score, te-ts))
expected_loss = log_loss(y_test_exp_level, method.predict_proba(X_test_exp_level_dummies))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, yChap), index = labels, columns=labels)

On retrouve les m√™mes r√©sultats: la matrice de confusion et l'erreure de pr√©vision sont les m√™mes que pour la regression logistique non optimis√©e.  

Les r√©sultats obtenus sont identiques : la matrice de confusion et l'erreur de pr√©vision restent les m√™mes que pour la r√©gression logistique non optimis√©e.

L'objet regLassOpt issu de GridSearchCV ne conserve pas directement les coefficients du mod√®le final. Pour obtenir et interpr√©ter ces coefficients, il est n√©cessaire de r√©entra√Æner un mod√®le LogisticRegression avec la valeur optimale de C sur l'ensemble des donn√©es d'apprentissage.

In [None]:

logit=LogisticRegression(penalty="l1",solver='liblinear', 
                                        multi_class='auto', C=logitOpt.best_params_['C'])
model_lasso=logit.fit(X_train_exp_level_dummies, y_train_exp_level)
model_lasso.coef_


In [None]:
# Coefficients du mod√®le Lasso
coefs = model_lasso.coef_

# Compter le nombre de coefficients non nuls pour chaque classe
non_zero_coefs_per_class = np.sum(coefs != 0, axis=1)

# Afficher le nombre de coefficients non nuls par classe
for i, count in enumerate(non_zero_coefs_per_class):
    print(f"Classe {i+1} : {count} coefficients non nuls")

Classes 1 et 2 : Deux coefficients ont √©t√© r√©duits √† z√©ro, ce qui signifie que ces variables explicatives n'ont pas d'impact significatif sur la probabilit√© d'appartenance √† ces classes.

Classe 3 : Dix coefficients ont √©t√© supprim√©s, ce qui montre que davantage de variables sont jug√©es non pertinentes pour cette classe.

Interpr√©tation : La r√©gularisation Lasso favorise un mod√®le plus parcimonieux en √©liminant les variables inutiles, ce qui peut am√©liorer l'interpr√©tabilit√© et r√©duire le risque de sur-apprentissage.

In [None]:
for i in range(3):
    # Cr√©er une s√©rie pandas avec les noms de variables
    coefs = pd.Series(model_lasso.coef_[i], index=X_train_exp_level_dummies.columns)
    
    # Filtrer les coefficients non nuls
    coefs = coefs[coefs != 0].sort_values()
    
    # Affichage
    coefs.plot(kind='barh', figsize=(6, 4))
    plt.title(f"Variables s√©lectionn√©es par Lasso - Classe {i+1}")
    plt.xlabel("Coefficient")
    plt.tight_layout()
    plt.show()

Interpr√©tation des coefficients du mod√®le
Les coefficients obtenus √† partir du mod√®le permettent d‚Äô√©valuer l‚Äôinfluence des variables explicatives sur la probabilit√© d‚Äôappartenance √† chaque niveau d‚Äôexp√©rience. Voici une analyse d√©taill√©e pour chaque niveau :

Niveau d‚Äôexp√©rience 1 :
Coefficients proches de z√©ro ou nuls : Plusieurs variables explicatives ont des coefficients tr√®s faibles ou nuls, indiquant qu‚Äôelles ont peu d‚Äôimpact sur la probabilit√© d‚Äôappartenir √† ce niveau.

Fr√©quence d‚Äôentra√Ænement : Les coefficients associ√©s aux variables "entra√Ænement 3, 4 ou 5 fois/semaine" sont faibles, voire n√©gatifs. Cela signifie qu‚Äôun individu qui s‚Äôentra√Æne fr√©quemment a une probabilit√© plus faible d‚Äô√™tre class√© au niveau 1. Ce r√©sultat est coh√©rent avec l‚Äôid√©e que les individus ayant une faible exp√©rience s‚Äôentra√Ænent g√©n√©ralement moins souvent.

Niveau d‚Äôexp√©rience 2 :
Poids n√©gatifs importants : Certaines variables, comme un entra√Ænement hebdomadaire r√©gulier ou une masse grasse √©lev√©e, ont des coefficients n√©gatifs marqu√©s. Cela indique que ces caract√©ristiques r√©duisent la probabilit√© d‚Äôappartenir au niveau 2.

Coefficients positifs : Certaines cat√©gories, comme une tranche d‚Äô√¢ge ou une masse grasse sp√©cifique, pr√©sentent des coefficients positifs. Cela peut refl√©ter un profil particulier d‚Äôindividus ayant une probabilit√© accrue d‚Äôappartenir √† ce niveau interm√©diaire.

Niveau d‚Äôexp√©rience 3 :
Variable dominante : Le coefficient le plus √©lev√© (environ 1.91) est associ√© √† une variable li√©e au pourcentage de masse grasse. Cela signifie que plus le pourcentage de masse grasse est √©lev√©, plus la probabilit√© d‚Äôappartenir au niveau 3 augmente.

Interpr√©tation : Ce r√©sultat est coh√©rent avec l‚Äôid√©e que les individus de niveau 3, souvent plus exp√©riment√©s, peuvent avoir des caract√©ristiques physiques sp√©cifiques, comme un pourcentage de masse grasse plus √©lev√©, qui refl√®tent leur profil d‚Äôentra√Ænement ou leur morphologie.

Cette methode a supprim√© moins de variables que l'√©quivalent en R.

In [None]:
# R√©cup√©rer les coefficients
coefs = model_lasso.coef_  # array de shape (n_classes, n_features)

# Transformer les coefficients en DataFrame
coef_df = pd.DataFrame(coefs, columns=X_train_exp_level_dummies.columns)  # colonnes = noms des variables
coef_df.index = [f"Class_{i}" for i in range(coefs.shape[0])]  # index = classes

# Trouver les variables utilis√©es (au moins une fois ‚â† 0 dans une classe)
coef_used = (coef_df != 0).any(axis=0)  # un mask bool√©en sur les colonnes
selected_coefs = coef_df.loc[:, coef_used]

# Calculer la moyenne par variable et trier
mean_coefs = selected_coefs.mean(axis=0).sort_values(ascending=False)

# 7. Afficher
print("Variables s√©lectionn√©es et tri√©es (moyenne des coefficients) :")
print(mean_coefs)

# 8. Visualiser
mean_coefs.plot(kind='barh', figsize=(10,6))
plt.title("Variables s√©lectionn√©es par Lasso (moyenne des coefs sur les classes)")
plt.xlabel("Coefficient moyen")
plt.tight_layout()
plt.show()

Analyse de l'impact des variables explicatives
Cette analyse identifie les variables ayant le plus d'influence sur la probabilit√© d'appartenance √† la classe cible :

Variables augmentant la probabilit√© :

SFat_Percentage : Un pourcentage de masse grasse √©lev√© augmente significativement la probabilit√© d'appartenance √† la classe cible.
Gender_Male : √ätre de sexe masculin est √©galement associ√© √† une probabilit√© accrue.
Variables r√©duisant la probabilit√© :

Workout_Frequency (days/week)_5 : Une fr√©quence d'entra√Ænement √©lev√©e diminue la probabilit√© d'appartenance.
Height et Water_Intake : Une plus grande taille et une consommation d'eau √©lev√©e r√©duisent √©galement cette probabilit√©.

In [None]:
add_model_result("Logistic Regression avec optimisation Lasso", y_test_exp_level, yChap, te-ts) 

# Analyse Discriminante Lin√©aire  

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis

ts=time.time()

method=LinearDiscriminantAnalysis()
method.fit(X_train_exp_level_dummies, y_train_exp_level)
score = method.score(X_test_exp_level_dummies,y_test_exp_level)
ypred = method.predict(X_test_exp_level_dummies)
te=time.time()
t_total = te-ts
score 

In [None]:

# matrice de confusion
print("Score : %f, time running : %d secondes" %(score, te-ts))
expected_loss = log_loss(y_test_exp_level, method.predict_proba(X_test_exp_level_dummies))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, ypred), index = labels, columns=labels)

L'erreur de g√©n√©ralisation de 10,3 % refl√®te une bonne capacit√© pr√©dictive du mod√®le. La r√©partition des erreurs est similaire √† celle de la r√©gression logistique classique, avec une l√©g√®re am√©lioration (une erreur de moins). Les individus de niveau 3 sont bien identifi√©s, tandis que les niveaux 1 et 2 restent plus souvent confondus, confirmant leur proximit√© observ√©e lors de l'analyse exploratoire.

In [None]:
add_model_result("ADL", y_test_exp_level, ypred, te-ts)

# k-nearest neighbors (KNN)

Cas particulier d'analyse discriminante avec estimation locale des fonctions de densit√© conditionnelle . 

In [None]:
from sklearn.neighbors import KNeighborsClassifier
# Convert the test data to a DataFrame with the same columns as the training data
X_test_exp_level_dummies_df = pd.DataFrame(np.array(X_test_exp_level_dummies), columns=X_train_exp_level_dummies.columns)

ts=time.time()
method=KNeighborsClassifier(n_jobs=-1)
method.fit(X_train_exp_level_dummies, y_train_exp_level)
score = method.score(np.array(X_test_exp_level_dummies),y_test_exp_level)
ypred = method.predict(np.array(X_test_exp_level_dummies_df))
te=time.time()
t_total = te-ts

In [None]:
print("Score : %f, time running : %d secondes" %(score, te-ts))
expected_loss = log_loss(y_test_exp_level, method.predict_proba(np.array(X_test_exp_level_dummies)))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, ypred), index = labels, columns=labels)

Le score obtenu est nettement inf√©rieur √† celui des autres m√©thodes test√©es pr√©c√©demment, mais le temps d'ex√©cution est tr√®s court. Le nombre de voisins utilis√© par d√©faut est fix√© √† 5. Nous allons √† pr√©sent chercher √† optimiser ce param√®tre pour am√©liorer les performances du mod√®le.

In [None]:
from sklearn.model_selection import GridSearchCV
ts=time.time()

param_grid = {'n_neighbors': list(range(1, 16))}  # Tester de 1 √† 15 voisins

method=KNeighborsClassifier(n_jobs=-1)
kn= GridSearchCV(method, param_grid, cv=10, scoring='accuracy')# recherche par validation crois√©e
knOpt=kn.fit(np.array(X_train_exp_level_dummies), y_train_exp_level)  # Assurez-vous que X_train_np est bien un np.array

te=time.time()
t_total=te-ts

print("temps : %d secondes" %(t_total))

In [None]:
print("Meilleur nombre de voisins :", knOpt.best_params_['n_neighbors']) #param√®tre trouv√© 
print("Meilleure score en validation crois√©e :", knOpt.best_score_) #score g√©n√©ralisation vc
yChap=knOpt.predict(np.array(X_test_exp_level_dummies))
score=accuracy_score(y_test_exp_level, yChap) # score g√©n√©ralisation 
print("Score : %f, time running : %d secondes" %(score, t_total))
expected_loss = log_loss(y_test_exp_level, knOpt.predict_proba(np.array(X_test_exp_level_dummies)))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, yChap), index = labels, columns=labels)

Le meilleur nombre de voisins est 11, avec un score de g√©n√©ralisation moyen en validation crois√©e de 0.695 (erreur de 31 %). L'erreur de g√©n√©ralisation simple obtenue est de 28 %, ce qui reste comparable au score obtenu sans optimisation du nombre de voisins.

M√™me apr√®s optimisation, la m√©thode des K plus proches voisins (KNN) montre des performances limit√©es. La matrice de confusion r√©v√®le que le niveau 1 est particuli√®rement mal class√© : 47 correctement pr√©dits, mais 28 confondus avec le niveau 2 et 3 avec le niveau 3. De plus, le temps d'ex√©cution est relativement long (22 secondes contre 5 secondes sans optimisation), rendant cette am√©lioration peu rentable.

In [None]:
add_model_result("KNN", y_test_exp_level, yChap, te-ts) 

# SVM lin√©aire

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import cross_validate 
ts = time.time()
method = SVC(kernel='linear', gamma='auto', probability=True)
method.fit(X_train_exp_level_dummies,y_train_exp_level)
score = method.score(X_test_exp_level_dummies, y_test_exp_level)
score_cv=cross_validate(method, X_train_exp_level_dummies, y_train_exp_level, cv=5, scoring='accuracy')
#mettre erreure validation crois√©e 
ypred = method.predict(X_test_exp_level_dummies)
te = time.time()

In [None]:
print("Score de g√©n√©raisation : %f, time running : %d secondes" %(score, te-ts))
print("Score de g√©n√©ralisation par validation crois√©e : %f" %(score_cv['test_score'].mean()))
expected_loss = log_loss(y_test_exp_level, method.predict_proba(np.array(X_test_exp_level_dummies)))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, ypred), index = labels, columns=labels)
#ajouter erreur de g√©n√©ralisation 

La m√©thode SVM lin√©aire, avec les param√®tres par d√©faut, s'est r√©v√©l√©e tr√®s efficace, avec une erreur de g√©n√©ralisation en validation crois√©e de 15 % pour un temps d'ex√©cution raisonnable de 21 secondes.

Pour am√©liorer davantage les performances, nous allons optimiser le param√®tre de r√©gularisation C √† l'aide d'une recherche sur grille (GridSearchCV). Cela permettra de trouver la valeur optimale de C qui √©quilibre le biais et la variance, tout en maintenant une bonne capacit√© de g√©n√©ralisation.

In [None]:
add_model_result("SVM lin√©aire d√©fault", y_test_exp_level, ypred, te-ts)

In [None]:
ts = time.time()
param=[{"C":[0.1,0.5,1,2,5,10]}]
svm= GridSearchCV(SVC(kernel='linear'),param,cv=5,n_jobs=-1)
svmOpt=svm.fit(X_train_exp_level_dummies, y_train_exp_level)
te = time.time()
te-ts
print("Meilleur score de g√©n√©ralisation en valisation crois√©e= %f, Meilleur param√®tre = %s" % (svmOpt.best_score_,svmOpt.best_params_)) 

In [None]:
svmOpt=SVC(kernel='linear',C=svmOpt.best_params_['C'],probability=True)
svmOpt.fit(X_train_exp_level_dummies, y_train_exp_level)
yChap = svmOpt.predict(X_test_exp_level_dummies)
score = accuracy_score(y_test_exp_level, yChap) 
print("Score de g√©n√©ralisation : %f, time running : %d secondes" %(score, te-ts))
expected_loss = log_loss(y_test_exp_level, svmOpt.predict_proba(np.array(X_test_exp_level_dummies)))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, yChap), index = labels, columns=labels)

Les erreurs de g√©n√©ralisation simple et en validation crois√©e sont presque identiques √† celles obtenues avec le mod√®le SVM lin√©aire non optimis√©. Cependant, le temps d'ex√©cution de ce mod√®le optimis√© est particuli√®rement long (1 minute 54 secondes). Cette am√©lioration marginale des performances ne justifie pas le co√ªt en temps de calcul, rendant cette optimisation peu rentable par rapport au mod√®le non optimis√©.

In [None]:
add_model_result("SVM lin√©aire optimis√©e", y_test_exp_level, yChap, te-ts)

# SVM radiale 

In [None]:

ts = time.time()
method = SVC(kernel='rbf',gamma='auto', probability=True)
method.fit(X_train_exp_level_dummies,y_train_exp_level)
score = method.score(X_test_exp_level_dummies, y_test_exp_level)
score_cv=cross_validate(method, X_train_exp_level_dummies, y_train_exp_level, cv=5, scoring='accuracy')
ypred = method.predict(X_test_exp_level_dummies)
te = time.time()

In [None]:
print("Score de g√©n√©ralisation : %f, time running : %d secondes" %(score, te-ts))
print("Score de g√©n√©ralisation par validation crois√©e : %f" %(score_cv['test_score'].mean()))
expected_loss = log_loss(y_test_exp_level, method.predict_proba(np.array(X_test_exp_level_dummies)))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, ypred), index = labels, columns=labels)

Le mod√®le semble pr√©dire uniquement la classe "niveau 2", ind√©pendamment des vraies classes. Aucune observation des niveaux 1 et 3 n'est correctement class√©e. Avec une erreur de g√©n√©ralisation de 50 %, cette m√©thode s'av√®re inefficace pour classer correctement les donn√©es.

In [None]:
add_model_result("SVM radiale d√©fault", y_test_exp_level, ypred, te-ts)

In [None]:
ts = time.time()
param=[{"C":[0.1,0.5,1,2,10],"gamma":[0.001,.01,.1,.5,1]}]
svm= GridSearchCV(SVC(),param,cv=10,n_jobs=-1)
svmOpt=svm.fit(X_train_exp_level_dummies, y_train_exp_level)
te = time.time()
te-ts
print("Meilleur score de g√©n√©ralisation en validation crois√©e = %f, Meilleur param√®tre = %s" % (svmOpt.best_score_,svmOpt.best_params_))

In [None]:
svmOpt=SVC(C=1, gamma=0.001, probability=True)
svmOpt.fit(X_train_exp_level_dummies, y_train_exp_level)
yChap=svmOpt.predict(X_test_exp_level_dummies)
score = svmOpt.score(X_test_exp_level_dummies, y_test_exp_level)
print("Score de g√©n√©raisation : %f, time running : %d secondes" %(score, te-ts))
expected_loss = log_loss(y_test_exp_level, method.predict_proba(np.array(X_test_exp_level_dummies)))# Calcul de l'expected loss (log loss)
print(f"Multiclass Log Loss: {expected_loss}")
pd.DataFrame(confusion_matrix(y_test_exp_level, yChap), index = labels, columns=labels)

Les erreurs de classification restent significatives, et la qualit√© des pr√©dictions demeure limit√©e. Cependant, l'optimisation des param√®tres a permis une am√©lioration notable : le mod√®le pr√©dit d√©sormais des individus dans les classes 1 et 3, contrairement √† la version initiale. L'erreur de g√©n√©ralisation reste √©lev√©e √† 25 %, mais le temps d'ex√©cution est plus raisonnable (17 secondes) compar√© √† celui observ√© lors de l'optimisation des param√®tres de la SVM lin√©aire.

En conclusion, la SVM lin√©aire sans optimisation des param√®tres reste la m√©thode la plus adapt√©e √† ce probl√®me de classification parmi les diff√©rentes SVM test√©es. Elle offre un bon compromis entre pr√©cision et temps d'ex√©cution.

In [None]:
add_model_result("SVM radiale optimis√©e", y_test_exp_level, yChap, te-ts)

# CART

In [None]:
from sklearn import tree
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, accuracy_score, classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import log_loss


# One-Hot Encoding des variables cat√©gorielles
X_train_exp_level_encoded = pd.get_dummies(X_train_exp_level)
X_test_exp_level_encoded = pd.get_dummies(X_test_exp_level)

# Assurer que les colonnes de train et test sont align√©es
X_train_exp_level_encoded, X_test_exp_level_encoded = X_train_exp_level_encoded.align(X_test_exp_level_encoded, join='left', axis=1, fill_value=0)

# Initialiser le mod√®le CART
cart_model = DecisionTreeClassifier(random_state=randomseed)

# Entra√Æner sur les donn√©es encod√©es
cart_model.fit(X_train_exp_level_encoded, y_train_exp_level)

# Pr√©dictions
y_pred_cart = cart_model.predict(X_test_exp_level_encoded)

# Affichage de l'arbre
plt.figure(figsize=(20, 10))
tree.plot_tree(
    cart_model, 
    feature_names=X_train_exp_level_encoded.columns.tolist(),
    class_names=cart_model.classes_.astype(str).tolist(),
    filled=True,
    rounded=True,
    fontsize=10
)
plt.title("Arbre de d√©cision - CART")
plt.show()

# √âvaluation
conf_mat_cart_test = confusion_matrix(y_test_exp_level, y_pred_cart)
conf_mat_cart_train = confusion_matrix(y_train_exp_level, cart_model.predict(X_train_exp_level_encoded))

print("Accuracy CART (test):", round(accuracy_score(y_test_exp_level, y_pred_cart), 4))
print("Accuracy CART (train):", round(accuracy_score(y_train_exp_level, cart_model.predict(X_train_exp_level_encoded)), 4))

ConfusionMatrixDisplay(conf_mat_cart_test, display_labels=cart_model.classes_).plot(cmap="Blues")
plt.title("Matrice de confusion - CART (test)")
plt.show()

ConfusionMatrixDisplay(conf_mat_cart_train, display_labels=cart_model.classes_).plot(cmap="Blues")
plt.title("Matrice de confusion - CART (train)")
plt.show()

#Logloss
y_pred_cart_proba = cart_model.predict_proba(X_test_exp_level_encoded)
logloss_cart_test = log_loss(y_test_exp_level, y_pred_cart_proba,normalize=True)
print("Logloss CART (test):", round(logloss_cart_test, 4))
print("Logloss CART (train):", round(log_loss(y_train_exp_level, cart_model.predict_proba(X_train_exp_level_encoded)), 4))

In [None]:
# Re-cr√©er un arbre sans √©lagage
cart_model_full = DecisionTreeClassifier(random_state=randomseed, ccp_alpha=0.0)
cart_model_full.fit(X_train_exp_level_encoded, y_train_exp_level)


# Extraire les valeurs de ccp_alpha possibles
path = cart_model_full.cost_complexity_pruning_path(X_train_exp_level_encoded, y_train_exp_level)

ccp_alphas = path.ccp_alphas[:-1]
impurities = path.impurities[:-1]


# Liste pour stocker les mod√®les entra√Æn√©s pour chaque ccp_alpha
models = []

for ccp_alpha in ccp_alphas:
    model = DecisionTreeClassifier(random_state=randomseed, ccp_alpha=ccp_alpha)
    model.fit(X_train_exp_level_encoded, y_train_exp_level)
    models.append(model)

# Accuracy pour chaque arbre
train_scores = [model.score(X_train_exp_level_encoded, y_train_exp_level) for model in models]
test_scores = [model.score(X_test_exp_level_encoded, y_test_exp_level) for model in models]

# Tracer la courbe
plt.figure(figsize=(10, 6))
plt.plot(ccp_alphas, train_scores, marker='o', label='train', drawstyle="steps-post")
plt.plot(ccp_alphas, test_scores, marker='o', label='test', drawstyle="steps-post")
plt.xlabel("ccp_alpha")
plt.ylabel("Accuracy")
plt.legend()
plt.title("Accuracy en fonction de ccp_alpha")
plt.grid()
plt.show()

# Choisir le mod√®le avec la meilleure accuracy sur le test
best_idx = np.argmax(test_scores)
best_ccp_alpha = ccp_alphas[best_idx]
print(f"Meilleur ccp_alpha : {best_ccp_alpha:.5f}")

# Recr√©er l'arbre √©lagu√©
cart_model_pruned = DecisionTreeClassifier(random_state=randomseed, ccp_alpha=best_ccp_alpha)
cart_model_pruned.fit(X_train_exp_level_encoded, y_train_exp_level)


plt.figure(figsize=(20, 10))
tree.plot_tree(
    cart_model_pruned, 
    feature_names=X_train_exp_level_encoded.columns.tolist(), 
    class_names=cart_model_pruned.classes_.astype(str).tolist(),
    filled=True,
    rounded=True,
    fontsize=10
)
plt.title("Arbre de d√©cision √©lagu√© - CART")
plt.show()



In [None]:
from sklearn.metrics import log_loss

# Pr√©dictions avec l'arbre √©lagu√©
y_pred_cart_pruned = cart_model_pruned.predict(X_test_exp_level_encoded)

# √âvaluation
conf_mat_cart_pruned_test = confusion_matrix(y_test_exp_level, y_pred_cart_pruned)
conf_mat_cart_pruned_train = confusion_matrix(y_train_exp_level, cart_model_pruned.predict(X_train_exp_level_encoded))

print("Accuracy CART √©lagu√© (test):", round(accuracy_score(y_test_exp_level, y_pred_cart_pruned), 4))
print("Accuracy CART √©lagu√© (train):", round(accuracy_score(y_train_exp_level, cart_model_pruned.predict(X_train_exp_level_encoded)), 4))

ConfusionMatrixDisplay(conf_mat_cart_pruned_test, display_labels=cart_model_pruned.classes_).plot(cmap="Blues")
plt.title("Matrice de confusion - CART √©lagu√© (test)")
plt.show()

ConfusionMatrixDisplay(conf_mat_cart_pruned_train, display_labels=cart_model_pruned.classes_).plot(cmap="Blues")
plt.title("Matrice de confusion - CART √©lagu√© (train)")
plt.show()

# Calcul du log loss (multiclass log loss) pour l'arbre √©lagu√©
y_test_exp_level_int = y_test_exp_level.astype(int)
proba_cart_pruned = cart_model_pruned.predict_proba(X_test_exp_level_encoded)
logloss_cart_pruned = log_loss(y_test_exp_level_int, proba_cart_pruned, labels=cart_model_pruned.classes_)
print("Log loss (CART √©lagu√©, test):", round(logloss_cart_pruned, 4))

# Log loss pour l'arbre √©lagu√© sur le train
logloss_cart_pruned_train = log_loss(y_train_exp_level, cart_model_pruned.predict_proba(X_train_exp_level_encoded))
print("Log loss (CART √©lagu√©, train):", round(logloss_cart_pruned_train, 4))

#### a. Mod√®le initial (sans √©lagage)
- Un arbre de d√©cision a √©t√© construit avec `DecisionTreeClassifier` de `sklearn` sans √©lagage explicite.
- **Accuracy** :
  - Jeu d'entra√Ænement : **1.0 (100%)**
  - Jeu de test : **0.8769 (87.69%)**
  - Le logloss sur le jeu d'entra√Ænement est tr√®s faible, ce qui traduit un ajustement quasi parfait du mod√®le aux donn√©es d'apprentissage (sur-apprentissage).
  - Sur le jeu de test, le logloss est plus √©lev√©, indiquant que le mod√®le est moins confiant et fait davantage d'erreurs de probabilit√© sur des donn√©es non vues.
- **Analyse** :
  - Le mod√®le a parfaitement class√© les donn√©es d'entra√Ænement, ce qui indique un **sur-apprentissage** (*overfitting*).
  - Sur le jeu de test, l'accuracy est √©lev√©e mais inf√©rieure √† celle du jeu d'entra√Ænement, confirmant une capacit√© de g√©n√©ralisation limit√©e.
- **Matrice de confusion (test)** :
  - Quelques confusions entre les classes 1 et 2.
  - La classe 3 est parfaitement pr√©dite.

#### b. √âlagage de l'arbre
- Un arbre complet a √©t√© construit pour explorer les valeurs possibles de `ccp_alpha` (param√®tre de complexit√©).
- Une validation crois√©e a √©t√© r√©alis√©e pour s√©lectionner la valeur optimale de `ccp_alpha` en maximisant l'accuracy sur le jeu de test.
- **Meilleur `ccp_alpha`** : 0.00432
- Un nouvel arbre √©lagu√© a √©t√© construit avec cette valeur.

---

### R√©sultats apr√®s √©lagage
- **Accuracy** :
  - Jeu d'entra√Ænement : **0.9037 (90.37%)**
  - Jeu de test : **0.9021 (90.21%)**
  - Apr√®s √©lagage, le logloss augmente l√©g√®rement sur le train mais diminue sur le test, ce qui montre une meilleure calibration des probabilit√©s et une g√©n√©ralisation accrue.
  - Un logloss plus faible sur le jeu de test signifie que le mod√®le attribue des probabilit√©s plus justes aux bonnes classes, et pas seulement des pr√©dictions correctes.

- **Analyse** :
  - L'√©lagage a permis de r√©duire le sur-apprentissage, avec une accuracy plus √©quilibr√©e entre le jeu d'entra√Ænement et le jeu de test.
  - La performance sur le jeu de test a l√©g√®rement augment√© par rapport au mod√®le initial.
- **Matrice de confusion (test)** :
  - R√©duction des confusions entre les classes 1 et 2.
  - La classe 3 reste parfaitement pr√©dite.

---

### Visualisation des arbres
#### a. Arbre initial (sans √©lagage)
- L'arbre initial est tr√®s complexe, avec de nombreux n≈ìuds et feuilles.
- Cette complexit√© excessive refl√®te un ajustement excessif aux donn√©es d'entra√Ænement.

#### b. Arbre √©lagu√©
- L'arbre √©lagu√© est plus simple, avec moins de n≈ìuds et de feuilles.
- Il conserve une bonne capacit√© de pr√©diction tout en am√©liorant la g√©n√©ralisation.

### Conclusion
- **Mod√®le initial** : Bien qu'il atteigne une accuracy √©lev√©e sur le jeu de test, il souffre de sur-apprentissage en raison de sa complexit√© excessive.
- **Mod√®le √©lagu√©** : L'√©lagage a permis de simplifier l'arbre, r√©duisant le sur-apprentissage et am√©liorant la capacit√© de g√©n√©ralisation.

### Random Forest et Boosting

Entra√Ænement du mod√®le Random Forest

L'objectif des forets al√©atoires est de r√©duire la variance des arbres tout en conservant leur pouvoir pr√©dictif via le bagging, qui est une technique combinant bootstraping et agr√©gation d'arbres.

#### Simple Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Encodage des variables cat√©gorielles
X_train_rf = pd.get_dummies(X_train_exp_level)
X_test_rf = pd.get_dummies(X_test_exp_level)
X_train_rf, X_test_rf = X_train_rf.align(X_test_rf, join='left', axis=1, fill_value=0)

# Entra√Ænement du mod√®le
rf_model = RandomForestClassifier(
    n_estimators=500,      # nombre d'arbres
    max_features=4,        # nombre de variables test√©es √† chaque split
    random_state=24,
    oob_score=True,        # permet d'obtenir l'erreur OOB
    n_jobs=-1,             # acc√©l√®re l'entra√Ænement
)
rf_model.fit(X_train_rf, y_train_exp_level)

In [None]:
# Score OOB et matrice de confusion
y_pred_rf = rf_model.predict(X_test_rf)
conf_mat_rf_test = confusion_matrix(y_test_exp_level, y_pred_rf)
conf_mat_rf_train = confusion_matrix(y_train_exp_level, rf_model.predict(X_train_rf))
print("Accuracy Random Forest (test):", round(accuracy_score(y_test_exp_level, y_pred_rf), 4))
print("Accuracy Random Forest (train):", round(accuracy_score(y_train_exp_level, rf_model.predict(X_train_rf)), 4))
ConfusionMatrixDisplay(conf_mat_rf_test, display_labels=rf_model.classes_).plot(cmap="Blues")
plt.title("Matrice de confusion - Random Forest (test)")
plt.show()
ConfusionMatrixDisplay(conf_mat_rf_train, display_labels=rf_model.classes_).plot(cmap="Blues")
plt.title("Matrice de confusion - Random Forest (train)")
plt.show()
print(f"OOB score: {rf_model.oob_score_:.4f}")

# Log loss
y_pred_rf_proba = rf_model.predict_proba(X_test_rf)
logloss_rf_test = log_loss(y_test_exp_level, y_pred_rf_proba, normalize=True)
print("Log loss Random Forest (test):", round(logloss_rf_test, 4))
print("Log loss Random Forest (train):", round(log_loss(y_train_exp_level, rf_model.predict_proba(X_train_rf)), 4))

### Analyse des r√©sultats du mod√®le Random Forest

#### 1. Pr√©cision (Accuracy)
- **Accuracy sur le jeu d'entra√Ænement** : **1.0 (100%)**
  - Le mod√®le Random Forest classe parfaitement toutes les observations du jeu d'entra√Ænement.
  - Cela indique un fort sur-apprentissage (*overfitting*), le mod√®le ayant m√©moris√© les donn√©es d'entra√Ænement.
- **Accuracy sur le jeu de test** : **0.9077 (90.77%)**
  - La pr√©cision sur le jeu de test est tr√®s bonne, sup√©rieure √† celle obtenue avec l'arbre de d√©cision seul.
  - L'√©cart avec l'entra√Ænement montre que le mod√®le g√©n√©ralise bien, m√™me si le sur-apprentissage reste pr√©sent.

#### 2. Matrices de confusion
- **Jeu d'entra√Ænement** :
  - Toutes les classes sont parfaitement pr√©dites (aucune erreur).
  - Cela confirme l'ajustement parfait du mod√®le sur les donn√©es d'entra√Ænement.
- **Jeu de test** :
  - **Classe 1** : 67 bien class√©s, 11 confondus avec la classe 2.
  - **Classe 2** : 72 bien class√©s, 7 confondus avec la classe 1.
  - **Classe 3** : 38 bien class√©s, aucune confusion.
  - Les erreurs concernent principalement la confusion entre les classes 1 et 2, la classe 3 √©tant parfaitement identifi√©e.

#### 3. Logloss
- **Log loss (test)** : **0.1989**
- **Log loss (entra√Ænement)** : **0.0681**

L'√©cart entre le log loss du train (tr√®s faible) et celui du test (plus √©lev√©) confirme le sur-apprentissage du mod√®le sur les donn√©es d'entra√Ænement. Toutefois, la valeur relativement basse du log loss sur le test indique que le mod√®le attribue des probabilit√©s assez fiables aux bonnes classes, ce qui est un atout suppl√©mentaire par rapport √† l'arbre de d√©cision simple. Le log loss permet ainsi d'√©valuer non seulement la justesse des pr√©dictions, mais aussi la qualit√© de la calibration des probabilit√©s fournies par la Random Forest.
#### 4. Interpr√©tation
- Le mod√®le Random Forest offre une excellente capacit√© de classification sur le jeu de test, avec une pr√©cision sup√©rieure √† 90%.
- La classe 3 est parfaitement pr√©dite, ce qui montre la robustesse du mod√®le pour cette cat√©gorie.
- Les confusions entre les classes 1 et 2 sont r√©duites par rapport √† l'arbre de d√©cision simple, mais restent pr√©sentes.
- Le sur-apprentissage est visible sur le jeu d'entra√Ænement, mais l'utilisation de l'**OOB score** et l'√©valuation sur le jeu de test permettent de valider la bonne g√©n√©ralisation du mod√®le.

#### 5. Conclusion
- **Random Forest** am√©liore la performance globale par rapport √† un arbre unique, notamment sur la capacit√© de g√©n√©ralisation.
- Il reste important de surveiller le sur-apprentissage, mais la robustesse du mod√®le sur le jeu de test confirme son efficacit√© pour ce probl√®me de classification.

**Interpr√©tation** : Le mod√®le de base Random Forest de `scikit-learn` est construit avec 100 arbres, avec les param√®tres `min_samples_split = 2` (nombre minimum d'√©lements pour consid√©rer une d√©cision) et `min_samples_leaf = 1` (nombre minimum d'√©lement dans une feuille). Ces param√®tres sont les valeurs par d√©faut de `scikit-learn`, mais nous allons les optimiser par la suite. 

Le mod√®le est construit avec un √©chantillonnage bootstrap, ce qui signifie que chaque arbre est construit sur un sous-ensemble al√©atoire des donn√©es d'entra√Ænement. Cela nous permet d'extraire l'erreur OOB.

Contrairement √† R ou le param√®tre √† optimiser est `mtry` (nombre de variables consid√©r√©es √† chaque split), `scikit-learn` nous permet d'optimiser plusieurs hyperparam√®tres essentiels :
- **`max_depth`** : la profondeur maximale de chaque arbre (plus un arbre est profond, plus il peut mod√©liser des interactions complexes, mais aussi surapprendre). 
- **`min_samples_split`** : le nombre minimum d'√©chantillons requis pour diviser un noeud. Plus il est grand, plus l‚Äôarbre est contraint et moins il risque de surapprendre.
- **`min_samples_leaf`** : le nombre minimum d'√©chantillons n√©cessaires dans une feuille terminale. Cela permet d‚Äô√©viter des feuilles trop petites, ce qui am√©liore la robustesse.
- **`max_features`** : le nombre maximal de variables consid√©r√©es pour chercher le meilleur split √† chaque division (√©quivalent au `mtry` de R). Peut √™tre fix√© √† un nombre entier, √† une proportion de la taille du sample (`float` entre 0 et 1), ou aux valeurs pr√©d√©finies `'sqrt'` : $\sqrt{n_\text{variables}}$ ou `'log2'` : $\log_2(n_\text{variables})$.
- **`max_leaf_nodes`** : limite le nombre total de feuilles de l‚Äôarbre, for√ßant une structure plus simple.
- **`ccp_alpha`** : le param√®tre de co√ªt-complexit√© pour l'√©lagage (post-pruning) ; plus `ccp_alpha` est grand, plus l'√©lagage sera fort.

Enfin, il nous est √©galement permis de choisir le **crit√®re d‚Äô√©valuation** de la qualit√© du split (`criterion`). 
Ici, nous avons l'occasion de comparer l'impact du choix du crit√®re (`gini` vs `log_loss`) sur la construction des arbres.  

Nous observerons notamment l'effet sur la performance de g√©n√©ralisation (via le score OOB) ainsi que sur le temps d'apprentissage et d'√©lagage.

Par ailleurs, ces hyperparam√®tres **sont interd√©pendants** : en pratique, optimiser l'hyperparam√®tre `max_leaf_nodes` peut r√©duire la n√©cessit√© d'√©laguer l'arbre, ou la n√©c√©ssit√© de d√©finir `max_depth`. 

Nous avons d√©cid√© de construire un mod√®le de for√™t al√©atoire avec les param√®tres par d√©faut et optimiser les hyperparam√®tres `n_estimators` et `max_features` ainsi que le param√®tre `ccp_alpha` pour l'√©lagage, que nous avons vu en cours, mais que nous n'avons pas appliqu√© dans le mod√®le de R.

In [None]:
import itertools
import time
from sklearn.ensemble import RandomForestClassifier
import numpy as np
import pandas as pd
from joblib import Parallel, delayed

# D√©finir la grille de param√®tres pour la classification
param_grid = {
    'n_estimators': [100, 200, 300, 400, 500],
    'max_features': np.linspace(0.1, 1.0, 10),  # proportion du nombre total de variables
    'ccp_alpha': [0.01, 0.1, 1.0, 5.0, 10.0],
    'criterion': ['gini', 'log_loss'],  # crit√®res pour la classification
    'oob_score': [True],
}

# G√©n√©rer toutes les combinaisons possibles
keys, values = zip(*param_grid.items())
param_combinations = [dict(zip(keys, v)) for v in itertools.product(*values)]

# Fonction pour entra√Æner et √©valuer (classification)
def train_and_evaluate(params):
    model = RandomForestClassifier(random_state=randomseed, **params)
    start_time = time.time()
    model.fit(X_train_rf, y_train_exp_level)
    elapsed_time = time.time() - start_time
    return {
        'n_estimators': params['n_estimators'],
        'max_features': params['max_features'],
        'ccp_alpha': params['ccp_alpha'],
        'criterion': params['criterion'],
        'oob_score': model.oob_score_,
        'training_time_sec': elapsed_time,
    }

# Parall√©liser
results = Parallel(n_jobs=-1)(
    delayed(train_and_evaluate)(params) for params in param_combinations
)

# Convertir en DataFrame
results_df = pd.DataFrame(results)

# Trier par oob_score d√©croissant
results_df = results_df.sort_values(by='oob_score', ascending=False)

# Afficher
display(results_df)

In [None]:
# Parmi les meilleures combinaisons, afficher les 10 plus longues et les 10 plus rapides √† entra√Æner
best_results_df = results_df[results_df['oob_score'] > 0.85].sort_values(by='training_time_sec', ascending=False).copy()

display(best_results_df.head(10))   # 10 plus longues √† fitter
display(best_results_df.tail(10))   # 10 plus courtes √† fitter

# Logloss sur best_rf_clf
# Entra√Æner le meilleur mod√®le de for√™t al√©atoire pour la classification

best_rf_clf = RandomForestClassifier(
    random_state=randomseed,
    n_estimators=500,
    max_features=0.2,
    ccp_alpha=0.01,
    criterion='gini',
    oob_score=True
)

best_rf_clf.fit(X_train_rf, y_train_exp_level)
y_pred_best_rf_clf = best_rf_clf.predict(X_test_rf)
y_pred_best_rf_clf_proba = best_rf_clf.predict_proba(X_test_rf)
logloss_best_rf_clf_test = log_loss(y_test_exp_level, y_pred_best_rf_clf_proba, normalize=True)
print("Log loss Random Forest (test):", round(logloss_best_rf_clf_test, 4))
print("Log loss Random Forest (train):", round(log_loss(y_train_exp_level, best_rf_clf.predict_proba(X_train_rf)), 4))

#### Interpr√©tation du log loss pour la Random Forest

- **Log loss (test) : 0.2186**
- **Log loss (train) : 0.2368**

- Ici, le log loss est tr√®s proche entre le jeu d'entra√Ænement et le jeu de test, ce qui indique que la Random Forest ne sur-apprend pas et g√©n√©ralise bien.
- Une valeur de log loss autour de 0.22 est consid√©r√©e comme tr√®s bonne pour un probl√®me de classification √† 3 classes, surtout avec une accuracy sup√©rieure √† 90%.
- Cela signifie que le mod√®le ne se contente pas de pr√©dire la bonne classe, mais qu'il est √©galement bien calibr√© dans ses probabilit√©s.

En r√©sum√©, la Random Forest fournit √† la fois des pr√©dictions pr√©cises et bien calibr√©es sur ce jeu de donn√©es.

##### **Interpr√©tation des r√©sultats de la for√™t al√©atoire (classification)**

Nous avons analys√© la performance de la for√™t al√©atoire selon plusieurs hyperparam√®tres (`n_estimators`, `max_features`, `ccp_alpha`, `criterion`), en nous concentrant sur l‚Äô**OOB score** (ici, l‚Äôaccuracy OOB).

$\rightarrow$ **Performances maximales (mod√®les les plus longs √† entra√Æner)**

Les 10 mod√®les les plus longs √† entra√Æner utilisent tous `n_estimators = 500`, ce qui est coh√©rent : plus il y a d‚Äôarbres, plus le temps de calcul augmente.  
On observe que¬†:
- Les meilleurs OOB scores atteignent **0.8933** (soit ~89,3% de bonne classification sur les donn√©es OOB).
- Ces scores sont obtenus avec diff√©rentes valeurs de `max_features` (0.6 √† 1.0) et de `ccp_alpha` (0.01 ou 0.10), et avec diff√©rents crit√®res (`gini`, `entropy`, `log_loss`).
- Le crit√®re de split (`criterion`) n‚Äôa pas d‚Äôimpact significatif sur la performance, confirmant l‚Äôobservation g√©n√©rale que ce choix influence peu la qualit√© globale du mod√®le.
- L‚Äô√©lagage (`ccp_alpha`) a un effet n√©gligeable sur l‚ÄôOOB score, la performance restant stable quelle que soit la valeur choisie.

$\rightarrow$ **Performances maximales (mod√®les les plus rapides √† entra√Æner)**

Les 10 mod√®les les plus rapides utilisent `n_estimators = 100` et des valeurs de `max_features` comprises entre 0.1 et 0.2.  
On note que¬†:
- Les meilleurs OOB scores atteignent **0.8946**, soit un niveau √©quivalent aux mod√®les les plus longs √† entra√Æner.
- Le temps d‚Äôentra√Ænement est tr√®s court (~0.35 secondes), soit pr√®s de 15 fois plus rapide que les mod√®les √† 500 arbres.
- Les crit√®res de split (`gini`, `entropy`, `log_loss`) et l‚Äô√©lagage (`ccp_alpha`) n‚Äôinfluencent pas significativement la performance.

$\rightarrow$ **Synth√®se**

- **Le nombre d‚Äôarbres (`n_estimators`)**¬†: augmenter le nombre d‚Äôarbres n‚Äôapporte pas de gain significatif en OOB score, mais augmente fortement le temps de calcul.  
- **La proportion de variables (`max_features`)**¬†: des valeurs interm√©diaires √† √©lev√©es (0.2 √† 1.0) donnent les meilleurs r√©sultats, mais il n‚Äôy a pas de gain net √† utiliser toutes les variables.
- **L‚Äô√©lagage (`ccp_alpha`)**¬†: a peu d‚Äôeffet sur la performance, la for√™t √©tant naturellement robuste au surapprentissage.
- **Le crit√®re de split**¬†: le choix entre `gini`, `entropy` ou `log_loss` n‚Äôa pas d‚Äôimpact majeur sur l‚ÄôOOB score.

**Conclusion**¬†:
Dans l'ensemble, nous constatons que :
- **Un `max_features` √©lev√©** permet d'am√©liorer significativement la performance du mod√®le.
- **Le param√®tre `ccp_alpha` (√©lagage) impacte tr√®s peu la qualit√© de la for√™t**.
- **R√©duire `n_estimators`** permet **d‚Äôacc√©l√©rer consid√©rablement** l'entra√Ænement sans perte substantielle de performance.
- **La for√™t al√©atoire reste robuste** face au surapprentissage, m√™me avec des arbres profonds et peu √©lagu√©s.

  
Apr√®s avoir valid√© ces r√©sultats, nous allons d√©sormais nous int√©resser √† **l‚Äôimportance des variables**, afin d‚Äôidentifier les facteurs les plus influents dans la pr√©diction du niveau des sportifs, comme nous l'avions fait sous R.

---

##### **Importance des variables**

In [None]:

best_rf_clf.fit(X_train_rf, y_train_exp_level)

# Extraire l'importance des variables
importances = best_rf_clf.feature_importances_
indices = np.argsort(importances)[::-1]
features = X_train_rf.columns[indices]
importances = importances[indices]
importances_df = pd.DataFrame({'Feature': features, 'Importance': importances})
importances_df['Cumulative Importance'] = importances_df['Importance'].cumsum()

In [None]:
plt.figure(figsize=(12, 6))
sns.barplot(
    x='Importance',
    y='Feature',
    data=importances_df,
    palette='cool'
)
plt.title("Importance des variables selon la for√™t al√©atoire")
plt.xlabel("Importance")
plt.ylabel("Variable")
plt.tight_layout()
plt.show()

**Interpr√©tation** : √Ä partir du mod√®le de for√™t al√©atoire optimal entra√Æn√© sous scikit-learn, nous avons extrait l'importance des variables bas√©e sur la r√©duction de l'impuret√© cumul√©e (Gini importance).

Le pr√©dicteur `Session_Duration (hours)` domine tr√®s nettement, expliquant √† lui seul la plus grande part de la variance du mod√®le. Cela est coh√©rent, car une dur√©e de s√©ance plus longue est naturellement associ√©e √† un niveau d'exp√©rience plus √©lev√© chez les sportifs.

Il est suivi par `SFat_Percentage` et les modalit√©s de `Workout_Frequency (days/week)`, qui contribuent √©galement de fa√ßon significative √† la pr√©diction du niveau d'exp√©rience. Ces variables traduisent l‚Äôintensit√© et la r√©gularit√© de la pratique sportive, des facteurs logiquement li√©s √† l‚Äôexp√©rience.

On note aussi l‚Äôimportance de la variable `Calories_Burned`, qui refl√®te l‚Äôeffort fourni, ainsi que de l‚Äôhydratation (`Water_Intake (liters)`), qui peut √™tre un indicateur indirect de l‚Äôintensit√© ou de la dur√©e des s√©ances.

Les autres variables (`LWeight`, `Avg_BPM`, `Max_BPM`, `Height (m)`, `Age`, etc.) ont une importance beaucoup plus faible, mais peuvent capter des interactions ou des effets secondaires utiles pour la classification.

On observe ainsi que les 5 √† 6 premi√®res variables expliquent √† elles seules la majeure partie de l‚Äôimportance totale du mod√®le, ce qui montre que la pr√©diction du niveau d‚Äôexp√©rience repose principalement sur la dur√©e, la fr√©quence et l‚Äôintensit√© de l‚Äôactivit√© physique.

En comparaison, sous R, seules la dur√©e de s√©ance et la fr√©quence ressortaient comme d√©terminantes, alors que scikit-learn attribue une importance plus r√©partie √† plusieurs variables. Cela illustre que la construction des for√™ts al√©atoires peut diff√©rer selon l‚Äôimpl√©mentation et les crit√®res utilis√©s.

Nous allons maintenant nous int√©resser √† un autre algorithme d'arbres de d√©cision, le boosting.

### Boosting

Gradient Boosting & XGBoost

In [None]:
from sklearn.model_selection import KFold
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, f1_score
import time
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# D√©finir le nombre de folds
kf = KFold(n_splits=5, shuffle=True, random_state=randomseed)

# Stocker les scores et temps
accuracy_scores_gb = []
times_gb = []

accuracy_scores_xgb = []
times_xgb = []

# Cr√©er un encodeur de labels pour transformer les classes [1, 2, 3] en [0, 1, 2]
le = LabelEncoder()

# Ajouter les listes pour stocker l'accuracy sur le jeu de test
test_accuracy_gb = []
test_accuracy_xgb = []

# Boucle sur les folds

for train_index, val_index in kf.split(X_train_exp_level):
    X_train_fold, X_val_fold = X_train_exp_level.iloc[train_index], X_train_exp_level.iloc[val_index]
    y_train_fold, y_val_fold = y_train_exp_level.iloc[train_index], y_train_exp_level.iloc[val_index]
    
    # Encoder les √©tiquettes pour XGBoost
    y_train_fold_encoded = le.fit_transform(y_train_fold)
    
    # Dummifier pour Gradient Boosting ET XGBoost
    X_train_fold_dummies = pd.get_dummies(X_train_fold)
    X_val_fold_dummies = pd.get_dummies(X_val_fold)
    X_test_dummies = pd.get_dummies(X_test_exp_level)
    
    # Aligner les colonnes
    X_train_fold_dummies, X_val_fold_dummies = X_train_fold_dummies.align(X_val_fold_dummies, join='left', axis=1, fill_value=0)
    X_train_fold_dummies, X_test_dummies_fold = X_train_fold_dummies.align(X_test_dummies, join='left', axis=1, fill_value=0)
    
    ## 1. Gradient Boosting
    start_time = time.time()
    gb_clf = GradientBoostingClassifier(random_state=randomseed)
    gb_clf.fit(X_train_fold_dummies, y_train_fold)
    elapsed_time = time.time() - start_time
    y_pred_gb = gb_clf.predict(X_val_fold_dummies)
    accuracy_scores_gb.append(accuracy_score(y_val_fold, y_pred_gb))
    times_gb.append(elapsed_time)
    # Accuracy sur le jeu de test
    y_pred_gb_test = gb_clf.predict(X_test_dummies_fold)
    test_accuracy_gb.append(accuracy_score(y_test_exp_level, y_pred_gb_test))
    
    ## 2. XGBoost (toujours sur les dummies pour coh√©rence)
    start_time = time.time()
    xgb_clf = XGBClassifier(random_state=randomseed, enable_categorical=False)
    xgb_clf.fit(X_train_fold_dummies, y_train_fold_encoded)
    elapsed_time = time.time() - start_time
    y_pred_xgb_encoded = xgb_clf.predict(X_val_fold_dummies)
    y_pred_xgb = le.inverse_transform(y_pred_xgb_encoded)
    # Pr√©diction sur le jeu de test
    y_pred_xgb_test_encoded = xgb_clf.predict(X_test_dummies_fold)
    y_pred_xgb_test = le.inverse_transform(y_pred_xgb_test_encoded)
    accuracy_scores_xgb.append(accuracy_score(y_val_fold, y_pred_xgb))
    times_xgb.append(elapsed_time)
    test_accuracy_xgb.append(accuracy_score(y_test_exp_level, y_pred_xgb_test))

# Afficher les r√©sultats
print("Gradient Boosting:")
print(f"Accuracy moyenne (CV): {np.mean(accuracy_scores_gb):.4f} ¬± {np.std(accuracy_scores_gb):.4f}")
print(f"Temps d'entra√Ænement moyen: {np.mean(times_gb):.4f} secondes")
print(f"Accuracy moyenne sur le jeu de test: {np.mean(test_accuracy_gb):.4f} ¬± {np.std(test_accuracy_gb):.4f}")

print("\nXGBoost:")
print(f"Accuracy moyenne (CV): {np.mean(accuracy_scores_xgb):.4f} ¬± {np.std(accuracy_scores_xgb):.4f}")
print(f"Temps d'entra√Ænement moyen: {np.mean(times_xgb):.4f} secondes")
print(f"Accuracy moyenne sur le jeu de test: {np.mean(test_accuracy_xgb):.4f} ¬± {np.std(test_accuracy_xgb):.4f}")


In [None]:
from sklearn.preprocessing import LabelEncoder

#Logloss sur Gradient Boosting
# Entra√Æner le mod√®le Gradient Boosting sur l'ensemble d'entra√Ænement complet
gb_clf = GradientBoostingClassifier(random_state=randomseed)
gb_clf.fit(X_train_exp_level_encoded, y_train_exp_level)
y_pred_gb = gb_clf.predict(X_test_exp_level_encoded)
y_pred_gb_proba = gb_clf.predict_proba(X_test_exp_level_encoded)
logloss_gb_test = log_loss(y_test_exp_level, y_pred_gb_proba, normalize=True)
print("Log loss Gradient Boosting (test):", round(logloss_gb_test, 4))
print("Log loss Gradient Boosting (train):", round(log_loss(y_train_exp_level, gb_clf.predict_proba(X_train_exp_level_encoded)), 4))

#Logloss sur XGBoost
# Entra√Æner le mod√®le XGBoost sur l'ensemble d'entra√Ænement complet


# Encoder les labels pour correspondre √† [0, 1, 2]
le = LabelEncoder()
y_train_exp_level_enc = le.fit_transform(y_train_exp_level)
y_test_exp_level_enc = le.transform(y_test_exp_level)

xgb_clf = XGBClassifier(random_state=randomseed, enable_categorical=False)
xgb_clf.fit(X_train_exp_level_encoded, y_train_exp_level_enc)
y_pred_xgb = xgb_clf.predict(X_test_exp_level_encoded)
y_pred_xgb_proba = xgb_clf.predict_proba(X_test_exp_level_encoded)
logloss_xgb_test = log_loss(y_test_exp_level_enc, y_pred_xgb_proba, normalize=True)
print("Log loss XGBoost (test):", round(logloss_xgb_test, 4))
print("Log loss XGBoost (train):", round(log_loss(y_train_exp_level_enc, xgb_clf.predict_proba(X_train_exp_level_encoded)), 4))

**Interpr√©tation**

Les mod√®les de Gradient Boosting et de XGBoost affichent **d‚Äôexcellentes performances** sans optimisation avanc√©e des hyperparam√®tres.

### R√©sultats de la validation crois√©e (5-folds) :
- **Gradient Boosting** : accuracy moyenne de **0.8741 ¬± 0.0251**
- **XGBoost** : accuracy moyenne de **0.8625 ¬± 0.0287**

### Performances sur le jeu de test :
- **Gradient Boosting** : accuracy moyenne de **0.9118 ¬± 0.0123**
- **XGBoost** : accuracy moyenne de **0.8933 ¬± 0.0060**

**Log loss :**

- **Gradient Boosting** :  
    - Log loss (test) : **0.1756**  
    - Log loss (train) : **0.0820**

- **XGBoost** :  
    - Log loss (test) : **0.2291**  
    - Log loss (train) : **0.0078**

Un log loss faible sur le test indique que les probabilit√©s pr√©dites sont bien calibr√©es. On observe que Gradient Boosting g√©n√©ralise mieux (√©cart train/test plus faible), tandis que XGBoost sur-apprend davantage (log loss train tr√®s bas, test plus √©lev√©). Les deux mod√®les restent toutefois tr√®s performants.

### Temps de calcul :
- **Gradient Boosting** : **0.90 seconde** en moyenne par fold
- **XGBoost** : **0.92 seconde** en moyenne par fold

---

On observe que **les deux mod√®les g√©n√©ralisent tr√®s bien**, avec des scores tr√®s proches entre validation crois√©e et test, et sans surapprentissage marqu√©.

En termes de rapidit√©, **les deux algorithmes sont tr√®s efficaces**, avec des temps d‚Äôentra√Ænement similaires et tr√®s courts.

Compar√© √† la Random Forest optimis√©e, les m√©thodes de boosting offrent ici une **l√©g√®re sup√©riorit√© en g√©n√©ralisation et robustesse**.

Ces r√©sultats confirment que **le boosting est particuli√®rement adapt√©** √† la classification du niveau d‚Äôexp√©rience dans ce contexte.

Compte tenu de ces performances tr√®s satisfaisantes, notamment pour le Gradient Boosting, il n‚Äôest pas n√©cessaire d‚Äôoptimiser davantage XGBoost pour ce projet. Une recherche d‚Äôhyperparam√®tres pourrait toutefois permettre de gagner encore quelques points de performance si besoin.

Nous pouvons donc passer √† l‚Äô**analyse de l‚Äôimportance des variables** pour mieux comprendre les facteurs d√©terminants de la classification.

#### **Importance des variables**

In [None]:
# Importance des variables pour la classification (niveau d'exp√©rience)
# Les deux mod√®les utilisent maintenant les m√™mes dummies

# Pour Gradient Boosting (avec dummies)
importances_gb_df = pd.DataFrame({
    'Feature': X_train_fold_dummies.columns,
    'Importance': gb_clf.feature_importances_
})

# Pour XGBoost (avec dummies)
importances_xgb_df = pd.DataFrame({
    'Feature': X_train_fold_dummies.columns,
    'Importance': xgb_clf.feature_importances_
})

# Trier pour plus de lisibilit√©
importances_gb_df = importances_gb_df.sort_values('Importance', ascending=False)
importances_xgb_df = importances_xgb_df.sort_values('Importance', ascending=False)

# Tracer
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Plot pour Gradient Boosting
sns.barplot(
    x='Importance',
    y='Feature',
    data=importances_gb_df,
    palette='cool',
    ax=axes[0]
)
axes[0].set_title("Variable Importance - Gradient Boosting (Classification)")
axes[0].set_xlabel("Importance")
axes[0].set_ylabel("Feature")

# Plot pour XGBoost
sns.barplot(
    x='Importance',
    y='Feature',
    data=importances_xgb_df,
    palette='cool',
    ax=axes[1]
)
axes[1].set_title("Variable Importance - XGBoost (Classification)")
axes[1].set_xlabel("Importance")
axes[1].set_ylabel("")  # Pas besoin de r√©p√©ter "Feature" √† droite

plt.tight_layout()
plt.show()

### Interpr√©tation des importances des variables

Les graphiques ci-dessus pr√©sentent l‚Äôimportance des variables pour la classification du niveau d‚Äôexp√©rience selon deux mod√®les¬†: **Gradient Boosting** (√† gauche) et **XGBoost** (√† droite).

#### Points communs
- **Variables dominantes** : Dans les deux mod√®les, la dur√©e des s√©ances (`Session_Duration (hours)`) et la fr√©quence d‚Äôentra√Ænement (`Workout_Frequency (days/week)_2`, `_3`, `_4`) sont les variables les plus importantes. Cela confirme que l‚Äôintensit√© et la r√©gularit√© de la pratique sportive sont des facteurs cl√©s pour pr√©dire le niveau d‚Äôexp√©rience.
- **SFat_Percentage** (masse grasse transform√©e) ressort √©galement comme un pr√©dicteur important dans les deux cas.
- Les autres variables (calories br√ªl√©es, √¢ge, poids, BPM, hydratation, etc.) ont une importance beaucoup plus faible.

#### Diff√©rences entre Gradient Boosting et XGBoost
- **Gradient Boosting** accorde une importance maximale √† la dur√©e de s√©ance, suivie de pr√®s par la fr√©quence d‚Äôentra√Ænement et la masse grasse.
- **XGBoost** met davantage l‚Äôaccent sur les modalit√©s de fr√©quence d‚Äôentra√Ænement, qui passent devant la dur√©e de s√©ance. Il attribue aussi un peu plus d‚Äôimportance √† certaines modalit√©s de type d‚Äôentra√Ænement (`Workout_Type_Yoga`, `Workout_Type_HIIT`), ce qui n‚Äôest pas le cas pour Gradient Boosting.
- Les importances sont plus ¬´¬†r√©parties¬†¬ª dans XGBoost, alors que Gradient Boosting concentre l‚Äôimportance sur un plus petit nombre de variables.

#### Explication des diff√©rences
- **Nature de l‚Äôalgorithme**¬†: XGBoost utilise des techniques de r√©gularisation et une gestion diff√©rente des splits, ce qui peut conduire √† privil√©gier d‚Äôautres interactions ou modalit√©s.
- **Crit√®re d‚Äôimportance**¬†: Les deux mod√®les calculent l‚Äôimportance diff√©remment (r√©duction d‚Äôimpuret√© moyenne pour Gradient Boosting, gain moyen de split pour XGBoost), ce qui peut modifier le classement des variables.
- **Stochasticit√© et interactions**¬†: XGBoost explore parfois plus d‚Äôinteractions entre variables, ce qui peut expliquer l‚Äôapparition de modalit√©s secondaires dans son top des importances.
- **R√©gularisation**¬†: XGBoost p√©nalise davantage les variables peu informatives, ce qui peut ¬´¬†lisser¬†¬ª la distribution des importances.

#### Conclusion
Malgr√© ces diff√©rences, les deux mod√®les s‚Äôaccordent sur les facteurs principaux¬†: **dur√©e et fr√©quence des s√©ances** et **masse grasse**. Les divergences sur les variables secondaires sont normales et refl√®tent la sensibilit√© des algorithmes √† la structure des donn√©es et √† leur propre m√©thode d‚Äôoptimisation.

## R√©seaux de neurones

In [None]:
from sklearn.neural_network import MLPClassifier

# Encodage des variables cat√©gorielles pour la classification du niveau d'exp√©rience
X_train_exp_level_scale_dummy = pd.get_dummies(X_train_exp_level_scale, columns=['Gender', 'Workout_Type'], drop_first=True)
X_test_exp_level_scale_dummy = pd.get_dummies(X_test_exp_level_scale, columns=['Gender', 'Workout_Type'], drop_first=True)

# Aligner les colonnes entre train et test
X_train_exp_level_scale_dummy, X_test_exp_level_scale_dummy = X_train_exp_level_scale_dummy.align(
    X_test_exp_level_scale_dummy, join='left', axis=1, fill_value=0
)

# D√©finir le MLP Classifier
mlp_classifier = MLPClassifier(hidden_layer_sizes=(100, 50), activation='relu', solver='adam',
                              max_iter=500, random_state=randomseed)

# Entra√Æner le mod√®le sur les donn√©es d'entra√Ænement
mlp_classifier.fit(X_train_exp_level_scale_dummy, y_train_exp_level)

# Pr√©dire sur le jeu de test
y_test_pred_mlp = mlp_classifier.predict(X_test_exp_level_scale_dummy)

# √âvaluer le mod√®le
accuracy_test_mlp = accuracy_score(y_test_exp_level, y_test_pred_mlp)
print("MLP Classifier - Accuracy sur le jeu de test :", round(accuracy_test_mlp, 4))

#Accuracy sur le jeu d'entra√Ænement
accuracy_train_mlp = accuracy_score(y_train_exp_level, mlp_classifier.predict(X_train_exp_level_scale_dummy))
print("MLP Classifier - Accuracy sur le jeu d'entra√Ænement :", round(accuracy_train_mlp, 4))

# Afficher le rapport de classification et la matrice de confusion
ConfusionMatrixDisplay(confusion_matrix(y_test_exp_level, y_test_pred_mlp)).plot(cmap="Blues")
plt.title("Matrice de confusion - MLP Classifier (test)")
plt.show()

In [None]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'hidden_layer_sizes': [
        (50,), (100,), (150,),
        (100, 50), (150, 100), (150, 100, 50),
        (200, 100, 50)
    ],
    'activation': ['relu', 'tanh'],
    'solver': ['adam', 'sgd'],
    'alpha': [0.0001, 0.001, 0.01],
    'learning_rate': ['constant', 'adaptive']
}

grid_search = GridSearchCV(
    estimator=MLPClassifier(max_iter=1000, early_stopping=True, random_state=randomseed),
    param_grid=param_grid,
    scoring='accuracy',
    cv=5,
    n_jobs=-1,
    verbose=2
)

# Effectuer la recherche sur les donn√©es d'entra√Ænement
grid_search.fit(X_train_exp_level_scale_dummy, y_train_exp_level)

# Afficher les meilleurs param√®tres et le score correspondant
print("Meilleurs param√®tres :", grid_search.best_params_)
print("Meilleur score accuracy (CV) :", grid_search.best_score_)

In [None]:
#Afficher les param√®tres optimaux
print("Meilleurs param√®tres du MLP Classifier :", grid_search.best_params_)

#Fit le meilleur mod√®le sur l'ensemble d'entra√Ænement
best_mlp = MLPClassifier(
    hidden_layer_sizes=grid_search.best_params_['hidden_layer_sizes'],
    activation=grid_search.best_params_['activation'],
    solver=grid_search.best_params_['solver'],
    alpha=grid_search.best_params_['alpha'],
    learning_rate=grid_search.best_params_['learning_rate'],
    max_iter=1000,
    random_state=randomseed
)
best_mlp.fit(X_train_exp_level_scale_dummy, y_train_exp_level)

#Afficher la courbe de loss pour le meilleur mod√®le
plt.plot(best_mlp.loss_curve_)
plt.title("Courbe de perte du MLP")
plt.xlabel("It√©rations")
plt.ylabel("Perte")
plt.grid(True)
plt.show()

# Pr√©dire sur le jeu de test
y_test_pred_best_mlp = best_mlp.predict(X_test_exp_level_scale_dummy)
# √âvaluer le mod√®le
accuracy_test_best_mlp = accuracy_score(y_test_exp_level, y_test_pred_best_mlp)
print("MLP Classifier - Accuracy sur le jeu de test (meilleur mod√®le) :", round(accuracy_test_best_mlp, 4))
# Accuracy sur le jeu d'entra√Ænement
accuracy_train_best_mlp = accuracy_score(y_train_exp_level, best_mlp.predict(X_train_exp_level_scale_dummy))
print("MLP Classifier - Accuracy sur le jeu d'entra√Ænement (meilleur mod√®le) :", round(accuracy_train_best_mlp, 4))
#Afficher la matrice de confusion
ConfusionMatrixDisplay(confusion_matrix(y_test_exp_level, y_test_pred_best_mlp)).plot(cmap="Blues")
plt.title("Matrice de confusion - MLP Classifier (meilleur mod√®le)")
plt.show()

#Logloss sur le meilleur MLP
y_test_pred_best_mlp_proba = best_mlp.predict_proba(X_test_exp_level_scale_dummy)
logloss_best_mlp_test = log_loss(y_test_exp_level, y_test_pred_best_mlp_proba, normalize=True)
print("Log loss MLP Classifier (test) :", round(logloss_best_mlp_test, 4))
print("Log loss MLP Classifier (train) :", round(log_loss(y_train_exp_level, best_mlp.predict_proba(X_train_exp_level_scale_dummy)), 4))

**Interpr√©tation** :  
Le meilleur mod√®le de r√©seau de neurones (MLP) a √©t√© entra√Æn√© via **GridSearchCV** en testant diff√©rentes architectures, fonctions d‚Äôactivation et m√©thodes d‚Äôoptimisation. L‚Äôarchitecture optimale s√©lectionn√©e comporte **deux couches cach√©es** avec la fonction d‚Äôactivation **tanh** et l‚Äôoptimiseur **Adam**. Le mod√®le obtient une **accuracy de 0.8564** sur le jeu de test, et **0.9383** sur le jeu d‚Äôentra√Ænement, ce qui indique un certain sur-apprentissage mais une capacit√© de g√©n√©ralisation correcte.

Les meilleurs hyperparam√®tres s√©lectionn√©s sont :
- Architecture : **(150, 100)** (deux couches cach√©es)
- Fonction d‚Äôactivation : **tanh**
- M√©thode d‚Äôoptimisation : **Adam**
- Apprentissage : **learning rate constant**
- R√©gularisation (alpha) : **0.0001**

En termes de performance, le r√©seau de neurones optimis√© se situe en-dessous des meilleurs mod√®les d‚Äôensemble comme le **Gradient Boosting** ou la **Random Forest** (accuracy ‚âà 0.91-0.92). Le log loss du MLP Classifier est nettement plus √©lev√© sur le jeu de test (0.3113) que sur le jeu d‚Äôentra√Ænement (0.1382), ce qui traduit un sur-apprentissage : le mod√®le est tr√®s confiant sur les donn√©es d‚Äôentra√Ænement mais ses probabilit√©s sont moins bien calibr√©es sur des donn√©es nouvelles. Le MLP montre une bonne capacit√© √† apprendre, mais reste plus sensible au sur-apprentissage et n√©cessite un temps d‚Äôentra√Ænement plus important pour un gain de performance limit√©.

# Bilan des performances des diff√©rentes techniques

## Tableau comparatif synth√©tique des mod√®les

| Mod√®le                              | Accuracy Test (%) | Temps d'entra√Ænement (s) | Interpr√©tabilit√©       |
|-------------------------------------|:-----------------:|:------------------------:|:----------------------:|
| Gradient Boosting                   | 91.2              | ~0.9                     | Mod√©r√©e                |
| SVM lin√©aire (d√©faut)               | 91.3              | 169.03                  | Faible                 |
| SVM lin√©aire (optimis√©e)            | 91.3              | 92.62                   | Faible                 |
| Random Forest                       | 90.8              | ~5                      | Mod√©r√©e                |
| Analyse Discriminante Lin√©aire (ADL)| 90.8              | 0.02                    | Haute                  |
| Logistic Regression                 | 90.3              | 0.09                    | Haute                  |
| Logistic Regression avec Lasso      | 90.3              | 2.67                    | Haute                  |
| XGBoost                             | 89.3              | ~0.9                    | Mod√©r√©e                |
| R√©seau de neurones (MLP)            | 85.6              | 7.7                     | Faible                 |
| Arbre √©lagu√© (CART)                 | 90.2              | Tr√®s rapide             | Haute                  |
| Arbre de d√©cision (CART)            | 87.7              | Tr√®s rapide             | Haute                  |
| SVM radiale (optimis√©e)             | 74.4              | 9.90                    | Faible                 |
| KNN                                 | 72.8              | 20.93                   | Faible                 |
| SVM radiale (d√©faut)                | 40.5              | 2.40                    | Faible                 |

---

### Analyse par m√©thode

**Gradient Boosting**
- **Avantages** : Meilleure performance globale (accuracy ‚âà 91.2 %), temps d'entra√Ænement rapide.
- **Limites** : Interpr√©tabilit√© mod√©r√©e (importance des variables mais pas des interactions pr√©cises).
- **Cas d‚Äôusage** : Solution par d√©faut pour maximiser la pr√©cision sans contrainte de temps.

**SVM lin√©aire**
- **Avantages** : Tr√®s bonne pr√©cision (accuracy ‚âà 91.3 %).
- **Limites** : Temps d'entra√Ænement √©lev√© pour la version par d√©faut (169 s) et faible interpr√©tabilit√©.
- **Cas d‚Äôusage** : Pr√©cision maximale si le temps de calcul n'est pas une contrainte.

**Random Forest**
- **Avantages** : Bonne robustesse, interpr√©tabilit√© mod√©r√©e (importance des variables).
- **Limites** : Performance l√©g√®rement inf√©rieure au Gradient Boosting, temps d'entra√Ænement plus long.
- **Cas d‚Äôusage** : Donn√©es bruyantes ou besoin de stabilit√© sans optimisation fine.

**Analyse Discriminante Lin√©aire (ADL)**
- **Avantages** : Excellent compromis entre pr√©cision (accuracy ‚âà 90.8 %) et rapidit√© (0.02 s).
- **Limites** : Moins performant que les mod√®les d'ensemble.
- **Cas d‚Äôusage** : R√©sultats rapides et fiables avec une interpr√©tabilit√© √©lev√©e.

**Logistic Regression (avec ou sans Lasso)**
- **Avantages** : Interpr√©tabilit√© √©lev√©e, rapidit√© d'entra√Ænement.
- **Limites** : Moins performant sur des donn√©es non lin√©aires.
- **Cas d‚Äôusage** : Analyses exploratoires ou contraintes de simplicit√©.

**XGBoost**
- **Avantages** : Rapide et performant (accuracy ‚âà 89.3 %), r√©gularisation int√©gr√©e.
- **Limites** : L√©g√®rement moins pr√©cis que le Gradient Boosting.
- **Cas d‚Äôusage** : Grands jeux de donn√©es n√©cessitant rapidit√© et parall√©lisation.

**R√©seau de neurones (MLP)**
- **Avantages** : Capacit√© √† capturer des patterns complexes.
- **Limites** : Temps d'entra√Ænement √©lev√© (7.7 s), sur-apprentissage marqu√©, faible interpr√©tabilit√©.
- **Cas d‚Äôusage** : Alternative aux mod√®les d'ensemble si l'infrastructure le permet.

**Arbres de d√©cision (CART)**
- **Avantages** : Interpr√©tabilit√© √©lev√©e, r√®gles claires.
- **Limites** : Surapprentissage marqu√©, performance limit√©e.
- **Cas d‚Äôusage** : Visualisation p√©dagogique ou analyses simples.

**SVM radiale et KNN**
- **Avantages** : Flexibilit√© pour des donn√©es complexes.
- **Limites** : Faible pr√©cision (accuracy < 75 %), temps d'entra√Ænement √©lev√© pour KNN.
- **Cas d‚Äôusage** : Non adapt√©s √† ce jeu de donn√©es.

---

## Recommandations finales

- **Pour la pr√©cision** : Gradient Boosting ou SVM lin√©aire (d√©faut).
- **Pour la rapidit√©** : ADL ou Logistic Regression.
- **Pour l‚Äôinterpr√©tabilit√©** : ADL ou Logistic Regression avec Lasso.
- **Pour des donn√©es complexes** : Gradient Boosting ou Random Forest.

### **Conclusion**  
Le **Gradient Boosting** et l'**ADL** se d√©marquent comme les meilleurs compromis entre performance et rapidit√©. Les mod√®les lin√©aires restent utiles pour des analyses rapides et interpr√©tables, tandis que les mod√®les d'ensemble (Random Forest, XGBoost) offrent une robustesse accrue pour des donn√©es plus complexes.