Librairies

In [863]:
import pandas as pd
import numpy as np
import plotly.express as px
import os
import sklearn
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
from scipy.stats import ttest_ind
from scipy.stats import f_oneway
import statsmodels.api as sm
import plotly.graph_objects as go
import statsmodels.formula.api as smf
from sklearn.linear_model import RidgeCV
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from joblib import dump
from joblib import load

1. Contexte

√âtant cycliste passionn√©, j'ai souhait√© mod√©liser un indice de performance √† l'aide de la vitesse moyenne et √† partir de diff√©rents facteurs comme le d√©nivel√©, la longueur, le fait de rouler en groupe ou non, etc... 
En effet, n'ayant pas de capteur de puissance, j'ai voulu me cr√©er un indicateur de performance avec les donn√©es disponibles pour suivre mon √©volution et ma forme tout au long de l'ann√©e.
Certaines donn√©es, comme par exemple les donn√©es m√©t√©orologiques ne sont pas disponibles. Cela peut cr√©er un biais car les performances sportives sont impact√©es par les conditions climatiques (vent, froid, fortes chaleurs, humidit√©).
Pour r√©aliser ce mod√®le, j'ai utilis√© des donn√©es personelles r√©cup√©r√©es √† partir d'archives t√©l√©chargeables sur https://www.strava.com et des donn√©es sur les segments strava que j'ai retranscrites sur un fichier .csv.

2. Descriptif des donn√©es

A. Dataset Strava

Ce dataset contient les donn√©es g√©n√©rales sur les activit√©s sportives que l'on poste sur le r√©seau social sportif Strava. On peut le t√©l√©charger depuis le site officiel de l'application. Ce dataset contient 510 observations mais ce nombre est susceptible d'√©voluer lors de l'ajout de nouvelles donn√©es. La premi√®re observation date du 4 mai 2019 et la plus r√©cente du 25 janvier 2026.

Variables principales :

    Activity Date => date de l'activit√©  
    Activity Name => nom de l'activit√©  
    Activity Type => type de sport de l'activit√©  
    Elapsed Time => dur√©e de l'activit√© (en secondes)  
    Distance => distance de l'activit√© (en km)  
    Max Heart Rate => fr√©quence cardiaque maximum au cours de l'activit√©  
    Moving Time => dur√©e de l'activit√©, en excluant les pauses (en secondes)  
    Elevation Gain => d√©nivel√© positif (en m)  

Ces donn√©es ne prennent ni en compte la m√©t√©o, ni la qualit√© du rev√™tement de la route, ni la difficult√© des diff√©rentes pentes sur le parcours (si on a 500m de d√©nivel√©, on ne sait pas si on a eu 10 c√¥tes de 1km √† 5%, une c√¥te de 5km √† 10%, ou une c√¥te de 10km √† 5% par exemple, alors que l'impact sur la vitesse peut √™tre diff√©rent). La d√©tection du fait de rouler en groupe ou seul se fait √† l'aide du nom de l'activit√© (contient ou non "avec" ou "ACE"), mais certaines sorties en groupe ne contiennent pas ces √©l√©ments dans le nom de l'activit√©. On ne tient pas compte du d√©nivel√© n√©gatif car les parcours se font pour la quasi-totalit√© des activit√©s d'un point A √† ce m√™me point A. Pour les parours o√π ce n'est pas le cas, l'altitude d'arriv√©e est toujours la m√™me (+/- 50m) √† l'altitude de d√©part. 

B. Dataset segments

Ce dataset contient les donn√©es sur des segments Strava s√©lectionn√©s pesonellement. Les donn√©es sont r√©cup√©r√©es sur le d√©tail des activit√©s post√©es sur Strava et retranscrites dans un fichier csv. Ce dataset contient les donn√©es de segments pr√©sentant √† minima 100m de d√©nivel√© positif, ce qui correspond, √† ce jour, √† 208 observations.

Variables principales :

    Col => nom du segment  
    D√©nivel√© => d√©nivel√© positif total du segment (en m)  
    Longueur => longueur total du segment (en km)  
    Pente => pourcentage moyen de la pente sur le segment  
    Dur√©e => temps pour parcourir le segment (en secondes)  
    Vitesse => vitesse moyenne sur le segment (en km/h)  

Ces don√©es ne prennent en compte ni la m√©t√©o, ni les efforts fournis avant le segment, ni la qualit√© de rev√™tement de la route, ce qui peut provoquer du biais lors de la mod√©lisation.

3. Import et restructuration des donn√©es

In [864]:
# Import des deux dataset

Strava = pd.read_csv('D:/Documents/R/V√©lo/Data_Strava/activities.csv')
segments = pd.read_csv("D:/Documents/R/V√©lo/Cyclisme/Liste_cols.csv", encoding="UTF8", quotechar=",")

In [865]:
# Recalcul de la vitesse moyenne √† partir du temps de d√©placement (en km/h)

Strava['Vitesse_moyenne'] = Strava.Distance/(Strava['Moving Time']/3600)

In [866]:
# S√©lection des variables pertinentes

Strava = Strava[['Activity Date', 'Activity Name', 'Activity Type','Elapsed Time','Distance.1','Elevation Gain','Vitesse_moyenne','Moving Time']]
Strava = Strava.rename(columns = {'Distance.1':'Distance_m'})

In [867]:
# S√©lection des activit√©s de cyclisme sur route

Strava = (
    Strava
    .loc[Strava['Activity Type'] == 'Ride']
    .copy()
)

In [868]:
# Identification des sorties en groupe

patterns = {
    'pere': r'p√®re|pere',
    'nausicaa': r'nausicaa|naunau|copine',
    'avec': r'p√®re|pere|lo√Øc|loic|nausicaa|m√®re|yann|naunau|hugo|balade|promenade|arnaud|mere|avec|ACE'
}

for col, regex in patterns.items():
    Strava[col] = (
        Strava['Activity Name']
        .str.contains(regex, case=False, na=False)
        .astype('category')
    )

In [869]:
# Transformation et ajout de variables

Strava = Strava.assign(
    **{'annee' : Strava["Activity Date"].str.split(',', expand = True)[1].str[1],
       'elevation_km' : (Strava["Elevation Gain"]/Strava["Distance_m"])*1000, # cette variable apporte l'information sur la difficult√© du parcours
       'date' : pd.to_datetime(Strava["Activity Date"], format = '%b %d, %Y, %I:%M:%S %p')} 
)

4. Analyse exploratoire des donn√©es

In [870]:
histo_vitesse = px.histogram(Strava, x = 'Vitesse_moyenne',title="Distribution de la vitesse moyenne",
                            labels={
                                "Vitesse_moyenne" : "Vitesse moyenne (km/h)"
                                })
histo_vitesse

In [871]:
# Relation entre la vitesse moyenne, le fait de rouler en groupe et le d√©nivel√©

vitesse_denivele = px.scatter(Strava, x = 'Vitesse_moyenne',y = 'Elevation Gain', color = Strava["avec"], hover_data=['Activity Name','Distance_m','Elevation Gain'])
vitesse_denivele





In [872]:
vitesse_denivele_km = px.scatter(Strava, x = 'Vitesse_moyenne',y = 'elevation_km', color = Strava["avec"], hover_data=['Activity Name','Distance_m','Elevation Gain'])
vitesse_denivele_km





Hypoth√®ses apr√®s l'observation du graphique : vitesse moyenne plus faible quand il y a plus de d√©nivel√© et quand je roule en groupe. Le but va √™tre de v√©rifier rapidement ces hypoth√®ses pour aider √† s√©lectionner les variables qui seront utilis√©es dans la mod√©lisation

In [873]:
# Tableau de corr√©lation et test statistique

cols = [
    'Vitesse_moyenne',
    'Distance_m',
    'Elevation Gain',
    'avec',
    'elevation_km'
]

# Pearson

corr = Strava[cols].corr()
corr

Unnamed: 0,Vitesse_moyenne,Distance_m,Elevation Gain,avec,elevation_km
Vitesse_moyenne,1.0,0.139089,-0.090566,-0.484683,-0.327522
Distance_m,0.139089,1.0,0.825355,0.149257,0.293924
Elevation Gain,-0.090566,0.825355,1.0,0.081329,0.711018
avec,-0.484683,0.149257,0.081329,1.0,0.063335
elevation_km,-0.327522,0.293924,0.711018,0.063335,1.0


La variable "Elevation Gain" est faiblement corr√©l√©e avec la variable "Vitesse_moyenne" mais fortement corr√©l√©e avec la variable "Distance_m". Il n'est pas pertinent de la choisir comme variable √† utiliser dans le mod√®le. √Ä la place on va pr√©f√©rer utiliser la variable "elevation_km" qui est un meilleur indicateur de la difficult√© du parcours (repr√©sente le d√©nivel√© positif (en m√®tres) par kilom√®tre parcouru)

On va tester l'hypoth√®se que la vitesse moyenne est identique selon si je roule seul ou en groupe (moyenne solo = moyenne groupe).

In [874]:
solo = Strava[Strava['avec'] == False]['Vitesse_moyenne'] # √©crire hypoth√®ses
groupe = Strava[Strava['avec'] == True]['Vitesse_moyenne']

ttest_ind(solo, groupe, equal_var=False)

TtestResult(statistic=11.082702130998442, pvalue=2.1010918359350333e-24, df=322.71011501374795)

La pvalue est < 0.001. On rejette l'hypoth√®se qu'il n'y a pas de diff√©rence lorsque je roule seul ou en groupe. Le fait de rouler en groupe fait baisser la vitesse moyenne. Le r√©sultat peut para√Ætre contre-intuitif car on roule plus vite en groupe que seul, mais la plupart de temps que je roule en groupe, c'est avec des personnes ayant un niveau plut√¥t d√©butant. Ce r√©sultat du test me para√Æt donc logique.

5. Nettoyage des donn√©es

In [875]:
np.random.seed(42)

V√©rification des NA et des valeures aberrantes

In [876]:
Strava.isna().mean().sort_values(ascending=False)

Elevation Gain     0.009091
elevation_km       0.009091
Activity Date      0.000000
Activity Name      0.000000
Activity Type      0.000000
Elapsed Time       0.000000
Distance_m         0.000000
Vitesse_moyenne    0.000000
Moving Time        0.000000
pere               0.000000
nausicaa           0.000000
avec               0.000000
annee              0.000000
date               0.000000
dtype: float64

2 variables pr√©sentent des valeurs manquantes (1 r√©elle √©tant donn√© que la variable "elevation_km" est calcul√©e √† partir de "Elevation Gain")

In [877]:
Strava.describe()

Unnamed: 0,Elapsed Time,Distance_m,Elevation Gain,Vitesse_moyenne,Moving Time,elevation_km,date
count,440.0,440.0,436.0,440.0,440.0,436.0,440
mean,8347.793182,48890.551591,682.508028,23.255083,7658.672727,13.130454,2023-04-25 16:52:28.149999872
min,901.0,5041.0,12.4,10.40571,851.0,0.570563,2019-05-04 08:44:42
25%,4995.0,30251.45,364.95,21.146471,4675.5,10.275565,2021-10-11 21:25:15.500000
50%,8085.5,46197.3,584.3,23.844892,7499.5,12.926414,2023-09-06 06:56:10
75%,11092.5,65297.4,973.675,26.131968,10315.5,15.88621,2024-09-28 20:31:41.249999872
max,36149.0,132760.6,3022.9,32.881556,21734.0,35.796276,2025-11-22 07:49:02
std,4325.578938,23607.145575,473.674426,3.609214,3651.721729,5.48818,


On ne constate pas d'aberrations dans les donn√©es. Les activit√©s √©tant consultables sur l'application, je n'avais pas non plus remarqu√© d'aberrations dessus. Les erreurs peuvent cependant appara√Ætre lors du t√©l√©chargement de l'archive contenant les donn√©es.

In [878]:
Strava.loc[Strava.elevation_km.isna()] # Identification des lignes avec des valeurs #NA

Unnamed: 0,Activity Date,Activity Name,Activity Type,Elapsed Time,Distance_m,Elevation Gain,Vitesse_moyenne,Moving Time,pere,nausicaa,avec,annee,elevation_km,date
31,"Dec 18, 2019, 3:44:51 PM",Sortie √† v√©lo dans l'apr√®s-midi,Ride,3529,21757.4,,22.781495,3437.0,False,False,False,2,,2019-12-18 15:44:51
32,"Dec 19, 2019, 7:20:20 AM",Sacr√© vent de face !,Ride,3930,21416.8,,19.768146,3899.0,False,False,True,2,,2019-12-19 07:20:20
33,"Dec 25, 2019, 3:47:53 PM",Sortie √† v√©lo dans l'apr√®s-midi,Ride,3241,21659.4,,24.111317,3234.0,False,False,False,2,,2019-12-25 15:47:53
34,"Dec 28, 2019, 1:44:02 PM",25km avec un pote üòÄ,Ride,9752,45663.9,,19.501246,8429.0,False,False,True,2,,2019-12-28 13:44:02


In [879]:
Strava_modele = Strava.loc[~Strava['elevation_km'].isna()].copy() # On enl√®ve les lignes o√π il manque le d√©nivel√©.

In [880]:
Strava_modele['avec'] = Strava_modele['avec'].astype(int) # r√©cup√©ration de la variable "avec" au format num√©rique pour la mod√©lisation

J'aurais pu compl√©ter les donn√©es manquantes de plusieurs fa√ßons. La premi√®re aurait √©t√© de r√©cup√©rer la distance moyenne et le d√©nivel√© moyen, puis d'adapter proportionnellement le d√©nivel√© √† la distance. J'aurais √©galement pu estimer le d√©nivel√© √† l'aide d'un petit mod√®le de r√©gression simple.
√âtant donn√© que seules 4 sorties sont concern√©es (sur 400), et qu'elles sont anciennes (j'ai d√©but√© le v√©lo en 2019, et la progression √©tant rapide au d√©but, ces donn√©es sont moins pertinentes), j'ai donc pr√©f√©r√© ne pas les garder.

Certaines activit√©s pr√©sentent des performances inhabituelles car elles ont √©t√© r√©alis√©es avec d'autres personnes avec un niveau d√©butant. Celles-ci sont indentifi√©es √† l'aide de la variable "avec" lorsqu'elle est √©gale √† 1.
Lors de la phase de test de la mod√©lisation, cela permettra d'avoir un premier indicateur sur un potentiellement sur-entra√Ænement du mod√®le : si le mod√®le pr√©dit correctement la vitesse moyenne sur une sortie avec une personne tr√®s d√©butante, ou par exemple en ayant eu vent de dos tout le long lors d'un aller simple sur du plat, on pourrait alors soup√ßonner un overfitting du mod√®le.

Nous avons d√©j√† ajout√© le d√©nivel√© par kilom√®tre comme variable d'int√©r√™t pour notre mod√®le. Cependant, un autre √©l√©ment est important dans les performances sportives : la p√©riode de l'ann√©e. Les performances sont g√©n√©ralement meilleures √† partir de la fin du printemps, jusqu'au milieu de l'automne. Nous allons donc ajouter le mois de l'ann√©e au dataset.

In [881]:
Strava_modele['mois'] = Strava_modele['date'].dt.month.astype("category")
mois_fr = {
    1: 'janvier',
    2: 'f√©vrier',
    3: 'mars',
    4: 'avril',
    5: 'mai',
    6: 'juin',
    7: 'juillet',
    8: 'ao√ªt',
    9: 'septembre',
    10: 'octobre',
    11: 'novembre',
    12: 'd√©cembre'
}
Strava_modele['mois_nom'] = Strava_modele['mois'].map(mois_fr)

6. Mod√©lisation

Nous cherchons √† mod√©liser la vitesse moyenne sur une sortie selon les diff√©rentes variables retenues afin de pouvoir pr√©dire la dur√©e estim√©e pour effectuer le parcours, comparer la vitesse estim√©e et la vitesse r√©elle pour √©valuer un √©tat de forme, ou encore pour pouvoir cibler une allure inf√©rieure √† la vitesse pr√©dite si l'on souhaite r√©aliser un entra√Ænement d'endurance ou de la r√©cup√©ration.

La variable d'int√©r√™t est donc la vitesse moyenne. Afin de l'expliquer, nous allons r√©aliser dans un premier temps une r√©gression lin√©aire multiple contenant les variables suivantes :

    - Distance_m  
    - avec  
    - elevation_km  
    - mois_nom (sous forme de dummies)  

Ce mod√®le est simple et permet facilement d'interpr√©ter les r√©sultats et ne demande pas une standardisation des donn√©es.

    1er mod√®le avec StatsModele

Dans un 1er temps, je fais faire une r√©gression multiple simple issue de la librairie statsmodels afin d'√©valuer la pertinence des variables explicatives (√† l'aide des pvalues). Ensuite, une fois que les variables √† utiliser seront valid√©es, je referai un mod√®le √† l'aide de scikit learn.

In [882]:
split = int(len(Strava_modele) * 0.75) # proportion du dataset pour l'entrainement (peut √™tre faire un tirage al√©atoire)

Strava_modele['Elev_c'] = Strava_modele['elevation_km'] - Strava_modele['elevation_km'].mean() # on centre la variable pour r√©duire la colin√©arit√© entre la forme lin√©aire de la variable et la forme quadratique
Strava_modele['Elev_c2'] = Strava_modele['Elev_c'] ** 2

train = Strava_modele.iloc[:split]
test  = Strava_modele.iloc[split:]

In [883]:
formula = 'Vitesse_moyenne ~ Distance_m + avec + Elev_c + Elev_c2' # apr√®s des tests, le mois de l'ann√©e n'√©tait finalement pas significatif (m√™me en interraction avec "avec" ou le d√©nivel√© par km), je l'ai donc enlev√©.

model = smf.ols(formula, data=train).fit()

print(model.summary())

                            OLS Regression Results                            
Dep. Variable:        Vitesse_moyenne   R-squared:                       0.427
Model:                            OLS   Adj. R-squared:                  0.420
Method:                 Least Squares   F-statistic:                     59.91
Date:                Wed, 18 Feb 2026   Prob (F-statistic):           8.86e-38
Time:                        15:40:30   Log-Likelihood:                -794.74
No. Observations:                 327   AIC:                             1599.
Df Residuals:                     322   BIC:                             1618.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     22.0919      0.437     50.563      0.0

Plusieurs tests de variables ont √©t√© effectu√©s : avec le centrage de la variable "elev_km" et l'int√©gration de sa forme quadratique, la performance du mod√®le a augment√© et la significativit√© de ces deux coefficients par rapport √† la forme non centr√©e a √©galement augment√©e. Les mois se sont r√©v√©l√©s non significatifs d'un point de vue statistique.

In [884]:
y_test = test['Vitesse_moyenne']

y_pred = model.predict(test)

In [885]:
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2   = r2_score(y_test, y_pred)

print("RMSE test :", rmse)
print("R¬≤ test   :", r2)

RMSE test : 2.7226569104355915
R¬≤ test   : 0.40316589084250354


Le R¬≤ du set de test est proche de celui du set de entra√Ænement, il n'y a pas d'overfitting. Dans un premier temps, la proportion des donn√©es d'entra√Ænement √©tait de 0.8, et l'√©cart entre le R¬≤ du set de test et du set d'entra√Ænement √©tait plus √©lev√© (0.37 face √† 0.44). J'ai donc ajust√© la proportion d'entra√Ænement √† 0.75.

    2√®me mod√®le avec Scikit Learn

In [886]:
y = Strava_modele.Vitesse_moyenne
X = Strava_modele[['Distance_m','avec','Elev_c','Elev_c2']] 

S√©paration du dataset pour l'entrainement et le test du mod√®le.

In [887]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size = 0.25,
    random_state = 70
)

In [888]:
modele_prediction_vitesse = sklearn.linear_model.LinearRegression()
modele_prediction_vitesse.fit(X_train,y_train)
y_pred = modele_prediction_vitesse.predict(X_test)

In [889]:
rmse = mean_squared_error(y_test, y_pred, squared=False)
rmse

2.5266405868545525

In [890]:
coef = pd.Series(
    modele_prediction_vitesse.coef_,
    index=X.columns
).sort_values()
coef

avec         -3.771663
Elev_c       -0.258244
Elev_c2      -0.009698
Distance_m    0.000051
dtype: float64

In [891]:
resultat = X_test
resultat['true_speed'] = y_test
resultat['predicted_speed'] = y_pred
resultat['erreur'] = resultat.predicted_speed - resultat.true_speed

In [892]:
resultat['ID'] = resultat.index
Strava_modele['ID'] = Strava_modele.index
resultat = pd.merge(Strava_modele[['ID','Activity Name','Elevation Gain']],resultat,on='ID')
resultat[['Activity Name','Elevation Gain','Distance_m','true_speed','predicted_speed','erreur']].sort_values(by = 'erreur')

Unnamed: 0,Activity Name,Elevation Gain,Distance_m,true_speed,predicted_speed,erreur
79,"Repas chez les grands parents, vent de dos tou...",713.8,62827.4,32.051020,26.287081,-5.763940
83,"Duathlon Vautourman, relais V√©lo",907.0,27684.1,20.708229,15.248143,-5.460086
82,Afternoon Ride,265.0,16135.8,27.757170,22.507066,-5.250104
97,Evening Ride,226.0,17117.8,28.216216,23.494258,-4.721958
69,Massif de la Malep√®re,768.6,74415.3,27.519622,23.331487,-4.188135
...,...,...,...,...,...,...
43,Tour d√©couverte avec Hugo,572.1,42703.2,16.899736,20.985775,4.086039
105,üá´üá∑üáÆüáπüá∏üáÆ Tour du Lac d‚ÄôIseo + mont√©e de Brione,1264.0,110048.6,24.368311,28.684282,4.315971
75,Balade avec Nausicaa,12.4,20352.8,15.802416,21.620566,5.818151
60,Balade avec Nausicaa,388.1,31007.6,14.329738,20.609601,6.279863


In [893]:
px.histogram(resultat,'erreur')

In [894]:
graph_erreur = px.scatter(resultat,x='true_speed',y='predicted_speed',color = 'erreur', hover_data=['Activity Name','Distance_m','Elevation Gain'])
graph_erreur.add_trace(
    go.Scatter(
        x=[11, 33],
        y=[11, 33],
        mode='lines',
        line=dict(color='red', dash='dash'),
        name='y = x'
    )
)


graph_erreur.show()

In [895]:
resultat['erreur_abs'] = resultat['erreur'].abs()
resultat.groupby('avec')['erreur_abs'].mean()

avec
0    1.966479
1    2.098439
Name: erreur_abs, dtype: float64

In [896]:
resultat.groupby('avec')['erreur_abs'].var()

avec
0    1.784543
1    3.131245
Name: erreur_abs, dtype: float64

On constate que la variabilit√© des erreurs est beaucoup plus √©lev√©e lorque "avec" = 1, c'est √† dire lorsque je roule en groupe. Ce r√©sultat n'est pas surprenant car cela regroupe des sorties avec des personnes vari√©es (d√©butants, groupe cycliste de ma villes, amis plus exp√©riment√©s). Il aurait fallut cr√©er plus de cat√©gories afin d'am√©liorer le mod√®le, mais le nombre de donn√©es sur certaines cat√©gories aurait √©t√© faible, m√™me en faisant un groupement sur toutes les sorties avec un ami exp√©riment√©, par exemple.

    2√®me mod√®le

Nous pouvons utiliser un mod√®le plus complexe afin de comparer les r√©sultats et v√©rifier si la performance augmente. Nous cherchons √† pr√©dire la vitesse moyenne, qui est une variable num√©rique continue. De plus, nos variables ont d√©j√† √©t√© s√©lectionn√©es et nous avons du en transformer afin de r√©duire la colin√©arit√© (la variable "elevation_km" et sa forme quadratique). L'utilisation de la regression Ridge garde toutes les variables que nous avons selectionn√© au pr√©alable, et est efficace contre les probl√®mes de multicolin√©arit√©.

Le mod√®le Ridge r√©duit la taille des coefficients. Cette p√©nalisation d√©pend de l‚Äô√©chelle des variables. Il est donc n√©cessaire de standardiser les donn√©es avant l‚Äôapprentissage.

Apr√®s avoir r√©alis√© le mod√®le pr√©c√©dent pas √† pas, nous utiliserons une pipeline pour automatiser les √©tapes. Les donn√©es sont d‚Äôabord standardis√©es, puis, plusieurs valeurs de alpha, comprises entre 0,0001 et 1000, sont test√©es. Pour chaque valeur, une validation crois√©e √† 5 groupes est effectu√©e afin de s√©lectionner le meilleur mod√®le.

In [897]:
y = Strava_modele.Vitesse_moyenne
X = Strava_modele.assign(
    elevation_km_2 = Strava_modele['elevation_km'] ** 2
)[['Distance_m','avec','elevation_km','elevation_km_2']]


Nous utiliserons les variables initiales, car la fonction StandardScaler() centre et r√©duit automatiquement les donn√©es, rendant inutile un centrage manuel.

In [898]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size = 0.25,
    random_state = 70
)

In [899]:
model_ridge_CV = Pipeline([
    ("scaler", StandardScaler()),
    ("ridge", RidgeCV(alphas=np.logspace(-3, 3, 50), cv=5))
])

model_ridge_CV.fit(X_train, y_train)

best_alpha = model_ridge_CV.named_steps["ridge"].alpha_
print("Meilleur alpha :", best_alpha)

Meilleur alpha : 10.985411419875572


Maintenant que nous avons trouv√© le meilleur alpha, nous pouvons construire le mod√®le final √† partir de cette valeur d'alpha.

In [900]:
model_final = Pipeline([
    ("scaler", StandardScaler()),
    ("ridge", Ridge(alpha=best_alpha))
])

model_final.fit(X_train, y_train)
y_pred = model_final.predict(X_test)

In [901]:
rmse_ridge = np.sqrt(mean_squared_error(y_test, y_pred))
r2_ridge  = r2_score(y_test, y_pred)

print("RMSE test :", rmse_ridge)
print("R¬≤ test   :", r2_ridge)

RMSE test : 2.515339468807346
R¬≤ test   : 0.42617471643951255


In [902]:
resultat_ridge = X_test
resultat_ridge['true_speed'] = y_test
resultat_ridge['predicted_speed'] = y_pred
resultat_ridge['erreur'] = resultat_ridge.predicted_speed - resultat_ridge.true_speed

In [903]:
resultat_ridge['ID'] = resultat_ridge.index
Strava_modele['ID'] = Strava_modele.index
resultat_ridge = pd.merge(Strava_modele[['ID','Activity Name','Elevation Gain']],resultat_ridge,on='ID')
resultat_ridge[['Activity Name','Elevation Gain','Distance_m','true_speed','predicted_speed','erreur']].sort_values(by = 'erreur')

Unnamed: 0,Activity Name,Elevation Gain,Distance_m,true_speed,predicted_speed,erreur
79,"Repas chez les grands parents, vent de dos tou...",713.8,62827.4,32.051020,26.142446,-5.908574
82,Afternoon Ride,265.0,16135.8,27.757170,22.454427,-5.302744
83,"Duathlon Vautourman, relais V√©lo",907.0,27684.1,20.708229,15.901422,-4.806807
97,Evening Ride,226.0,17117.8,28.216216,23.420022,-4.796195
69,Massif de la Malep√®re,768.6,74415.3,27.519622,23.332629,-4.186993
...,...,...,...,...,...,...
105,üá´üá∑üáÆüáπüá∏üáÆ Tour du Lac d‚ÄôIseo + mont√©e de Brione,1264.0,110048.6,24.368311,28.459012,4.090701
43,Tour d√©couverte avec Hugo,572.1,42703.2,16.899736,21.024112,4.124376
75,Balade avec Nausicaa,12.4,20352.8,15.802416,22.007632,6.205216
60,Balade avec Nausicaa,388.1,31007.6,14.329738,20.668626,6.338888


In [904]:
resultat_ridge['erreur_abs'] = resultat_ridge['erreur'].abs()
resultat_ridge.groupby('avec')['erreur_abs'].mean()

avec
0    1.938217
1    2.096489
Name: erreur_abs, dtype: float64

In [905]:
resultat_ridge.groupby('avec')['erreur_abs'].var()

avec
0    1.767921
1    3.182768
Name: erreur_abs, dtype: float64

On remarque que les performances sont l√©g√®rement meilleures avec le mod√®le Ridge (R¬≤ de 0.43 au lieu de 0.40 sur le dataset test), avec √©galement une variabilit√© l√©g√®rement r√©duite des erreurs lorsque je roule seul. 
Cependant, la diff√©rence de performance des deux mod√®les reste relativement proche (√©cart de 2 points pour le R¬≤).  
Cela peut venir du fait que lors de l'entra√Ænement du mod√®le lin√©aire multivari√©, nous avons d√©j√† corrig√© un probl√®me de colin√©arit√©. √âtant donn√© que le mod√®le Ridge, arrive √† g√©rer la colin√©arit√© des variables explicatives en r√©duisant les coefficients sur certaines variables, si nous n'avions pas g√©r√© ce probl√®me dans le premier mod√®le, l'am√©lioration des performances sur le mod√®le Ridge aurait pu √™tre plus marqu√©e.  

Selon les besoins, s‚Äôarr√™ter au mod√®le lin√©aire multivari√© peut √™tre pr√©f√©rable : le gain en temps et en ressources peut compenser le gain marginal de performance apport√© par la r√©gularisation Ridge.

7. Calcul d'un indicateur de forme

√âtant donn√© que le but du projet est de pouvoir estimer ma forme ou ma progression √† partir de la vitesse moyenne, ce sera l'estimation de cette derni√®re qui sera utilis√©e pour l'indicateur de forme. Pour cela, nous allons r√©cup√©rer les coefficients du dernier mod√®le.

In [906]:
dump(model_final, "performance_cyclisme.pkl") # le but final √©tant de programmer une petite application, il est n√©cessaire de sauvegarder le mod√®le.

['performance_cyclisme.pkl']

In [907]:
predicteur = load("performance_cyclisme.pkl")

In [908]:
Distance_km = float(input("Distance (km) : "))
D√©nivel√© = float(input("D√©nivel√© (m) : "))
avec = int(input("Avec une autre personne(0 si non, 1 si oui) : "))
elevation_km = D√©nivel√©/Distance_km
elevation_km_2 = elevation_km**2
Distance_m = Distance_km*1000

elevation_km_2 = elevation_km ** 2

X_predict = pd.DataFrame([{
    "Distance_m": Distance_m,
    "avec": avec,
    "elevation_km": elevation_km,
    "elevation_km_2": elevation_km_2
}])


In [909]:
prediction = predicteur.predict(X_predict)

print("Vitesse pr√©dite :", round(prediction[0], 2), "km/h")

Vitesse pr√©dite : 23.46 km/h


In [913]:
Vitesse_reelle = int(input("Vitesse r√©alis√©e : "))
Vitesse_predite = round(prediction[0], 2)

In [918]:
def indicateur_de_performance(vitesse_reelle, vitesse_predite):
    ecart = vitesse_reelle - vitesse_predite

    if ecart >= 2 :
        forme = "Tr√®s bonne" 
    elif (ecart < 2 and ecart >=1) :
        forme = "Bonne"
    elif ecart < -2 :
        forme = "Tr√®s mauvaise"
    elif (ecart <-1 and ecart >= -2) :
        forme = "Mauvaise"
    else : forme = "Normale"

    return("La forme actuelle est : " + str(forme))

In [919]:
indicateur_de_performance(Vitesse_reelle,Vitesse_predite)

'La forme actuelle est : Normale'