# Introduction


La sélection de modèles est cruciale dans le processus de construction de bons modèles en Machine Learning supervisé.

 Elle aide à obtenir une bonne généralisation. Pour choisir un modèle, il faut comprendre les données, identifier les comportements pertinents et tenir compte des contraintes de mémoire et de temps. 
 
 Par exemple, si les données montrent une linéarité, des modèles comme la régression logistique ou les SVM linéaires sont appropriés. Si l'interprétabilité est importante, des modèles simples comme la régression logistique ou les arbres de décision sont préférables. 
 
 Pour des performances prédictives élevées avec des ressources suffisantes, les modèles d'ensemble comme RandomForest, XGBoost ou les réseaux de neurones sont recommandés. 
 
 Une fois la méthode d'apprentissage choisie, la sélection du modèle se concentre sur les meilleurs hyperparamètres, qui sont les paramètres de la méthode d'apprentissage spécifiés avant l'entraînement. 
 
 Trouver les bons hyperparamètres est crucial pour maximiser les performances du modèle. 
 
 Enfin, sélectionner la meilleure méthode d'apprentissage parmi un ensemble de modèles appropriés se fait en fonction d'une métrique prédéterminée, adaptée au problème.

In [1]:
# Import pandas
import pandas as pd  

# Lecture mobile_train.csv
data = pd.read_csv('mobile_train.csv')

print(data.info())

data.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   battery_power  2000 non-null   int64  
 1   blue           2000 non-null   int64  
 2   clock_speed    2000 non-null   float64
 3   dual_sim       2000 non-null   int64  
 4   fc             2000 non-null   int64  
 5   four_g         2000 non-null   int64  
 6   int_memory     2000 non-null   int64  
 7   m_dep          2000 non-null   float64
 8   mobile_wt      2000 non-null   int64  
 9   n_cores        2000 non-null   int64  
 10  pc             2000 non-null   int64  
 11  px_height      2000 non-null   int64  
 12  px_width       2000 non-null   int64  
 13  ram            2000 non-null   int64  
 14  sc_h           2000 non-null   int64  
 15  sc_w           2000 non-null   int64  
 16  talk_time      2000 non-null   int64  
 17  three_g        2000 non-null   int64  
 18  touch_sc

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
count,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,...,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0
mean,1238.5185,0.495,1.52225,0.5095,4.3095,0.5215,32.0465,0.50175,140.249,4.5205,...,645.108,1251.5155,2124.213,12.3065,5.767,11.011,0.7615,0.503,0.507,1.5
std,439.418206,0.5001,0.816004,0.500035,4.341444,0.499662,18.145715,0.288416,35.399655,2.287837,...,443.780811,432.199447,1084.732044,4.213245,4.356398,5.463955,0.426273,0.500116,0.500076,1.118314
min,501.0,0.0,0.5,0.0,0.0,0.0,2.0,0.1,80.0,1.0,...,0.0,500.0,256.0,5.0,0.0,2.0,0.0,0.0,0.0,0.0
25%,851.75,0.0,0.7,0.0,1.0,0.0,16.0,0.2,109.0,3.0,...,282.75,874.75,1207.5,9.0,2.0,6.0,1.0,0.0,0.0,0.75
50%,1226.0,0.0,1.5,1.0,3.0,1.0,32.0,0.5,141.0,4.0,...,564.0,1247.0,2146.5,12.0,5.0,11.0,1.0,1.0,1.0,1.5
75%,1615.25,1.0,2.2,1.0,7.0,1.0,48.0,0.8,170.0,7.0,...,947.25,1633.0,3064.5,16.0,9.0,16.0,1.0,1.0,1.0,2.25
max,1998.0,1.0,3.0,1.0,19.0,1.0,64.0,1.0,200.0,8.0,...,1960.0,1998.0,3998.0,19.0,18.0,20.0,1.0,1.0,1.0,3.0



Les variables sont numériques, certaines sont indicatrices. Les données semblent bien distribuées. Nous allons entraîner trois types de modèles : régression logistique, Random Forests et SVM. 

Nous devons normaliser les données en raison de leurs différences d'échelle. 

Pour évaluer les modèles, nous diviserons les données en ensembles d'entraînement, de validation et de test. 

Dans le cas de données chronologiques, nous séparerons les données selon le temps. 

Pour de petits ensembles de données, nous utiliserons simplement un ensemble d'entraînement et un ensemble de test pour évaluer le modèle final.

# Sélection d'hyperparamètres


Pour choisir les meilleurs hyperparamètres, on utilise la validation croisée. 

On divise l'ensemble d'entraînement en K ensembles plus petits. 

On entraîne des modèles sur K-1 ensembles avec différentes combinaisons d'hyperparamètres, puis on évalue leur performance sur l'ensemble retenu. 

On sélectionne ensuite les hyperparamètres offrant la meilleure performance moyenne. 

Enfin, on réentraîne le modèle avec ces hyperparamètres sur l'ensemble d'entraînement complet et on estime l'erreur de généralisation sur l'ensemble de test.

In [2]:
# Import des packages
from sklearn.model_selection import GridSearchCV, train_test_split, StratifiedKFold, cross_val_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

In [4]:
# Séparation en 2 DF varaibles explicatives et cible
X, y = data.drop('price_range', axis=1), data['price_range']

# Création ensemble entrainement et test 75%/25%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

# Normalisation
X_train = MinMaxScaler().fit_transform(X_train)
X_test = MinMaxScaler().fit_transform(X_test)


In [5]:
# Création classifier LogisticRegression
clf_lr = LogisticRegression(max_iter=1000)

# Dictionnaire de params
params_lr= {'solver': ['liblinear', 'lbfgs'], 'C': [10**(i) for i in range (-4,3)]}

# instanciation de classe
gridcv = GridSearchCV(clf_lr, param_grid=params_lr, scoring='accuracy', cv=3)

In [6]:
# Entrainement de gridcv
gridcv.fit(X_train, y_train)

# Affichage résultat du gridsearch
pd.DataFrame(gridcv.cv_results_)[['params', 'mean_test_score','std_test_score']]

Unnamed: 0,params,mean_test_score,std_test_score
0,"{'C': 0.0001, 'solver': 'liblinear'}",0.558,0.007483
1,"{'C': 0.0001, 'solver': 'lbfgs'}",0.260667,0.000943
2,"{'C': 0.001, 'solver': 'liblinear'}",0.580667,0.008994
3,"{'C': 0.001, 'solver': 'lbfgs'}",0.310667,0.009978
4,"{'C': 0.01, 'solver': 'liblinear'}",0.603333,0.0133
5,"{'C': 0.01, 'solver': 'lbfgs'}",0.646,0.009798
6,"{'C': 0.1, 'solver': 'liblinear'}",0.669333,0.022529
7,"{'C': 0.1, 'solver': 'lbfgs'}",0.756667,0.016357
8,"{'C': 1, 'solver': 'liblinear'}",0.759333,0.020997
9,"{'C': 1, 'solver': 'lbfgs'}",0.884,0.002828



Le paramètre {'C': 100, 'solver': 'lbfgs'} est sélectionné car il a obtenu le meilleur score moyen lors de la validation croisée. 

Avec un score moyen de 0.956, il présente la meilleure performance parmi toutes les combinaisons d'hyperparamètres testées.

# Validation croisée imbriquée (Nested CV)


La validation croisée imbriquée est une méthode avancée pour sélectionner un algorithme de manière fiable. Voici comment elle fonctionne :

- Division des données : Les données sont divisées en K ensembles plus petits pour la validation croisée.
- Sélection des hyperparamètres : Pour chaque algorithme, un processus de validation croisée est effectué sur les K-1 ensembles restants pour sélectionner les meilleurs hyperparamètres.
- Évaluation de la performance : Les meilleurs hyperparamètres sont utilisés pour estimer la performance de chaque algorithme sur l'ensemble mis de côté.
- Sélection de l'algorithme : En calculant la moyenne et l'écart type des scores de validation sur les K ensembles, l'algorithme le plus performant et le plus stable est choisi.
- Validation finale : En utilisant l'ensemble d'entraînement complet, le meilleur ensemble d'hyperparamètres est sélectionné par GridSearch. 

Enfin, l'erreur de généralisation est estimée en utilisant l'ensemble de test.
Il est crucial de choisir un algorithme stable, dont la performance ne varie pas beaucoup avec des données légèrement différentes. Une attention particulière est portée à éviter toute fuite d'information lors du preprocessing, en le réalisant à l'intérieur de la boucle interne de la validation croisée. Cela garantit une estimation réaliste de l'erreur de généralisation finale.

In [13]:
# Import Numpy
import numpy as np  

# Instanciation de 3 classifieurs (LR, RFC, SVC)
clf_lr = LogisticRegression(random_state=22, max_iter=2000)
clf_rf = RandomForestClassifier(random_state=22)
clf_svc = SVC(random_state=22)

# création de 3 grilles de paramètres 
param_grid_lr = {'solver': ['liblinear', 'lbfgs'], 'C' : np.logspace(-4, 2, 9)}

param_grid_rf = [{'n_estimators': [10, 50, 100, 250, 1000],
                  'min_samples_leaf' : [1, 3, 5],
                  'max_features' : ['sqrt', 'log2']}]

param_grid_svc = [{'kernel': ['rbf'], 'C' : np.logspace(-4, 4, 9), 'gamma': np.logspace(-4, 0, 4)},
                  {'kernel' : ['linear'], 'C': np.logspace(-4, 4, 9)}]

In [14]:
# Création dictionnaire gridcvs
gridcv = {}

# Instanciation pour chaque paire de modèle et gille d'un GridSearchCV et enregistrement dans gridcvs
for pgrid, clf, name in zip((param_grid_lr, param_grid_rf, param_grid_svc),
                            (clf_lr, clf_rf, clf_svc),
                            ('LogisticRegression', 'RF', 'SVM')):
    gcv = GridSearchCV(clf, pgrid, cv=3, refit=True)

    gridcv[name] = gcv

In [15]:
# Création objet StratifiedKFold : échantillonnage à 3 et shuffle=True
outer_cv = StratifiedKFold(n_splits=3, shuffle=True)

# Dictionnaire vide
outer_scores = {}

# boucle sur chq modèle de la grille
for name, gs in gridcv.items():
    # Validation croisée interne poyr chq modèle
    nested_score = cross_val_score(gs, X_train, y_train, cv=outer_cv)
    # enregistrement des scores de validation croisée
    outer_scores[name] = nested_score
    # Affichage des
    print(f'{name}: outer accuracy {100*nested_score.mean():.2f} +/- {100*nested_score.std():.2f}')

LogisticRegression: outer accuracy 95.67 +/- 1.23
RF: outer accuracy 86.87 +/- 2.05
SVM: outer accuracy 95.53 +/- 1.09


Maintenant, nous devons sélectionner et entraîner le meilleur algorithme, celui qui affiche le taux moyen de précision le plus élevé et l'écart-type le plus faible.

In [17]:
from sklearn.metrics import accuracy_score

# Selection du modèle final à partir grille de recherche
final_clf = gridcv['LogisticRegression']

# Entrainement du modèle final sur ensemble entrainement
final_clf.fit(X_train, y_train)

# Affichae des meilleurs param sélectionnés
print(f'Best param  {final_clf.best_params_}')

# Calcule précision du modèle sur ensemble entrainement
train_acc = accuracy_score(y_true=y_train, y_pred=final_clf.predict(X_train))

# Calcule précision du modèle sur ensemble test
test_acc = accuracy_score(y_true=y_test, y_pred=final_clf.predict(X_test))

# Affichage précision du modèle sur ensemble entrainement
print(f'Training Accuracy : {100*train_acc:.2f}')

# Afichage précision du modèle sur ensemble test
print(f'Test Accuracy : {100*test_acc:.2f}')

Best param  {'C': 100.0, 'solver': 'lbfgs'}
Training Accuracy : 98.53
Test Accuracy : 97.20



Le score moyen obtenu par validation croisée sur l'ensemble d'entraînement peut souvent être une estimation pessimiste du modèle, car il n'est pas entraîné sur la totalité des données disponibles. 

En général, un modèle bénéficie d'une meilleure performance lorsque le nombre de données d'entraînement est plus élevé. 

Ainsi, une fois le modèle et les hyperparamètres sélectionnés, il est recommandé de ré-entraîner le modèle final sur l'ensemble des données disponibles avant de le déployer. 

Même si le modèle peut être évalué sur l'ensemble de test, une estimation approfondie de l'erreur de généralisation nous donne confiance dans les performances du modèle. 

De plus, étant donné que le modèle est également entraîné sur l'échantillon de test, il est probable qu'il fonctionne encore mieux en production. En résumé, ré-entraîner le modèle final sur toutes les données disponibles offre une opportunité d'améliorer ses performances et sa fiabilité avant son déploiement en production.