In [17]:
#REGRESSION AVEC REGLAGE DES PARAMETRES

In [18]:
#Bibliotèques
from sklearn.neural_network import MLPRegressor
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn import preprocessing

In [19]:
#Télécharchement du Dataset "diabetes"
data = datasets.load_diabetes()

In [20]:
#Affichage des clés du Dataset
print(data.keys())

dict_keys(['data', 'target', 'DESCR', 'feature_names', 'data_filename', 'target_filename'])


In [21]:
#Affichage du nombre d'observations
print(data.target.shape)

(442,)


In [22]:
#Affichage des Inputs / Features
print(data.feature_names)

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']


In [23]:
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

#Précision d'une feature uniquement (dans notre cas la 1ère i.e 2ème colone : l'age)- pour le plot
#diabetes_X = diabetes_X[:, np.newaxis, 2]

In [24]:
#80% TRAINING / 20% TEST
X = data.data
y = data.target
diabetes_X_train, diabetes_X_test, diabetes_y_train, diabetes_y_test = train_test_split(X, y, test_size=0.20, shuffle=True)
print(diabetes_X_train.shape); print(diabetes_X_test.shape)

(353, 10)
(89, 10)


In [9]:
#X et y doivent avoir la même taille (il faut bien le préciser pour pour le plot)

#Précision que data et targets d'entrainement ait la même taille (80%, 80%)
#diabetes_X_train = diabetes_X[:-353]
#diabetes_y_train = diabetes_y[:-353]

#Précision que data et targets de test ait la même taille (20%, 20%)
#diabetes_X_test = diabetes_X[-89:]
#diabetes_y_test = diabetes_y[-89:]

In [10]:
#Normalisation du Dataset 
scaler=preprocessing.StandardScaler().fit(diabetes_X_train)
diabetes_X_train=scaler.transform(diabetes_X_train)
diabetes_X_test=scaler.transform(diabetes_X_test)

In [11]:
#Utilisation de la méthode GridSearchCV qui trouve facilement les hyperparamètres optimaux parmi les valeurs données.
from sklearn.model_selection import GridSearchCV

mlp_gs = MLPRegressor(max_iter=3000)
parameter_space = {
    'hidden_layer_sizes': [(100,)],
    #'hidden_layer_sizes': [(100,),(200,),(300,),],
    'activation': ['relu', 'identity', 'logistic', 'tanh'],
    'solver': ['adam', 'lbfgs', 'sgd'],
    'alpha': [0.0001],
    'batch_size': ['auto'], 
    'learning_rate': ['constant','adaptive', 'invscaling'],
    'learning_rate_init': [0.001],
    'power_t': [0.5],
    'max_iter': [3000], 
    'tol': [0.0001], 
    'warm_start': ['False'], 
    'momentum': [0.9], 
    'validation_fraction': [0.1], 
    'beta_1': [0.9], 
    'beta_2': [0.999], 
    'epsilon': [1e-08], 
    'n_iter_no_change': [10], 

}
#n_jobs=-1 , -1 sert à utiliser tous les cœurs de processeur disponibles.
#cv = 10 est pour la validation croisée, ici cela signifie 10 fois la validation croisée stratifiée (K-fold)
clf = GridSearchCV(mlp_gs, parameter_space, n_jobs=-1, cv=10)

#Apprentissage / Entrainement de modèle
clf.fit(X, y)



GridSearchCV(cv=10, error_score='raise-deprecating',
             estimator=MLPRegressor(activation='relu', alpha=0.0001,
                                    batch_size='auto', beta_1=0.9, beta_2=0.999,
                                    early_stopping=False, epsilon=1e-08,
                                    hidden_layer_sizes=(100,),
                                    learning_rate='constant',
                                    learning_rate_init=0.001, max_iter=3000,
                                    momentum=0.9, n_iter_no_change=10,
                                    nesterovs_momentum=True, power_t=0.5,
                                    random_st...
                         'hidden_layer_sizes': [(100,)],
                         'learning_rate': ['constant', 'adaptive',
                                           'invscaling'],
                         'learning_rate_init': [0.001], 'max_iter': [3000],
                         'momentum': [0.9], 'n_iter_no_change': [10],


In [25]:
#Affichage des scores pour toutes les combinaisons (modèles) possibles 
means = clf.cv_results_['mean_test_score']
stds = clf.cv_results_['std_test_score']

i=0
for mean, std, params in zip(means, stds, clf.cv_results_['params']):
    i=i+1    
print("Le nombre de combinaisons (modèles) possible est : %r " % (i)) 
print(" \n ")
print("|  Mean  |   Std   |  Combinaison / Modèle ")
print("-------------------------------------------------------------------------------------------------------------------")

for mean, std, params in zip(means, stds, clf.cv_results_['params']):
    print("%0.3f    | %0.03f   | %r" % (mean, std, params))

Le nombre de combinaisons (modèles) possible est : 36 
 
 
|  Mean  |   Std   |  Combinaison / Modèle 
-------------------------------------------------------------------------------------------------------------------
0.461    | 0.136   | {'activation': 'relu', 'alpha': 0.0001, 'batch_size': 'auto', 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'hidden_layer_sizes': (100,), 'learning_rate': 'constant', 'learning_rate_init': 0.001, 'max_iter': 3000, 'momentum': 0.9, 'n_iter_no_change': 10, 'power_t': 0.5, 'solver': 'adam', 'tol': 0.0001, 'validation_fraction': 0.1, 'warm_start': 'False'}
0.399    | 0.180   | {'activation': 'relu', 'alpha': 0.0001, 'batch_size': 'auto', 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'hidden_layer_sizes': (100,), 'learning_rate': 'constant', 'learning_rate_init': 0.001, 'max_iter': 3000, 'momentum': 0.9, 'n_iter_no_change': 10, 'power_t': 0.5, 'solver': 'lbfgs', 'tol': 0.0001, 'validation_fraction': 0.1, 'warm_start': 'False'}
0.460    | 0.146   |

In [26]:
#Affichage du meilleur modèle (hyperparamètres optimaux parmi les valeurs données).
print('Meilleurs paramètres trouvés : \n', clf.best_params_)

Meilleurs paramètres trouvés : 
 {'activation': 'tanh', 'alpha': 0.0001, 'batch_size': 'auto', 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'hidden_layer_sizes': (100,), 'learning_rate': 'adaptive', 'learning_rate_init': 0.001, 'max_iter': 3000, 'momentum': 0.9, 'n_iter_no_change': 10, 'power_t': 0.5, 'solver': 'sgd', 'tol': 0.0001, 'validation_fraction': 0.1, 'warm_start': 'False'}


In [27]:
#Test du meilleur modèle sur l'ensemble de test.
diabetes_y_test, diabetes_y_pred = diabetes_y_test , clf.predict(diabetes_X_test)


#Métriques
#print("RSS : %.2f" % mean_squared_error(diabetes_y_test, diabetes_y_pred))
RSS=mean_squared_error(diabetes_y_test, diabetes_y_pred)*89
print(" RSS = %.2f" % RSS)
print(" RSE = %.2f" % (1-r2_score(diabetes_y_test, diabetes_y_pred)))
print(" R2 (Coefficient de determination) = %.2f" % r2_score(diabetes_y_test, diabetes_y_pred))

 RSS = 212575.54
 RSE = 0.39
 R2 (Coefficient de determination) = 0.61
