# Ajuster les hyperparamètres

Il existe de nombreux algorithmes d’apprentissage automatique qui requièrent des *hyperparamètres* (valeurs de paramètres qui influencent l’apprentissage, mais ne peuvent pas être déterminées à partir des données d’apprentissage elles-mêmes). Par exemple, lors de l’apprentissage d’un modèle de régression logistique, vous pouvez utiliser un hyperparamètre *taux de régularisation* pour compenser un biais du modèle. Ou bien, lors de l’apprentissage d’un réseau neuronal convolutif, vous pouvez utiliser des hyperparamètres tels que *taux d’apprentissage* et *taille de lot* pour contrôler respectivement le mode d’ajustement des pondérations et le nombre d’éléments de données traités dans un mini-lot. Le choix des valeurs d’hyperparamètres peut affecter sensiblement les performances d’un modèle formé, ou le temps nécessaire pour effectuer l’apprentissage d’un modèle. Par ailleurs, souvent, vous devrez essayer plusieurs combinaisons pour trouver la solution optimale.

Dans ce cas, vous allez effectuer l’apprentissage d’un modèle de classification avec deux hyperparamètres, mais les principes s’appliquent à tout type de modèle dont vous pouvez effectuer l’apprentissage avec Azure Machine Learning.

## Vous connecter à votre espace de travail

Pour commencer, connectez-vous à votre espace de travail.

> **Remarque** : si vous n’avez pas encore établi de session authentifiée avec votre abonnement Azure, vous serez invité à vous authentifier en cliquant sur un lien, en saisissant un code d’authentification et en vous connectant à Azure.

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## Préparer les données

Dans ce laboratoire, vous allez utiliser un jeu de données contenant des détails sur des patients atteints de diabète. Exécutez la cellule ci-dessous pour créer ce jeu de données (s’il existe déjà, la version existante sera utilisée).

In [None]:
from azureml.core import Dataset

default_ds = ws.get_default_datastore()

if 'diabetes dataset' not in ws.datasets:
    default_ds.upload_files(files=['./data/diabetes.csv', './data/diabetes2.csv'], # Upload the diabetes csv files in /data
                        target_path='diabetes-data/', # Put it in a folder path in the datastore
                        overwrite=True, # Replace existing files of the same name
                        show_progress=True)

    #Create a tabular dataset from the path on the datastore (this may take a short while)
    tab_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, 'diabetes-data/*.csv'))

    # Register the tabular dataset
    try:
        tab_data_set = tab_data_set.register(workspace=ws, 
                                name='diabetes dataset',
                                description='diabetes data',
                                tags = {'format':'CSV'},
                                create_new_version=True)
        print('Dataset registered.')
    except Exception as ex:
        print(ex)
else:
    print('Dataset already registered.')

## Préparer un script d’apprentissage

Créons maintenant un dossier pour le script d’apprentissage que vous allez utiliser pour effectuer l’apprentissage du modèle.

In [None]:
import os

experiment_folder = 'diabetes_training-hyperdrive'
os.makedirs(experiment_folder, exist_ok=True)

print('Folder ready.')

Créez maintenant le script Python pour effectuer l’apprentissage du modèle. Dans cet exemple, vous allez utiliser un algorithme *Boosting de gradient* pour effectuer l’apprentissage d’un modèle de classification. Le script doit inclure les éléments suivants :

- Argument pour chaque hyperparamètre que vous souhaitez optimiser (dans ce cas, le taux d’apprentissage et le nombre d’estimateurs pour l’algorithme Boosting de gradient).
- Code pour journaliser la métrique de performance pour laquelle vous souhaitez optimiser le modèle (dans ce cas, vous allez journaliser les métriques d’AUC et de précision, afin de pouvoir choisir d’optimiser le modèle pour l’une ou l’autre).

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# Import libraries
import argparse, joblib, os
from azureml.core import Run
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_auc_score, roc_curve

# Get the experiment run context
run = Run.get_context()

# Get script arguments
parser = argparse.ArgumentParser()

# Input dataset
parser.add_argument("--input-data", type=str, dest='input_data', help='training dataset')

# Hyperparameters
parser.add_argument('--learning_rate', type=float, dest='learning_rate', default=0.1, help='learning rate')
parser.add_argument('--n_estimators', type=int, dest='n_estimators', default=100, help='number of estimators')

# Add arguments to args collection
args = parser.parse_args()

# Log Hyperparameter values
run.log('learning_rate',  np.float(args.learning_rate))
run.log('n_estimators',  np.int(args.n_estimators))

# load the diabetes dataset
print("Loading Data...")
diabetes = run.input_datasets['training_data'].to_pandas_dataframe() # Get the training data from the estimator input

# Separate features and labels
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a Gradient Boosting classification model with the specified hyperparameters
print('Training a classification model')
model = GradientBoostingClassifier(learning_rate=args.learning_rate,
                                   n_estimators=args.n_estimators).fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# Save the model in the run outputs
os.makedirs('outputs', exist_ok=True)
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## Créer une capacité de calcul

Le réglage de l’hyperparamètre implique l’exécution de plusieurs itérations d’apprentissage avec différentes valeurs d’hyperparamètres, et la comparaison des métriques de performances des modèles qui en résultent. Pour effectuer cette opération efficacement, nous allons tirer parti du calcul cloud à la demande et créer un cluster. Cela permettra l’exécution simultanée de plusieurs itérations d’apprentissage.

Utilisez le code suivant pour spécifier un cluster de calcul Azure Machine Learning (il sera créé s’il n’existe pas).

> **Important** : remplacez *your-compute-cluster* par le nom de votre cluster de calcul dans le code ci-dessous avant de l’exécuter. Les noms de cluster doivent être des noms globalement uniques d’une longueur comprise entre 2 et 16 caractères. Les caractères valides sont les lettres, les chiffres et le caractère « - ».

In [None]:
from azureml.core.compute import ComputeTarget, AmlCompute
from azureml.core.compute_target import ComputeTargetException

cluster_name = "your-compute-cluster"

try:
    # Check for existing compute target
    training_cluster = ComputeTarget(workspace=ws, name=cluster_name)
    print('Found existing cluster, use it.')
except ComputeTargetException:
    # If it doesn't already exist, create it
    try:
        compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_DS11_V2', max_nodes=2)
        training_cluster = ComputeTarget.create(ws, cluster_name, compute_config)
        training_cluster.wait_for_completion(show_output=True)
    except Exception as ex:
        print(ex)
    

> **Remarque** : les clusters et instances de calcul sont basés sur des images de machines virtuelles Azure standard. Pour cet exercice, l’image *Standard_DS11_v2* est recommandée pour obtenir l’équilibre optimal entre coûts et performances. Si votre abonnement s’accompagne d’un quota qui ne couvre pas cette image, choisissez-en une autre. Gardez cependant à l’esprit qu’une image plus grande peut entraîner des coûts plus élevés, tandis qu’une plus petite risque de ne pas suffire pour effectuer les tâches. Vous pouvez également demander à votre administrateur Azure d’étendre votre quota.

Comme vous allez avoir besoin d’un environnement Python à héberger sur le calcul, définissons-le comme un fichier de configuration Conda.

In [None]:
%%writefile $experiment_folder/hyperdrive_env.yml
name: batch_environment
dependencies:
- python=3.6.2
- scikit-learn
- pandas
- numpy
- pip
- pip:
  - azureml-defaults


## Exécuter une expérience d’optimisation des hyperparamètres.

Azure Machine Learning comprend une fonctionnalité de réglage d’hyperparamètre via des expériences *hyperdrive*. Ces expériences lancent plusieurs exécutions enfants, chacune avec une combinaison d’hyperparamètres différente. L’exécution produisant le meilleur modèle (tel que déterminée par la métrique de performance cible journalisée pour laquelle vous souhaitez optimiser le modèle) peut être identifiée et son modèle formé sélectionné pour l’inscription et le déploiement.

> **Remarque** : dans cet exemple, nous ne spécifions pas de stratégie d’arrêt anticipé. Une telle stratégie n’est pertinente que si le script d’apprentissage effectue plusieurs itérations d’apprentissage, en journalisant la métrique principale pour chaque itération. Cette approche est généralement employée lors de l’apprentissage de modèles de réseau neuronal profond sur plusieurs *époques*.

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.train.hyperdrive import GridParameterSampling, HyperDriveConfig, PrimaryMetricGoal, choice
from azureml.widgets import RunDetails

# Create a Python environment for the experiment
hyper_env = Environment.from_conda_specification("experiment_env", experiment_folder + "/hyperdrive_env.yml")

# Get the training dataset
diabetes_ds = ws.datasets.get("diabetes dataset")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                                script='diabetes_training.py',
                                # Add non-hyperparameter arguments -in this case, the training dataset
                                arguments = ['--input-data', diabetes_ds.as_named_input('training_data')],
                                environment=hyper_env,
                                compute_target = training_cluster)

# Sample a range of parameter values
params = GridParameterSampling(
    {
        # Hyperdrive will try 6 combinations, adding these as script arguments
        '--learning_rate': choice(0.01, 0.1, 1.0),
        '--n_estimators' : choice(10, 100)
    }
)

# Configure hyperdrive settings
hyperdrive = HyperDriveConfig(run_config=script_config, 
                          hyperparameter_sampling=params, 
                          policy=None, # No early stopping policy
                          primary_metric_name='AUC', # Find the highest AUC metric
                          primary_metric_goal=PrimaryMetricGoal.MAXIMIZE, 
                          max_total_runs=6, # Restict the experiment to 6 iterations
                          max_concurrent_runs=2) # Run up to 2 iterations in parallel

# Run the experiment
experiment = Experiment(workspace=ws, name='mslearn-diabetes-hyperdrive')
run = experiment.submit(config=hyperdrive)

# Show the status in the notebook as the experiment runs
RunDetails(run).show()
run.wait_for_completion()

Vous pouvez voir l’état d’exécution de l’expérience dans le widget ci-dessus. Vous pouvez également afficher l’expérience d’expérimentation Hyperdrive principale et ses exécutions enfants dans [Azure Machine Learning Studio](https://ml.Azure.com).

> **Remarque** : si un message s’affiche indiquant qu’une valeur non numérique ne peut pas être visualisée, vous pouvez l’ignorer.

## Déterminer l’exécution la plus performante

Une fois toutes les exécutions terminées, vous pouvez trouver la meilleure en fonction de la métrique de performance que vous avez spécifiée (dans ce cas, celle avec la meilleure métrique AUC).

In [None]:
# Print all child runs, sorted by the primary metric
for child_run in run.get_children_sorted_by_primary_metric():
    print(child_run)

# Get the best run, and its metrics and arguments
best_run = run.get_best_run_by_primary_metric()
best_run_metrics = best_run.get_metrics()
script_arguments = best_run.get_details() ['runDefinition']['arguments']
print('Best Run Id: ', best_run.id)
print(' -AUC:', best_run_metrics['AUC'])
print(' -Accuracy:', best_run_metrics['Accuracy'])
print(' -Arguments:',script_arguments)

Maintenant que vous avez trouvé la meilleure exécution, vous pouvez enregistrer le modèle qu’elle a formé.

In [None]:
from azureml.core import Model

# Register model
best_run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                        tags={'Training context':'Hyperdrive'},
                        properties={'AUC': best_run_metrics['AUC'], 'Accuracy': best_run_metrics['Accuracy']})

# List registered models
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

> **Plus d’informations** : pour plus d’informations sur Hyperdrive, consultez la [Documentation Azure ML](https://docs.microsoft.com/azure/machine-learning/how-to-tune-hyperparameters).