# Effectuer l’apprentissage de modèles

L’objectif central de l’apprentissage automatique est d’effectuer l’apprentissage de modèles prédictifs que des applications peuvent utiliser. Dans Azure Machine Learning, vous pouvez utiliser des scripts pour effectuer l’apprentissage de modèles en tirant parti de structures d’apprentissage automatique courantes, telles que Scikit-Learn, Tensorflow, PyTorch, SparkML, etc. Vous pouvez exécuter ces scripts d’apprentissage en tant qu’expériences pour suivre des métriques et des résultats, qui incluent les modèles formés.

## Vous connecter à votre espace de travail

Pour commencer, connectez-vous à votre espace de travail.

> **Remarque** : si vous n’avez pas encore établi de session authentifiée avec votre abonnement Azure, vous serez invité à vous authentifier en cliquant sur un lien, en saisissant un code d’authentification et en vous connectant à Azure.

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## Créer un script d’apprentissage

Vous allez utiliser un script Python pour effectuer l’apprentissage d’un modèle d’apprentissage automatique basé sur les données relatives au diabète. Commençons donc par créer un dossier pour le script et les fichiers de données.

In [None]:
import os, shutil

# Create a folder for the experiment files
training_folder = 'diabetes-training'
os.makedirs(training_folder, exist_ok=True)

# Copy the data file into the experiment folder
shutil.copy('data/diabetes.csv', os.path.join(training_folder, "diabetes.csv"))

Vous êtes maintenant prêt à créer le script d’apprentissage et à l’enregistrer dans le dossier.

> **Remarque** : ce code *crée* le script mais ne l’exécute pas !

In [None]:
%%writefile $training_folder/diabetes_training.py
# Import libraries
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# Get the experiment run context
run = Run.get_context()

# load the diabetes dataset
print("Loading Data...")
diabetes = pd.read_csv('diabetes.csv')

# Separate features and labels
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Set regularization hyperparameter
reg = 0.01

# Train a logistic regression model
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# Save the trained model in the outputs folder
os.makedirs('outputs', exist_ok=True)
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## Exécuter le script d’apprentissage en tant qu’expérience

Vous êtes maintenant prêt à exécuter le script en tant qu’expérience. Notez que l’environnement par défaut n’incluant pas le package **scikit-Learn**, vous n’avez pas besoin de l’ajouter explicitement à la configuration. L’environnement conda est créé à la demande lors de la première exécution de l’expérience, et mis en cache en vue de futures exécutions utilisant la même configuration. La première exécution prend donc un peu plus de temps.

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails

# Create a Python environment for the experiment (from a .yml file)
env = Environment.from_conda_specification("experiment_env", "environment.yml")

# Create a script config
script_config = ScriptRunConfig(source_directory=training_folder,
                                script='diabetes_training.py',
                                environment=env,
                                docker_runtime_config=DockerConfiguration(use_docker=True)) 

# submit the experiment run
experiment_name = 'mslearn-train-diabetes'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)

# Show the running experiment run in the notebook widget
RunDetails(run).show()

# Block until the experiment run has completed
run.wait_for_completion()

Vous pouvez extraire les métriques et sorties de l’objet **Run**.

In [None]:
# Get logged metrics and files
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## Inscrire le modèle formé

Notez que les résultats de l’expérience incluent le fichier du modèle formé (**diabetes_model.pkl**). Vous pouvez enregistrer ce modèle dans votre espace de travail Azure Machine Learning afin de suivre les versions du modèle et de les récupérer ultérieurement.

In [None]:
from azureml.core import Model

# Register the model
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Script'},
                   properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

# List registered models
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

> **Remarque** : le code ci-dessus utilise des *propriétés* et *étiquettes* pour noter des informations supplémentaires sur le modèle. La principale différence entre les propriétés et les étiquettes est que les propriétés ne peuvent pas être modifiées une fois le modèle inscrit, tandis que les étiquettes d’un modèle inscrit peuvent être modifiées.

## Créer un script d’apprentissage paramétré

Vous pouvez augmenter la flexibilité de votre expérience d’apprentissage en ajoutant des paramètres à votre script afin de pouvoir répéter la même expérience d’apprentissage avec des paramètres différents. Dans ce cas, vous allez ajouter un paramètre pour le taux de régularisation utilisé par l’algorithme de régression logistique lors de l’apprentissage du modèle.

Une fois encore, commençons par créer un dossier pour le script paramétré et les données d’apprentissage.

In [None]:
import os, shutil

# Create a folder for the experiment files
training_folder = 'diabetes-training-params'
os.makedirs(training_folder, exist_ok=True)

# Copy the data file into the experiment folder
shutil.copy('data/diabetes.csv', os.path.join(training_folder, "diabetes.csv"))

Créons maintenant un script avec un argument pour l’hyperparamètre de taux de régularisation. L’argument est lu en utilisant un objet Python **argparse.ArgumentParser**.

In [None]:
%%writefile $training_folder/diabetes_training.py
# Import libraries
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import os
import argparse
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# Get the experiment run context
run = Run.get_context()

# Set regularization hyperparameter
parser = argparse.ArgumentParser()
parser.add_argument('--reg_rate', type=float, dest='reg', default=0.01)
args = parser.parse_args()
reg = args.reg

# load the diabetes dataset
print("Loading Data...")
# load the diabetes dataset
diabetes = pd.read_csv('diabetes.csv')

# Separate features and labels
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a logistic regression model
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

os.makedirs('outputs', exist_ok=True)
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## Exécuter le script avec des arguments

Vous exécutez le script en tant qu’expérience, comme vous l’avez fait précédemment, en réutilisant l’environnement que vous avez créé. Mais cette fois, vous devez fournir le paramètre **--reg_rate** que le script attend comme argument.

In [None]:
# Create a script config
script_config = ScriptRunConfig(source_directory=training_folder,
                                script='diabetes_training.py',
                                arguments = ['--reg_rate', 0.1],
                                environment=env,
                                docker_runtime_config=DockerConfiguration(use_docker=True)) 

# submit the experiment
experiment_name = 'mslearn-train-diabetes'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

Une fois encore, nous pouvons obtenir les métriques et les résultats de l’exécution terminée.

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## Inscrire une nouvelle version du modèle

Maintenant que vous avez effectué l’apprentissage d’un nouveau modèle, vous pouvez l’inscrire en tant que nouvelle version dans l’espace de travail.

In [None]:
from azureml.core import Model

# Register the model
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Parameterized script'},
                   properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

# List registered models
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

Vous pouvez également voir les modèles inscrits dans votre espace de travail sur la page **Modèles** dans [Azure Machine Learning studio](https://ml.azure.com).

Si vous avez fini d’explorer, vous pouvez fermer ce notebook et arrêter votre instance de calcul.