# Utiliser une instance de calcul

Quand vous exécutez un script en tant qu’essai Azure Machine Learning, vous devez définir son contexte d’exécution. Le contexte d’exécution est constitué des éléments suivants :

* Environnement Python pour le script, qui doit inclure tous les packages Python utilisés dans celui-ci.
* Cible de calcul sur laquelle le script sera exécuté. Il pourrait s’agir de la station de travail locale à partir de laquelle l’exécution de l’essai est lancée, ou d’une cible de calcul distante comme un cluster d’apprentissage configuré à la demande.

Dans ce notebook, vous allez explorer des *environnements* et *cibles de calcul* pour les essais.

## Vous connecter à votre espace de travail

Pour commencer, connectez-vous à votre espace de travail.

> **Remarque** : si vous n’avez pas encore établi de session authentifiée avec votre abonnement Azure, vous serez invité à vous authentifier en cliquant sur un lien, en saisissant un code d’authentification et en vous connectant à Azure.

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## Préparer les données pour un essai

Dans ce notebook, vous allez utiliser un jeu de données contenant des détails sur des patients atteints d’un diabète. Exécutez la cellule ci-dessous pour créer ce jeu de données (s’il existe déjà, le code trouvera la version existante).

In [None]:
from azureml.core import Dataset
from azureml.data.datapath import DataPath

default_ds = ws.get_default_datastore()

if 'diabetes dataset' not in ws.datasets:
    Dataset.File.upload_directory(src_dir='data',
                              target=DataPath(default_ds, 'diabetes-data/')
                              )

    #Create a tabular dataset from the path on the datastore (this may take a short while)
    tab_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, 'diabetes-data/*.csv'))

    # Register the tabular dataset
    try:
        tab_data_set = tab_data_set.register(workspace=ws, 
                                name='diabetes dataset',
                                description='diabetes data',
                                tags = {'format':'CSV'},
                                create_new_version=True)
        print('Dataset registered.')
    except Exception as ex:
        print(ex)
else:
    print('Dataset already registered.')

## Créer un script d’apprentissage

Exécutez les deux cellules suivantes afin de créer :

1. Un dossier pour un nouvel essai.
2. Un fichier de script d’apprentissage utilisant **scikit-learn** pour effectuer l’apprentissage d’un modèle, et **matplotlib** pour tracer une courbe ROC.

In [None]:
import os

# Create a folder for the experiment files
experiment_folder = 'diabetes_training_logistic'
os.makedirs(experiment_folder, exist_ok=True)
print(experiment_folder, 'folder created')

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# Import libraries
import argparse
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

# Get script arguments
parser = argparse.ArgumentParser()
parser.add_argument('--regularization', type=float, dest='reg_rate', default=0.01, help='regularization rate')
parser.add_argument("--input-data", type=str, dest='training_dataset_id', help='training dataset')
args = parser.parse_args()

# Set regularization hyperparameter
reg = args.reg_rate

# Get the experiment run context
run = Run.get_context()

# load the diabetes data (passed as an input dataset)
print("Loading Data...")
diabetes = run.input_datasets['training_data'].to_pandas_dataframe()

# Separate features and labels
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a logistic regression model
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# plot ROC curve
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
fig = plt.figure(figsize=(6, 4))
# Plot the diagonal 50% line
plt.plot([0, 1], [0, 1], 'k--')
# Plot the FPR and TPR achieved by our model
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
run.log_image(name = "ROC", plot = fig)
plt.show()

os.makedirs('outputs', exist_ok=True)
# note file saved in the outputs folder is automatically uploaded into experiment record
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## Définir un environnement

Quand vous exécutez un script Python en tant qu’essai dans Azure Machine Learning, un environnement Conda est créé pour définir le contexte d’exécution du script. Azure Machine Learning fournit un environnement par défaut qui inclut de nombreux packages courants, dont le package **azureml-defaults** qui contient les bibliothèques nécessaires pour exécuter un essai, ainsi que des packages populaires comme **pandas** et **numpy**.

Vous pouvez également définir votre propre environnement dans un fichier de spécification Conda, en ajoutant des packages à l’aide de **Conda** ou **PIP** pour vous assurer que votre essai ait accès à toutes les bibliothèques requises.

> **Remarque** : les dépendances conda sont installées en premier, suivies des dépendances pip. Étant donné que le package **pip** est requis pour installer les dépendances pip, il est recommandé de l’inclure dans les dépendances conda.

Exécutez la cellule suivante pour créer un fichier de spécification Conda nommé *experiment_env. yml* dans le même dossier que ce notebook.

In [None]:
%%writefile $experiment_folder/experiment_env.yml
name: experiment_env
dependencies:
  # The python interpreter version.
  # Currently Azure ML only supports 3.5.2 and later.
- python=3.6.2
- scikit-learn
- ipykernel
- matplotlib
- pandas
- pip
- pip:
  - azureml-defaults
  - pyarrow

Vous pouvez maintenant utiliser votre fichier de spécification conda personnalisé pour créer un environnement pour votre essai

In [None]:
from azureml.core import Environment

# Create a Python environment for the experiment (from a .yml file)
experiment_env = Environment.from_conda_specification("experiment_env", experiment_folder + "/experiment_env.yml")

# Let Azure ML manage dependencies
experiment_env.python.user_managed_dependencies = False 

# Print the environment details
print(experiment_env.name, 'defined.')
print(experiment_env.python.conda_dependencies.serialize_to_string())

Vous pouvez maintenant utiliser l’environnement pour exécuter un script en tant qu’essai.

Le code suivant affecte l’environnement que vous avez créé à un ScriptRunConfig, et soumet un essai. Pendant l’exécution de l’essai, vous pouvez observer les détails de l’exécution dans le widget et dans le journal de sortie **azureml_logs/60_control_log. txt**, pour voir l’environnement Conda en cours de génération.

> **Remarque** : le code ci-dessous crée une **DockerConfiguration** pour l’exécution du script, et définit son attribut **use_docker** sur **True** pour héberger l’environnement du script dans un conteneur Docker. Comme il s’agit du comportement par défaut, vous pouvez l’omettre. Nous l’incluons ici pour être explicite.

In [None]:
from azureml.core import Experiment, ScriptRunConfig
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails

# Get the training dataset
diabetes_ds = ws.datasets.get("diabetes dataset")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                                script='diabetes_training.py',
                                arguments = ['--regularization', 0.1, # Regularizaton rate parameter
                                             '--input-data', diabetes_ds.as_named_input('training_data')], # Reference to dataset
                                environment=experiment_env,
                                docker_runtime_config=DockerConfiguration(use_docker=True)) # Use docker to host environment

# submit the experiment
experiment_name = 'mslearn-train-diabetes'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

L’essai a utilisé avec succès l’environnement qui incluait tous les packages requis. Vous pouvez afficher les métriques et sorties de l’exécution de l’essai dans Azure Machine Learning studio, ou en exécutant le code ci-dessous, incluant le modèle formé à l’aide de **scikit-learn** et l’image de graphique ROC générée à l’aide de **matplotlib**.

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## Inscrire l’environnement

Après avoir pris la peine de définir un environnement avec les packages dont vous avez besoin, vous pouvez l’inscrire dans l’espace de travail.

In [None]:
# Register the environment
experiment_env.register(workspace=ws)

Notez que l’environnement est inscrit sous le nom que vous lui avez donné lorsque vous l’avez créé pour la première fois (dans ce cas, *diabetes-experiment-env*).

Une fois l’environnement inscrit, vous pouvez le réutiliser pour tous les scripts qui ont les mêmes exigences. Par exemple, nous allons créer un dossier et un script pour effectuer l’apprentissage d’un modèle diabète à l’aide d’un algorithme différent :

In [None]:
import os

# Create a folder for the experiment files
experiment_folder = 'diabetes_training_tree'
os.makedirs(experiment_folder, exist_ok=True)
print(experiment_folder, 'folder created')

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# Import libraries
import argparse
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

# Get script arguments
parser = argparse.ArgumentParser()
parser.add_argument("--input-data", type=str, dest='training_dataset_id', help='training dataset')
args = parser.parse_args()

# Get the experiment run context
run = Run.get_context()

# load the diabetes data (passed as an input dataset)
print("Loading Data...")
diabetes = run.input_datasets['training_data'].to_pandas_dataframe()

# Separate features and labels
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a decision tree model
print('Training a decision tree model')
model = DecisionTreeClassifier().fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# plot ROC curve
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:,1])
fig = plt.figure(figsize=(6, 4))
# Plot the diagonal 50% line
plt.plot([0, 1], [0, 1], 'k--')
# Plot the FPR and TPR achieved by our model
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
run.log_image(name = "ROC", plot = fig)
plt.show()

os.makedirs('outputs', exist_ok=True)
# note file saved in the outputs folder is automatically uploaded into experiment record
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

Vous pouvez maintenant récupérer l’environnement inscrit et l’utiliser dans un nouvel essai qui exécute le script d’apprentissage alternatif (cette fois, il n’y a aucun paramètre de régularisation, car aucun classifieur d’arbre de décision ne l’exige).

In [None]:
# get the registered environment
registered_env = Environment.get(ws, 'experiment_env')

# Get the training dataset
diabetes_ds = ws.datasets.get("diabetes dataset")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                              script='diabetes_training.py',
                              arguments = ['--input-data', diabetes_ds.as_named_input('training_data')], # Reference to dataset
                              environment=registered_env,
                              docker_runtime_config=DockerConfiguration(use_docker=True)) # Use docker to host environment 

# submit the experiment
experiment_name = 'mslearn-train-diabetes'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

Cette fois, l’essai s’exécute plus rapidement car, un environnement correspondant ayant été mis en cache à partir de l’exécution précédente, il n’est pas nécessaire de le recréer l’instance de calcul locale. Toutefois, même sur une cible de calcul différente, le même environnement serait créé et utilisé afin de garantir la cohérence du contexte d’exécution de votre script d’essai.

Examinons les métriques et sorties de l’essai.

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## Afficher les environnements inscrits

Outre l’inscription de vos propres environnements, vous pouvez tirer parti d’environnements organisés « prédéfinis » pour des types d’essais courants. Le code suivant répertorie tous les environnements inscrits :

In [None]:
from azureml.core import Environment

envs = Environment.list(workspace=ws)
for env in envs:
    print("Name",env)

Tous les environnements organisés portent des noms commençant par ***AzureML-*** (vous ne pouvez pas utiliser ce préfixe pour vos propres environnements).

## Créer un cluster de calcul

Dans de nombreux cas, il se peut que vos ressources de calcul locales ne soient pas suffisantes pour traiter un essai complexe ou de longue durée qui doit traiter un volume important de données, et vous pouvez tirer parti de la possibilité de créer et d’utiliser de façon dynamique des ressources de calcul dans le cloud. Azure Machine Learning prend en charge une plage de cibles de calcul, que vous pouvez définir dans votre espace de travail et utiliser pour exécuter des essais, en ne payant pour les ressources que si vous les utilisez.

Vous pouvez créer un cluster de calcul dans [Azure Machine Learning studio](https://ml.azure.com), ou à l’aide du Kit de développement logiciel (SDK) Azure Machine Learning. La cellule de code suivante recherche dans votre espace de travail l’existence d’un cluster de calcul avec un nom spécifié et, s’il n’existe pas, le crée.

> **Important** : remplacez *your-compute-cluster* par un nom approprié pour votre cluster de calcul dans le code ci-dessous avant de l’exécuter. Vous pouvez spécifier le nom d’un cluster existant si vous en avez un. Les noms de cluster doivent être globalement uniques, et d’une longueur comprise entre 2 et 16 caractères. Les caractères valides sont les lettres, les chiffres et le tiret (-).

In [None]:
from azureml.core.compute import ComputeTarget, AmlCompute
from azureml.core.compute_target import ComputeTargetException

cluster_name = "your-compute-cluster"

try:
    # Check for existing compute target
    training_cluster = ComputeTarget(workspace=ws, name=cluster_name)
    print('Found existing cluster, use it.')
except ComputeTargetException:
    # If it doesn't already exist, create it
    try:
        compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_DS11_V2', max_nodes=2)
        training_cluster = ComputeTarget.create(ws, cluster_name, compute_config)
        training_cluster.wait_for_completion(show_output=True)
    except Exception as ex:
        print(ex)

> **Remarque** : les clusters et instances de calcul sont basés sur des images de machines virtuelles Azure standard. Pour cet exercice, l’image *Standard_DS11_v2* est recommandée pour obtenir l’équilibre optimal entre coûts et performances. Si votre abonnement s’accompagne d’un quota qui ne couvre pas cette image, choisissez-en une autre. Gardez cependant à l’esprit qu’une image plus grande peut entraîner des coûts plus élevés, tandis qu’une plus petite risque de ne pas suffire pour effectuer les tâches. Vous pouvez également demander à votre administrateur Azure d’étendre votre quota.

## Exécuter un essai sur une instance de calcul à distance

Vous êtes maintenant prêt à réexécuter l’essai que vous avez exécuté précédemment, mais cette fois sur le cluster de calcul que vous avez créé. 

> **Remarque** : l’essai prendra beaucoup plus de temps, car une image conteneur doit être générée avec l’environnement conda, puis les nœuds de cluster doivent être démarrés et l’image déployée avant l’exécution du script. Pour un essai simple, comme le script d’apprentissage pour le diabète, cela peut paraître inefficace. Pour un essai plus complexe nécessitant plusieurs heures, la création dynamique d’une instance de calcul plus évolutive peut réduire sensiblement le temps global d’exécution.

In [None]:
# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                                script='diabetes_training.py',
                                arguments = ['--input-data', diabetes_ds.as_named_input('training_data')],
                                environment=registered_env,
                                compute_target=cluster_name) 

# submit the experiment
experiment_name = 'mslearn-train-diabetes'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()

Pendant que vous attendez l’exécution de l’essai, vous pouvez vérifier l’état du calcul dans le widget ci-dessus ou dans [Azure Machine Learning studio](https://ml.azure.com). Vous pouvez également vérifier l’état du calcul à l’aide du code ci-dessous.

In [None]:
cluster_state = training_cluster.get_status()
print(cluster_state.allocation_state, cluster_state.current_node_count)

Notez qu’il faut un certain temps avant que l’état passe de *stable* à *redimensionnement* (c’est peut-être le moment de prendre une pause café). Pour bloquer le noyau jusqu’à ce que l’exécution se termine, exécutez la cellule ci-dessous.

In [None]:
run.wait_for_completion()

Gardez un œil sur l’indicateur de noyau en haut à droite de la page. Quand il passe de **&#9899;** à **&#9711;**, l’exécution du code est terminée.

Une fois l’essai terminé, vous pouvez récupérer les métriques et les fichiers générés par son exécution. Cette fois, les fichiers incluent des journaux pour la création de l’image et la gestion du calcul.

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

Vous pouvez maintenant inscrire le modèle dont l’apprentissage a été effectué par l’essai.

In [None]:
from azureml.core import Model

# Register the model
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Compute cluster'}, properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

# List registered models
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

> **Informations supplémentaires** :
>
> - Pour plus d’informations sur les environnements dans Azure Machine Learning, consultez [Créer et utiliser des environnements logiciels dans Azure Machine Learning](https://docs.microsoft.com/azure/machine-learning/how-to-use-environments)
> - Pour plus d’informations sur les cibles de calcul dans Azure Machine Learning, consultez [Que sont les cibles de calcul dans Azure Machine Learning ?](https://docs.microsoft.com/azure/machine-learning/concept-compute-target).