# Exécuter des essais

Vous pouvez utiliser le Kit de développement logiciel (SDK) Azure Machine Learning pour exécuter des essais de code qui journalisent des métriques et génèrent des sorties. Cela est au cœur de la plupart des opérations d’apprentissage automatique dans Azure Machine Learning.

## Vous connecter à votre espace de travail

L’ensemble des essais et des ressources associées sont gérés dans votre espace de travail Azure Machine Learning. Dans la plupart des cas, vous devriez stocker la configuration de l’espace de travail dans un fichier de configuration JSON. Cela facilite la reconnexion sans qu’il soit nécessaire de se souvenir de détails comme l’ID de votre abonnement Azure. Vous pouvez télécharger le fichier de configuration JSON à partir du volet de votre espace de travail dans le portail Azure mais, si vous utilisez une instance de calcul dans votre espace de travail, le fichier de configuration a déjà été téléchargé dans le dossier racine.

Le code ci-dessous utilise le fichier de configuration pour se connecter à votre espace de travail.

> **Remarque** : si vous n’avez pas encore établi de session authentifiée avec votre abonnement Azure, vous serez invité à vous authentifier en cliquant sur un lien, en saisissant un code d’authentification et en vous connectant à Azure.

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## Exécuter un essai

L’une des tâches les plus fondamentales que les scientifiques de données doivent effectuer consiste à créer et exécuter des essais qui traitent et analysent des données. Dans cet exercice, vous allez découvrir comment utiliser un *essai* Azure ML pour exécuter du code Python et enregistrer des valeurs extraites de données. Dans ce cas, vous allez utiliser un simple jeu de données contenant des détails de patients testés pour le diabète. Vous allez exécuter un essai pour explorer les données, extrayant des statistiques, des visualisations et des échantillons de données. Le code que vous allez utiliser est essentiellement du code Python assez générique, comme celui que vous pourriez utiliser dans tout processus d’exploration de données. Toutefois, moyennant l’ajout de quelques lignes, le code utilise un *essai* Azure ML pour journaliser les détails de l’exécution.

In [None]:
from azureml.core import Experiment
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 

# Create an Azure ML experiment in your workspace
experiment = Experiment(workspace=ws, name="mslearn-diabetes")

# Start logging data from the experiment, obtaining a reference to the experiment run
run = experiment.start_logging()
print("Starting experiment:", experiment.name)

# load the data from a local file
data = pd.read_csv('data/diabetes.csv')

# Count the rows and log the result
row_count = (len(data))
run.log('observations', row_count)
print('Analyzing {} rows of data'.format(row_count))

# Plot and log the count of diabetic vs non-diabetic patients
diabetic_counts = data['Diabetic'].value_counts()
fig = plt.figure(figsize=(6,6))
ax = fig.gca()    
diabetic_counts.plot.bar(ax = ax) 
ax.set_title('Patients with Diabetes') 
ax.set_xlabel('Diagnosis') 
ax.set_ylabel('Patients')
plt.show()
run.log_image(name='label distribution', plot=fig)

# log distinct pregnancy counts
pregnancies = data.Pregnancies.unique()
run.log_list('pregnancy categories', pregnancies)

# Log summary statistics for numeric columns
med_columns = ['PlasmaGlucose', 'DiastolicBloodPressure', 'TricepsThickness', 'SerumInsulin', 'BMI']
summary_stats = data[med_columns].describe().to_dict()
for col in summary_stats:
    keys = list(summary_stats[col].keys())
    values = list(summary_stats[col].values())
    for index in range(len(keys)):
        run.log_row(col, stat=keys[index], value = values[index])
        
# Save a sample of the data and upload it to the experiment output
data.sample(100).to_csv('sample.csv', index=False, header=True)
run.upload_file(name='outputs/sample.csv', path_or_stream='./sample.csv')

# Complete the run
run.complete()

## Afficher les détails de l’exécution

Dans Jupyter Notebook, vous pouvez utiliser le widget **RunDetails** pour visualiser les détails de l’exécution.

In [None]:
from azureml.widgets import RunDetails

RunDetails(run).show()

### Afficher plus de détails dans Azure Machine Learning studio

Notez que le widget **RunDetails** contient un lien pour **afficher les détails de l’exécution** dans Azure Machine Learning studio. Cliquez dessus pour ouvrir un nouvel onglet de navigateur contenant les détails de l’exécution (vous pouvez aussi simplement ouvrir [Azure Machine Learning studio](https://ml.azure.com) et rechercher l’exécution sur la page **Essais**). Lorsque vous affichez l’exécution dans Azure Machine Learning studio, notez ce qui suit :

- L’onglet **Détails** contient les propriétés générales de l’exécution de l’essai.
- L’onglet **Métriques** vous permet de sélectionner des métriques journalisées et de les afficher sous forme de tables ou de graphiques.
- L’onglet **Images** vous permet de sélectionner et d’afficher des images ou tracés journalisés dans l’essai (en l’occurrence, le tracé *Distribution d’étiquette*).
- L’onglet **Exécutions enfants** répertorie toutes les exécutions enfants (il n’y en a aucune dans cet essai).
- L’onglet **Sorties + Journaux** affiche la sortie ou les fichiers journaux générés par l’essai.
- L’onglet **Instantané** contient tous les fichiers du dossier dans lequel le code d’essai a été exécuté (en l’occurrence, tout ce qui se trouve dans le même dossier que ce notebook).
- L’onglet **Explications** est utilisé pour afficher les explications de modèle générées par l’essai (en l’occurrence, il n’y en a aucune).
- L’onglet **Impartialité** est utilisé pour visualiser les écarts de performances prédictives qui vous aident à évaluer l’impartialité des modèles d’apprentissage (en l’occurrence, il n’y en a aucune).

### Récupérer les détails de l’essai à l’aide du Kit de développement logiciel (SDK)

La variable **run** dans le code que vous avez exécuté précédemment est une instance d’un objet **Run**, qui est une référence à une exécution individuelle d’un essai dans Azure Machine Learning. Vous pouvez utiliser cette référence pour obtenir des informations sur l’exécution et ses sorties :

In [None]:
import json

# Get logged metrics
print("Metrics:")
metrics = run.get_metrics()
for metric_name in metrics:
    print(metric_name, ":", metrics[metric_name])

# Get output files
print("\nFiles:")
files = run.get_file_names()
for file in files:
    print(file)

Vous pouvez télécharger les fichiers générés par l’essai, soit individuellement à l’aide de la méthode **download_file**, soit à l’aide de la méthode **download_files** pour récupérer plusieurs fichiers. Le code suivant télécharge tous les fichiers dans le dossier **output** de l’exécution :

In [None]:
import os

download_folder = 'downloaded-files'

# Download files in the "outputs" folder
run.download_files(prefix='outputs', output_directory=download_folder)

# Verify the files have been downloaded
for root, directories, filenames in os.walk(download_folder): 
    for filename in filenames:  
        print (os.path.join(root,filename))

Si vous devez résoudre des problèmes liés à l’exécution de l’essai, vous pouvez utiliser la méthode **get_details** pour récupérer des détails de base sur l’exécution, ou la méthode **get_details_with_logs** pour récupérer les détails de l’exécution, ainsi que le contenu des fichiers journaux générés pendant l’exécution :

In [None]:
run.get_details_with_logs()

Notez que les détails incluent des informations sur la cible de calcul sur laquelle l’essai a été exécuté, la date et l’heure de début et de fin de celui-ci. En outre, étant donné que le notebook contenant le code d’essai (celui-ci) se trouve dans un dépôt Git cloné, les détails sur le dépôt, la branche et l’état sont enregistrés dans l’historique des exécutions.

Dans ce cas, notez que l’entrée **logFiles** dans les détails indique qu’aucun fichier journal n’a été généré. C’est typique d’un essai inclus comme celui que vous avez exécuté, mais les choses deviennent plus intéressantes lorsque vous exécutez un script en tant qu’expérience, ce que nous allons examiner maintenant.

## Exécuter un script d’essai

Dans l’exemple précédent, vous avez exécuté un essai inclus dans ce notebook. Une solution plus souple consiste à créer un script distinct pour l’essai, et à le stocker dans un dossier avec tous les autres fichiers dont il a besoin, puis à utiliser Azure ML pour exécuter l’essai basé sur le script dans le dossier.

Tout d’abord, créons un dossier pour les fichiers d’essai, et copions-y les données :

In [None]:
import os, shutil

# Create a folder for the experiment files
folder_name = 'diabetes-experiment-files'
experiment_folder = './' + folder_name
os.makedirs(folder_name, exist_ok=True)

# Copy the data file into the experiment folder
shutil.copy('data/diabetes.csv', os.path.join(folder_name, "diabetes.csv"))

Nous allons maintenant créer un script Python contenant le code de notre essai, puis l’enregistrer dans le dossier d’essai.

> **Remarque** : l’exécution de la cellule suivante *crée* simplement le fichier de script, mais ne l’exécute pas.

In [None]:
%%writefile $folder_name/diabetes_experiment.py
from azureml.core import Run
import pandas as pd
import os

# Get the experiment run context
run = Run.get_context()

# load the diabetes dataset
data = pd.read_csv('diabetes.csv')

# Count the rows and log the result
row_count = (len(data))
run.log('observations', row_count)
print('Analyzing {} rows of data'.format(row_count))

# Count and log the label counts
diabetic_counts = data['Diabetic'].value_counts()
print(diabetic_counts)
for k, v in diabetic_counts.items():
    run.log('Label:' + str(k), v)
      
# Save a sample of the data in the outputs folder (which gets uploaded automatically)
os.makedirs('outputs', exist_ok=True)
data.sample(100).to_csv("outputs/sample.csv", index=False, header=True)

# Complete the run
run.complete()

Ce code est une version simplifiée du code inclus utilisé avant. Cependant, notez les points suivants :
- Il utilise la méthode « Run.get_context() » pour récupérer le contexte d’exécution de l’essai lors de l’exécution du script.
- Il charge les données sur le diabète à partir du dossier dans lequel se trouve le script.
- Il crée un dossier nommé **outputs** dans lequel il écrit l’exemple de fichier. Ce dossier est chargé automatiquement dans l’exécution de l’essai

Maintenant, vous êtes presque prêt à exécuter l’essai. Pour exécuter le script, vous devez créer une **ScriptRunConfig** qui identifie le fichier script Python à exécuter dans l’essai, puis exécuter un essai basé sur celui-ci.

> **Remarque** : la ScriptRunConfig détermine également la cible de calcul et l’environnement Python. Dans ce cas, l’environnement Python est défini de façon à inclure des packages Conda et pip, mais la cible de calcul est omise. Par conséquent, l’instance de calcul locale par défaut sera utilisée.

La cellule suivante configure et soumet l’essai basé sur un script.

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails

# Create a Python environment for the experiment (from a .yml file)
env = Environment.from_conda_specification("experiment_env", "environment.yml")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                                script='diabetes_experiment.py',
                                environment=env,
                                docker_runtime_config=DockerConfiguration(use_docker=True))

# submit the experiment
experiment = Experiment(workspace=ws, name='mslearn-diabetes')
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

Comme précédemment, vous pouvez utiliser le widget ou le lien vers l’essai dans [Azure Machine Learning studio](https://ml.azure.com) pour afficher les sorties générées par l’essai, ainsi qu’écrire du code pour récupérer les métriques et fichiers qu’il a générés :

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

Notez que, cette fois, l’exécution a généré des fichiers journaux. Vous pouvez les afficher dans le widget, ou utiliser la méthode **get_details_with_logs** comme nous l’avons fait précédemment mais, cette fois, la sortie inclura les données du journal.

In [None]:
run.get_details_with_logs()

Bien que vous puissiez afficher les détails du journal dans la sortie ci-dessus, il est généralement plus facile de télécharger les fichiers journaux et de les afficher dans un éditeur de texte.

In [None]:
import os

log_folder = 'downloaded-logs'

# Download all files
run.get_all_logs(destination=log_folder)

# Verify the files have been downloaded
for root, directories, filenames in os.walk(log_folder): 
    for filename in filenames:  
        print (os.path.join(root,filename))

## Afficher l’historique des exécutions de l’essai

Maintenant que vous avez exécuté le même essai plusieurs fois, vous pouvez afficher l’historique des exécutions dans [Azure Machine Learning studio](https://ml.azure.com) et explorer chaque exécution journalisée. Vous pouvez également récupérer un essai par son nom à partir de l’espace de travail, et itérer dans ses exécutions à l’aide du Kit de développement logiciel (SDK) :

In [None]:
from azureml.core import Experiment, Run

diabetes_experiment = ws.experiments['mslearn-diabetes']
for logged_run in diabetes_experiment.get_runs():
    print('Run ID:', logged_run.id)
    metrics = logged_run.get_metrics()
    for key in metrics.keys():
        print('-', key, metrics.get(key))

## Utiliser MLflow

MLflow est une plateforme open source pour la gestion des processus d’apprentissage automatique. Il est généralement (mais pas exclusivement) utilisé dans des environnements Databricks pour coordonner des essais et suivre des métriques. Dans des essais Azure Machine Learning, vous pouvez utiliser MLflow pour suivre des métriques, en guise d’alternative à la fonctionnalité de journal native.

Pour tirer parti de cette fonctionnalité, vous allez avoir besoin du package **azureml-mlflow**. Vérifions donc qu’il est installé.

In [None]:
pip show azureml-mlflow

### Utiliser MLflow avec un essai inclus

Pour utiliser MLflow afin de suivre des métriques pour un essai inclus, vous devez définir l’*URI de suivi* MLflow sur l’espace de travail dans lequel l’essai est exécuté. Cela vous permet d’utiliser les méthodes de suivi **mlflow** pour journaliser des données pendant l’exécution de l’essai.

In [None]:
from azureml.core import Experiment
import pandas as pd
import mlflow

# Set the MLflow tracking URI to the workspace
mlflow.set_tracking_uri(ws.get_mlflow_tracking_uri())

# Create an Azure ML experiment in your workspace
experiment = Experiment(workspace=ws, name='mslearn-diabetes-mlflow')
mlflow.set_experiment(experiment.name)

# start the MLflow experiment
with mlflow.start_run():
    
    print("Starting experiment:", experiment.name)
    
    # Load data
    data = pd.read_csv('data/diabetes.csv')

    # Count the rows and log the result
    row_count = (len(data))
    mlflow.log_metric('observations', row_count)
    print("Run complete")

Examinons à présent les métriques journalisées lors de l’exécution.

In [None]:
# Get the latest run of the experiment
run = list(experiment.get_runs())[0]

# Get logged metrics
print("\nMetrics:")
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
    
# Get a link to the experiment in Azure ML studio   
experiment_url = experiment.get_portal_url()
print('See details at', experiment_url)

Après avoir exécuté le code ci-dessus, vous pouvez utiliser le lien affiché pour voir l’essai dans Azure Machine Learning studio. Sélectionnez ensuite la dernière exécution de l’essai et affichez son onglet **Métriques** pour voir la métrique journalisée.

### Utiliser MLflow dans un script d’essai

Vous pouvez également utiliser MLflow pour suivre des métriques dans un script d’essai.

Exécutez les deux cellules suivantes pour créer un dossier et un script pour un essai utilisant MLflow.

In [None]:
import os, shutil

# Create a folder for the experiment files
folder_name = 'mlflow-experiment-files'
experiment_folder = './' + folder_name
os.makedirs(folder_name, exist_ok=True)

# Copy the data file into the experiment folder
shutil.copy('data/diabetes.csv', os.path.join(folder_name, "diabetes.csv"))

In [None]:
%%writefile $folder_name/mlflow_diabetes.py
from azureml.core import Run
import pandas as pd
import mlflow


# start the MLflow experiment
with mlflow.start_run():
       
    # Load data
    data = pd.read_csv('diabetes.csv')

    # Count the rows and log the result
    row_count = (len(data))
    print('observations:', row_count)
    mlflow.log_metric('observations', row_count)

Lorsque vous utilisez le suivi MLflow dans un script d’essai Azure ML, l’URI de suivi MLflow est défini automatiquement au démarrage de l’exécution de l’essai. Toutefois, l’environnement dans lequel le script doit être exécuté doit inclure les packages **mlflow** requis.

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails


# Create a Python environment for the experiment (from a .yml file)
env = Environment.from_conda_specification("experiment_env", "environment.yml")

# Create a script config
script_mlflow = ScriptRunConfig(source_directory=experiment_folder,
                                script='mlflow_diabetes.py',
                                environment=env,
                                docker_runtime_config=DockerConfiguration(use_docker=True)) 

# submit the experiment
experiment = Experiment(workspace=ws, name='mslearn-diabetes-mlflow')
run = experiment.submit(config=script_mlflow)
RunDetails(run).show()
run.wait_for_completion()

Comme d’habitude, vous pouvez vous procurer les métriques journalisées de l’exécution de l’essai une fois celui-ci terminé.

In [None]:
# Get logged metrics
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))

> **Informations supplémentaires** : pour en savoir plus sur l’exécution d’essais, consultez [cette rubrique](https://docs.microsoft.com/azure/machine-learning/how-to-manage-runs) dans la documentation d’Azure ML. Pour plus d’informations sur la façon de journaliser les métriques d’une exécution, consultez [cette rubrique](https://docs.microsoft.com/azure/machine-learning/how-to-track-experiments). Pour plus d’informations sur l’intégration d’essais Azure ML avec MLflow, consultez [cette rubrique](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-use-mlflow).