# Utiliser le Machine Learning automatisé

Il existe de nombreux types d’algorithmes d’apprentissage automatique que vous pouvez utiliser pour effectuer l’apprentissage d’un modèle, et il n’est pas toujours facile de déterminer l’algorithme le plus efficace pour vos données et vos exigences de prédiction spécifiques. En outre, vous pouvez affecter de manière significative les performances prédictives d’un modèle en prétraitant les données d’apprentissage à l’aide de techniques telles que la normalisation, l’imputation de fonctionnalités manquantes et autres. Dans votre quête du *meilleur* modèle pour vos besoins, vous devrez peut-être essayer de nombreuses combinaisons d’algorithmes et de transformations de prétraitement, ce qui monopolise beaucoup de temps et de ressources de calcul.

Azure Machine Learning vous permet d’automatiser la comparaison de modèles formés à l’aide de différents algorithmes et options de prétraitement. Vous pouvez utiliser l’interface visuelle dans [Azure Machine Learning Studio](https://ml/Azure.com) ou le Kit de développement logiciel (SDK) pour tirer parti de cette fonctionnalité. Le Kit de développement logiciel (SDK) vous permet de mieux contrôler les paramètres de l’expérience d’apprentissage automatique automatisé, mais l’interface visuelle est plus facile à utiliser.

## Avant de commencer

En plus de la dernière version des packages **azureml-SDK** et **azureml-widgets**, vous aurez besoin du package **azureml-train-automl** pour exécuter le code contenu dans ce notebook. Exécutez la cellule ci-dessous pour vérifier qu’il est installé.

In [None]:
pip show azureml-train-automl

## Vous connecter à votre espace de travail

Une fois les packages requis du Kit de développement logiciel (SDK) installés, vous êtes prêt à vous connecter à votre espace de travail.

> **Remarque** : si vous n’avez pas encore établi de session authentifiée avec votre abonnement Azure, vous serez invité à vous authentifier en cliquant sur un lien, en saisissant un code d’authentification et en vous connectant à Azure.

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## Préparer les données

Vous n’avez pas besoin de créer un script d’apprentissage pour l’apprentissage automatique automatisé, mais vous devez charger les données d’apprentissage. Dans ce cas, vous allez utiliser un jeu de données contenant les détails de patients atteints de diabète, puis le diviser en deux jeux de données, l’un pour l’apprentissage, et l’autre pour la validation du modèle.

In [None]:
from azureml.core import Dataset

default_ds = ws.get_default_datastore()

if 'diabetes dataset' not in ws.datasets:
    default_ds.upload_files(files=['./data/diabetes.csv', './data/diabetes2.csv'], # Upload the diabetes csv files in /data
                        target_path='diabetes-data/', # Put it in a folder path in the datastore
                        overwrite=True, # Replace existing files of the same name
                        show_progress=True)

    #Create a tabular dataset from the path on the datastore (this may take a short while)
    tab_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, 'diabetes-data/*.csv'))

    # Register the tabular dataset
    try:
        tab_data_set = tab_data_set.register(workspace=ws, 
                                name='diabetes dataset',
                                description='diabetes data',
                                tags = {'format':'CSV'},
                                create_new_version=True)
        print('Dataset registered.')
    except Exception as ex:
        print(ex)
else:
    print('Dataset already registered.')


# Split the dataset into training and validation subsets
diabetes_ds = ws.datasets.get("diabetes dataset")
train_ds, test_ds = diabetes_ds.random_split(percentage=0.7, seed=123)
print("Data ready!")

## Préparer le calcul

L’un des avantages du calcul cloud est qu’il se met à l’échelle à la demande, ce qui vous permet d’approvisionner suffisamment de ressources de calcul pour traiter plusieurs exécutions enfants d’une expérience d’apprentissage automatique automatisé en parallèle.

Utilisez le code suivant pour spécifier un cluster de calcul Azure Machine Learning (il sera créé s’il n’existe pas).

> **Important** : remplacez *your-compute-cluster* par le nom de votre cluster de calcul dans le code ci-dessous avant de l’exécuter. Les noms de cluster doivent être globalement uniques et d’une longueur comprise entre 2 et 16 caractères. Les caractères valides sont les lettres, les chiffres et le tiret (-).

In [None]:
from azureml.core.compute import ComputeTarget, AmlCompute
from azureml.core.compute_target import ComputeTargetException

cluster_name = "your-compute-cluster"

try:
    # Check for existing compute target
    training_cluster = ComputeTarget(workspace=ws, name=cluster_name)
    print('Found existing cluster, use it.')
except ComputeTargetException:
    # If it doesn't already exist, create it
    try:
        compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_DS11_V2', max_nodes=2)
        training_cluster = ComputeTarget.create(ws, cluster_name, compute_config)
        training_cluster.wait_for_completion(show_output=True)
    except Exception as ex:
        print(ex)
    

> **Remarque** : les clusters et instances de calcul sont basés sur des images de machines virtuelles Azure standard. Pour cet exercice, l’image *Standard_DS11_v2* est recommandée pour obtenir l’équilibre optimal entre coûts et performances. Si votre abonnement comprend un n’incluant cette image, choisissez-en une autre. Gardez cependant à l’esprit qu’une image plus grande peut entraîner des coûts plus élevés, tandis qu’une plus petite risque de ne pas suffire pour accomplir les tâches. Vous pouvez également demander à votre administrateur Azure d’étendre votre quota.

## Configurer l’apprentissage automatique automatisé

Vous êtes maintenant prêt à configurer l’expérience d’apprentissage automatique automatisée.

L’un des paramètres de configuration les plus importants est la métrique par laquelle les performances du modèle devraient être évaluées. Vous pouvez récupérer la liste des métriques calculées par l’apprentissage automatique automatisé pour un type particulier de tâche de modèle (classification ou régression) comme ceci :

In [None]:
import azureml.train.automl.utilities as automl_utils

for metric in automl_utils.get_primary_metrics('classification'):
    print(metric)

Après avoir choisi la métrique que vous souhaitez optimiser (dans cet exemple, *AUC_weighted*), vous pouvez configurer l’exécution de l’apprentissage automatique automatisé. Pour ce faire, vous avez besoin d’une configuration d’AutoML qui spécifie la métrique cible, ainsi que des options telles que les données à utiliser, le nombre de combinaisons à essayer, etc.

> **Remarque** : dans cet exemple, vous allez limiter l’expérience à 4 itérations pour réduire le temps nécessaire. En réalité, il est probable que vous essayiez beaucoup plus d’itérations.

In [None]:
from azureml.train.automl import AutoMLConfig

automl_config = AutoMLConfig(name='Automated ML Experiment',
                             task='classification',
                             compute_target=training_cluster,
                             training_data = train_ds,
                             validation_data = test_ds,
                             label_column_name='Diabetic',
                             iterations=4,
                             primary_metric = 'AUC_weighted',
                             max_concurrent_iterations=2,
                             featurization='auto'
                             )

print("Ready for Auto ML run.")

## Exécuter une expérience d’apprentissage automatique automatisé

OK, vous êtes prêt. Nous allons exécuter l’expérience d’apprentissage automatique automatisé.

> **Remarque** : cette opération peut prendre un certain temps.

In [None]:
from azureml.core.experiment import Experiment
from azureml.widgets import RunDetails

print('Submitting Auto ML experiment...')
automl_experiment = Experiment(ws, 'mslearn-diabetes-automl-sdk')
automl_run = automl_experiment.submit(automl_config)
RunDetails(automl_run).show()
automl_run.wait_for_completion(show_output=True)

## Afficher les détails de l’exécution enfant

Une fois l’expérience terminée, affichez la sortie dans le widget, puis cliquez sur l’exécution qui a produit le meilleur résultat pour en afficher les détails.

Ensuite, cliquez sur le lien pour afficher les détails de l’expérience dans Azure Machine Learning studio, puis consultez les détails de l’expérience globale avant d’afficher les détails de l’exécution individuelle qui a produit le meilleur résultat. Il y a beaucoup d’informations ici sur les performances du modèle généré.

Vous pouvez également récupérer toutes les exécutions enfants et afficher leurs métriques à l’aide du Kit de développement logiciel (SDK) :

In [None]:
for run in automl_run.get_children():
    print('Run ID', run.id)
    for metric in run.get_metrics():
        print('\t', run.get_metrics(metric))

## Obtenir la meilleure exécution

Vous pouvez récupérer l’exécution la plus performante et afficher ses détails comme suit :

In [None]:
best_run, fitted_model = automl_run.get_output()
print(best_run)
print('\nBest Model Definition:')
print(fitted_model)
print('\nBest Run Transformations:')
for step in fitted_model.named_steps:
    print(step)
print('\nBest Run Metrics:')
best_run_metrics = best_run.get_metrics()
for metric_name in best_run_metrics:
    metric = best_run_metrics[metric_name]
    print(metric_name, metric)

Enfin, si vous avez trouvé le modèle le plus performant, vous pouvez l’inscrire.

In [None]:
from azureml.core import Model

# Register model
best_run.register_model(model_path='outputs/model.pkl', model_name='diabetes_model',
                        tags={'Training context':'Auto ML'},
                        properties={'AUC': best_run_metrics['AUC_weighted'], 'Accuracy': best_run_metrics['accuracy']})

# List registered models
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

> **Plus d’informations** : pour plus d’informations sur le Machine Learning automatisé, consultez la [Documentation Azure ML](https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train).