# Utiliser des données

Les données sont le fondement sur lequel les modèles d’apprentissage automatique sont construits. Le gestion des données de manière centralisée dans le cloud et leur accessibilité aux équipes de scientifiques des données qui exécutent des essais et des modèles d’apprentissage sur plusieurs stations de travail et cibles de calcul constituent une partie importante de toute solution professionnelle de science des données.

Dans ce notebook, vous allez explorer deux objets Azure Machine Learning pour l’utilisation des données : *magasins de données* et *ressources de données*.

## Avant de commencer

Vous devez avoir la dernière version du package **azureml-ai-ml** pour exécuter le code dans ce notebook. Exécutez la cellule ci-dessous pour vérifier qu’il est installé.

> **Remarque** :
> Si le package **azure-ai-ml** n’est pas installé, exécutez `pip install azure-ai-ml` pour l’installer.

In [None]:
## Se connecter à un espace de travail

Une fois les packages requis du Kit de développement logiciel (SDK) installés, vous êtes prêt à vous connecter à votre espace de travail.

Pour vous connecter à un espace de travail, vous avez besoin de paramètres d’identificateur : un ID d’abonnement, un nom de groupe de ressources et un nom d’espace de travail. Le nom du groupe de ressources et le nom de l’espace de travail sont déjà renseignés pour vous. Vous avez seulement besoin de l’ID d’abonnement pour exécuter la commande.

Pour trouver les paramètres nécessaires, cliquez sur l’abonnement et le nom de l’espace de travail en haut à droite du studio. Un volet s’ouvre à droite.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copiez l’ID d’abonnement et remplacez **YOUR-SUBSCRIPTION-ID** par la valeur que vous avez copiée. </p>

## Lister les magasins de données

Quand vous créez l’espace de travail Azure Machine Learning, un compte de stockage Azure est également créé. Le compte de stockage inclut le stockage d’objets blob et le stockage de fichiers, qui sont automatiquement connectés avec votre espace de travail en tant que **magasins de données**. Vous pouvez lister tous les magasins de données connectés à votre espace de travail :

In [None]:
Notez le `workspaceblobstore` qui se connecte au conteneur **azureml-blobstore-...** que vous avez exploré précédemment. Le `workspacefilestore` se connecte au partage de fichiers **code-...** .

In [None]:
## Créer une banque de données

Chaque fois que vous souhaitez connecter un autre service de stockage Azure à l’espace de travail Azure Machine Learning, vous pouvez créer un magasin de données. Notez que la création d’un magasin de données crée la connexion entre votre espace de travail et le stockage. Elle ne crée pas le service de stockage lui-même. 

Pour créer un magasin de données et vous connecter à un stockage (déjà existant), vous devez spécifier :

- La classe permettant d’indiquer le type de service de stockage avec lequel vous souhaitez vous connecter. L’exemple ci-dessous illustre une connexion à un stockage d’objets blob (`AzureBlobDatastore`).
- `name` : nom complet du magasin de données dans l’espace de travail Azure Machine Learning.
- `description` : description facultative pour fournir plus d’informations sur le magasin de données.
- `account_name` : nom du compte Stockage Azure.
- `container_name` : nom du conteneur pour stocker les objets blob dans le compte de stockage Azure.
- `credentials` : fournissez la méthode d’authentification et les informations d’identification nécessaires à l’authentification. L’exemple ci-dessous utilise une clé de compte.

**Important !** 
- Remplacez **YOUR-STORAGE-ACCOUNT-NAME** par le nom du compte de stockage créé automatiquement pour vous. 
- Remplacez **XXXX-XXXX** pour `account_key` par la clé de compte de votre compte Stockage Azure. 

N’oubliez pas que vous pouvez récupérer la clé de compte dans le [portail Azure](https://portal.azure.com) : accédez à votre compte de stockage, puis, sous l’onglet **Clés d’accès**, copiez la valeur **Clé** pour key1 ou key2. 

Relistez les magasins de données pour vérifier qu’un magasin de données nommé `blob_training_data` a été créé :

In [None]:
## Créer des ressources de données

Pour pointer vers un dossier ou un fichier spécifique dans un magasin de données, vous pouvez créer des ressources de données. Il existe trois types de ressources de données :

- `URI_FILE` pointe vers un fichier spécifique.
- `URI_FOLDER` pointe vers un dossier spécifique.
- `MLTABLE` pointe vers un fichier MLTable qui spécifie comment lire un ou plusieurs fichiers dans un dossier.

Vous allez créer les trois types de ressources de données pour découvrir les différences entre elles.

Pour créer une ressource de données `URI_FILE`, vous devez spécifier un chemin qui pointe vers un fichier spécifique. Le chemin peut être un chemin local ou un chemin cloud.

Dans l’exemple ci-dessous, vous allez créer une ressource de données en référençant un chemin *local*. Pour que les données soient toujours disponibles lors de l’utilisation de l’espace de travail Azure Machine Learning, les fichiers locaux sont automatiquement chargés sur le magasin de données par défaut. En l’occurrence, le fichier `diabetes.csv` est chargé sur le dossier **LocalUpload** dans le magasin de données **workspaceblobstore**. 

Pour créer une ressource de données à partir d’un fichier local, exécutez la cellule suivante :

Pour créer une ressource de données `URI_FOLDER`, vous devez spécifier un chemin qui pointe vers un dossier spécifique. Le chemin peut être un chemin local ou un chemin cloud.

Dans l’exemple ci-dessous, vous allez créer une ressource de données en référençant un chemin *cloud*. Le chemin n’a pas encore besoin d’exister. Le dossier est créé quand les données sont chargées sur le chemin.

In [None]:
Pour créer une ressource de données `MLTable`, vous devez spécifier un chemin qui pointe vers un dossier qui contient un fichier MLTable. Le chemin peut être un chemin local ou un chemin cloud. 

Dans l’exemple ci-dessous, vous allez créer une ressource de données en référençant un chemin *local* qui contient un fichier MLTable et CSV. 

Pour vérifier que les ressources de données ont été créées, vous pouvez relister toutes les ressources de données dans l’espace de travail :

In [None]:
## Lire des données dans un notebook

Au départ, vous souhaiterez peut-être utiliser des ressources de données dans des notebooks pour explorer les données et expérimenter des modèles Machine Learning. Les ressources de données de type `URI_FILE` ou `URI_FOLDER` sont lues de la même façon que des données ordinaires. Par exemple, pour lire un fichier CSV vers lequel pointe une ressource de données, vous pouvez utiliser la fonction pandas `read_csv()`. 

Une ressource de données de type `MLTable` est déjà *lue* par le fichier **MLTable**, qui spécifie le schéma et comment interpréter les données. Étant donné que les données sont déjà *lues*, vous pouvez facilement convertir une ressource de données MLTable en dataframe pandas. 

Vous devez installer la bibliothèque `mltable` (ce que vous avez fait dans le terminal). Ensuite, vous pouvez convertir la ressource de données en dataframe et visualiser les données.  

## Utiliser des données dans un travail

Après avoir utilisé un notebook pour l’expérimentation. Vous pouvez utiliser des scripts pour entraîner des modèles Machine Learning. Un script peut être exécuté en tant que travail, et pour chaque travail, vous pouvez spécifier des entrées et des sorties. 

Vous pouvez utiliser des **ressources de données** ou des **chemins de magasin de données** comme entrées ou sorties d’un travail. 

Les cellules ci-dessous créent le script **move-data.py** dans le dossier **src**. Le script lit les données d’entrée avec la fonction `read_csv()`. Le script stocke ensuite les données sous forme de fichier CSV dans le chemin de sortie.

Pour envoyer un travail qui exécute le script **move-data.py**, exécutez la cellule ci-dessous. 

Le travail est configuré pour utiliser la ressource de données `diabetes-local`, en pointant vers le fichier **diabetes.csv** local en guise d’entrée. La sortie est un chemin pointant vers un dossier dans le nouveau magasin de données `blob_training_data`.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

my_path = './data/diabetes.csv'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="Data asset pointing to a local file, automatically uploaded to the default datastore",
    name="diabetes-local"
)

ml_client.data.create_or_update(my_data)

To create a `URI_FOLDER` data asset, you have to specify a path that points to a specific folder. The path can be a local path or cloud path.

In the example below, you'll create a data asset by referencing a *cloud* path. The path doesn't have to exist yet. The folder will be created when data is uploaded to the path.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

datastore_path = 'azureml://datastores/blob_training_data/paths/data-asset-path/'

my_data = Data(
    path=datastore_path,
    type=AssetTypes.URI_FOLDER,
    description="Data asset pointing to data-asset-path folder in datastore",
    name="diabetes-datastore-path"
)

ml_client.data.create_or_update(my_data)

To create a `MLTable` data asset, you have to specify a path that points to a folder which contains a MLTable file. The path can be a local path or cloud path. 

In the example below, you'll create a data asset by referencing a *local* path which contains an MLTable and CSV file. 

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

local_path = 'data/'

my_data = Data(
    path=local_path,
    type=AssetTypes.MLTABLE,
    description="MLTable pointing to diabetes.csv in data folder",
    name="diabetes-table"
)

ml_client.data.create_or_update(my_data)

To verify that the new data assets have been created, you can list all data assets in the workspace again:

In [None]:
datasets = ml_client.data.list()
for ds_name in datasets:
    print(ds_name.name)

## Read data in notebook

Initially, you may want to work with data assets in notebooks, to explore the data and experiment with machine learning models. Any `URI_FILE` or `URI_FOLDER` type data assets are read as you would normally read data. For example, to read a CSV file a data asset points to, you can use the pandas function `read_csv()`. 

A `MLTable` type data asset is already *read* by the **MLTable** file, which specifies the schema and how to interpret the data. Since the data is already *read*, you can easily convert a MLTable data asset to a pandas dataframe. 

You'll need to install the `mltable` library (which you did in the terminal). Then, you can convert the data asset to a dataframe and visualize the data.  

In [None]:
import mltable

registered_data_asset = ml_client.data.get(name='diabetes-table', version=1)
tbl = mltable.load(f"azureml:/{registered_data_asset.id}")
df = tbl.to_pandas_dataframe()
df.head(5)

## Use data in a job

After using a notebook for experimentation. You can use scripts to train machine learning models. A script can be run as a job, and for each job you can specify inputs and outputs. 

You can use either **data assets** or **datastore paths** as inputs or outputs of a job. 

The cells below creates the **move-data.py** script in the **src** folder. The script reads the input data with the `read_csv()` function. The script then stores the data as a CSV file in the output path.

In [None]:
import os

# create a folder for the script files
script_folder = 'src'
os.makedirs(script_folder, exist_ok=True)
print(script_folder, 'folder created')

In [None]:
%%writefile $script_folder/move-data.py
# import libraries
import argparse
import pandas as pd
import numpy as np
from pathlib import Path

def main(args):
    # read data
    df = get_data(args.input_data)

    output_df = df.to_csv((Path(args.output_datastore) / "diabetes.csv"), index = False)

# function that reads the data
def get_data(path):
    df = pd.read_csv(path)

    # Count the rows and print the result
    row_count = (len(df))
    print('Analyzing {} rows of data'.format(row_count))
    
    return df

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--input_data", dest='input_data',
                        type=str)
    parser.add_argument("--output_datastore", dest='output_datastore',
                        type=str)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")


To submit a job that runs the **move-data.py** script, run the cell below. 

The job is configured to use the data asset `diabetes-local`, pointing to the local **diabetes.csv** file as input. The output is a path pointing to a folder in the new datastore `blob_training_data`.

In [None]:
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import command

# configure input and output
my_job_inputs = {
    "local_data": Input(type=AssetTypes.URI_FILE, path="azureml:diabetes-local:1")
}

my_job_outputs = {
    "datastore_data": Output(type=AssetTypes.URI_FOLDER, path="azureml://datastores/blob_training_data/paths/datastore-path")
}

# configure job
job = command(
    code="./src",
    command="python move-data.py --input_data ${{inputs.local_data}} --output_datastore ${{outputs.datastore_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="move-diabetes-data",
    experiment_name="move-diabetes-data"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)