# Arbeiten mit Daten

Daten sind die Grundlage für den Aufbau von Machine Learning-Modellen. Die zentrale Verwaltung von Daten in der Cloud und deren Zugriff auf Teams von wissenschaftlichen Fachkräften für Daten, die Experimente und Trainingsmodelle auf mehreren Arbeitsstationen und Computezielen ausführen, ist ein wichtiger Bestandteil jeder professionellen Data Science-Lösung.

In diesem Notebook untersuchen Sie zwei Azure Machine Learning-Objekte für das Arbeiten mit Daten: *Datenspeicher* und *Datenressourcen*.

## Vorbereitung

Sie benötigen die neueste Version des Pakets **azureml-ai-ml**, um den Code in diesem Notebook auszuführen. Führen Sie die folgende Zelle aus, um zu überprüfen, ob das Paket installiert ist.

> **Hinweis**:
> Wenn das Paket **azure-ai-ml** nicht installiert ist, führen Sie `pip install azure-ai-ml` aus, um es zu installieren.

In [None]:
## Herstellen einer Verbindung mit Ihrem Arbeitsbereich

Sie können nun eine Verbindung mit Ihrem Arbeitsbereich herstellen, nachdem Sie die erforderlichen SDK-Pakete installiert haben.

Um eine Verbindung mit einem Arbeitsbereich herzustellen, benötigen Sie Bezeichnerparameter: eine Abonnement-ID, einen Ressourcengruppennamen und einen Arbeitsbereichsnamen. Der Ressourcengruppenname und Arbeitsbereichsname sind bereits für Sie ausgefüllt. Sie müssen lediglich die Abonnement-ID angeben, um den Befehl zu vervollständigen.

Um die erforderlichen Parameter zu finden, klicken Sie rechts oben in Studio auf das Abonnement und den Namen des Arbeitsbereichs. Rechts wird ein Bereich geöffnet.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Kopieren Sie die Abonnement-ID, und ersetzen Sie **YOUR-SUBSCRIPTION-ID** durch den Wert, den Sie kopiert haben. </p>

## Auflisten der Datenspeicher

Wenn Sie den Azure Machine Learning-Arbeitsbereich erstellen, wird auch ein Azure Storage-Konto erstellt. Dieses Speicherkonto umfasst Blob- und Dateispeicher und wird automatisch als **Datenspeicher** mit Ihrem Arbeitsbereich verbunden. Sie können alle Datenspeicher auflisten, die mit Ihrem Arbeitsbereich verbunden sind:

In [None]:
Beachten Sie den `workspaceblobstore`, der sich mit dem Container **azureml-blobstore-...** verbindet, den Sie zuvor erkundet haben. Der `workspacefilestore` stellt eine Verbindung mit der Dateifreigabe **code-...** her.

In [None]:
## Erstellen eines Datenspeichers

Wenn Sie einen anderen Azure-Speicherdienst mit dem Azure Machine Learning-Arbeitsbereich verbinden möchten, können Sie einen Datenspeicher erstellen. Beachten Sie, dass beim Erstellen eines Datenspeichers die Verbindung zwischen Ihrem Arbeitsbereich und dem Speicher und nicht der Speicherdienst selbst erstellt wird. 

Um einen Datenspeicher zu erstellen und eine Verbindung mit einem (bereits vorhandenen) Speicher herzustellen, müssen Sie Folgendes angeben:

- Die Klasse, mit der angegeben werden soll, mit welchem Speicherdienst Sie eine Verbindung herstellen möchten. Im folgenden Beispiel wird eine Verbindung mit einem Blobspeicher (`AzureBlobDatastore`) hergestellt.
- `name`: der Anzeigename des Datenspeichers im Azure Machine Learning-Arbeitsbereich.
- `description`: optionale Beschreibung mit weiteren Informationen zum Datenspeicher.
- `account_name`: der Name des Azure Storage-Kontos.
- `container_name`: der Name des Containers zum Speichern von Blobs im Azure Storage-Konto.
- `credentials`: Geben Sie die Authentifizierungsmethode und die Anmeldeinformationen für die Authentifizierung an. Im folgenden Beispiel wird ein Kontoschlüssel verwendet.

**Wichtig**: 
- Ersetzen Sie **YOUR-STORAGE-ACCOUNT-NAME** durch den Namen des Speicherkontos, das automatisch für Sie erstellt wurde. 
- Ersetzen Sie **XXXX-XXXX** in `account_key` durch den Kontoschlüssel Ihres Azure Storage-Kontos. 

Denken Sie daran, dass Sie den Kontoschlüssel abrufen können, indem Sie zum [Azure-Portal](https://portal.azure.com) und dann zu Ihrem Speicherkonto navigieren. Kopieren Sie auf der Registerkarte **Zugriffsschlüssel** den Wert von **Schlüssel** für key1 oder key2. 

Listen Sie die Datenspeicher erneut auf, um zu prüfen, ob ein neuer Datenspeicher mit dem Namen `blob_training_data` erstellt wurde:

In [None]:
## Erstellen von Datenressourcen

Um auf einen bestimmten Ordner oder eine bestimmte Datei in einem Datenspeicher zu verweisen, können Sie Datenressourcen erstellen. Es gibt drei Arten von Datenressourcen:

- `URI_FILE` verweist auf eine bestimmte Datei.
- `URI_FOLDER` verweist auf einen bestimmten Ordner.
- `MLTABLE` verweist auf eine MLTable-Datei, die angibt, wie eine oder mehrere Dateien in einem Ordner gelesen werden sollen.

Sie erstellen alle drei Arten von Datenressourcen, um die Unterschiede kennenzulernen.

Zum Erstellen der Datenressource `URI_FILE` müssen Sie einen Pfad angeben, der auf eine bestimmte Datei zeigt. Der Pfad kann ein lokaler oder UNC-Pfad sein.

Im folgenden Beispiel erstellen Sie eine Datenressource, indem Sie auf einen *lokalen* Pfad verweisen. Um sicherzustellen, dass die Daten beim Arbeiten mit dem Azure Machine Learning-Arbeitsbereich stets verfügbar sind, werden lokale Dateien automatisch in den Standarddatenspeicher hochgeladen. In diesem Fall wird die Datei in den `diabetes.csv` Ordner **LocalUpload** im Datenspeicher **workspaceblobstore** hochgeladen. 

Führen Sie die folgende Zelle aus, um eine Datenressource aus einer lokalen Datei zu erstellen:

Zum Erstellen der Datenressource `URI_FOLDER` müssen Sie einen Pfad angeben, der auf einen bestimmten Ordner zeigt. Der Pfad kann ein lokaler oder UNC-Pfad sein.

Im folgenden Beispiel erstellen Sie eine Datenressource, indem Sie auf einen *Cloudpfad* verweisen. Der Pfad muss noch nicht vorhanden sein. Der Ordner wird erstellt, wenn Daten in den Pfad hochgeladen werden.

In [None]:
Um die Datenressource `MLTable` zu erstellen, müssen Sie einen Pfad angeben, der auf einen Ordner mit einer MLTable-Datei zeigt. Der Pfad kann ein lokaler oder UNC-Pfad sein. 

Im folgenden Beispiel erstellen Sie eine Datenressource, indem Sie auf einen *lokalen* Pfad mit einer MLTable- und CSV-Datei verweisen. 

Um zu überprüfen, ob die neuen Datenressourcen erstellt wurden, können Sie alle Datenressourcen im Arbeitsbereich erneut auflisten:

In [None]:
## Lesen von Daten im Notebook

Zunächst sollten Sie in Notebooks mit Datenressourcen arbeiten, um die Daten zu erkunden und mit Machine Learning-Modellen zu experimentieren. Beliebige Datenressourcen des Typs `URI_FILE` oder `URI_FOLDER` werden so gelesen, wie Daten normalerweise gelesen werden. Um beispielsweise eine CSV-Datei zu lesen, auf die eine Datenressource zeigt, können Sie die pandas-Funktion `read_csv()` verwenden. 

Eine Datenressource des Typs `MLTable` wurde bereits von der **MLTable**-Datei *gelesen*, die das Schema und die Art der Interpretation der Daten angibt. Da die Daten bereits *gelesen* wurden, können Sie eine MLTable-Datenressource problemlos in einen pandas-Dataframe konvertieren. 

Sie müssen die Bibliothek `mltable` installieren (was Sie im Terminal getan haben). Anschließend können Sie die Datenressource in einen Dataframe konvertieren und die Daten visualisieren.  

## Verwenden von Daten in einem Auftrag

Nach Verwendung in einem Notebook zum Experimentieren. Sie können Machine Learning-Modelle mit Skripts trainieren. Ein Skript kann als Auftrag ausgeführt werden, und für jeden Auftrag können Sie Ein- und Ausgaben angeben. 

Sie können als Ein- oder Ausgaben eines Auftrags entweder **Datenressourcen** oder **Datenspeicherpfade** verwenden. 

Mit den nachstehenden Zellen wird das Skript **move-data.py** im Ordner **src** erstellt. Das Skript liest die Eingabedaten mit der Funktion `read_csv()`. Das Skript speichert dann die Daten als CSV-Datei im Ausgabepfad.

Um einen Auftrag zu übermitteln, der das Skript **move-data.py** ausführt, führen Sie die folgende Zelle aus. 

Der Auftrag ist so konfiguriert, dass er die Datenressource `diabetes-local` verwendet, die auf die lokale Datei **diabetes.csv** als Eingabe zeigt. Die Ausgabe ist ein Pfad, der auf einen Ordner im neuen Datenspeicher `blob_training_data` zeigt.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

my_path = './data/diabetes.csv'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="Data asset pointing to a local file, automatically uploaded to the default datastore",
    name="diabetes-local"
)

ml_client.data.create_or_update(my_data)

To create a `URI_FOLDER` data asset, you have to specify a path that points to a specific folder. The path can be a local path or cloud path.

In the example below, you'll create a data asset by referencing a *cloud* path. The path doesn't have to exist yet. The folder will be created when data is uploaded to the path.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

datastore_path = 'azureml://datastores/blob_training_data/paths/data-asset-path/'

my_data = Data(
    path=datastore_path,
    type=AssetTypes.URI_FOLDER,
    description="Data asset pointing to data-asset-path folder in datastore",
    name="diabetes-datastore-path"
)

ml_client.data.create_or_update(my_data)

To create a `MLTable` data asset, you have to specify a path that points to a folder which contains a MLTable file. The path can be a local path or cloud path. 

In the example below, you'll create a data asset by referencing a *local* path which contains an MLTable and CSV file. 

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

local_path = 'data/'

my_data = Data(
    path=local_path,
    type=AssetTypes.MLTABLE,
    description="MLTable pointing to diabetes.csv in data folder",
    name="diabetes-table"
)

ml_client.data.create_or_update(my_data)

To verify that the new data assets have been created, you can list all data assets in the workspace again:

In [None]:
datasets = ml_client.data.list()
for ds_name in datasets:
    print(ds_name.name)

## Read data in notebook

Initially, you may want to work with data assets in notebooks, to explore the data and experiment with machine learning models. Any `URI_FILE` or `URI_FOLDER` type data assets are read as you would normally read data. For example, to read a CSV file a data asset points to, you can use the pandas function `read_csv()`. 

A `MLTable` type data asset is already *read* by the **MLTable** file, which specifies the schema and how to interpret the data. Since the data is already *read*, you can easily convert a MLTable data asset to a pandas dataframe. 

You'll need to install the `mltable` library (which you did in the terminal). Then, you can convert the data asset to a dataframe and visualize the data.  

In [None]:
import mltable

registered_data_asset = ml_client.data.get(name='diabetes-table', version=1)
tbl = mltable.load(f"azureml:/{registered_data_asset.id}")
df = tbl.to_pandas_dataframe()
df.head(5)

## Use data in a job

After using a notebook for experimentation. You can use scripts to train machine learning models. A script can be run as a job, and for each job you can specify inputs and outputs. 

You can use either **data assets** or **datastore paths** as inputs or outputs of a job. 

The cells below creates the **move-data.py** script in the **src** folder. The script reads the input data with the `read_csv()` function. The script then stores the data as a CSV file in the output path.

In [None]:
import os

# create a folder for the script files
script_folder = 'src'
os.makedirs(script_folder, exist_ok=True)
print(script_folder, 'folder created')

In [None]:
%%writefile $script_folder/move-data.py
# import libraries
import argparse
import pandas as pd
import numpy as np
from pathlib import Path

def main(args):
    # read data
    df = get_data(args.input_data)

    output_df = df.to_csv((Path(args.output_datastore) / "diabetes.csv"), index = False)

# function that reads the data
def get_data(path):
    df = pd.read_csv(path)

    # Count the rows and print the result
    row_count = (len(df))
    print('Analyzing {} rows of data'.format(row_count))
    
    return df

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--input_data", dest='input_data',
                        type=str)
    parser.add_argument("--output_datastore", dest='output_datastore',
                        type=str)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")


To submit a job that runs the **move-data.py** script, run the cell below. 

The job is configured to use the data asset `diabetes-local`, pointing to the local **diabetes.csv** file as input. The output is a path pointing to a folder in the new datastore `blob_training_data`.

In [None]:
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import command

# configure input and output
my_job_inputs = {
    "local_data": Input(type=AssetTypes.URI_FILE, path="azureml:diabetes-local:1")
}

my_job_outputs = {
    "datastore_data": Output(type=AssetTypes.URI_FOLDER, path="azureml://datastores/blob_training_data/paths/datastore-path")
}

# configure job
job = command(
    code="./src",
    command="python move-data.py --input_data ${{inputs.local_data}} --output_datastore ${{outputs.datastore_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="move-diabetes-data",
    experiment_name="move-diabetes-data"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)