# Usare i dati

I dati sono la base in cui vengono compilati i modelli di Machine Learning. La gestione centralizzata dei dati nel cloud e la sua accessibilità ai team di data scientist che eseguono esperimenti e modelli di training su più workstation e destinazioni di calcolo è una parte importante di qualsiasi soluzione di data science professionale.

In questo notebook verranno esaminati due oggetti di Azure Machine Learning per l'uso dei dati: *archivi dati* e *asset di dati*.

## Prima di iniziare

Per eseguire il codice in questo notebook, è necessaria la versione più recente del pacchetto **azureml-ai-ml** . Eseguire la cella seguente per verificare che sia installata.

> **Nota**:
> Se il pacchetto **azure-ai-ml** non è installato, eseguire `pip install azure-ai-ml` per installarlo.

In [None]:
## Connettersi all'area di lavoro

Dopo aver installato i pacchetti SDK necessari, è ora possibile connettersi all'area di lavoro.

Per connettersi a un'area di lavoro, sono necessari parametri di identificatore: ID sottoscrizione, nome del gruppo di risorse e nome dell'area di lavoro. Il nome del gruppo di risorse e il nome dell'area di lavoro sono già compilati automaticamente. Per completare il comando è necessario solo l'ID sottoscrizione.

Per trovare i parametri necessari, fare clic sulla sottoscrizione e sul nome dell'area di lavoro in alto a destra di Studio. Verrà aperto un riquadro a destra.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copiare l'ID sottoscrizione e sostituire **YOUR-SUBSCRIPTION-ID** con il valore copiato. </p>

## Elencare gli archivi dati

Quando si crea l'area di lavoro di Azure Machine Learning, viene creato anche un account di archiviazione di Azure. L'account di archiviazione include l'archiviazione BLOB e file e viene automaticamente connesso all'area di lavoro come **archivi dati**. È possibile elencare tutti gli archivi dati connessi all'area di lavoro:

In [None]:
Si noti che `workspaceblobstore` si connette **all'archivio azureml-blob-...** contenitore esplorato in precedenza. si `workspacefilestore` connette al **codice-...** condivisione file.

In [None]:
## Creare un archivio dati

Ogni volta che si vuole connettere un altro servizio di archiviazione di Azure all'area di lavoro di Azure Machine Learning, è possibile creare un archivio dati. Si noti che la creazione di un archivio dati crea la connessione tra l'area di lavoro e l'archiviazione e non crea il servizio di archiviazione stesso. 

Per creare un archivio dati e connettersi a una risorsa di archiviazione (già esistente), è necessario specificare:

- Classe da indicare con il tipo di servizio di archiviazione che si vuole connettere. L'esempio seguente si connette a un archivio BLOB (`AzureBlobDatastore`).
- `name`: nome visualizzato dell'archivio dati nell'area di lavoro di Azure Machine Learning.
- `description`: Descrizione facoltativa per fornire altre informazioni sull'archivio dati.
- `account_name`: nome dell'account di archiviazione di Azure.
- `container_name`: nome del contenitore in cui archiviare i BLOB nell'account di archiviazione di Azure.
- `credentials`: specificare il metodo di autenticazione e le credenziali per l'autenticazione. L'esempio seguente usa una chiave dell'account.

**Importante**: 
- Sostituire **YOUR-STORAGE-ACCOUNT-NAME** con il nome dell'account di archiviazione creato automaticamente. 
- Sostituire **XXXX-XXXX** per `account_key` con la chiave dell'account di archiviazione di Azure. 

Tenere presente che è possibile recuperare la chiave dell'account passando alla [portale di Azure](https://portal.azure.com), passare all'account di archiviazione, dalla scheda **Chiavi di accesso**, copiare il valore **chiave** per key1 o key2. 

Elencare di nuovo gli archivi dati per verificare che sia stato creato un nuovo archivio dati denominato `blob_training_data` :

In [None]:
## Creare asset di dati

Per puntare a una cartella o a un file specifico in un archivio dati, è possibile creare asset di dati. Esistono tre tipi di asset di dati:

- `URI_FILE` punta a un file specifico.
- `URI_FOLDER` punta a una cartella specifica.
- `MLTABLE` punta a un file MLTable che specifica come leggere uno o più file all'interno di una cartella.

Verranno creati tutti e tre i tipi di asset di dati per verificarne le differenze.

Per creare un `URI_FILE` asset di dati, è necessario specificare un percorso che punta a un file specifico. Il percorso può essere un percorso locale o un percorso cloud.

Nell'esempio seguente si creerà un asset di dati facendo riferimento a un percorso *locale* . Per assicurarsi che i dati siano sempre disponibili quando si usa l'area di lavoro di Azure Machine Learning, i file locali verranno caricati automaticamente nell'archivio dati predefinito. In questo caso, il `diabetes.csv` file verrà caricato nella cartella **LocalUpload** nell'archivio dati **workspaceblobstore** . 

Per creare un asset di dati da un file locale, eseguire la cella seguente:

Per creare un `URI_FOLDER` asset di dati, è necessario specificare un percorso che punta a una cartella specifica. Il percorso può essere un percorso locale o un percorso cloud.

Nell'esempio seguente si creerà un asset di dati facendo riferimento a un percorso *cloud* . Il percorso non deve ancora esistere. La cartella verrà creata quando i dati vengono caricati nel percorso.

In [None]:
Per creare un `MLTable` asset di dati, è necessario specificare un percorso che punta a una cartella che contiene un file MLTable. Il percorso può essere un percorso locale o un percorso cloud. 

Nell'esempio seguente si creerà un asset di dati facendo riferimento a un percorso *locale* che contiene un file MLTable e CSV. 

Per verificare che i nuovi asset di dati siano stati creati, è possibile elencare di nuovo tutti gli asset di dati nell'area di lavoro:

In [None]:
## Leggere i dati nel notebook

Inizialmente, è possibile usare gli asset di dati nei notebook per esplorare i dati e sperimentare i modelli di Machine Learning. Tutti `URI_FILE` gli asset di dati o `URI_FOLDER` di tipo vengono letti come si leggerebbero normalmente i dati. Ad esempio, per leggere un file CSV a cui punta un asset di dati, è possibile usare la funzione `read_csv()`pandas . 

Un `MLTable` asset di dati di tipo è già *letto* dal file **MLTable** , che specifica lo schema e come interpretare i dati. Poiché i dati sono già *letti*, è possibile convertire facilmente un asset di dati MLTable in un dataframe pandas. 

È necessario installare la `mltable` libreria (eseguita nel terminale). È quindi possibile convertire l'asset di dati in un dataframe e visualizzare i dati.  

## Usare i dati in un processo

Dopo aver usato un notebook per la sperimentazione. È possibile usare gli script per eseguire il training di modelli di Machine Learning. Uno script può essere eseguito come processo e per ogni processo è possibile specificare input e output. 

È possibile usare **asset di dati** o **percorsi dell'archivio dati** come input o output di un processo. 

Le celle seguenti creano lo script **move-data.py** nella cartella **src** . Lo script legge i dati di input con la `read_csv()` funzione . Lo script archivia quindi i dati come file CSV nel percorso di output.

Per inviare un processo che esegue lo script **move-data.py** , eseguire la cella seguente. 

Il processo è configurato per l'uso dell'asset `diabetes-local`di dati , che punta al file ** didiabetes.csv** locale come input. L'output è un percorso che punta a una cartella nel nuovo archivio `blob_training_data`dati.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

my_path = './data/diabetes.csv'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="Data asset pointing to a local file, automatically uploaded to the default datastore",
    name="diabetes-local"
)

ml_client.data.create_or_update(my_data)

To create a `URI_FOLDER` data asset, you have to specify a path that points to a specific folder. The path can be a local path or cloud path.

In the example below, you'll create a data asset by referencing a *cloud* path. The path doesn't have to exist yet. The folder will be created when data is uploaded to the path.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

datastore_path = 'azureml://datastores/blob_training_data/paths/data-asset-path/'

my_data = Data(
    path=datastore_path,
    type=AssetTypes.URI_FOLDER,
    description="Data asset pointing to data-asset-path folder in datastore",
    name="diabetes-datastore-path"
)

ml_client.data.create_or_update(my_data)

To create a `MLTable` data asset, you have to specify a path that points to a folder which contains a MLTable file. The path can be a local path or cloud path. 

In the example below, you'll create a data asset by referencing a *local* path which contains an MLTable and CSV file. 

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

local_path = 'data/'

my_data = Data(
    path=local_path,
    type=AssetTypes.MLTABLE,
    description="MLTable pointing to diabetes.csv in data folder",
    name="diabetes-table"
)

ml_client.data.create_or_update(my_data)

To verify that the new data assets have been created, you can list all data assets in the workspace again:

In [None]:
datasets = ml_client.data.list()
for ds_name in datasets:
    print(ds_name.name)

## Read data in notebook

Initially, you may want to work with data assets in notebooks, to explore the data and experiment with machine learning models. Any `URI_FILE` or `URI_FOLDER` type data assets are read as you would normally read data. For example, to read a CSV file a data asset points to, you can use the pandas function `read_csv()`. 

A `MLTable` type data asset is already *read* by the **MLTable** file, which specifies the schema and how to interpret the data. Since the data is already *read*, you can easily convert a MLTable data asset to a pandas dataframe. 

You'll need to install the `mltable` library (which you did in the terminal). Then, you can convert the data asset to a dataframe and visualize the data.  

In [None]:
import mltable

registered_data_asset = ml_client.data.get(name='diabetes-table', version=1)
tbl = mltable.load(f"azureml:/{registered_data_asset.id}")
df = tbl.to_pandas_dataframe()
df.head(5)

## Use data in a job

After using a notebook for experimentation. You can use scripts to train machine learning models. A script can be run as a job, and for each job you can specify inputs and outputs. 

You can use either **data assets** or **datastore paths** as inputs or outputs of a job. 

The cells below creates the **move-data.py** script in the **src** folder. The script reads the input data with the `read_csv()` function. The script then stores the data as a CSV file in the output path.

In [None]:
import os

# create a folder for the script files
script_folder = 'src'
os.makedirs(script_folder, exist_ok=True)
print(script_folder, 'folder created')

In [None]:
%%writefile $script_folder/move-data.py
# import libraries
import argparse
import pandas as pd
import numpy as np
from pathlib import Path

def main(args):
    # read data
    df = get_data(args.input_data)

    output_df = df.to_csv((Path(args.output_datastore) / "diabetes.csv"), index = False)

# function that reads the data
def get_data(path):
    df = pd.read_csv(path)

    # Count the rows and print the result
    row_count = (len(df))
    print('Analyzing {} rows of data'.format(row_count))
    
    return df

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--input_data", dest='input_data',
                        type=str)
    parser.add_argument("--output_datastore", dest='output_datastore',
                        type=str)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")


To submit a job that runs the **move-data.py** script, run the cell below. 

The job is configured to use the data asset `diabetes-local`, pointing to the local **diabetes.csv** file as input. The output is a path pointing to a folder in the new datastore `blob_training_data`.

In [None]:
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import command

# configure input and output
my_job_inputs = {
    "local_data": Input(type=AssetTypes.URI_FILE, path="azureml:diabetes-local:1")
}

my_job_outputs = {
    "datastore_data": Output(type=AssetTypes.URI_FOLDER, path="azureml://datastores/blob_training_data/paths/datastore-path")
}

# configure job
job = command(
    code="./src",
    command="python move-data.py --input_data ${{inputs.local_data}} --output_datastore ${{outputs.datastore_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="move-diabetes-data",
    experiment_name="move-diabetes-data"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)