# Trabajo con datos

Los datos son la base sobre la que se construyen los modelos de Machine Learning. La administración centralizada de los datos en la nube y hacer que sean accesibles para los equipos de científicos de datos que ejecutan experimentos y modelos de entrenamiento en varias estaciones de trabajo y destinos de proceso es una parte importante de cualquier solución de ciencia de datos profesional.

En este cuaderno, explorará dos objetos de Azure Machine Learning para trabajar con datos: *almacenes de datos* y *recursos de datos*.

## Antes de comenzar

Necesitará la versión más reciente del paquete **azureml-ai-ml** para ejecutar el código en este cuaderno. Ejecute la celda siguiente para comprobar que está instalada.

> **Nota**:
> Si el paquete **azure-ai-ml** no está instalado, ejecute `pip install azure-ai-ml` para instalarlo.

In [None]:
## Conexión con su área de trabajo

Con los paquetes de SDK necesarios instalados, ya está listo para conectarse al área de trabajo.

Para conectarse a un espacio de trabajo, se necesitan parámetros de identificación: un id. de suscripción, un nombre de grupo de recursos y un nombre de espacio de trabajo. El nombre del grupo de recursos y el nombre del área de trabajo ya se rellenan automáticamente. Solo necesita el identificador de suscripción para completar el comando.

Para buscar los parámetros necesarios, haga clic en la suscripción y el nombre del área de trabajo en la parte superior derecha de Studio. Se abrirá un panel a la derecha.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Copie el identificador de suscripción y reemplace **YOUR-SUBSCRIPTION-ID** por el valor que copió. </p>

## Enumeración de los almacenes de datos

Al crear el área de trabajo de Azure Machine Learning, también se crea una cuenta de Azure Storage. La cuenta de almacenamiento incluye blobs y almacenamiento de archivos y se conectan automáticamente con el área de trabajo como **almacenes de datos**. Puede enumerar todos los almacenes de datos conectados al área de trabajo:

In [None]:
Tenga en cuenta que `workspaceblobstore` se conecta al contenedor **azureml-blobstore-...** que ha explorado anteriormente. El `workspacefilestore` se conecta al  **código-...** de archivos compartidos.

In [None]:
## Creación de un almacén de datos

Siempre que quiera conectar otro servicio de Almacenamiento de Azure con el área de trabajo de Azure Machine Learning, puede crear un almacén de datos. Tenga en cuenta que, al crear un almacén de datos, se crea la conexión entre el área de trabajo y el almacenamiento, no se crea el propio servicio de almacenamiento. 

Para crear un almacén de datos y conectarse a un almacenamiento (ya existente), deberá especificar:

- La clase para indicar con qué tipo de servicio de almacenamiento desea conectarse. El ejemplo siguiente se conecta a un almacenamiento de blobs (`AzureBlobDatastore`).
- `name`: nombre para mostrar del almacén de datos en el área de trabajo de Azure Machine Learning.
- `description`: descripción opcional para proporcionar más información sobre el almacén de datos.
- `account_name`: nombre de la cuenta de Azure Storage.
- `container_name`: nombre del contenedor para almacenar blobs en la cuenta de Azure Storage.
- `credentials`: proporcione el método de autenticación y las credenciales que se van a autenticar. En el ejemplo siguiente se usa una clave de cuenta.

**Importante**: 
- Reemplace **YOUR-STORAGE-ACCOUNT-NAME** por el nombre de la cuenta de almacenamiento que se creó automáticamente. 
- Reemplace el **XXXX-XXXX** por `account_key` con la clave de cuenta de su cuenta de Azure Storage. 

Recuerde que puede recuperar la clave de la cuenta navegando al [Portal de Azure](https://portal.azure.com), vaya a su Cuenta de Almacenamiento, desde la pestaña **Claves de acceso**, copie el valor **Key** para la clave1 o la clave2. 

Vuelva a enumerar los almacenes de datos para comprobar que se ha creado un nuevo almacén de datos denominado `blob_training_data`:

In [None]:
## Creación de recursos de datos

Para apuntar a una carpeta o un recurso específicos en un almacén de datos, puede crear recursos de datos. Existen tres tipos de recursos de datos:

- `URI_FILE` apunta a un archivo específico.
- `URI_FOLDER` apunta a una carpeta específica.
- `MLTABLE` apunta a un archivo MLTable que especifica cómo leer uno o varios archivos dentro de una carpeta.

Creará los tres tipos de recursos de datos para experimentar las diferencias entre ellos.

Para crear un activo de datos `URI_FILE`, debe especificar una ruta que apunte a un archivo concreto. La ruta puede ser una ruta local o una ruta en la nube.

En el ejemplo siguiente, creará un recurso de datos haciendo referencia a una ruta de acceso *local*. Para asegurarse de que los datos siempre están disponibles al trabajar con el área de trabajo de Azure Machine Learning, los archivos locales se cargarán automáticamente en el almacén de datos predeterminado. En este caso, el archivo `diabetes.csv` se cargará en la carpeta **LocalUpload** del almacén de datos **workspaceblobstore**. 

Para crear un recurso de datos a partir de un archivo local, ejecute la celda siguiente:

Para crear un recurso de datos `URI_FOLDER`, debe especificar una ruta que apunte a un archivo concreto. La ruta puede ser una ruta local o una ruta en la nube.

En el ejemplo siguiente, creará un recurso de datos haciendo referencia a una ruta *en la nube*. La ruta de acceso aún no tiene que existir. La carpeta se creará cuando se carguen los datos en la ruta de acceso.

In [None]:
Para crear un recurso de datos `MLTable`, debe especificar una ruta que apunte a una carpeta que contenga un archivo MLTable. La ruta puede ser una ruta local o una ruta en la nube. 

En el ejemplo siguiente, creará un recurso de datos haciendo referencia a una ruta de acceso *local* que contiene un archivo MLTable y CSV. 

Para comprobar que se han creado los nuevos recursos de datos, puede volver a enumerar todos los recursos de datos en el área de trabajo:

In [None]:
## Leer datos en el cuaderno

Inicialmente, es posible que quiera trabajar con recursos de datos en cuadernos para explorar los datos y experimentar con los modelos de aprendizaje automático. Cualquier recurso de datos de tipo `URI_FILE` o `URI_FOLDER` se lee como se leen normalmente los datos. Por ejemplo, para leer un archivo CSV al que apunta un recurso de datos, puede utilizar la función de pandas `read_csv()`. 

Un recurso de datos de tipo `MLTable` ya está *leído* por el archivo **MLTable**, que especifica el esquema y cómo interpretar los datos. Dado que los datos ya se *leen*, puede convertir fácilmente un recurso de datos de MLTable en una trama de datos de Pandas. 

Necesitará instalar la biblioteca `mltable` (lo que ya ha hecho en el terminal). A continuación, puede convertir el recurso de datos en una trama de datos y visualizar los datos.  

## Utilizar datos en un trabajo

Después de usar un cuaderno para la experimentación. Puede usar scripts para entrenar modelos de aprendizaje automático. Un script se puede ejecutar como un trabajo y, para cada trabajo, puede especificar entradas y salidas. 

Puede usar los **recursos de datos** o las **rutas** de acceso del almacén de datos como entradas o salidas de un trabajo. 

Las celdas siguientes crean el script **move-data.py** en la carpeta **src**. El script lee los datos de entrada con la función `read_csv()`. A continuación, el script almacena los datos como un archivo CSV en la ruta de acceso de salida.

Para enviar un trabajo que ejecute el script **move-data.py**, ejecute la celda siguiente. 

El trabajo está configurado para utilizar el recurso de datos `diabetes-local`, que apunta al archivo local **diabetes.csv** como entrada. La salida es una ruta que apunta a una carpeta del nuevo almacén de datos `blob_training_data`.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

my_path = './data/diabetes.csv'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="Data asset pointing to a local file, automatically uploaded to the default datastore",
    name="diabetes-local"
)

ml_client.data.create_or_update(my_data)

To create a `URI_FOLDER` data asset, you have to specify a path that points to a specific folder. The path can be a local path or cloud path.

In the example below, you'll create a data asset by referencing a *cloud* path. The path doesn't have to exist yet. The folder will be created when data is uploaded to the path.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

datastore_path = 'azureml://datastores/blob_training_data/paths/data-asset-path/'

my_data = Data(
    path=datastore_path,
    type=AssetTypes.URI_FOLDER,
    description="Data asset pointing to data-asset-path folder in datastore",
    name="diabetes-datastore-path"
)

ml_client.data.create_or_update(my_data)

To create a `MLTable` data asset, you have to specify a path that points to a folder which contains a MLTable file. The path can be a local path or cloud path. 

In the example below, you'll create a data asset by referencing a *local* path which contains an MLTable and CSV file. 

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

local_path = 'data/'

my_data = Data(
    path=local_path,
    type=AssetTypes.MLTABLE,
    description="MLTable pointing to diabetes.csv in data folder",
    name="diabetes-table"
)

ml_client.data.create_or_update(my_data)

To verify that the new data assets have been created, you can list all data assets in the workspace again:

In [None]:
datasets = ml_client.data.list()
for ds_name in datasets:
    print(ds_name.name)

## Read data in notebook

Initially, you may want to work with data assets in notebooks, to explore the data and experiment with machine learning models. Any `URI_FILE` or `URI_FOLDER` type data assets are read as you would normally read data. For example, to read a CSV file a data asset points to, you can use the pandas function `read_csv()`. 

A `MLTable` type data asset is already *read* by the **MLTable** file, which specifies the schema and how to interpret the data. Since the data is already *read*, you can easily convert a MLTable data asset to a pandas dataframe. 

You'll need to install the `mltable` library (which you did in the terminal). Then, you can convert the data asset to a dataframe and visualize the data.  

In [None]:
import mltable

registered_data_asset = ml_client.data.get(name='diabetes-table', version=1)
tbl = mltable.load(f"azureml:/{registered_data_asset.id}")
df = tbl.to_pandas_dataframe()
df.head(5)

## Use data in a job

After using a notebook for experimentation. You can use scripts to train machine learning models. A script can be run as a job, and for each job you can specify inputs and outputs. 

You can use either **data assets** or **datastore paths** as inputs or outputs of a job. 

The cells below creates the **move-data.py** script in the **src** folder. The script reads the input data with the `read_csv()` function. The script then stores the data as a CSV file in the output path.

In [None]:
import os

# create a folder for the script files
script_folder = 'src'
os.makedirs(script_folder, exist_ok=True)
print(script_folder, 'folder created')

In [None]:
%%writefile $script_folder/move-data.py
# import libraries
import argparse
import pandas as pd
import numpy as np
from pathlib import Path

def main(args):
    # read data
    df = get_data(args.input_data)

    output_df = df.to_csv((Path(args.output_datastore) / "diabetes.csv"), index = False)

# function that reads the data
def get_data(path):
    df = pd.read_csv(path)

    # Count the rows and print the result
    row_count = (len(df))
    print('Analyzing {} rows of data'.format(row_count))
    
    return df

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--input_data", dest='input_data',
                        type=str)
    parser.add_argument("--output_datastore", dest='output_datastore',
                        type=str)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")


To submit a job that runs the **move-data.py** script, run the cell below. 

The job is configured to use the data asset `diabetes-local`, pointing to the local **diabetes.csv** file as input. The output is a path pointing to a folder in the new datastore `blob_training_data`.

In [None]:
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import command

# configure input and output
my_job_inputs = {
    "local_data": Input(type=AssetTypes.URI_FILE, path="azureml:diabetes-local:1")
}

my_job_outputs = {
    "datastore_data": Output(type=AssetTypes.URI_FOLDER, path="azureml://datastores/blob_training_data/paths/datastore-path")
}

# configure job
job = command(
    code="./src",
    command="python move-data.py --input_data ${{inputs.local_data}} --output_datastore ${{outputs.datastore_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="move-diabetes-data",
    experiment_name="move-diabetes-data"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)