# Bekerja dengan Data

Data adalah fondasi di mana model pembelajaran mesin dibangun. Mengelola data secara terpusat di cloud, dan membuatnya dapat diakses oleh tim ilmuwan data yang menjalankan eksperimen dan model pelatihan di beberapa stasiun kerja dan target komputasi adalah bagian penting dari solusi ilmu data profesional apa pun.

Dalam buku catatan ini, Anda akan menjelajahi dua objek Azure Machine Learning untuk bekerja dengan data: *datastore*, dan *aset data*.

## Sebelum Anda memulai

Anda memerlukan versi terbaru paket **azureml-ai-ml** untuk menjalankan kode di notebook ini. Jalankan sel di bawah ini untuk memverifikasi bahwa sel diinstal.

> **Catatan:**
> Jika paket **azure-ai-ml** tidak diinstal, jalankan `pip install azure-ai-ml` untuk menginstalnya.

In [None]:
## Menyambungkan ke ruang kerja Anda

Dengan paket SDK yang diperlukan terinstal, sekarang Anda siap untuk terhubung ke ruang kerja Anda.

Untuk menyambungkan ke ruang kerja, kita memerlukan parameter pengidentifikasi - ID langganan, nama grup sumber daya, dan nama ruang kerja. Nama grup sumber daya dan nama ruang kerja sudah diisi untuk Anda. Anda hanya memerlukan ID langganan untuk menyelesaikan perintah.

Untuk menemukan parameter yang diperlukan, klik nama langganan dan ruang kerja di kanan atas Studio. Panel akan terbuka di sebelah kanan.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Salin ID langganan dan ganti **YOUR-SUBSCRIPTION-ID** dengan nilai yang Anda salin. </p>

## Mencantumkan datastore

Saat Anda membuat ruang kerja Azure Machine Learning, Akun Azure Storage juga dibuat. Akun Penyimpanan menyertakan Blob dan penyimpanan file dan secara otomatis terhubung dengan ruang kerja Anda sebagai **penyimpanan data**. Anda dapat mencantumkan semua datastore yang tersambung ke ruang kerja Anda:

In [None]:
`workspaceblobstore` Perhatikan yang terhubung ke **kontainer azureml-blobstore-...** yang Anda jelajahi sebelumnya. menyambungkan `workspacefilestore` ke **kode-...** berbagi file.

In [None]:
## Membuat datastore

Setiap kali Anda ingin menyambungkan layanan penyimpanan Azure lain dengan ruang kerja Azure Machine Learning, Anda dapat membuat datastore. Perhatikan bahwa membuat datastore, membuat koneksi antara ruang kerja Anda dan penyimpanan, itu tidak membuat layanan penyimpanan itu sendiri. 

Untuk membuat datastore dan menyambungkan ke penyimpanan (sudah ada), Anda harus menentukan:

- Kelas untuk menunjukkan dengan jenis layanan penyimpanan apa yang ingin Anda sambungkan. Contoh di bawah ini terhubung ke penyimpanan Blob (`AzureBlobDatastore`).
- `name`: Nama tampilan datastore di ruang kerja Azure Machine Learning.
- `description`: Deskripsi opsional untuk memberikan informasi selengkapnya tentang datastore.
- `account_name`: Nama Akun Azure Storage.
- `container_name`: Nama kontainer untuk menyimpan blob di Akun Azure Storage.
- `credentials`: Berikan metode autentikasi dan kredensial untuk mengautentikasi. Contoh di bawah ini menggunakan kunci akun.

**Penting**: 
- Ganti **YOUR-STORAGE-ACCOUNT-NAME** dengan nama Akun Penyimpanan yang dibuat secara otomatis untuk Anda. 
- Ganti **XXXX-XXXX** untuk `account_key` dengan kunci akun Akun Azure Storage Anda. 

Ingat bahwa Anda dapat mengambil kunci akun dengan menavigasi ke [portal Azure](https://portal.azure.com), buka Akun Penyimpanan Anda, dari tab **Kunci akses**, salin Nilai **kunci** untuk key1 atau key2. 

Cantumkan penyimpanan data lagi untuk memverifikasi bahwa datastore baru bernama `blob_training_data` telah dibuat:

In [None]:
## Membuat aset data

Untuk menunjuk ke folder atau file tertentu di datastore, Anda dapat membuat aset data. Ada tiga jenis aset data:

- `URI_FILE` menunjuk ke file tertentu.
- `URI_FOLDER` menunjuk ke folder tertentu.
- `MLTABLE` menunjuk ke file MLTable yang menentukan cara membaca satu atau beberapa file dalam folder.

Anda akan membuat ketiga jenis aset data untuk mengalami perbedaan di antaranya.

Untuk membuat aset `URI_FILE` data, Anda harus menentukan jalur yang menunjuk ke file tertentu. Jalur dapat menjadi jalur lokal atau jalur cloud.

Dalam contoh di bawah ini, Anda akan membuat aset data dengan mereferensikan jalur *lokal* . Untuk memastikan data selalu tersedia saat bekerja dengan ruang kerja Azure Machine Learning, file lokal akan secara otomatis diunggah ke datastore default. Dalam hal ini, `diabetes.csv` file akan diunggah ke folder **LocalUpload** di datastore **workspaceblobstore** . 

Untuk membuat aset data dari file lokal, jalankan sel berikut:

Untuk membuat aset `URI_FOLDER` data, Anda harus menentukan jalur yang menunjuk ke folder tertentu. Jalur dapat menjadi jalur lokal atau jalur cloud.

Dalam contoh di bawah ini, Anda akan membuat aset data dengan mereferensikan jalur *cloud* . Jalur belum ada. Folder akan dibuat ketika data diunggah ke jalur.

In [None]:
Untuk membuat aset `MLTable` data, Anda harus menentukan jalur yang menunjuk ke folder yang berisi file MLTable. Jalur dapat menjadi jalur lokal atau jalur cloud. 

Dalam contoh di bawah ini, Anda akan membuat aset data dengan mereferensikan jalur *lokal* yang berisi file MLTable dan CSV. 

Untuk memverifikasi bahwa aset data baru telah dibuat, Anda dapat mencantumkan semua aset data di ruang kerja lagi:

In [None]:
## Membaca data di buku catatan

Awalnya, Anda mungkin ingin bekerja dengan aset data di notebook, untuk menjelajahi data dan bereksperimen dengan model pembelajaran mesin. Aset data apa pun `URI_FILE` atau `URI_FOLDER` jenis dibaca karena Anda biasanya membaca data. Misalnya, untuk membaca file CSV yang diacu aset data, Anda dapat menggunakan fungsi `read_csv()`pandas . 

Aset `MLTable` data jenis sudah *dibaca* oleh file **MLTable** , yang menentukan skema dan cara menginterpretasikan data. Karena data sudah *dibaca*, Anda dapat dengan mudah mengonversi aset data MLTable ke dataframe pandas. 

Anda harus menginstal `mltable` pustaka (yang Anda lakukan di terminal). Kemudian, Anda dapat mengonversi aset data menjadi dataframe dan memvisualisasikan data.  

## Menggunakan data dalam pekerjaan

Setelah menggunakan notebook untuk eksperimen. Anda dapat menggunakan skrip untuk melatih model pembelajaran mesin. Skrip dapat dijalankan sebagai pekerjaan, dan untuk setiap pekerjaan Anda dapat menentukan input dan output. 

Anda dapat menggunakan **aset data** atau **jalur datastore** sebagai input atau output pekerjaan. 

Sel di bawah ini membuat skrip **move-data.py** di folder **src** . Skrip membaca data input dengan `read_csv()` fungsi . Skrip kemudian menyimpan data sebagai file CSV di jalur output.

Untuk mengirimkan pekerjaan yang menjalankan skrip **move-data.py** , jalankan sel di bawah ini. 

Pekerjaan dikonfigurasi untuk menggunakan aset `diabetes-local`data , menunjuk ke file **diabetes.csv** lokal sebagai input. Output adalah jalur yang menunjuk ke folder di datastore `blob_training_data`baru .

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

my_path = './data/diabetes.csv'

my_data = Data(
    path=my_path,
    type=AssetTypes.URI_FILE,
    description="Data asset pointing to a local file, automatically uploaded to the default datastore",
    name="diabetes-local"
)

ml_client.data.create_or_update(my_data)

To create a `URI_FOLDER` data asset, you have to specify a path that points to a specific folder. The path can be a local path or cloud path.

In the example below, you'll create a data asset by referencing a *cloud* path. The path doesn't have to exist yet. The folder will be created when data is uploaded to the path.

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

datastore_path = 'azureml://datastores/blob_training_data/paths/data-asset-path/'

my_data = Data(
    path=datastore_path,
    type=AssetTypes.URI_FOLDER,
    description="Data asset pointing to data-asset-path folder in datastore",
    name="diabetes-datastore-path"
)

ml_client.data.create_or_update(my_data)

To create a `MLTable` data asset, you have to specify a path that points to a folder which contains a MLTable file. The path can be a local path or cloud path. 

In the example below, you'll create a data asset by referencing a *local* path which contains an MLTable and CSV file. 

In [None]:
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes

local_path = 'data/'

my_data = Data(
    path=local_path,
    type=AssetTypes.MLTABLE,
    description="MLTable pointing to diabetes.csv in data folder",
    name="diabetes-table"
)

ml_client.data.create_or_update(my_data)

To verify that the new data assets have been created, you can list all data assets in the workspace again:

In [None]:
datasets = ml_client.data.list()
for ds_name in datasets:
    print(ds_name.name)

## Read data in notebook

Initially, you may want to work with data assets in notebooks, to explore the data and experiment with machine learning models. Any `URI_FILE` or `URI_FOLDER` type data assets are read as you would normally read data. For example, to read a CSV file a data asset points to, you can use the pandas function `read_csv()`. 

A `MLTable` type data asset is already *read* by the **MLTable** file, which specifies the schema and how to interpret the data. Since the data is already *read*, you can easily convert a MLTable data asset to a pandas dataframe. 

You'll need to install the `mltable` library (which you did in the terminal). Then, you can convert the data asset to a dataframe and visualize the data.  

In [None]:
import mltable

registered_data_asset = ml_client.data.get(name='diabetes-table', version=1)
tbl = mltable.load(f"azureml:/{registered_data_asset.id}")
df = tbl.to_pandas_dataframe()
df.head(5)

## Use data in a job

After using a notebook for experimentation. You can use scripts to train machine learning models. A script can be run as a job, and for each job you can specify inputs and outputs. 

You can use either **data assets** or **datastore paths** as inputs or outputs of a job. 

The cells below creates the **move-data.py** script in the **src** folder. The script reads the input data with the `read_csv()` function. The script then stores the data as a CSV file in the output path.

In [None]:
import os

# create a folder for the script files
script_folder = 'src'
os.makedirs(script_folder, exist_ok=True)
print(script_folder, 'folder created')

In [None]:
%%writefile $script_folder/move-data.py
# import libraries
import argparse
import pandas as pd
import numpy as np
from pathlib import Path

def main(args):
    # read data
    df = get_data(args.input_data)

    output_df = df.to_csv((Path(args.output_datastore) / "diabetes.csv"), index = False)

# function that reads the data
def get_data(path):
    df = pd.read_csv(path)

    # Count the rows and print the result
    row_count = (len(df))
    print('Analyzing {} rows of data'.format(row_count))
    
    return df

def parse_args():
    # setup arg parser
    parser = argparse.ArgumentParser()

    # add arguments
    parser.add_argument("--input_data", dest='input_data',
                        type=str)
    parser.add_argument("--output_datastore", dest='output_datastore',
                        type=str)

    # parse args
    args = parser.parse_args()

    # return args
    return args

# run script
if __name__ == "__main__":
    # add space in logs
    print("\n\n")
    print("*" * 60)

    # parse args
    args = parse_args()

    # run main function
    main(args)

    # add space in logs
    print("*" * 60)
    print("\n\n")


To submit a job that runs the **move-data.py** script, run the cell below. 

The job is configured to use the data asset `diabetes-local`, pointing to the local **diabetes.csv** file as input. The output is a path pointing to a folder in the new datastore `blob_training_data`.

In [None]:
from azure.ai.ml import Input, Output
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import command

# configure input and output
my_job_inputs = {
    "local_data": Input(type=AssetTypes.URI_FILE, path="azureml:diabetes-local:1")
}

my_job_outputs = {
    "datastore_data": Output(type=AssetTypes.URI_FOLDER, path="azureml://datastores/blob_training_data/paths/datastore-path")
}

# configure job
job = command(
    code="./src",
    command="python move-data.py --input_data ${{inputs.local_data}} --output_datastore ${{outputs.datastore_data}}",
    inputs=my_job_inputs,
    outputs=my_job_outputs,
    environment="AzureML-sklearn-0.24-ubuntu18.04-py37-cpu@latest",
    compute="aml-cluster",
    display_name="move-diabetes-data",
    experiment_name="move-diabetes-data"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)