# Bekerja dengan lingkungan


Saat Anda menjalankan skrip sebagai pekerjaan Azure Machine Learning, Anda perlu menentukan konteks eksekusi untuk pekerjaan yang dijalankan. Salah satu konfigurasi utama adalah target komputasi tempat skrip akan dijalankan. Ini bisa menjadi stasiun kerja lokal (dalam hal ini instans komputasi), atau target komputasi jarak jauh seperti kluster komputasi terkelola Azure Machine Learning yang disediakan sesuai permintaan.

Dalam buku catatan ini, Anda akan membuat kluster komputasi dan menjelajahi target komputasi untuk pekerjaan.

## Sebelum Anda memulai

Anda memerlukan versi terbaru paket  **azureml-ai-ml** untuk menjalankan kode di notebook ini. Jalankan sel di bawah ini untuk memverifikasi bahwa sel diinstal.

> **Catatan:**
> Jika paket **azure-ai-ml** tidak diinstal, jalankan `pip install azure-ai-ml` untuk menginstalnya.

In [None]:
## Menyambungkan ke ruang kerja Anda

Dengan paket SDK yang diperlukan terinstal, sekarang Anda siap untuk terhubung ke ruang kerja Anda.

Untuk menyambungkan ke ruang kerja, kita memerlukan parameter pengidentifikasi - ID langganan, nama grup sumber daya, dan nama ruang kerja. Nama grup sumber daya dan nama ruang kerja sudah diisi untuk Anda. Anda hanya memerlukan ID langganan untuk menyelesaikan perintah.

Untuk menemukan parameter yang diperlukan, klik nama langganan dan ruang kerja di kanan atas Studio. Panel akan terbuka di sebelah kanan.

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Salin ID langganan dan ganti **YOUR-SUBSCRIPTION-ID** dengan nilai yang Anda salin. </p>

## Menjalankan skrip sebagai pekerjaan

Untuk melatih model, Anda akan terlebih dahulu membuat skrip **diabetes_training.py** di folder **src** . Skrip menggunakan file **diabetes.csv** di folder yang sama dengan data pelatihan.

Perhatikan bahwa Anda mengimpor pustaka di awal skrip. Fungsi dari pustaka ini digunakan untuk memproses data dan melatih model. Komputasi apa pun yang Anda gunakan untuk menjalankan skrip harus menginstal pustaka ini.

In [None]:
Setelah membuat skrip, Anda dapat menjalankan skrip sebagai pekerjaan. Skrip menggunakan pustaka umum. Jadi Anda dapat menggunakan lingkungan yang dikumpulkan yang mencakup panda, numpy, dan scikit-learn, antara lain.

Pekerjaan ini menggunakan versi terbaru dari lingkungan yang dikumpulkan: `AzureML-sklearn-0.24-ubuntu18.04-py37-cpu`.

In [None]:
Saat pekerjaan sedang berjalan, Anda sudah dapat menjalankan sel berikutnya.

## Mencantumkan lingkungan

Mari kita jelajahi lingkungan dalam ruang kerja. 

Dalam pekerjaan sebelumnya, Anda menggunakan salah satu lingkungan yang dikumpulkan. Untuk menjelajahi semua lingkungan yang sudah ada di ruang kerja, Anda dapat mencantumkan lingkungan: 

In [None]:
Perhatikan bahwa semua lingkungan yang dikumpulkan memiliki nama yang memulai **AzureML-** (Anda tidak dapat menggunakan awalan ini untuk lingkungan Anda sendiri).

Untuk meninjau lingkungan tertentu, Anda dapat mengambil lingkungan berdasarkan nama dan versinya. Misalnya, Anda dapat mengambil *deskripsi* dan *tag* lingkungan yang dikumpulkan yang Anda gunakan untuk pekerjaan sebelumnya:

## Membuat dan menggunakan lingkungan kustom

Jika lingkungan yang dikumpulkan tidak menyertakan semua paket Python yang Anda butuhkan untuk menjalankan skrip, Anda dapat membuat lingkungan kustom Anda sendiri. Dengan mencantumkan semua paket yang diperlukan di lingkungan, Anda dapat dengan mudah menjalankan kembali skrip Anda. Semua dependensi disimpan di lingkungan yang kemudian dapat Anda tentukan dalam konfigurasi pekerjaan, terlepas dari komputasi yang Anda gunakan.

Misalnya, Anda dapat membuat lingkungan hanya dari gambar Docker. Kerangka kerja tertentu seperti PyTorch akan memiliki gambar Docker publik yang sudah mencakup semua yang Anda butuhkan. 

Mari kita buat lingkungan dari gambar Docker:

In [None]:
Lingkungan sekarang terdaftar di ruang kerja Anda dan Anda dapat mereferensikannya saat menjalankan skrip sebagai pekerjaan:

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> Pekerjaan akan dengan cepat gagal! Tinjau pesan kesalahan. </p>

Pesan kesalahan akan memberi tahu Anda bahwa tidak ada modul bernama pandas. Ada dua kemungkinan penyebab kesalahan tersebut:

- Skrip menggunakan panda tetapi tidak mengimpor pustaka (`import pandas as pd`). 
- Skrip memang mengimpor pustaka di bagian atas skrip tetapi komputasi tidak menginstal pustaka (`pip install pandas`).

Setelah meninjau `diabetes-training.py` skrip, Anda dapat mengamati skrip sudah benar, yang berarti pustaka tidak diinstal. Dengan kata lain, lingkungan tidak menyertakan paket yang diperlukan.

Mari kita buat lingkungan baru, menggunakan gambar Docker dasar yang digunakan dalam pekerjaan sebelumnya. Sekarang, Anda akan menambahkan spesifikasi conda untuk memastikan paket yang diperlukan akan diinstal. Pertama, jalankan sel berikut untuk membuat file spesifikasi conda:

Perhatikan bahwa semua dependensi yang diperlukan disertakan dalam file spesifikasi conda agar skrip berhasil dijalankan.

Buat lingkungan baru menggunakan gambar Docker dasar **dan** file spesifikasi conda untuk menambahkan dependensi yang diperlukan. Azure Machine Learning akan membangun lingkungan conda di atas gambar Docker yang Anda sediakan. 

In [None]:
Sekarang, Anda dapat mengirimkan pekerjaan dengan lingkungan baru untuk menjalankan skrip:

Mengirimkan pekerjaan dengan lingkungan kustom baru memicu pembangunan lingkungan. Pertama kali Anda menggunakan lingkungan yang baru dibuat, dibutuhkan waktu 10-15 menit untuk membangun lingkungan, yang juga berarti pekerjaan Anda akan memakan waktu lebih lama untuk diselesaikan. 

Anda juga dapat memilih untuk memicu build lingkungan secara manual sebelum mengirimkan pekerjaan. Lingkungan hanya perlu dibangun saat pertama kali Anda menggunakannya. 

Saat pekerjaan memicu build lingkungan baru, Anda dapat meninjau log build di tab **Output + log** pekerjaan. Buka **azureml-logs/20_image_build_log.txt** untuk memeriksa log build lingkungan. 

![Cuplikan layar log build](./images/screenshot-logs.png)

In [None]:
env = ml_client.environments.get("AzureML-sklearn-0.24-ubuntu18.04-py37-cpu", version=44)
print(env. description, env.tags)

## Create and use a custom environment

If a curated environment doesn't include all the Python packages you need to run your script, you can create your own custom environment. By listing all necessary packages in an environment, you can easily re-run your scripts. All the dependencies are stored in the environment which you can then specify in the job configuration, independent of the compute you use.

For example, you can create an environment simply from a Docker image. Certain frameworks like PyTorch will have a public Docker image that already includes everything you need. 

Let's create an environment from a Docker image:

In [None]:
from azure.ai.ml.entities import Environment

env_docker_image = Environment(
    image="mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04",
    name="docker-image-example",
    description="Environment created from a Docker image.",
)
ml_client.environments.create_or_update(env_docker_image)

The environment is now registered in your workspace and you can reference it when you run a script as a job:

In [None]:
from azure.ai.ml import command

# configure job
job = command(
    code="./src",
    command="python diabetes-training.py",
    environment="docker-image-example:1",
    compute="aml-cluster",
    display_name="diabetes-train-custom-env",
    experiment_name="diabetes-training"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

<p style="color:red;font-size:120%;background-color:yellow;font-weight:bold"> The job will quickly fail! Review the error message. </p>

The error message will tell you that there is no module named pandas. There are two possible causes for such an error:

- The script uses pandas but didn't import the library (`import pandas as pd`). 
- The script does import the library at the top of the script but the compute didn't have the library installed (`pip install pandas`).

After reviewing the `diabetes-training.py` script you can observe the script is correct, which means the library wasn't installed. In other words, the environment didn't include the necessary packages.

Let's create a new environment, using the base Docker image used in the previous job. Now, you'll add a conda specification to ensure the necessary packages will be installed. First, run the following cell to create the conda specification file:

In [None]:
%%writefile src/conda-env.yml
name: basic-env-cpu
channels:
  - conda-forge
dependencies:
  - python=3.7
  - scikit-learn
  - pandas
  - numpy
  - matplotlib

Note that all necessary dependencies are included in the conda specification file for the script to run successfully.

Create a new environment using the base Docker image **and** the conda specification file to add the necessary dependencies. Azure Machine Learning will build the conda environment on top of the Docker image you provided. 

In [None]:
from azure.ai.ml.entities import Environment

env_docker_conda = Environment(
    image="mcr.microsoft.com/azureml/openmpi3.1.2-ubuntu18.04",
    conda_file="./src/conda-env.yml",
    name="docker-image-plus-conda-example",
    description="Environment created from a Docker image plus Conda environment.",
)
ml_client.environments.create_or_update(env_docker_conda)

Now, you can submit a job with the new environment to run the script:

In [None]:
from azure.ai.ml import command

# configure job
job = command(
    code="./src",
    command="python diabetes-training.py",
    environment="docker-image-plus-conda-example:1",
    compute="aml-cluster",
    display_name="diabetes-train-custom-env",
    experiment_name="diabetes-training"
)

# submit job
returned_job = ml_client.create_or_update(job)
aml_url = returned_job.studio_url
print("Monitor your job at", aml_url)

Submitting the job with the new custom environment triggers the build of the environment. The first time you use a newly created environment, it can take 10-15 minutes to build the environment, which also means your job will take longer to complete. 

You can also choose to manually trigger the build of the environment before you submit a job. The environment only needs to be built the first time you use it. 

When the job triggers the build of a new environment, you can review the logs of the build in the **Outputs + logs** tab of the job. Open **azureml-logs/20_image_build_log.txt** to inspect the logs of the environment build. 

![Screenshot build logs](./images/screenshot-logs.png)