#실험 실행

Azure Machine Learning SDK를 사용하여 메트릭을 기록하고 출력을 생성하는 코드 실험을 실행할 수 있습니다. 이 실행 과정은 Azure Machine Learning에서 수행하는 대다수 기계 학습 작업의 핵심 요소입니다.

##작업 영역에 연결

가장 먼저 해야 하는 작업은 Azure ML SDK를 사용하여 작업 영역에 연결하는 것입니다.

> **참고**: 이전 연습을 완료한 후 Azure 구독으로 인증된 세션이 만료된 경우 다시 인증하라는 메시지가 표시됩니다.

In [None]:
import azureml.core
from azureml.core import Workspace

#저장된 구성 파일에서 작업 영역 로드
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

##실험 실행

데이터 과학자가 수행해야 하는 가장 기본적인 작업 중 하나는 데이터를 처리하고 분석하는 실험을 만들고 실행하는 것입니다. 이 연습에서는 Azure ML *실험*을 사용하여 Python 코드를 실행하고 데이터에서 추출된 값을 기록하는 방법을 알아봅니다. 여기서는 당뇨병 진단을 받은 환자의 세부 정보가 포함된 간단한 데이터 세트를 사용합니다. 실험을 실행하여 데이터를 살펴본 다음 통계, 시각화 및 데이터 샘플을 추출합니다. 여기서 사용할 대다수 코드는 데이터 탐색 프로세스에서 실행할 수 있는 코드와 같은 매우 일반적인 Python 코드입니다. 그러나 여기에 코드를 몇 줄만 추가하면 Azure ML *실험*을 사용하여 실행 세부 정보를 기록하도록 수정할 수 있습니다.

In [None]:
from azureml.core import Experiment
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 

#작업 영역에서 Azure ML 실험 만들기
experiment = Experiment(workspace = ws, name = "diabetes-experiment")

#실험에서 데이터 로깅 시작
run = experiment.start_logging()
print("Starting experiment:", experiment.name)

#로컬 파일에서 데이터 로드
data = pd.read_csv('data/diabetes.csv')

#행 수를 계산하고 결과 로깅
row_count = (len(data))
run.log('observations', row_count)
print('Analyzing {} rows of data'.format(row_count))

#당뇨병 환자와 기타 환자의 수 그리기/기록
diabetic_counts = data['Diabetic'].value_counts()
fig = plt.figure(figsize=(6,6))
ax = fig.gca()    
diabetic_counts.plot.bar(ax = ax) 
ax.set_title('Patients with Diabetes') 
ax.set_xlabel('Diagnosis') 
ax.set_ylabel('Patients')
plt.show()
run.log_image(name = 'label distribution', plot = fig)

#개별 임신 횟수 기록
pregnancies = data.Pregnancies.unique()
run.log_list('pregnancy categories', pregnancies)

#숫자 열의 요약 통계 기록
med_columns = ['PlasmaGlucose', 'DiastolicBloodPressure', 'TricepsThickness', 'SerumInsulin', 'BMI']
summary_stats = data[med_columns].describe().to_dict()
for col in summary_stats:
    keys = list(summary_stats[col].keys())
    values = list(summary_stats[col].values())
    for index in range(len(keys)):
        run.log_row(col, stat = keys[index], value = values[index])
        
#데이터 샘플을 저장하고 실험 출력에 업로드
data.sample(100).to_csv('sample.csv', index=False, header=True)
run.upload_file(name = 'outputs/sample.csv', path_or_stream = './sample.csv')

#실행 완료
run.complete()

##실험 결과 확인

실험이 완료되고 나면 **run** 개체를 사용하여 실험 및 해당 출력 관련 정보를 가져올 수 있습니다.

In [None]:
import json

#실행 세부 정보 가져오기
details = run.get_details()
print(details)

#로깅된 메트릭 가져오기
metrics = run.get_metrics()
print(json.dumps(metrics, indent=2))

#출력 파일 가져오기
files = run.get_file_names()
print(json.dumps(files, indent=2))

Jupyter Notebook에서 **RunDetails** 위젯을 사용하면 실행 세부 정보를 더 명확하게 시각화할 수 있습니다.

In [None]:
from azureml.widgets import RunDetails

RunDetails(run).show()

**RunDetails** 위젯에는 Azure Machine Learning Studio에서 실행을 확인할 수 있는 링크가 포함되어 있습니다. 이 링크를 클릭하면 새 브라우저 탭이 열리고 실행 세부 정보가 표시됩니다. [Azure Machine Learning Studio](https://ml.azure.com)를 열고 **실험** 페이지에서 실행을 찾아도 됩니다. Azure Machine Learning Studio에서 실행을 확인할 때는 다음 사항에 유의하세요.

- **속성** 탭에는 실험 실행의 일반 속성이 포함되어 있습니다.
- **메트릭** 탭에서는 기록된 메트릭을 선택하여 표나 차트로 표시할 수 있습니다.
- **이미지** 탭에서는 실험에서 기록된 이미지나 그림(여기서는 *레이블 분포* 그림)을 선택하여 확인할 수 있습니다.
- **자식 실행** 탭에는 자식 실행의 목록이 표시됩니다. 이 실험에서는 자식 실행이 없습니다.
- **출력** 탭에는 실험에서 생성된 출력 파일이 표시됩니다.
- **로그** 탭에는 실험의 컴퓨팅 컨텍스트에서 생성된 로그가 표시됩니다. 여기서는 실험이 인라인으로 실행되었으므로 로그는 없습니다.
- **스냅샷** 탭에는 실험 코드가 실행된 폴더의 모든 파일(여기서는 이 Notebook과 같은 폴더에 있는 모든 파일)이 포함되어 있습니다.
- **원시 JSON** 탭에는 실험 세부 정보의 JSON 표현이 표시됩니다.
- **설명** 탭은 실험에서 생성된 모델 설명을 표시하는 데 사용됩니다. 여기서는 생성된 설명이 없습니다.

##실험 스크립트 실행

이전 예제에서는 이 Notebook에서 실험을 인라인으로 실행했습니다. 실험을 더 유동적으로 실행하려는 경우 별도의 실험용 스크립트를 작성하여 이 스크립트에 필요한 다른 파일과 함께 폴더에 저장한 다음, Azure ML을 사용하여 해당 폴더의 스크립트를 기준으로 실험을 실행하면 됩니다.

먼저 실험 파일용 폴더를 만들고 이 폴더에 데이터를 복사해 보겠습니다.

In [None]:
import os, shutil

#실험 파일용 폴더 만들기
folder_name = 'diabetes-experiment-files'
experiment_folder = './' + folder_name
os.makedirs(folder_name, exist_ok=True)

#실험 폴더에 데이터 파일 복사
shutil.copy('data/diabetes.csv', os.path.join(folder_name, "diabetes.csv"))

실험용 코드가 포함된 Python 스크립트를 만들어 실험 폴더에 저장합니다.

> **참고**: 다음 셀을 실행하면 스크립트 파일이 *작성*만 되며 실행되지는 않습니다.

In [None]:
%%writefile $folder_name/diabetes_experiment.py
from azureml.core import Run
import pandas as pd
import os

#실험 실행 컨텍스트 가져오기
run = Run.get_context()

#당뇨병 데이터 세트 로드
data = pd.read_csv('diabetes.csv')

#행 수를 계산하고 결과 로깅
row_count = (len(data))
run.log('observations', row_count)
print('Analyzing {} rows of data'.format(row_count))

#레이블 수 계산 및 기록
diabetic_counts = data['Diabetic'].value_counts()
print(diabetic_counts)
for k, v in diabetic_counts.items():
    run.log('Label:' + str(k), v)
      
#출력 폴더에 데이터 샘플 저장(샘플은 자동으로 업로드됨)
os.makedirs('outputs', exist_ok=True)
data.sample(100).to_csv("outputs/sample.csv", index=False, header=True)

#실행 완료
run.complete()

이 코드는 이전에 사용했던 인라인 코드의 간단한 버전이며 다음과 같은 작업을 수행합니다.
- `Run.get_context()` 메서드를 사용하여 스크립트 실행 시에 실험 실행 컨텍스트를 검색합니다.
- 스크립트가 있는 폴더에서 당뇨병 데이터를 로드합니다.
- **outputs** 폴더를 만들고 이 폴더에 샘플 파일을 작성합니다. 이 폴더는 실험 실행에 자동으로 업로드됩니다.

이제 실험을 실행할 준비가 거의 완료되었습니다. 몇 가지 구성 문제만 처리하면 됩니다.

1. 스크립트용 Python 코드 실행 환경을 정의하는 *실행 구성*을 만듭니다. 여기서는 몇 가지 기본 Python 패키지가 설치된 Conda 환경이 자동으로 작성됩니다.
2. 실험에서 실행할 Python 스크립트 파일과 해당 파일을 실행할 환경을 식별하는 *스크립트 구성*을 만듭니다.

> **참고**: 환경 구성에 대해서는 뒷부분에서 더 자세히 살펴볼 것이므로 지금은 환경 구성을 자세히 확인하지 않아도 됩니다.

다음 셀에서는 이러한 구성 개체를 설정한 다음 실험을 제출합니다.

In [None]:
import os
import sys
from azureml.core import Experiment, RunConfiguration, ScriptRunConfig
from azureml.widgets import RunDetails

#새 RunConfig 개체 만들기
experiment_run_config = RunConfiguration()

#스크립트 구성 만들기
src = ScriptRunConfig(source_directory=experiment_folder, 
                      script='diabetes_experiment.py',
                      run_config=experiment_run_config) 

#실험 제출
experiment = Experiment(workspace = ws, name = 'diabetes-experiment')
run = experiment.submit(config=src)
RunDetails(run).show()
run.wait_for_completion()

이전과 마찬가지로 [Azure Machine Learning Studio](https://ml.azure.com)의 실험 링크나 위젯을 사용해 실험에서 생성된 출력을 확인할 수 있습니다. 또한 실험에서 생성된 파일과 메트릭을 검색하는 코드를 작성할 수도 있습니다.

In [None]:
#로깅된 메트릭 가져오기
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

##실험 실행 기록 확인

같은 실험을 여러 번 실행했으므로 [Azure Machine Learning Studio](https://ml.azure.com)에서 기록을 확인할 수 있으며 기록된 각 실행을 살펴볼 수도 있습니다. 작업 영역에서 이름으로 실험을 검색하고 SDK를 사용하여 해당 실행을 반복할 수도 있습니다.

In [None]:
from azureml.core import Experiment, Run

diabetes_experiment = ws.experiments['diabetes-experiment']
for logged_run in diabetes_experiment.get_runs():
    print('Run ID:', logged_run.id)
    metrics = logged_run.get_metrics()
    for key in metrics.keys():
        print('-', key, metrics.get(key))

> **추가 정보**: 실험 실행에 대해 자세히 알아보려면 Azure ML 설명서에서 [이 항목](https://docs.microsoft.com/azure/machine-learning/how-to-manage-runs)을 참조하세요. 실행에서 메트릭을 기록하는 방법에 대한 자세한 내용은 [이 항목](https://docs.microsoft.com/azure/machine-learning/how-to-track-experiments)을 참조하세요.