# 모델 대상 학습 진행

기계 학습의 가장 중요한 목표는 애플리케이션에서 사용할 수 있는 예측 모델을 학습시키는 것입니다. Azure Machine Learning에서는 스크립트를 사용하여 Scikit-Learn, Tensorflow, PyTorch, SparkML 등의 일반적인 기계 학습 프레임워크를 활용하는 모델을 학습시킬 수 있습니다. 이러한 학습 스크립트를 실험으로 실행하여 메트릭 및 출력(특히 학습된 모델)을 추적할 수 있습니다.

## 작업 영역에 연결

가장 먼저 해야 하는 작업은 Azure ML SDK를 사용하여 작업 영역에 연결하는 것입니다.

> **참고**: 이전 연습을 완료한 후 Azure 구독으로 인증된 세션이 만료된 경우 다시 인증하라는 메시지가 표시됩니다.

In [None]:
import azureml.core
from azureml.core import Workspace

# 저장된 구성 파일에서 작업 영역 로드
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## 학습 스크립트 만들기

Python 스크립트를 사용하여 당뇨병 데이터를 기반으로 기계 학습 모델의 학습을 진행할 것입니다. 먼저 스크립트 및 데이터 파일용 폴더를 만들어 보겠습니다.

In [None]:
import os, shutil

# 실험 파일용 폴더 만들기
training_folder = 'diabetes-training'
os.makedirs(training_folder, exist_ok=True)

# 실험 폴더에 데이터 파일 복사
shutil.copy('data/diabetes.csv', os.path.join(training_folder, "diabetes.csv"))

이제 학습 스크립트를 만들어 폴더에 저장할 준비가 되었습니다.

In [None]:
%%writefile $training_folder/diabetes_training.py
# 라이브러리 가져오기
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# 실험 실행 컨텍스트 가져오기
run = Run.get_context()

# 당뇨병 데이터 세트 로드
print("Loading Data...")
diabetes = pd.read_csv('diabetes.csv')

# 기능 및 레이블 분리
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# 데이터를 학습 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# 정규화 하이퍼 매개 변수 설정
reg = 0.01

# 로지스틱 회귀 모델 학습
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# 정확도 계산
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# AUC 계산
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

# outputs 폴더에 학습된 모델 저장
os.makedirs('outputs', exist_ok=True)
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## 추정기를 사용하여 스크립트를 실험으로 실행

앞에서는 **RunConfiguration** 및 **ScriptRunConfig**를 사용하여 실험 스크립트를 실행했습니다. 학습 스크립트도 같은 방식으로 실행할 수는 있지만, **추정기**를 사용하는 방식이 전반적으로 더 쉽습니다. 추정기는 이 두 구성을 개체 하나에 추상화하기 때문입니다.

여기서는 일반 **Estimator** 개체를 사용하여 학습 실험을 실행합니다. 이 추정기의 기본 환경에는 **scikit-learn** 패키지가 포함되어 있지 않으므로 구성에 이 패키지를 명시적으로 추가해야 합니다. Conda 환경은 추정기를 처음 사용할 때 요청하면 작성되어 같은 구성을 사용하는 이후 실행용으로 캐시됩니다. 따라서 첫 번째 실행은 시간이 좀 더 오래 걸립니다.

In [None]:
from azureml.train.estimator import Estimator
from azureml.core import Experiment

# 추정기 만들기
estimator = Estimator(source_directory=training_folder,
                      entry_script='diabetes_training.py',
                      compute_target='local',
                      conda_packages=['scikit-learn']
                      )

# 실험 만들기
experiment_name = 'diabetes-training'
experiment = Experiment(workspace = ws, name = experiment_name)

# 추정기를 기준으로 실험 실행
run = experiment.submit(config=estimator)
run.wait_for_completion(show_output=True)

다른 실험 실행과 마찬가지로 여기서도 **RunDetails** 위젯을 사용하여 실행 관련 정보를 확인하고 Azure Machine Learning Studio에서 실행의 링크를 가져올 수 있습니다.

In [None]:
from azureml.widgets import RunDetails

RunDetails(run).show()

**Run** 개체에서 메트릭과 출력을 검색할 수도 있습니다.

In [None]:
# 로깅된 메트릭 가져오기
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## 학습된 모델 등록

실험의 출력에는 학습된 모델 파일(**diabetes_model.pkl**)이 포함됩니다. Azure Machine Learning 작업 영역에 이 모델을 등록하면 모델 버전을 추적하고 나중에 검색할 수 있습니다.

In [None]:
from azureml.core import Model

# 모델 등록
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Estimator'},
                   properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

# 등록된 모델 목록 표시
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

## 매개 변수가 있는 학습 스크립트 만들기

스크립트에 매개 변수를 추가하면 학습 실험을 더 유동적으로 실행할 수 있습니다. 그러면 각기 다른 설정으로 같은 학습 실험을 반복할 수 있습니다. 여기서는 모델 학습 시 로지스틱 회귀 알고리즘에 사용되는 정규화 비율의 매개 변수를 추가합니다.

이번에도 매개 변수가 있는 스크립트 및 학습 데이터용 폴더를 먼저 만들어 보겠습니다.

In [None]:
import os, shutil

# 실험 파일용 폴더 만들기
training_folder = 'diabetes-training-params'
os.makedirs(training_folder, exist_ok=True)

# 실험 폴더에 데이터 파일 복사
shutil.copy('data/diabetes.csv', os.path.join(training_folder, "diabetes.csv"))

이제 정규화 비율 하이퍼 매개 변수에 해당하는 매개 변수가 포함된 스크립트를 만들어 보겠습니다.

In [None]:
%%writefile $training_folder/diabetes_training.py
# 라이브러리 가져오기
from azureml.core import Run
import pandas as pd
import numpy as np
import joblib
import argparse
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# 실험 실행 컨텍스트 가져오기
run = Run.get_context()

# 정규화 하이퍼 매개 변수 설정
parser = argparse.ArgumentParser()
parser.add_argument('--reg_rate', type=float, dest='reg', default=0.01)
args = parser.parse_args()
reg = args.reg

# 당뇨병 데이터 세트 로드
print("Loading Data...")
# 당뇨병 데이터 세트 로드
diabetes = pd.read_csv('diabetes.csv')

# 기능 및 레이블 분리
X, y = diabetes[['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']].values, diabetes['Diabetic'].values

# 데이터를 학습 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# 로지스틱 회귀 모델 학습
print('Training a logistic regression model with regularization rate of', reg)
run.log('Regularization Rate',  np.float(reg))
model = LogisticRegression(C=1/reg, solver="liblinear").fit(X_train, y_train)

# 정확도 계산
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)
run.log('Accuracy', np.float(acc))

# AUC 계산
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))
run.log('AUC', np.float(auc))

os.makedirs('outputs', exist_ok=True)
joblib.dump(value=model, filename='outputs/diabetes_model.pkl')

run.complete()

## 프레임워크별 추정기 사용

앞에서는 일반 **Estimator** 클래스를 사용하여 학습 스크립트를 실행했습니다. 하지만 일반 기계 학습 프레임워크용 환경 정의가 포함된 프레임워크별 추정기를 활용할 수도 있습니다. 여기서는 Scikit-Learn을 사용 중이므로 **SKLearn** 추정기를 사용할 수 있습니다. 즉, 구성에서 **scikit-learn** 패키지를 지정할 필요가 없습니다.

In [None]:
from azureml.train.sklearn import SKLearn
from azureml.widgets import RunDetails

# 추정기 만들기
estimator = SKLearn(source_directory=training_folder,
                    entry_script='diabetes_training.py',
                    script_params = {'--reg_rate': 0.1},
                    compute_target='local'
                    )

# 실험 만들기
experiment_name = 'diabetes-training'
experiment = Experiment(workspace = ws, name = experiment_name)

# 실험 실행
run = experiment.submit(config=estimator)

# 실행 중에 실행 세부 정보 표시
RunDetails(run).show()
run.wait_for_completion()

이번에도 완료된 실행에서 메트릭과 출력을 가져올 수 있습니다.

In [None]:
# 로깅된 메트릭 가져오기
metrics = run.get_metrics()
for key in metrics.keys():
        print(key, metrics.get(key))
print('\n')
for file in run.get_file_names():
    print(file)

## 모델의 새 버전 등록

이제 새 모델을 학습시켰으므로 작업 영역에서 해당 모델을 새 버전으로 등록할 수 있습니다.

In [None]:
from azureml.core import Model

# 모델 등록
run.register_model(model_path='outputs/diabetes_model.pkl', model_name='diabetes_model',
                   tags={'Training context':'Parameterized SKLearn Estimator'},
                   properties={'AUC': run.get_metrics()['AUC'], 'Accuracy': run.get_metrics()['Accuracy']})

# 등록된 모델 목록 표시
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

탐색을 완료했으면 이 Notebook을 닫고 컴퓨팅 인스턴스를 종료할 수 있습니다.