# 자동화된 Machine Learning 사용

여러 종류의 기계 학습 알고리즘을 사용하여 모델을 학습시킬 수 있습니다. 그리고 특정 데이터 및 예측 요구 사항을 기준으로 가장 효율적인 알고리즘을 결정하기가 쉽지 않은 경우도 있습니다. 또한 정규화, 누락된 기능 대치 등의 기술을 사용해 학습 데이터를 전처리하면 모델의 예측 성능을 크게 개선할 수 있습니다. 요구 사항에 *가장 적합한* 모델을 찾으려면 여러 알고리즘 및 전처리 변환 조합을 적용해 보아야 할 수 있는데, 그러려면 시간이 많이 걸리며 컴퓨팅 리소스도 많이 필요합니다.

Azure Machine Learning을 사용하면 다양한 알고리즘 및 전처리 옵션을 사용하여 학습된 모델을 비교하는 과정을 자동화할 수 있습니다. [Azure Machine Learning Studio](https://ml/azure.com) 또는 SDK의 시각적 인터페이스에서 이 기능을 활용할 수 있습니다. SDK를 사용하면 자동화된 Machine Learning 실험의 설정을 더 자세하게 제어할 수 있지만, 시각적 인터페이스가 더 사용하기 쉽습니다. 이 랩에서는 SDK를 사용하여 자동화된 Machine Learning을 살펴봅니다.

## 작업 영역에 연결

가장 먼저 해야 하는 작업은 Azure ML SDK를 사용하여 작업 영역에 연결하는 것입니다.

> **참고**: 이전 연습을 완료한 후 Azure 구독으로 인증된 세션이 만료된 경우 다시 인증하라는 메시지가 표시됩니다.

In [None]:
import azureml.core
from azureml.core import Workspace

# 저장된 구성 파일에서 작업 영역 로드
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

## 자동화된 Machine Learning용 데이터 준비

자동화된 Machine Learning용 학습 스크립트는 만들지 않아도 되지만, 학습 데이터는 로드해야 합니다. 여기서는 이전 랩에서와 마찬가지로 당뇨병 환자의 세부 정보가 포함된 데이터 세트를 만든 다음 데이터 세트 두 개(학습용/모델 유효성 검사용)로 분할합니다.

In [None]:
from azureml.core import Dataset

# 당뇨병 데이터 파일 업로드(이전 랩을 완료하지 않은 경우에 한함)
default_ds = ws.get_default_datastore()
default_ds.upload_files(files=['./data/diabetes.csv', './data/diabetes2.csv'], # /data에서 당뇨병 CSV 파일 업로드
                       target_path='diabetes-data/', # 데이터 저장소의 폴더 경로에 해당 파일 저장
                       overwrite=True, # 이름이 같은 기존 파일 바꾸기
                       show_progress=True)

#테이블 형식 데이터 세트 만들기 및 등록(이전 랩을 완료하지 않은 경우에 한함)
tab_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, 'diabetes-data/*.csv'))
tab_data_set = tab_data_set.register(workspace=ws, 
                           name='diabetes dataset',
                           description='diabetes data',
                           tags = {'format':'CSV'},
                           create_new_version=True)


# 데이터 세트를 학습 하위 세트와 유효성 검사 하위 세트로 분할
diabetes_ds = ws.datasets.get("diabetes dataset")
train_ds, test_ds = diabetes_ds.random_split(percentage=0.7, seed=123)
print("Data ready!")

## 자동화된 Machine Learning 구성

이제 자동화된 Machine Learning 실험을 구성할 수 있습니다. 이렇게 하려면 실험 환경에 필요한 패키지가 포함된 실행 구성, 그리고 적용해 볼 조합 수/모델 평가 시에 사용할 메트릭 등을 지정하는 구성 설정 집합이 필요합니다.

In [None]:
from azureml.train.automl import AutoMLConfig

automl_config = AutoMLConfig(name='Automated ML Experiment',
                             task='classification',
                             compute_target='local',
                             training_data = train_ds,
                             validation_data = test_ds,
                             label_column_name='Diabetic',
                             iterations=6,
                             primary_metric = 'AUC_weighted',
                             max_concurrent_iterations=4,
                             featurization='auto'
                             )

print("Ready for Auto ML run.")

## 자동화된 Machine Learning 실험 실행

이제 실험을 실행할 준비가 되었으므로 자동화된 Machine Learning 실험을 실행해 보겠습니다.

> **참고**: 이 랩에서는 시간을 절약하기 위해 최대 6회까지 반복되는 자동화된 Machine Learning 실험을 로컬 컴퓨팅에서 실행하겠습니다. 실제로는 학습 클러스터를 사용하여 실험을 더 많이 반복할 수 있습니다.

In [None]:
from azureml.core.experiment import Experiment
from azureml.widgets import RunDetails

print('Submitting Auto ML experiment...')
automl_experiment = Experiment(ws, 'diabetes_automl')
automl_run = automl_experiment.submit(automl_config)
automl_run.wait_for_completion(show_output=True)
RunDetails(automl_run).show()

## 성능이 가장 우수한 모델 결정

실험이 완료되면 위젯에서 출력을 확인한 다음 최적 결과를 생성한 실행을 클릭하여 해당 세부 정보를 살펴봅니다.
그런 다음 링크를 클릭하여 Azure Portal에서 실험 세부 정보와 전체 실험 세부 정보를 확인하고, 마지막으로 최적 결과를 생성한 개별 실험의 세부 정보를 확인합니다. 이 세부 정보에는 생성된 모델의 성능에 대한 여러 정보가 포함되어 있습니다.

이번에는 성능이 가장 우수했던 실행 및 해당 결과를 생성한 모델을 가져오겠습니다.

In [None]:
best_run, fitted_model = automl_run.get_output()
print(best_run)
print(fitted_model)
best_run_metrics = best_run.get_metrics()
for metric_name in best_run_metrics:
    metric = best_run_metrics[metric_name]
    print(metric_name, metric)

자동화된 Machine Learning에는 데이터 전처리 옵션이 포함되어 있습니다. [Scikit-Learn 변환 파이프라인](https://scikit-learn.org/stable/modules/compose.html#combining-estimators)(Azure Machine Learning 파이프라인 아님)을 사용하면 데이터를 전처리할 수 있습니다. 이러한 파이프라인은 유추 전에 데이터를 변환하는 단계가 포함된 모델을 생성합니다. 다음과 같이 모델에서 해당 단계를 확인할 수 있습니다.

In [None]:
for step in fitted_model.named_steps:
    print(step)

성능이 가장 우수한 모델을 확인한 후에는 마지막으로 해당 모델을 등록할 수 있습니다.

In [None]:
from azureml.core import Model

# 모델 등록
best_run.register_model(model_path='outputs/model.pkl', model_name='diabetes_model_automl',
                        tags={'Training context':'Auto ML'},
                        properties={'AUC': best_run_metrics['AUC_weighted'], 'Accuracy': best_run_metrics['accuracy']})

# 등록된 모델 목록 표시
for model in Model.list(ws):
    print(model.name, 'version:', model.version)
    for tag_name in model.tags:
        tag = model.tags[tag_name]
        print ('\t',tag_name, ':', tag)
    for prop_name in model.properties:
        prop = model.properties[prop_name]
        print ('\t',prop_name, ':', prop)
    print('\n')

> **추가 정보**: 자동화된 Machine Learning에 대한 자세한 내용은 [Azure ML 설명서](https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train)를 참조하세요.