# Accu.Tuning Tutorial 1 - Regression

**Accu.Tuning**을 이용하여 해결할 수 있는 여러 문제 유형 중 연속된 값을 예측하는 회귀(Regression)를 시행합니다. **Accu.Tuning** 상에서 시계열 순으로 구성된 공정 데이터를 이용하여 원하는 수치 정보를 예측하는 간단한 예제를 소개합니다.

## 1. 데이터 준비

In [1]:
import os
import numpy as np
import pandas as pd

사용할 데이터의 형태는 다음과 같습니다. 목표 변수는 연속형 숫자로 구성된 'target' 컬럼입니다.

In [2]:
df = pd.read_csv('resources/regression_data.csv')
df.head(10)

Unnamed: 0,col1,col2,col3,col4,col5,col6,col7,col8,col9,target
0,0.0,2.709821,0.0,0.0,2.719358,105.01775,58.262729,1.860725,53.539424,50.75
1,0.0,2.798125,0.0,0.0,2.970983,115.092625,58.0001,1.90045,47.387705,51.0
2,0.0,2.553863,0.0,0.0,3.298713,119.311417,58.0001,1.912158,50.074525,51.0
3,0.0,2.516271,0.0,0.0,2.451079,119.178083,58.0001,1.908996,44.677138,54.0
4,0.0,2.844571,0.0,0.0,2.346771,131.250667,58.0001,1.90585,53.084972,54.5
5,0.0,2.816117,0.0,0.0,1.886117,132.598417,58.0001,1.914142,53.031515,54.5
6,0.0,2.726167,0.0,0.0,1.564771,131.279583,58.0001,1.914954,57.719447,53.75
7,0.0,2.610446,0.0,0.0,1.4454,129.669792,58.0001,1.932283,66.63933,64.5
8,0.0,2.464921,0.0,0.0,1.160858,130.187042,58.300792,1.950404,61.015207,63.0
9,0.0,2.37245,0.0,0.0,1.695829,117.346958,58.0001,1.985521,58.106422,61.0


In [3]:
df.shape

(1002, 10)

## 2. 데이터 전처리

데이터가 준비되었다면 모델링을 시작하기에 앞서 전처리를 수행할 수 있습니다. 전처리 과정은 문자열로 구성된 데이터를 ML이 처리할 수 있는 숫자 형태로 변환을 하거나, 결측값을 처리하는 등의 과정을 통하여 모델 학습에 적합한 형태로 데이터를 변환하는 과정입니다. **Accu.Tuning**의 전처리 기능 상에서는 사용자가 직접 화면 상에서 전처리 과정을 설정할 수도 있고, 자동 추천 기능을 통하여 필요한 변환이 어떤 것이 있을지 제안을 받을 수도 있습니다. 해당 예제에서는 추천 기능을 통하여 전처리 파이프라인을 자동으로 구성하는 것에 더해 일부 설정을 사용자 임의로 변경하는 방식으로 전처리를 수행하였습니다.

**Accu.Tuning** 상에서 다음과 같이 설정하여 데이터 전처리 파이프라인을 구성하였습니다.

![pipeline](img/regression_pipeline.png)



- 연속형 숫자 변수는 Box-Cox 변환을 하거나 로그 변환을 하는 등 정규화하여 필요한 경우에 선형 모델에서 더 나은 성능을 보이도록 변환할 수 있습니다.

- 자동 구성된 데이터 전처리 과정 외에도 사용자의 필요에 따라 여러 전처리 과정을 추가할 수 있습니다.

- 시간 순서대로 구성된 데이터의 특성상 col1에 대해서는 그 이전 시점의 정보를 반영하고자 Lag 열을 추가하였습니다.

#### 사용자가 전처리 설정에 참고할 수 있도록 Accu.Tuning 상에서는 아래와 같이 상관행렬, 변수분석 등 EDA (탐색적 데이터 분석)를 위한 플롯을 제공하고 있습니다. 전처리 이전은 물론 전처리 후에도 새로 플롯을 그려 전처리가 데이터에 미친 영향 또한 확인할 수 있습니다.

![corr_plot](img/regression_corr_plot.png)

![pairplots](img/regression_pairplots.png)

## 3. 모델링

**Accu.Tuning** 상에서는 모델링에 앞서 사용자 필요에 따라 모델 구성 설정을 변경할 수 있습니다. AutoML이 탐색할 모델과 분석 기법의 범위를 정의합니다.

![model_configs](img/regression_model_configs.png)

**Accu.Tuning** 상에서 **RUN AUTOML** 버튼을 클릭하여 바로 모델링을 시작할 수 있습니다. 그 결과로 총 53개의 모델이 구성되었고, 아래 Leaderboard에서 테스트셋 Mean Squared Error 기준 최고 모델은 XGBoost Regressor 임을 확인할 수 있습니다.

![results](img/regression_results.png)

**Accu.Tuning**의 기능들은 기본적으로 웹페이지 상 UI를 통해 제공되지만, 아래와 같이 Jupyter Notebook 등에서 사용자가 직접 **Accu.Tuning** API를 활용하는 코드를 작성해 사용할 수도 있습니다. 아래 사례처럼 웹페이지 상에서 확인할 수 있는 **Accu.Tuning** Leaderboard를 코드를 통해서도 다룰 수 있습니다.

In [4]:
r = Runtime.objects.get(pk=6)

In [5]:
pd.DataFrame([
    dict(
        estimator_name=mdl.estimator_name,
        train_score=mdl.train_score,
        test_score=mdl.score,
    )
    for mdl in r.ml_models.order_by('-score', '-train_score')
])

Unnamed: 0,estimator_name,train_score,test_score
0,xgboost,-0.3647918,-16.169943
1,xgboost,-0.305626,-16.264851
2,xgboost,-0.234585,-16.525068
3,xgboost,-0.4286188,-16.552923
4,xgboost,-0.2148458,-16.63998
5,xgboost,-0.468293,-16.677101
6,xgboost,-0.4218408,-16.714684
7,xgboost,-0.9295989,-16.8255
8,xgboost,-0.6816547,-16.855242
9,xgboost,-0.3258776,-16.895884


본 Experiment 상에서 모델 선정 기준으로 활용한 Accuracy 외에도 모델을 통해 구할 수 있는 다른 평가 지표들 또한 아래와 같이 확인할 수 있습니다.

In [6]:
best_model = r.ml_models.order_by('-score', '-train_score').first()

In [7]:
import json
pd.DataFrame(
    json.loads(best_model.all_metrics_json).items(),
    columns = ['Metrics', '[Train Score, Test Score]']
)

Unnamed: 0,Metrics,"[Train Score, Test Score]"
0,r2,"[0.9962, 0.8188]"
1,neg_median_absolute_error,"[0.33149999380111694, 2.210099935531616]"
2,neg_mean_absolute_error,"[0.43380001187324524, 3.00570011138916]"
3,neg_mean_squared_error,"[0.36480000615119934, 16.16990089416504]"
4,neg_root_mean_squared_error,"[0.6039999723434448, 4.021200180053711]"


평가 지표들 외에도 **Accu.Tuning**은 아래와 같이 모델을 평가할 수 있는 다양한 플롯을 제공하여 모델 결과를 다양한 시각에서 파악할 수 있도록 합니다. 회귀 문제에서 기본적으로 활용되는 잔차 분석, 이상값 감지 등의 플롯과 모델에서 주요하게 활용된 변수를 파악할 수 있는 피쳐 중요도 등을 제시함으로써 사용자가 효과적으로 모델을 평가할 수 있도록 지원합니다.

![plot1](img/regression_result_plot.png)
![plot2](img/regression_feature_importance.png)

## 4. 모델 활용 및 결과 예측

학습이 다 이루어졌다면, 완료된 모델을 Binary 형태로 불러와 **Accu.Tuning** 기능 밖에서도 활용할 수 있습니다. Leaderboard 상에서 **배포** 버튼을 클릭하면 구성된 모델을 pipeline.pkl 파일로 다운로드할 수 있습니다.

외부 활용을 지원하기 위하여 아래와 같이 Accu.Tuning의 도구 모음인 autoinsight_helpers 패키지를 설치해 이용할 수 있습니다.

In [8]:
!pip install \
--trusted-host github.com \
--trusted-host codeload.github.com \
https://github.com/AIIP-DEV/autoinsight_helpers/archive/v1.0.18.zip

Collecting https://github.com/AIIP-DEV/autoinsight_helpers/archive/v1.0.18.zip
  Downloading https://github.com/AIIP-DEV/autoinsight_helpers/archive/v1.0.18.zip
[K     \ 30 kB 862 kB/ss
[?25hBuilding wheels for collected packages: autoinsight-helpers
  Building wheel for autoinsight-helpers (setup.py) ... [?25ldone
[?25h  Created wheel for autoinsight-helpers: filename=autoinsight_helpers-1.0.15-py3-none-any.whl size=27588 sha256=d071ee6337bcab69f970a1d0148e2d269139cab61ec33ff24d62d622b425c033
  Stored in directory: /tmp/pip-ephem-wheel-cache-4_cm2amz/wheels/0b/32/e8/eb0c9ab2343f29111f2f44ef4599ae0f727f987292c96446d3
Successfully built autoinsight-helpers
Installing collected packages: autoinsight-helpers
Successfully installed autoinsight-helpers-1.0.15


In [11]:
import pickle
pipeline = pickle.load(open('resources/regression_pipeline.pkl', 'rb'))
print(pipeline) # CHECK PIPELINE STRUCTURE

Pipeline(steps=[('pp-0',
                 Pipeline(steps=[('transform',
                                  AutoinsightColTransformation(strategies=[('col1',
                                                                            'ADD_LAGS'),
                                                                           ('col2',
                                                                            'BOX_COX_TRANSFORMATION'),
                                                                           ('col3',
                                                                            'BOX_COX_TRANSFORMATION'),
                                                                           ('col4',
                                                                            'BOX_COX_TRANSFORMATION'),
                                                                           ('col5',
                                                                            'BOX_COX_TRANSFORMATION'),
       

불러온 모델을 통하여 각 행별로, 혹은 데이터프레임을 통한 예측을 아래와 같이 실시할 수 있습니다.

In [12]:
df.drop(['target'], axis=1, inplace=True) # 기존 데이터프레임에서 새로 예측하고자 하는 열을 삭제합니다.

In [13]:
pipeline.predict(df)

array([51.09763 , 46.767673, 49.168285, ..., 41.887325, 50.969   ,
       38.568813], dtype=float32)