#### 기본 스태킹 모델

In [1]:
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import accuracy_score

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression

cancer_data = load_breast_cancer()

X_data = cancer_data.data
y_label = cancer_data.target

X_train, X_test, y_train, y_test = train_test_split(X_data, y_label, test_size=0.2, random_state=0)

스태킹에 사용될 머신러닝 알고리즘 클래스를 생성합니다.
<br> 개별 모델은 KNN, 랜덤 포레스트, 결정 트리, 에이다부스트이며, 이들 모델 예측 결과를 합한 데이터 세트로 학습/ 예측하는 최종 모델은 로지스틱 회귀입니다.

In [5]:
# 개별 ML 모델 생성
knn_clf = KNeighborsClassifier(n_neighbors=4)
rf_clf = RandomForestClassifier(n_estimators=100, random_state=0)
dt_clf = DecisionTreeClassifier()
ada_clf = AdaBoostClassifier(n_estimators=100)

# 스태킹으로 만들어진 데이터 세트를 학습, 예측할 최종 모델
lr_clf = LogisticRegression(C=10)

# 개별 모델들을 학습.
knn_clf.fit(X_train, y_train)
rf_clf.fit(X_train, y_train)
dt_clf.fit(X_train, y_train)
ada_clf.fit(X_train, y_train)


AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None, learning_rate=1.0,
                   n_estimators=100, random_state=None)

개별 모델의 예측 데이터 세트를 반환하고 각 모델의 예측 정확도를 살펴보겠습니다.

In [18]:
# 학습된 개별 모델들이 각자 반환하는 예측 데이터 세트를 생성하고 개별 모델의 정확도 측정.
knn_pred = knn_clf.predict(X_test)
rf_pred = rf_clf.predict(X_test)
dt_pred = dt_clf.predict(X_test)
ada_pred = ada_clf.predict(X_test)

clf_model = [knn_pred,rf_pred,dt_pred,ada_pred]
for model in clf_model:
    print('정확도:{0:.4f}'.format(accuracy_score(y_test, model)))

정확도:0.9211
정확도:0.9649
정확도:0.9123
정확도:0.9561


개별 알고리즘으로부터 예측된 예측값을 칼럼 레벨로 옆으로 붙여서 피처 값으로 만들어, 최종 메타 모델인 로지스틱 회귀에서 학습 데이터로 다시 사용하겠습니다.

In [20]:
pred = np.array([knn_pred,rf_pred,dt_pred,ada_pred])
print(pred.shape)

# transpose를 이용해 행과 열의 위치 교환. 칼럼 레벨로 각 알고리즘의 예측 결과를 피처로 만듦.
pred = np.transpose(pred)
print(pred.shape)

(4, 114)
(114, 4)


이렇게 예측 데이터로 생성된 데이터 세트를 기반으로 최종 메타 모델인 로지스틱 회귀를 학습하고 예측 정확도를 측정하겟습니다.

In [24]:
lr_clf.fit(pred, y_test)
final = lr_clf.predict(pred)

print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test,final)))

최종 메타 모델의 예측 정확도: 0.9649


개별 모델의 예측 데이터를 스태킹으로 재구성해 최종 메타 모델에서 학습하고 예측한 결과, 정확도가 97.37%로 개별 모델 정확도보다 향상되었습니다.( 물론 스태킹 모델로 예측한다고 무조건 개별 모델보다 좋아진다는 보장은 없습니다.)

#### CV 세트 기반의 스태킹

CV 세트 기반의 스태킹 모델은 과적합을 개선하기 위해 최종 메타 모델을 위한 데이터 세트를 만들 때 교차 검증 기반으로 예측된 결과 데이터 세트를 이용합니다.  
앞 예제에서는 마지막에 메타 모델인 로지스틱 회귀 모델 기반에서 최종 학습할 때 레이블 데이터 세트로 학습 데이터가 아닌 테스트용 레이블 데이터 세트를 기반으로 학습했기 때문에 과적합 문제가 바랭할 수 있습니다.  

CV세트 기반의 스태킹은 이에 대해 개선을 위해 모델들이 각각 교차 검증으로 메타 모델을 위한 학습용 스태킹 데이터 서ㅐㅇ성과 예측을 위한 테스트용 스태킹 데이터를 생성한 뒤 이를 기반을 메타 모델이 학습과 예측을 수행합니다.  

+ 스탭1: 각 모델별로 원본 학습/테스트 데이터를 예측한 결과 값을 기반으로 메타 모델을 위한 학습용/테스트용 데이터를 생성합니다.
+ 스탭2: 스탭 1에서 개별 모델들이 생성한 학습용 데이터를 모두 스태킹 형태로 합쳐서 메타 모델이 학습할 최종 학습용 데이터 세트를 생성합니다. 마찬가지로 각 모델들이 생성한 테스트용 데이터를 모두 스태킹 형태로 합쳐서 메타 모델이 예측할 최종 테스트 데이터 세트를 생성합니다. 메타 모델은 __최종적으로 생성된 학습 데이터세트와 원본 학습 데이터의 레이블 데이터를 기반으로 학습한 뒤, 최종적으로 생성된 테스트 데이터 세트를 예측하고, 원본 테스트 데이터의 레이블 데이터를 기반으로 평가합니다.__

In [4]:
from sklearn.model_selection import KFold
from sklearn.metrics import mean_absolute_error

# 개별 기반 모델에서 최종 메타 모델이 사용할 학습 및 테스트용 데이터를 생성하기 위한 함수.
def get_stacking_base_datasets(model, X_train_n, y_train_n, X_test_n, n_folds):
    # 지정된 n_folds 값으로 KFold 생성.
    kf = KFold(n_splits=n_folds, shuffle=False, random_state=0)
    # 추후에 메타 모델이 사용할 학습 데이터 반환을 위한 넘파이 배열 초기화
    train_fold_pred = np.zeros((X_train_n.shape[0],1))
    test_pred = np.zeros((X_test_n.shape[0], n_folds))
    print(model.__class__.__name__,'model 시작')
    
    for folder_counter, (train_index, valid_index) in enumerate(kf.split(X_train_n)):
        # 입력된 학습 데이터에서 기반 모델이 학습/예측할 폴드 데이터 세트 추출
        print('/t 폴드 세트', folder_counter, '시작')
        X_tr = X_train_n[train_index]
        y_tr = y_train_n[train_index]
        X_te = X_train_n[valid_index]
        
        # 폴드 세트 내부에서 다시 만들어진 학습 데이터로 기반 모델의 학습 수행.
        model.fit(X_tr, y_tr)
        # 폴드 세트 내부에서 다시 만들어진 검증 데이터로 기반 모델 예측 후 데이터 저장.
        train_fold_pred[valid_index, :] = model.predict(X_te).reshape(-1,1)
        # 입력된 원본 테스트 데이터를 폴드 세트내 학습된 기반 모델에서 예측 후 데이터 저장.
        test_pred[:,folder_counter] = model.predict(X_test_n)
        
    # 폴드 세트 내에서 원본 테스트 데이터를 예측한 데이터를 평균하여 테스트 데이터로 생성
    test_pred_mean =  np.mean(test_pred, axis=1).reshape(-1,1)
    
    # train_fold_pred는 최종 메타 모델이 사용하는 학습 데이터, test_pred_mean은 테스트 데이터
    return train_fold_pred, test_pred_mean

이제 여러 개의 분류 모델별로 stack_base_model() 함수를 수행합니다.  
개별 모델은 앞의 기본 스태킹 모델에서 생성한 KNN, 랜덤 포레스트, 결정트리, 에이다부스트 모델활용

In [7]:
knn_train, knn_test = get_stacking_base_datasets(knn_clf, X_train, y_train, X_test, 7)
rf_train, rf_test = get_stacking_base_datasets(rf_clf, X_train, y_train, X_test, 7)
dt_train, dt_test = get_stacking_base_datasets(dt_clf, X_train, y_train, X_test, 7)
ada_train, ada_test = get_stacking_base_datasets(ada_clf, X_train, y_train, X_test, 7)

KNeighborsClassifier model 시작
/t 폴드 세트 0 시작
/t 폴드 세트 1 시작
/t 폴드 세트 2 시작
/t 폴드 세트 3 시작
/t 폴드 세트 4 시작
/t 폴드 세트 5 시작
/t 폴드 세트 6 시작
RandomForestClassifier model 시작
/t 폴드 세트 0 시작
/t 폴드 세트 1 시작
/t 폴드 세트 2 시작
/t 폴드 세트 3 시작
/t 폴드 세트 4 시작
/t 폴드 세트 5 시작
/t 폴드 세트 6 시작
DecisionTreeClassifier model 시작
/t 폴드 세트 0 시작
/t 폴드 세트 1 시작
/t 폴드 세트 2 시작
/t 폴드 세트 3 시작
/t 폴드 세트 4 시작
/t 폴드 세트 5 시작
/t 폴드 세트 6 시작
AdaBoostClassifier model 시작
/t 폴드 세트 0 시작
/t 폴드 세트 1 시작
/t 폴드 세트 2 시작
/t 폴드 세트 3 시작
/t 폴드 세트 4 시작
/t 폴드 세트 5 시작
/t 폴드 세트 6 시작


스텝 2를 구현해 보겠습니다. 앞의 예제에서 get_stacking_base_datasets() 호출로 반환된 각 모델별 학습 데이터와 테스트 데이터를 합치기만 하면 됩니다. 넘파아의 concatenate()를 이용해 쉽게 이와 같은 기능을 수행합니다.

In [9]:
Stack_final_X_train = np.concatenate((knn_train,rf_train,dt_train,ada_train), axis=1)
Stack_final_X_test = np.concatenate((knn_test,rf_test,dt_test,ada_test), axis=1)
print('원본 학습 피처 데이터 Shape:',X_train.shape,'원본 테스트 피처 shape:',X_test.shape)
print('스태킹 학습 피처 데이터 Shpae:',Stack_final_X_train.shape, '스태킹 테스트 피처 데이터 Shape:', Stack_final_X_test.shape)

원본 학습 피처 데이터 Shape: (455, 30) 원본 테스트 피처 shape: (114, 30)
스태킹 학습 피처 데이터 Shpae: (455, 4) 스태킹 테스트 피처 데이터 Shape: (114, 4)


이렇게 만들어진 Stack_final_X_train은 메타 모델이 학습할 학습용 피처 데이터 세트입니다. 그리고 Stack_final_X_test는 메타 모델이 예측할 테스트용 피처 데이터 세트입니다. 스태킹 학습 피처 데이터는 원본 학습 피처 데이터와 로우(Row) 크기는 같으며, 4개의 개별 모델 예측값을 합친 것이므로 칼럼(column) 크기는 4입니다.  

  

In [10]:
lr_clf.fit(Stack_final_X_train, y_train)
stack_final = lr_clf.predict(Stack_final_X_test)

print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test,stack_final)))

최종 메타 모델의 예측 정확도: 0.9737




최종 메타 모델의 예측 정확도는 약 97.37%로 측정됐습니다. 지금까지의 예제에서는 개별 모델의 알고리즘에서 파라미터 튜닝을 최적으로 하지 않았지만, 스태킹을 이루는 모델은 최적으로 파라미터를 튜닝한 상태에서 스태킹 모델을 만드는 것이 일반적입니다. 여러 명으로 이뤄진 분석 팀에서 개별적으로 각각 모델을 최적으로 학습시켜서 스태킹 모델을 더 빠르게 최적화할 수 있을 것입니다. 일반적으로 스태킹 모델의 파라미터 튜닝은 개별 알고리즘 모델의 파라미터를 최적으로 튜닝하는 것을 말합니다.

# 정리

대부분의 앙상블 기법은 결정 트리 기반의 다수의 약한 학습기(Weak Learner)를 겹학해 변동성을 줄여 예측 오류를 줄이고 성능을 개선하고 있습니다. 결정 트리 알고리즘은 정보의 균일도에 기반한 규칙 츠리를 만들어서 예측을 수행합니다. __결정 트리는 다른 알고리즘에비해 비교적 직관적이어서 어떻게 예측 겨로가가 도출되었는지 그 과정을  쉽게 알 수 있습니다. 결정 트리의 단점으로는 균일한 최종 예측 결과를 도출하기 위해 결정 트리가 깊어지고 복잡해 지며서 과적합이 쉡게 발생하는 것입니다.__  
  
**앙상블 기법은** 대표적으로 배깅과 부스팅으로 구분될 수 있으며, 배깅 방식은 학습 데이터를 중복을 허용하면서 다수의 세트로 샘플링하여 이를 다수의 약한 학습기가 학습한 뒤 최종 결과를 결합해 예측하는 방식입니다. 대표적인 배깅 방식은 랜덤 포레스트는 수행 시간이 빠르고 비교적 안정적인 예측 성능을 제공하는 훌륭한 머신러닝 알고리즘 입니다.  

현대의 앙상블 기법은 배깅보다는 부스팅이 더 주류를 이루고 있습니다. 부스팅은 학습기들이 순차적으로 학습을 진행하면서 예측이 틀린 데이터에 대해서는 가중치를 부여해 다음번 학습기가 학습할 때에는 이전에 예측이 틀린 데이터에 대해서는 보다 높은 정확도로 예측할 수 있도록 해줍니다. 부스팅의 효시걱인 GBM(Gradient Boosting Machine)은 뛰어난 예측 성능을 가졌지만, 수행 시간이 너무 오래 걸린다는 단점이 있습니다.

XGBoost와 LightGBM은 현대 가장 각광 받고 있는 부스팅 기반 머신러냉 패키지입니다. 속도향상 과적합 문제를 향상시킨 패키지 모델입니다.

스태킹 모델은 여러 개의 개별 모델들이 생성한 예측 데이터를 기반으로 최종 메타 모델이 학습할 별도의 학습 데이터 세트와 예측할 테스트 데이터 세트를 재 생성하는 기법입니다. 스태킹 모델의 핵슴은 바로 메타 모델이 사용할 학습 데이터 세트와 예측 데이터 세트를 개별 모델의 예측값들을 스태킹 형태로 결합해 생성하는 데 있습니다.