### 스태킹(Stacking)
- 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출
- 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측 수행
- 즉, 개별 알고리즘의 예측 결과 데이터 세트를 최종적인 메타 데이터 세트로 만들어 별도의 ML 알고리즘으로 최종 학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행하는 방식

In [29]:
import numpy as np

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression

# 위스콘신 암 데이터 세트
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

cancer_data = load_breast_cancer()

X_data = cancer_data.data
y_label = cancer_data.target

X_train, X_test, y_train, y_test = train_test_split( X_data, y_label, 
                                                    test_size = 0.2, random_state = 0 )

In [30]:
# 스태킹에 사용될 머신러닝 알고리즘 클래스 생성

# 개별 ML 모델 생성
# KNN
knn_clf = KNeighborsClassifier(n_neighbors = 4)
# 랜덤 포레스트
rf_clf = RandomForestClassifier(n_estimators = 100, random_state = 0)
# 결정 트리
dt_clf = DecisionTreeClassifier()
# 에이다부스트
ada_clf = AdaBoostClassifier(n_estimators = 100)

# 스태킹으로 만들어진 데이터 세트를 학습, 예측할 최종 모델
# 로지스틱 회귀
lr_final = LogisticRegression(C = 10)

In [31]:
# 개별 모델 학습
knn_clf.fit(X_train, y_train)
rf_clf.fit(X_train, y_train)
dt_clf.fit(X_train, y_train)
ada_clf.fit(X_train, y_train)

AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None,
          learning_rate=1.0, n_estimators=100, random_state=None)

In [32]:
# 학습된 개별 모델들이 각자 반환하는 예측 데이터 세트를 생성하고
# 개별 모델의 정확도 측정

knn_pred = knn_clf.predict(X_test)
rf_pred = rf_clf.predict(X_test)
dt_pred = dt_clf.predict(X_test)
ada_pred = ada_clf.predict(X_test)

In [33]:
print('KNN 정확도 : {0:.4f}'.format(accuracy_score(y_test, knn_pred)))
print('랜덤 포레스트 정확도 : {0:.4f}'.format(accuracy_score(y_test, rf_pred)))
print('결정 트리 정확도 : {0:.4f}'.format(accuracy_score(y_test, dt_pred)))
print('에이다부스트 정확도 : {0:.4f}'.format(accuracy_score(y_test, ada_pred)))

KNN 정확도 : 0.9211
랜덤 포레스트 정확도 : 0.9649
결정 트리 정확도 : 0.9123
에이다부스트 정확도 : 0.9561


In [34]:
type(knn_pred), type(rf_pred), type(dt_pred), type(ada_pred)

(numpy.ndarray, numpy.ndarray, numpy.ndarray, numpy.ndarray)

In [35]:
# 개별 알고리즘으로부터 예측된 예측값을 칼럼 레벨로 옆으로 붙여서 피처 값으로 만들어
# 최종 메타 모델인 로지스틱 회귀에서 학습 데이터로 다시 사용

# 반환된 예측 데이터 세트는 1차원 형태의 ndarray이므로
# 먼저 반환된 예측 결과를 행 형태로 붙인 뒤,
pred = np.array([knn_pred, rf_pred, dt_pred, ada_pred])
print(pred.shape)

# 넘파이의 transpose()를 이용해 행과 열 위치를 바꾼 ndarray로 변환
# 칼럼 레벨로 각 알고리즘의 예측 결과를 피처로 만든다
pred = np.transpose(pred)
print(pred.shape)

(4, 114)
(114, 4)


In [36]:
# 최종 메타 모델인 로지스틱 회귀를 학습
lr_final.fit(pred, y_test)
final = lr_final.predict(pred)

print('최종 메타 모델의 예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, final)))
# → 과적합 발생 가능

최종 메타 모델의 예측 정확도 : 0.9737


### CV 세트 기반의 스태킹

In [37]:
from sklearn.model_selection import KFold
from sklearn.metrics import mean_absolute_error

# 개별 모델에서 최종 메타 모델이 사용할 학습 및 테스트용 데이터를 생성하기 위한 함수
def get_stacking_base_datasets(model, X_train_n, y_train_n, X_test_n, n_folds) :
    
    # 지정된 n_folds값으로 KFold 생성
    kf = KFold(n_splits = n_folds, shuffle = False, random_state = 0)
    
    # 추후에 메타 모델이 사용할 학습 데이터 반환을 위한 넘파이 배열 초기화
    train_fold_pred = np.zeros(X_train_n.shape[0], 1)
    test_pred = np.zeros(X_test_n.shape[0], n_folds)
    
    print(model.__class__.__name__, 'model 시작')
    
    for folder_counter, (train_index, valid_index) in enumerate(kf.split(X_train_n)) :
        
        # 입력된 학습 데이터에서 기반 모델이 학습/예측할 폴드 데이터 세트 추출
        print('\t 폴드 세트 : ', folder_counter, '시작')
        X_tr = X_train_n[train_index]
        y_tr = y_train_n[train_index]
        X_te = X_train_n[valid_index]
        
        # 폴드 세트 내부에서 다시 만들어진 학습 데이터로 기반 모델의 학습 수행
        model.fit(X_tr, y_tr)
        
        # 폴드 세트 내부에서 다시 만들어진 검증 데이터로 기반 모델 예측 후 데이터 저장
        train_fold_pred[valid_index, :] = model.predict(X_te).reshape(-1, 1)
        
        # 입력된 원본 테스트 데이터를 폴드 세트 내 학습된 기반 모델에서 예측 후 데이터 저장
        test_pred[:, folder_counter] = model.predict(X_test_n)
    
    # 폴드 세트 내에서 원본 테스트 데이터를 예측한 데이터를 평균하여 테스트 데이터로 생성
    test_pred_mean = np.mean(test_pred, axis=1).reshape(-1, 1)
    
    # train_fold_pred는 최종 메타 모델이 사용하는 학습 데이터, test_pred_mean은 테스트 데이터
    return train_fold_pred, test_pred_mean

In [38]:
# 개별 모델별로 get_stacking_base_datasets()를 호출해
# 각각 메타 모델이 추후에 사용할 학습용, 테스트용 데이터 세트 반환

knn_train, knn_test = get_stacking_base_datasets(knn_clf, X_train, y_train, X_test, 7)
rf_train, rf_test = get_stacking_base_datasets(rf_clf, X_train, y_train, X_test, 7)
dt_train, dt_test = get_stacking_base_datasets(dt_clf, X_train, y_train, X_test, 7)
ada_train, ada_test = get_stacking_base_datasets(ada_clf, X_train, y_train, X_test, 7)

TypeError: data type not understood

In [None]:
# 반환된 각 모델별 학습 데이터와 테스트 데이터를 합친다
# 넘파이의 concatenate() : 여러 개의 넘파이 배열을 칼럼 또는 로우 레벨로 합쳐주는 기능

Stack_final_X_train = np.concatenate((knn_train, rf_train, dt_train, ada_train), axis=1)
Stack_final_X_test = np.concatenate(( knn_test, rf_test, dt_test, ada_test), axis=1)
print('원본 학습 피처 데이터 Shape : ', X_train.shape, 
      '원본 테스트 피처 데이터 Shape : ', X_test.shape)
print('스태킹 학습 피처 데이터 Shape : ', Stack_final_X_train.shape, 
      '스태킹 테스트 피처 데이터 Shape : ', Stack_final_X_test.shape)