# 스태킹
- 스태킹 앙상블 모델은 개별적인 기반 모델, 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습하는 최종 메타 모델 두 종류의 모델이 필요함
- 여러 개별 모델의 예측 데이터를 각각 스태킹 형태(X_test 예측 레이블의 병렬정렬)로 결합<br>
    -> 최종 메타 모델의 학습용 피처 데이터 세트와 테스트용 피처 데이터 세트를 만드는 것
    
    
- 많은 개별 모델이 필요하고, 스태킹을 적용한다고 해서 반드시 성능이 향상된다는 보장도 없음

In [1]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


# 데이터 불러오기
cancer_data = load_breast_cancer()

X_data = cancer_data.data
y_data = cancer_data.target

X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size = 0.2, random_state = 0)

In [7]:
cancer_data.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [23]:
# 스태킹에 활용할 개별 머신러닝 모델 생성(KNN, RandomFoerest, DecisionTree, AdaBoost)

knn_clf = KNeighborsClassifier(n_neighbors = 4)     # k의 개수, 근처의 개수
rf_clf = RandomForestClassifier(n_estimators = 100, random_state = 0)
dt_clf = DecisionTreeClassifier()
ada_clf = AdaBoostClassifier(n_estimators = 100)


#스태킹으로 만들어진 데이터 세트 학습, 예측할 최종 모델
## c: 규제 강도를 결정하는 파라미터
lr_final = LogisticRegression(C = 10)  

In [15]:
# 개별 모델 학습

knn_clf.fit(X_train, y_train)
rf_clf.fit(X_train, y_train)
dt_clf.fit(X_train, y_train)
ada_clf.fit(X_train, y_train)

In [16]:
# 학습된 개별 모델들의 예측 데이터셋 반환
knn_pred  = knn_clf.predict(X_test)
rf_pred  = rf_clf.predict(X_test)
dt_pred  = dt_clf.predict(X_test)
ada_pred  = ada_clf.predict(X_test)


# 예측 정확도 측정
print(f'KNN 정확도: \n{accuracy_score(y_test, knn_pred): .4f}\n')
print(f'RandomForest 정확도: \n{accuracy_score(y_test, rf_pred): .4f}\n')
print(f'DecisionTree 정확도: \n{accuracy_score(y_test, dt_pred): .4f}\n')
print(f'AdaBoost 정확도: \n{accuracy_score(y_test, ada_pred): .4f}\n')

KNN 정확도: 
 0.9211

RandomForest 정확도: 
 0.9649

DecisionTree 정확도: 
 0.9123

AdaBoost 정확도: 
 0.9561



In [17]:
# 개별 알고리즘으로부터 예측된 예측값을 피처 값으로 만들기

## 배열화
pred = np.array([knn_pred, rf_pred, dt_pred, ada_pred])
print(pred.shape)


## 전치행렬로 칼럼 레벨로 각 알고리즘의 예측 결과를 피처로 만듦
pred = np.transpose(pred)
print(pred.shape)

(4, 114)
(114, 4)


In [22]:
# 예측 데이터로 생성된 데이터 세트를 기반으로 최종 메타 모델인 로지스틱 회귀 학습

## 학습
lr_final.fit(pred, y_test)

## 예측
final = lr_final.predict(pred)

print(f'로지스틱 회귀모델 정확도: {accuracy_score(y_test, final):.4f}')

로지스틱 회귀모델 정확도: 0.9737


- 개별 모델의 예측 데이터를 스태킹으로 재구성해 최종 메타 모델에서 학습하고 예측한 결과, 정확도가 97.37%로 개별 모델 정확도보다 향상됨
- <span style = 'background-color: #ffdce0'>스태킹 모델로 예측한다고해서 무조건 개별 모델보다 좋아지는 것은 아님</span>

- 하지만 위와 같이 학습용 데이터가 아닌 테스트용 레이블 데이터를 기반으로 학습한 경우 <span style = 'background-color: #ffdce0'>과적합 문제</span> 발생할 수 있음

# cv세트 기반 스태킹
- <span style = 'background-color: #f1f8ff'>과적합을 개선하기 위해</span> 최종 메타 모델을 위한 데이터 세트를 만들 때 교차 검증 기반으로 예측된 결과 데이터 세트를 이용함

- 개별 모델들이 교차 검증으로 메타 모델을 위한 학습용 스태킹 데이터 생성(cv개수 만큼 생성된 X_test예측 레이블 세트), 

#### 과제1: cv세트 기반의 스태킹 앙상블 모델을 생성하고 평가하기(cv = 7)

In [51]:
from sklearn.model_selection import KFold
from sklearn.metrics import mean_absolute_error
import numpy as np

# 최종 메타모델을 위한 학습/테스트 데이터를 생성하는 사용자 함수 생성

## 분류 모델 객체, 원본 학습용 피처 데이터, 원본 학습용 레이블 데이터, 원본 테스트 피처 데이터, k폴드 개수를 인자로 받음
def get_stacking_base_dataset(model, X_train_n, y_train_n, X_test_n, n_folds):
    
    # 지정된 n_folds로 KFold 생성
    kf = KFold(n_splits = n_folds, shuffle = False)
    
    # 추후에 메타 모델이 사용할 학습 데이터 반환을 위해 넘파 배열 초기화
    train_fold_pred = np.zeros((X_train_n.shape[0], 1))
    test_pred = np.zeros((X_test_n.shape[0], n_folds))
    
    # 모델의 클래스 변수명 출력
    print(model.__class__.__name__, 'model 시작')
    
    
    
    # k번째 폴드세트, 학습용 데이터 인덱스/검증용데이터 인덱스 지정
    for folder_counter, (train_index, valid_index) in enumerate(kf.split(X_train_n)):
        
        # 입력된 학습 데이터에서 기반 모델이 학습/예측할 폴드 데이터 세트 출력
        print('\t 폴드 세트: ', folder_counter, '시작')
        
        X_tr = X_train_n[train_index]
        y_tr = y_train_n[train_index]
        x_te = X_train_n[valid_index]
        
        # 폴드 세트 내부에서 다시 만들어진 학습용, 검증용 데이터로 모델 학습 수행
        model.fit(X_tr, y_tr)
        
        # 폴드 세트 내부에서 다시 만들어진 검증용 데이터로 예측
        train_fold_pred[valid_index, : ] = model.predict(x_te).reshape(-1,1)
        
        # 입력된 원본 테스트 데이터를 폴드 세트 내 학습된 모델에서 예측 후 데이터 저장
        test_pred[ : , folder_counter] = model.predict(X_test_n)
        
        
    # 폴드 세트 내에서 원본 테스트 데이터를 예측한 데이터를 평균하여 테스트 데이터로 생성
    test_pred_mean = np.mean(test_pred, axis = 1).reshape(-1,1)
    
    
    # train_fold_pred는 최종 메타 모델이 사용하는 학습 데이터, test_pred_mean은 테스트 데이터
    return train_fold_pred, test_pred_mean
  

In [38]:
# 여러 분류 모델별로 stack_base_model()함수 수행

knn_train, knn_test = get_stacking_base_dataset(knn_clf, X_train, y_train, X_test, 7)
rf_train, rf_test = get_stacking_base_dataset(rf_clf, X_train, y_train, X_test, 7)
dt_train, dt_test = get_stacking_base_dataset(dt_clf, X_train, y_train, X_test, 7)
ada_train, ada_test = get_stacking_base_dataset(ada_clf, X_train, y_train, X_test, 7)

KNeighborsClassifier model 시작
	 폴드 세트:  0 시작
	 폴드 세트:  1 시작
	 폴드 세트:  2 시작
	 폴드 세트:  3 시작
	 폴드 세트:  4 시작
	 폴드 세트:  5 시작
	 폴드 세트:  6 시작
RandomForestClassifier model 시작
	 폴드 세트:  0 시작
	 폴드 세트:  1 시작
	 폴드 세트:  2 시작
	 폴드 세트:  3 시작
	 폴드 세트:  4 시작
	 폴드 세트:  5 시작
	 폴드 세트:  6 시작
DecisionTreeClassifier model 시작
	 폴드 세트:  0 시작
	 폴드 세트:  1 시작
	 폴드 세트:  2 시작
	 폴드 세트:  3 시작
	 폴드 세트:  4 시작
	 폴드 세트:  5 시작
	 폴드 세트:  6 시작
AdaBoostClassifier model 시작
	 폴드 세트:  0 시작
	 폴드 세트:  1 시작
	 폴드 세트:  2 시작
	 폴드 세트:  3 시작
	 폴드 세트:  4 시작
	 폴드 세트:  5 시작
	 폴드 세트:  6 시작


In [46]:
stack_final_X_train = np.concatenate((knn_train, rf_train, dt_train, ada_train), axis = 1)
stack_final_X_test = np.concatenate((knn_test, rf_test, dt_test, ada_test), axis = 1)

print(f'원본 학습 피처 데이터: {X_train.shape},  원본 테스트 피처데이터: {X_test.shape}')
print(f'스태킹 학습 피처 데이터 Shape: {stack_final_X_train.shape}, 스태킹 테스트 피처 데이터 Shape: {stack_final_X_test.shape}')

원본 학습 피처 데이터: (455, 30),  원본 테스트 피처데이터: (114, 30)
스태킹 학습 피처 데이터 Shape: (455, 4), 스태킹 테스트 피처 데이터 Shape: (114, 4)


In [48]:
# 스태킹 피처 데이터로 학습
lr_final.fit(stack_final_X_train, y_train)

# 스태킹 테스트 피처 데이터로 예측
stack_final = lr_final.predict(stack_final_X_test)

# 원본 y_test 데이터와 정확도 평가
print(f'최종 메타 모델의 예측 정확도: {accuracy_score(y_test, stack_final):.4f}')

최종 메타 모델의 예측 정확도: 0.9737


- 최종 메타 모델의 예측 정확도는 약 97.37%


- 원래, 스태킹을 이루는 모델은 최적으로 파라미터를 튜닝한 상태에서 스태킹 모델을 만드는 것이 일반적임
- 스태킹 모델은 분류 뿐만 아니라 회귀에서도 적용이 가능함