# 스태킹 앙상블

## 1. 기본 스태킹

In [4]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
import warnings
warnings.filterwarnings('ignore')

# 데이터 불러오기(암 데이터)
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

cancer_data = load_breast_cancer()
cancer_data.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [5]:
X_data = cancer_data.data
y_label = cancer_data.target

X_train, X_test, y_train, y_test = train_test_split(X_data, y_label, test_size = 0.2, random_state = 0)

### 1) 알고리즘 객체 생성 

In [25]:
# 스태킹에 사용될 머신러닝 알고리즘 클래스 생성
# KNN, 랜덤포레스트, 결정트리, 에이다부스트 사용

knn_clf = KNeighborsClassifier(n_neighbors=4) # 근처 개수 n만큼 뽑아 분류(4개중 3개가 1, 1개가 0이면 1로 분류)
rf_clf = RandomForestClassifier(n_estimators=100, random_state=0)
dt_clf = DecisionTreeClassifier()
ada_clf = AdaBoostClassifier(n_estimators=100)

# 메타모델 (스태킹으로 만들어진 데이터 세트를 학습, 예측할 최종 모델)
lr_final = LogisticRegression(C=10) # 규제 강도를 결정하는 파라미터 (c값이 낮을 수록 계수를 0으로 근사, regularization 강화)

### 2) 개별 모델 학습

In [18]:
knn_clf.fit(X_train, y_train)
rf_clf.fit(X_train, y_train)
dt_clf.fit(X_train, y_train)
ada_clf.fit(X_train, y_train)

AdaBoostClassifier(n_estimators=100)

### 3) 개별 모델의 예측 데이터 추출 / 평가

In [19]:
knn_pred = knn_clf.predict(X_test)
knn_acc = accuracy_score(y_test, knn_pred)
rf_pred = rf_clf.predict(X_test)
rf_acc = accuracy_score(y_test, rf_pred)
dt_pred = dt_clf.predict(X_test)
dt_acc = accuracy_score(y_test, dt_pred)
ada_pred = ada_clf.predict(X_test)
ada_acc = accuracy_score(y_test, ada_pred)

print('예측 데이터')
print(f'KNN예측데이터: {knn_pred}', '\n')
print(f'랜덤 포레스트 예측데이터: {rf_pred}', '\n')
print(f'Decissiontree 예측데이터: {dt_pred}', '\n')
print(f'에디다부스트 예측데이터: {ada_pred}', '\n')

print('정확도 평가')
print(f'KNN 정확도: {knn_acc}', '\n')
print(f'랜덤 포레스트 정확도: {rf_acc}', '\n')
print(f'Decissiontree 정확도: {dt_acc}', '\n')
print(f'에디다부스트 정확도: {ada_acc}', '\n')

예측 데이터
KNN예측데이터: [0 1 1 0 1 1 1 1 1 1 0 1 1 0 0 0 1 0 0 0 0 0 1 1 0 1 1 1 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 0 0 1 1 1 0 0 1 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 0 0 1 1 0 1 1
 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 1 0 1 0 1 1 0 1 1 1 1 1 1 1 0 1 0 0 0 0 1
 0 0 1] 

랜덤 포레스트 예측데이터: [0 1 1 1 1 1 1 1 1 1 0 1 1 0 0 0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 0 0 1 1 0 1 1
 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 1 0 1 0 1 1 0 1 1 1 1 1 1 1 0 1 0 1 0 0 1
 0 0 1] 

Decissiontree 예측데이터: [0 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1
 0 1 0 1 1 0 1 0 0 1 1 1 0 0 0 0 1 1 1 0 1 0 0 0 0 1 1 0 0 0 0 0 1 1 0 1 1
 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 1 0 1 0 1 1 0 1 1 1 1 1 1 0 0 1 0 1 0 1 1
 0 0 1] 

에디다부스트 예측데이터: [0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 1 1 0 0 0 0 0 1 1 0 1 1
 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1 1 1 1 1 0 1 0 1 1 0 1
 0 

### 4) 메타 데이터 생성 (예측값을 칼럼 레벨로 옆으로 붙여 피처 값으로 생성)

In [22]:
pred = np.array([knn_pred, rf_pred, dt_pred, ada_pred])
print(pred.shape)
pred

(4, 114)


array([[0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
        1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1,
        0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1,
        0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1,
        0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0,
        1, 0, 0, 1],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
        1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1,
        1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1,
        0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1,
        0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0,
        1, 0, 0, 1],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
        1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1,
        0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0,

In [23]:
# 행과 열 위치 교환 (transpose 사용)
pred = np.transpose(pred)
print(pred.shape)
pred

(114, 4)


array([[0, 0, 0, 0],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [0, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [0, 0, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [0, 0, 1, 0],
       [1, 1, 1, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [0, 1, 0, 1],
       [0, 0, 0, 0],
       [1, 1, 1, 1],
       [1, 1,

### 5) 메타모델 학습/ 예측/ 평가
최종 데이터 세트를 최종 메타 모델로 형성한 객체에 넣어줌 

In [27]:
lr_final.fit(pred, y_test) # pred값이 변수로 들어가고 y_test가 결과(종속변수)로 들어가 훈련
final = lr_final.predict(pred) # 각 개별 그룹에서 나타난 예측값으로 최종 예측값을 다시 예측

print(f'최종 메타모델의 예측 정확도: {accuracy_score(y_test, final):.3f}')

최종 메타모델의 예측 정확도: 0.974


In [28]:
final

array([0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1,
       1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1,
       0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1,
       0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 0, 0, 1])

=> 개별모델 정확도보다 향상됨 (동일한 데이터를 가지고 수행했기 때문에 과적합 발생 할 수 있음)

#### 과제_09_23
CV 세트 기반의 스태킹

## 2. CV세트 기반의 스태킹

### 1) K폴드로 교차 검증 수행

In [32]:
from sklearn.model_selection import KFold
from sklearn.metrics import mean_absolute_error

X_data = cancer_data.data
y_label = cancer_data.target

X_train, X_test, y_train, y_test = train_test_split(X_data, y_label, test_size = 0.2, random_state = 0)

#### 개별 데이터를 위한 객체 생성

In [None]:
# 스태킹에 사용될 머신러닝 알고리즘 클래스 생성
# KNN, 랜덤포레스트, 결정트리, 에이다부스트 사용

knn_clf = KNeighborsClassifier(n_neighbors=4) # 근처 개수 n만큼 뽑아 분류(4개중 3개가 1, 1개가 0이면 1로 분류)
rf_clf = RandomForestClassifier(n_estimators=100, random_state=0)
dt_clf = DecisionTreeClassifier()
ada_clf = AdaBoostClassifier(n_estimators=100)

# 메타모델 (스태킹으로 만들어진 데이터 세트를 학습, 예측할 최종 모델)
lr_final = LogisticRegression(C=10) # 규제 강도를 결정하는 파라미터 (c값이 낮을 수록 계수를 0으로 근사, regularization 강화)

#### k폴드 적용

In [64]:
# k폴드 객체 생성 (cv=3으로 두고) 1개의 모델을 수행했을 때 최종 출력 값
kfold = KFold(n_splits=3, shuffle=False) # shuffle : 데이터 분할하기전에 섞을지 말지 결정

# 학습 후 예측값을 저장할 데이터 
train_fold_pred = np.zeros((X_train.shape[0], 1)) #(메타모델 학습용)
test_pred = np.zeros((X_test.shape[0], 3)) # (메타모델 test용)

n_iter = 0
print('------------------------------폴드 예측 값 (KNN모델 적용)------------------------------', '\n')
# K폴드로 나눈 데이터 추출해보기
for train_index, test_index in kfold.split(X_train): # 훈련 데이터 안에서 k개의 폴드 데이터 세트로 분리(index 개수만 추출)
    X_k_train, X_k_test = X_train[train_index], X_train[test_index] 
    y_k_train, y_k_test = y_train[train_index], y_train[test_index]  #훈련용 테스트용 따로 추출
    
    # 학습
    knn_clf.fit(X_k_train, y_k_train)
    
    # 폴드 세트 내부에서 예측
    knn_pred = knn_clf.predict(X_k_test)
    
    # 최종 X_test값으로 예측
    knn_total_pred = knn_clf.predict(X_test)
    
    n_iter+=1
    
    # 폴드 내부 예측값
    print(f'#####{n_iter}번째 폴드내부 예측값#####')
    print(knn_pred)
    
    # 폴드 외부(원본 테스트 세트) 예측값
    print(f'#####{n_iter}번째 폴드외부 예측값#####')
    print(knn_total_pred)
    
    # 최종 knn모델을 적용한 메타모델 학습 데이터 
    train_fold_pred[test_index, :] = knn_pred.reshape(-1, 1)
        
    # 폴드 외부에서 각 다른 모델로 수행한 예측 값을 합쳐서 최종 메타모델에서 사용할 테스트 데이터 후보로 추가(나중에 한번에 평균)
    test_pred[:, n_iter-1] = knn_total_pred

print('3폴드 전체 메타모델 학습용')
print(train_fold_pred)
print('3폴드 전체 메타모델 test용')
print(np.mean(test_pred, axis=1).reshape(-1, 1))

------------------------------폴드 예측 값 (KNN모델 적용)------------------------------ 

#####1번째 폴드내부 예측값#####
[1 1 0 1 1 1 1 1 1 1 0 1 0 1 1 1 0 1 1 1 1 1 1 0 0 1 1 1 0 1 1 0 0 0 1 1 1
 1 1 1 1 0 1 0 1 0 0 1 1 0 1 0 0 0 1 1 1 1 1 1 0 1 1 1 1 0 0 1 1 0 1 1 1 1
 0 1 1 0 0 1 1 0 0 1 1 1 1 1 0 0 0 1 1 1 0 1 1 1 1 1 0 1 0 1 0 1 0 1 0 1 1
 1 1 0 1 0 0 1 1 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 0 0 1 1 1 0 0 0 1 0 1 1 0
 1 1 1 1]
#####1번째 폴드외부 예측값#####
[0 1 1 0 1 1 1 1 1 1 0 1 1 0 0 0 1 0 0 0 0 0 1 1 0 1 1 1 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 0 0 1 1 1 0 0 1 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 0 0 1 1 0 1 1
 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 1 0 1 0 1 1 0 1 1 1 1 1 1 1 0 1 0 1 0 0 1
 0 0 1]
#####2번째 폴드내부 예측값#####
[1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 1 0 0 1 0 1 1 1
 1 0 1 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1 1 0 1 0 0 1 1 0 1 0 0 1 1 1 0 0 1 0 1
 0 1 0 0 1 1 1 0 1 0 1 1 0 1 1 0 0 1 1 1 0 1 1 1 0 1 0 1 0 1 0 1 0 0 0 0 1
 1 1 1 1 0 1 1 1 1 1 0 1 1 0 1 1 0 0 0 0 1 1 0 1 1 1 0 0 1 1 1 1 1 0 0 0 1
 0 0 1 

In [78]:
# 모든 모델을 학습하여 예측데이터를 반환하는 함수 생성

def get_stacking_base_datasets(model, X_train_, y_train_, X_test_, n_folds):
    kfold = KFold(n_splits=n_folds, shuffle=False)
    
    # 메타모델 학습용, 테스트용 담을 빈 배열 생성
    train_fold_pred = np.zeros((X_train_.shape[0], 1))
    test_pred = np.zeros((X_test_.shape[0], n_folds))
    print(f'{model}모델 시작')
    
    count = 0
    for train_index, test_index in kfold.split(X_train_):
        # 입력한 학습 데이터에서 위에서 각각 다른 모델로 생성한 객체에 학습/예측할 폴드 데이터 세트 추출
        print('\t 폴드 세트:', count, '시작')
        X_tr = X_train_[train_index]
        y_tr = y_train_[train_index]
        X_te = X_train_[test_index]
        
        # 폴드 세트 내부에서 학습데이터로 모델 학습
        model.fit(X_tr, y_tr)
        
        # 폴드 세트 내부에서 예측
        train_fold_pred[test_index, :] = model.predict(X_te).reshape(-1, 1)
        # 원본 테스트 데이터로 예측
        test_pred[:, count] = model.predict(X_test_) # 각 열별로 담아서 나중에 한번에 평균 추출
        
        count+=1
    
    # 메타모델 테스트 용 최종 추출(평균)
    test_pred_mean = np.mean(test_pred, axis=1).reshape(-1, 1)
    
    # 최종 메타모델에 사용할 학습용 데이터, 테스트용 데이터 순서대로 추출
    return train_fold_pred, test_pred_mean

In [79]:
# 모델별로 데이터 추출

knn_train, knn_test = get_stacking_base_datasets(knn_clf, X_train, y_train, X_test, 7)
rf_train, rf_test = get_stacking_base_datasets(rf_clf, X_train, y_train, X_test, 7)
dt_train, dt_test = get_stacking_base_datasets(dt_clf, X_train, y_train, X_test, 7)
ada_train, ada_test = get_stacking_base_datasets(ada_clf, X_train, y_train, X_test, 7)

KNeighborsClassifier(n_neighbors=4)모델 시작
	 폴드 세트: 0 시작
	 폴드 세트: 1 시작
	 폴드 세트: 2 시작
	 폴드 세트: 3 시작
	 폴드 세트: 4 시작
	 폴드 세트: 5 시작
	 폴드 세트: 6 시작
RandomForestClassifier(random_state=0)모델 시작
	 폴드 세트: 0 시작
	 폴드 세트: 1 시작
	 폴드 세트: 2 시작
	 폴드 세트: 3 시작
	 폴드 세트: 4 시작
	 폴드 세트: 5 시작
	 폴드 세트: 6 시작
DecisionTreeClassifier()모델 시작
	 폴드 세트: 0 시작
	 폴드 세트: 1 시작
	 폴드 세트: 2 시작
	 폴드 세트: 3 시작
	 폴드 세트: 4 시작
	 폴드 세트: 5 시작
	 폴드 세트: 6 시작
AdaBoostClassifier(n_estimators=100)모델 시작
	 폴드 세트: 0 시작
	 폴드 세트: 1 시작
	 폴드 세트: 2 시작
	 폴드 세트: 3 시작
	 폴드 세트: 4 시작
	 폴드 세트: 5 시작
	 폴드 세트: 6 시작


### 2) 최종 메타모델 형성(각 모델의 메타모델 데이터 합치기)

In [80]:
Stack_final_X_train = np.concatenate((knn_train, rf_train, dt_train, ada_train), axis=1)
Stack_final_X_test = np.concatenate((knn_test, rf_test, dt_test, ada_test), axis=1)

print('원본 학습 피처 데이터 모양: ', X_train.shape, '원본 테스트 피처 모양: ', X_test.shape)

print('스태킹 학습 피처 데이터 모양: ', Stack_final_X_train.shape, '스태킹 테스트 피처 데이터 모양: ', Stack_final_X_test.shape)

원본 학습 피처 데이터 모양:  (455, 30) 원본 테스트 피처 모양:  (114, 30)
스태킹 학습 피처 데이터 모양:  (455, 4) 스태킹 테스트 피처 데이터 모양:  (114, 4)


=> 원본 데이터와 스티킹 학습을 통한 데이터 모양은 행 개수는 같으나 열 개수가 다름(4개의 개별 모델 데이터를 합쳐서 4개의 열이 생성됨)

### 3) 최종 메타모델 학습 후 예측/평가

In [81]:
lr_final.fit(Stack_final_X_train, y_train)
stack_final = lr_final.predict(Stack_final_X_test)
total_accuracy = accuracy_score(y_test, stack_final)

print(f'최종 메타모델 정확도: {total_accuracy:.3f}')

최종 메타모델 정확도: 0.974
