# 4.10.1. 스태킹 앙상블

# 스태킹은 여러 개의 개별 모델들이 생성한 예측 데이터를 기반으로 최종 메타 모델이 학습할 별도의 Train / Test 데이터 세트를 재 생성한 후, 메타 모델(Final모델)이 사용 평가.

- 배깅 및 부스팅과의 공통점 : 개별적인 여러 알고리즘을 서로 결합해 예측 결과 도출.
- 배깅 및 부스팅과의 차이점 : 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측 수행. 즉, 개별 알고리즘의 예측 결과 데이터 세트를 최종적인 메타 데이터 세트로 만들어 별도의 ML 알고리즘으로 최종 학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행.

* 현실 모델에 적용하는 경우는 많지 않으며, 일반적으로 성능이 비슷한 모델을 결합해 좀 더 나은 성능 향상을 도출하기 위해 적용한다.

# 그림 1, 2, 3

# 위스콘신 암 데이터 세트에 '스태킹 앙상블 모델' 적용해보기

In [2]:
import numpy as np

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

# 위 4가지 모델의 예측 결과를 합한 데이터 세트로 학습/예측하는 최종 모델은 아래의 로지스틱 회귀이다.
from sklearn.linear_model import LogisticRegression

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

cancer_data = load_breast_cancer()

X_data = cancer_data.data
y_label = cancer_data.target

X_train, X_test, y_train, y_test = train_test_split(X_data, y_label, test_size=0.2, random_state=0)

  return f(*args, **kwds)


## 개별 ML 모델 생성 및 학습 + 만들어진 데이터 세트를 학습, 예측할 최종 모델 LR import

In [3]:
knn_clf = KNeighborsClassifier(n_neighbors=4)
rf_clf = RandomForestClassifier(n_estimators=100, random_state=0)
dt_clf = DecisionTreeClassifier()
ada_clf = AdaBoostClassifier(n_estimators=100)


# 스태킹으로 만들어진 데이터 세트를 학습, 예측할 최종 모델
lr_final = LogisticRegression(C=10)



# 학습

knn_clf.fit(X_train,y_train)
rf_clf.fit(X_train,y_train)
dt_clf.fit(X_train,y_train)  
ada_clf.fit(X_train,y_train)


# 예측
knn_pred = knn_clf.predict(X_test)
rf_pred = rf_clf.predict(X_test)
dt_pred = dt_clf.predict(X_test)
ada_pred = ada_clf.predict(X_test)
# gbm_pred = gbm_clf.predict(X_test)

# 개별 ML 모델들의 정확도 출력

In [4]:
print('KNN 정확도: {0:.4f}'.format(accuracy_score(y_test, knn_pred)))
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy_score(y_test, rf_pred)))
print('DT 정확도: {0:.4f}'.format(accuracy_score(y_test, dt_pred)))
print('ADA 정확도: {0:.4f}'.format(accuracy_score(y_test, ada_pred)))

KNN 정확도: 0.9211
랜덤 포레스트 정확도: 0.9649
DT 정확도: 0.9035
ADA 정확도: 0.9561


# 개별 알고리즘으로부터 에측된 예측값을 칼럼 레벨로 옆으로 붙여서 피처값으로 만들어, 최종 메타모델인 LR에서 학습 데이터로 다시 사용한다.

# 반환된 예측 데이터 세트는 1차원 형태의 ndarray이므로 먼저 반환된 예측 결과를 행 형태로 붙인 뒤, 넘파이의 transpose()를 이용해 행과 열 위치를 바꾼 ndarray로 변환한다

In [6]:
pred = np.array([knn_pred, rf_pred, dt_pred, ada_pred])
print(pred.shape)
# (4열, 114행)

# transpose를 이용해 행과 열의 위치 교환. 칼럼 레벨로 각 알고리즘의 예측 결과를 피처로 만듦.
pred = np.transpose(pred)
print(pred.shape)
# (114열, 4행)

(4, 114)
(114, 4)


# 최종 메타 모델인 LR학습 -> 예측 정확도 측정

In [8]:
lr_final.fit(pred,y_test)
final = lr_final.predict(pred)

print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test, final)))

최종 메타 모델의 예측 정확도: 0.9737




### 최종 메타 모델에서는 개별 모델보다 정확도가 향상됐지만, 이러한 스태킹 기법으로 예측을 한다고 무조건 개별 모델보다는 좋아진다는 보장은 없다.
# 가장 중요한건, '과적합 문제 발생 가능성'.
-> 마지막 메타 모델로 최종 학습할 때 레이블 데이터 세트로 학습 데이터가 아닌 테스트용 레이블 데이터 세트를 기반으로 학습했기에 ...