In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.datasets import load_iris

import warnings
warnings.filterwarnings('ignore')

# 앙상블학습 : 보팅(voting)

- 여러 예측기(estimator)의 결과들을 투표를 통해 최종 예측 결과로 결정하는 방식
- 일반적으로 서로 다른 알고리즘을 가진 예측기(estimator)를 결합
<br><br>
- Voting: 여러 개의 다른 모델들로부터의 예측값을 투표를 통해 결정하는 방식
    - Hard Voting: 여러 모델들의 예측값 중에서 가장 많이 나온 클래스를 최종 예측값으로 결정 / 다수결 원칙
    - Soft Voting: 모델들의 예측값(확률)을 평균내어, 가장 높은 평균 확률을 가진 클래스를 최종 예측값으로 결정
    - 이 방법은 모델의 신뢰도를 반영할 수 있어 hard voting보다 성능이 좋은 경우가 많다.

### 사이킷런의 보팅 분류기

In [2]:
from sklearn.ensemble import VotingClassifier

sklearn.ensemble.VotingClassifier
- https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingClassifier.html

- estimators : 리스트 값으로 보팅에 사용될 여러 개의 Classifier 객체
    - 모델이름과 객체명을 튜플로 구성한 리스트로 지정
    - 예. [('LR', lr_clf),('KNN', knn_clf)]
        - LinearRegression 객체 lr_clf의 이름을 'LR'
        - KNN 객체 knn_clf 이름을 'KNN'으로 지정
        
    
- voting : 보팅 방식 hard/soft(디폴트 : hard) 

## 실습. 유방암 악성/양성 종양 분류 예측

### 위스콘신 유방암 데이터

- **`sklearn.datasets.load_breast_cancer()`**
- 유방암의 악성종양, 양성종양 여부를 결정하는 이진 분류 데이터 세트
- 종양의 크기, 모양 등의 형태와 관련한 많은 피처 포함

In [3]:
from sklearn.datasets import load_breast_cancer

In [26]:
cancer = load_breast_cancer()
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [5]:
cancer_df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
cancer_df.head(3)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758


In [6]:
cancer.target[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [7]:
cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

### 보팅 분류기(Voting Classifier) 생성

- 로지스틱 회귀와 KNN 기반의 소프트 보팅 방식으로 보팅 분류기 생성

#### 관련 모듈 임포트

In [8]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

#### VotingClassifier 생성

- 개별모델은 로지스틱 회귀와 KNN
- 소프트보팅 방식

In [9]:
# estimators -> 튜플을 갖는 리스트 형태
lr_clf = LogisticRegression()
knn_clf = KNeighborsClassifier(n_neighbors=8)
estimators = [('LR',lr_clf),('KNN', knn_clf)]

vo_clf = VotingClassifier(estimators= estimators)
vo_clf

#### Split Dataset 

In [27]:
train_x, test_x, train_y, test_y = train_test_split(cancer.data, cancer.target, 
                                                    test_size=0.2, random_state=156)

#### VotingClassifier 학습/예측/평가

In [11]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score
from sklearn.metrics import f1_score, roc_auc_score, precision_recall_curve, roc_curve

# 이진 분류 모델의 성능지표
def get_eval_score(test_y, pred, pred_proba_c1= None):
    
    # 혼동행렬(오차행렬)
    confusion = confusion_matrix(test_y, pred)
    # 정밀도(precision)
    precision = precision_score(test_y, pred)
    # 정확도(accuracy_score)
    accuracy = accuracy_score(test_y, pred)
    # 재현율(recall)
    recall = recall_score(test_y, pred)
    # F1 score
    f1 = f1_score(test_y, pred)
    # G-measure -> 정밀도와 재현율의 기하평균 -> np.sqrt(recall_socre*precision_score)
    g = np.sqrt(recall_score(test_y, pred)*precision_score(test_y, pred))

    print(f'confusion matrix:\n{confusion}\n')
    print(f'accuracy: {accuracy:.4f}, precision: {precision:.4f}, recall: {recall:.4f}',end=' ')
    print(f'F1: {f1:.4f}, G: {g:.4f}')
    if pred_proba_c1 is not None:
        auc = roc_auc_score(test_y, pred_proba_c1)
        print(f'auc: {auc:.4f}')

def get_eval_score2(test_y, pred, pred_proba = None):
    
    # 혼동행렬(오차행렬)
    confusion = confusion_matrix(test_y, pred)
    # 정밀도(precision)
    precision = precision_score(test_y, pred, average='macro')
    # 정확도(accuracy_score)
    accuracy = accuracy_score(test_y, pred)
    # 재현율(recall)
    recall = recall_score(test_y, pred, average='macro')
    # F1 score
    f1 = f1_score(test_y, pred, average='macro')
    # G-measure -> 정밀도와 재현율의 기하평균 -> np.sqrt(recall_socre*precision_score)
    g = np.sqrt(recall * precision)

    print(f'confusion matrix:\n{confusion}\n')
    print(f'accuracy: {accuracy:.4f}, precision: {precision:.4f}, recall: {recall:.4f}',end=' ')
    print(f'F1: {f1:.4f}, G: {g:.4f}')
    if pred_proba is not None:
        auc = roc_auc_score(test_y, pred_proba, average='macro', multi_class='ovo')
        print(f'auc: {auc:.4f}')
    print()

In [12]:
vo_clf.fit(train_x, train_y)
pred = vo_clf.predict(test_x)
print(f'보팅을 통한 분류기 정확도: {accuracy_score(test_y, pred):.4f}')

보팅을 통한 분류기 정확도: 0.9386


In [13]:
get_eval_score(test_y, pred)

confusion matrix:
[[35  2]
 [ 5 72]]

accuracy: 0.9386, precision: 0.9730, recall: 0.9351 F1: 0.9536, G: 0.9538


문제. soft voting으로 학습

In [14]:
vo_clf_soft = VotingClassifier(estimators= estimators, voting='soft')
vo_clf_soft.fit(train_x, train_y)
pred_soft = vo_clf_soft.predict(test_x)
get_eval_score(test_y, pred_soft)

confusion matrix:
[[32  5]
 [ 1 76]]

accuracy: 0.9474, precision: 0.9383, recall: 0.9870 F1: 0.9620, G: 0.9623


#### 참고. 개별 모델별 학습/예측/평가

In [15]:
classifiers = [lr_clf, knn_clf]
for clf in classifiers:
    clf.fit(train_x, train_y)
    pred_y = clf.predict(test_x)
    pred_proba = clf.predict_proba(test_x)[:,1]
    print(clf)
    get_eval_score(test_y, pred_y, pred_proba)
    print('-------------------')

LogisticRegression()
confusion matrix:
[[32  5]
 [ 2 75]]

accuracy: 0.9386, precision: 0.9375, recall: 0.9740 F1: 0.9554, G: 0.9556
auc: 0.9881
-------------------
KNeighborsClassifier(n_neighbors=8)
confusion matrix:
[[34  3]
 [ 4 73]]

accuracy: 0.9386, precision: 0.9605, recall: 0.9481 F1: 0.9542, G: 0.9543
auc: 0.9544
-------------------


#### 결정트리를 추가하여 하드보팅과 소프트보팅으로 학습하여 성능평가

In [16]:
dt_clf = DecisionTreeClassifier(random_state=156)
lr_clf = LogisticRegression()
knn_clf = KNeighborsClassifier(n_neighbors=8)
estimators = [('LR',lr_clf),('KNN', knn_clf),('DT',dt_clf)]

- 하드보팅으로 학습

In [17]:
# 하드 보팅
vo_clf = VotingClassifier(estimators= estimators, voting='hard')

vo_clf.fit(train_x, train_y)

pred_y = vo_clf.predict(test_x)
print(f'하드보팅 accuracy: {accuracy_score(test_y, pred_y):.4f}')

하드보팅 accuracy: 0.9386


- 소프트보팅으로 학습

In [18]:
# 소프트 보팅
vo_clf_soft = VotingClassifier(estimators=estimators, voting='soft')

vo_clf_soft.fit(train_x, train_y)

pred_soft = vo_clf_soft.predict(test_x)
print(f'소프트 보팅 accuracy: {accuracy_score(test_y, pred_soft):.4f}')

소프트 보팅 accuracy: 0.9386


- 개별 모델별 학습/예측/평가

In [28]:
classifiers = [dt_clf, lr_clf, knn_clf]
for clf in classifiers:
    clf.fit(train_x, train_y)
    pred_y = clf.predict(test_x)
    pred_proba = clf.predict_proba(test_x)[:,1]
    print(clf)
    get_eval_score(test_y, pred_y, pred_proba)
    print('-------------------')

DecisionTreeClassifier()
confusion matrix:
[[33  4]
 [ 2 75]]

accuracy: 0.9474, precision: 0.9494, recall: 0.9740 F1: 0.9615, G: 0.9616
auc: 0.9330
-------------------
LogisticRegression()
confusion matrix:
[[32  5]
 [ 2 75]]

accuracy: 0.9386, precision: 0.9375, recall: 0.9740 F1: 0.9554, G: 0.9556
auc: 0.9881
-------------------
KNeighborsClassifier(n_neighbors=8)
confusion matrix:
[[34  3]
 [ 4 73]]

accuracy: 0.9386, precision: 0.9605, recall: 0.9481 F1: 0.9542, G: 0.9543
auc: 0.9544
-------------------


-------------------------------------------------

### 정리

**ensemble**

앙상블 학습: 여러 개의 학습 알고리즘을 결합하여 보다 높은 정확도의 예측 모델을 구축하는 방법론 
- 여기서 voting, bagging, stacking은 앙상블 학습을 구현하는 대표적인 방법이다.

1. Voting
- Voting: 여러 개의 다른 모델들로부터의 예측값을 투표를 통해 결정하는 방식
    - Hard Voting: 모델들의 예측값 중에서 가장 빈번하게 나온 클래스를 최종 예측값으로 결정 / 다수결 원칙
    - Soft Voting: 모델들의 예측값(확률 = predict_proba())을 평균내어, 가장 높은 평균 확률을 가진 클래스를 최종 예측값으로 결정
    - 이 방법은 모델의 신뢰도를 반영할 수 있어 hard voting보다 성능이 좋은 경우가 많다.

2. Bagging
- Bagging(Bootstrap Aggregating): 하나의 알고리즘으로 여러 개의 모델을 병렬로 훈련시키는 방법
    - 각 모델은 원본 데이터셋에서 부트스트랩(복원 랜덤 샘플링)을 통해 생성된 서로 다른 서브셋을 사용하여 훈련
    - 그 후, 모든 모델의 예측값을 평균(회귀의 경우) 또는 투표(분류의 경우)하여 최종 결과를 도출
    - 대표적인 예로 랜덤 포레스트가 있다.

3. Stacking
- Stacking: 여러 다른 모델들의 예측값을 새로운 데이터셋으로 사용하여, 그 위에 다른 모델을 훈련시켜 최종 예측을 수행하는 방법
    - 기본적으로, 첫 번째 레벨의 여러 모델들이 예측값을 생성하고, 이 예측값들을 입력으로 사용하여 두 번째 레벨의 모델이 최종 예측
    - 이 과정은 더 많은 레벨로 확장될 수 있다. Stacking은 모델 간의 강점을 결합하여 더 정확한 예측을 도출하는 데 유용
