## 앙상블 학습 : 보팅 방식 예제

### 보팅(Voting)

### 보팅 방식의 앙상블 예제 
- 로지스틱 회귀와 K-최근접 이웃 개별 알고리즘 사용  
- 유방암 데이터 세트 예측 분석 
- 보팅 방식으로 결합하고 성능 비교

### 유방암 데이터 세트 예측 모델
- 사용 데이터 세트 : 위스콘신 유방암 데이터 세트
- 데이터 세트 분리 : 테스트용(평가용) 데이터 세트 20%
- 사용하는 ML 알고리즘   
    - 로지스틱 회귀와 KNN 알고리즘을 보팅 방식으로 결합   
- 모델 평가 : 예측 성능 평가 - 정확도  
    - 개별 알고리즘 정확도  
        - LogisticRegression 정확도   
        - KNeighborsClassifier 정확도  
    - Voting 분류기 정확도 

### 보팅 분류기 생성 
- from sklearn.ensemble import VotingClassifier  
- VotingClassifier(estimators, voting)    
    - estimators : [(모델별명, 모델객체), (모델별명1, 모델객체1)]
    - voting 파라미터 : hard/soft (default : hard)

### 유방암 데이터 세트 예측 프로세스
- (1) 데이터 세트 준비 : 위스콘신 유방암 데이터 세트
    - load_breast_cancer()
- (2) 데이터 세트 분리 : 학습 데이터 / 테스트 데이터 세트
- (3) 보팅 분류기 생성 
    - 개별 알고리즘 기반 분류기 생성  
    - 생성된 개별 알고리즘 기반 분류기로 보팅 분류기 생성
- (4) 모델 학습 / 예측 / 평가  
    - 개별 알고리즘 분류기
    - 보팅 분류기

위스콘신 유방암 데이터 세트  
- 유방암의 악성종양, 양성종양 여부를 결정하는 이진 분류 데이터 세트  
- 종양의 크기, 모양 등의 형태와 관련한 많은 피처 포함  
- load_breast_cancer() 함수를 통해 위스콘신 유방암 데이터 세트 생성  
- label이 
    - 0 : malignant(악성 종양)   
    - 1 : benign(양성:정상)  

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

import warnings
warnings.filterwarnings(action='ignore')

import pandas as pd

### (1) 데이터 세트 준비 : 위스콘신 유방암 데이터 세트

In [2]:
import pandas as pd


from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
data_df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
data_df.tail(3)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
566,16.6,28.08,108.3,858.1,0.08455,0.1023,0.09251,0.05302,0.159,0.05648,...,18.98,34.12,126.7,1124.0,0.1139,0.3094,0.3403,0.1418,0.2218,0.0782
567,20.6,29.33,140.1,1265.0,0.1178,0.277,0.3514,0.152,0.2397,0.07016,...,25.74,39.42,184.6,1821.0,0.165,0.8681,0.9387,0.265,0.4087,0.124
568,7.76,24.54,47.92,181.0,0.05263,0.04362,0.0,0.0,0.1587,0.05884,...,9.456,30.37,59.16,268.6,0.08996,0.06444,0.0,0.0,0.2871,0.07039


### (2) 데이터 세트 분리 : 학습 데이터 / 테스트 데이터 세트

In [3]:
from sklearn.model_selection import train_test_split

# 데이터 세트 분리
X_train, X_test, y_train, y_test = train_test_split(cancer.data, 
                                                    cancer.target, 
                                                    test_size=0.2, 
                                                    # stratify=cancer.target,
                                                    random_state=156)

### (3) 보팅 분류기 생성 
- 개별 알고리즘 기반 분류기 생성
- 보팅 분류기

In [4]:
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [6]:
# (1) 개별 알고리즘 분류기 생성
# 로지스틱 회귀와 KNN 사용
lr_clf = LogisticRegression(solver="liblinear")
# solver : 회귀식 관련 최적화 알고리즘(내부의 최적화 자동화 알고리즘)
# liblinear : 양이 적은 데이터 알고리즘 최적화에 적합
# 로지스틱 알고리즘 사용해서 모델(분류기 : Classifier) 생성

# KNN 알고리즘 
knn_clf = KNeighborsClassifier(n_neighbors=8)


In [11]:
# (2) 보팅 분류기 생성
# 소프트 보팅 
# estimators 2 개 : 리스트 형태로 각 분류기에 이름을 붙임
# lr_clf 분류기 : LR
# knn_clf 분류기 : KNN
vo_clf = VotingClassifier(estimators=[("LR", lr_clf), ("KNN", knn_clf)],
                          voting="soft")

### (4) 모델 학습 / 예측 / 평가 수행  
- Voting 분류기 학습 / 예측 / 평가
- 개별 알고리즘 학습 / 예측 / 평가
- 결과 비교

In [13]:
# VotingClassifier 학습/예측/평가
vo_clf.fit(X_train, y_train)
y_pred = vo_clf.predict(X_test)
print(f'Voting 분류기 정확도 : {accuracy_score(y_test, y_pred):.4f}')

# Voting 분류기 정확도 : 0.9561

Voting 분류기 정확도 : 0.9561


In [14]:
# 로지스틱 회귀와 KNN 각 개별 모델의 학습/예측/평가
classifiers = [lr_clf, knn_clf]

for clf in classifiers:
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    clf_name = clf.__class__.__name__
    print(f'{clf_name} 정확도 : {accuracy_score(y_test, y_pred):.4f}')

# LogisticRegression 정확도 : 0.9474
# KNeighborsClassifier 정확도 : 0.9386

LogisticRegression 정확도 : 0.9474


KNeighborsClassifier 정확도 : 0.9386


- 결과
    - 이 데이터에 대해서는 보팅 진행시의 정확도가 개별 알고리즘보다는 약간 높게 나옴
    - 보팅을 결합한다고 해서 무조건 예측 성능이 높아지는 것은 아님
    - 단, 보팅의 배깅, 부스팅 방식은 앙상블을 활용해서 모델 전체의 성능을 높였다고 인식

In [15]:
# 여러가지 평가 지표 확인 

In [17]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score 


# 예측 모델 평가 수행 및 평가 지표 출력하는 함수  작성
def get_clf_eval(y_test, y_pred, pred_proba) :
    cm = confusion_matrix(y_test, y_pred) # 혼동행렬(오차행렬)
    accuracy = accuracy_score(y_test, y_pred) # 정확도
    precision = precision_score(y_test, y_pred) # 정밀도
    recall = recall_score(y_test, y_pred)# 재현율
    f1 = f1_score(y_test, y_pred) # F1 스코어
    roc_auc = roc_auc_score(y_test, pred_proba) # ROC_AUC 스코어
    
    # 출력 
    # 오차행렬
    print("오차행렬 : ", cm)
    # 정확도, 정밀도, 재현율, F1
    print(f"정확도: {accuracy:.4f}, 정밀도: {precision:.4f},  재현율: {recall:.4f}, F1 Score: {f1:.4f}, ROC_AUC : {roc_auc:.4f}")

In [19]:
# (1) VotingClassifier 평가 지표 확인
vo_clf.fit(X_train, y_train)
y_pred = vo_clf.predict(X_test)
# 레이블 값이 1(Positive)일 때의 예측 확률 사용 
pred_proba = vo_clf.predict_proba(X_test)[:, 1]

get_clf_eval(y_test, y_pred, pred_proba)
# 오차행렬 :  [[33  4]
#  [ 1 76]]
# 정확도: 0.9561, 정밀도: 0.9500,  재현율: 0.9870, F1 Score: 0.9682, ROC_AUC : 0.9881

오차행렬 :  [[33  4]
 [ 1 76]]
정확도: 0.9561, 정밀도: 0.9500,  재현율: 0.9870, F1 Score: 0.9682, ROC_AUC : 0.9881


In [20]:
# (2) # 로지스틱 회귀와 KNN 각 개별 모델의 학습/예측/평가
classifiers = [lr_clf, knn_clf]

for clf in classifiers:
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    pred_proba = clf.predict_proba(X_test)[:, 1]
    clf_name = clf.__class__.__name__
    print(f'{clf_name}')
    
    get_clf_eval(y_test, y_pred, pred_proba)
    # 레이블 값이 1(Positive)일 때의 예측 확률 사용 



LogisticRegression
오차행렬 :  [[34  3]
 [ 3 74]]
정확도: 0.9474, 정밀도: 0.9610,  재현율: 0.9610, F1 Score: 0.9610, ROC_AUC : 0.9937


KNeighborsClassifier
오차행렬 :  [[34  3]
 [ 4 73]]
정확도: 0.9386, 정밀도: 0.9605,  재현율: 0.9481, F1 Score: 0.9542, ROC_AUC : 0.9544
