# 8. 투표기반 앙상블

## 8.1 핵심 개념

**투표기반 앙상블(Voting Ensemble)은 여러 분류기를 학습 시킨 후 각각의 분류기가 예측하는 레이블의 범주중 가장 높은 예측율 보이는 케이스를 추출**하여 예측값을 생성 하는 방법입니다.

![투표기반앙상블](./extrafiles/voting.png)

투표기반 앙상블은 범주기반의 분류(Hard Leaner와 확률 기반의 분류(Soft Leaner) 모두 가능합니다.

## 8.2 scikit-learn

**투표기반 앙상블은 sklearn.ensemble 패키지**에 속해 있습니다. **분류 알고리즘으로는 VotingClassifier, 회귀분석 알고리즘으로는 VotingRegressor** 가 있습니다.


|sklearn.ensemble|Ensemble Methods|
|:--|:--|
|skleanr.ensemble.RandomForestClassifier() |A random forest classifier. |
|skleanr.ensemble.RandomForestRegressor() |A random forest regressor. |
|skleanr.ensemble.RandomTreeEmbedding() |An ensemble of totally random trees.|
|skleanr.ensemble.StackingClassifier() |Stack of estimators with a final classifier.|
|skleanr.ensemble.StackingRegressor() |Stack of esimators with a final regressor. |
|sklearn.ensemble.VotingClassifier() |Soft Voting/Majority Rule classifier for unfittied estimators. |
|sklearn.ensemble.VotingRegressor() |Prediction voting regressor for unfitted estimators. |
|sklearn.ensemble.HistGradientBoostingRegressor() |Histogram-based Gradient Boosting Regression Tree. |
|sklearn.ensemble.HistGradientBoostingClassifier() |Histogram-based Gradient Boosting Classification Tree. |


**VotingClassifier** 에서의 하이퍼파라미터는 vote 입니다. 범주(hard), 확률(soft) 기반으로 투표를 할지를 결정 합니다.  
**VotingRegressor** 에서는 하이퍼 파라미터가 존재하지 않습니다.

|Hyper Parameter||
|:--|:--|
|Voting|hardm soft (Classifier 에서만)|

## 8.3 분석 코드

### Part1. 분류(Classification)

In [1]:
# 경고레벨조정
import warnings
warnings.filterwarnings("ignore")

# 데이터 로드
import pandas as pd
data = pd.read_csv("./extrafiles/breast-cancer-wisconsin.csv", encoding='utf-8')

# 컬럼정보 확인
print(data.columns)

# 독립변수/ 종속변수 분리
X = data[['Clump_Thickness', 'Cell_Size', 'Cell_Shape',
       'Marginal_Adhesion', 'Single_Epithelial_Cell_Size', 'Bare_Nuclei',
       'Bland_Chromatin', 'Normal_Nucleoli', 'Mitoses']]
y = data[['Class']]

# train-test data 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, stratify=y)

# stratify 효과 - 범주형 변수를 유사한 비율로 train / test 데이터로 분리시켜 준다.
print(y_train.mean())
print(y_test.mean())

# 표준화 작업 - MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

Index(['code', 'Clump_Thickness', 'Cell_Size', 'Cell_Shape',
       'Marginal_Adhesion', 'Single_Epithelial_Cell_Size', 'Bare_Nuclei',
       'Bland_Chromatin', 'Normal_Nucleoli', 'Mitoses', 'Class'],
      dtype='object')
Class    0.349609
dtype: float64
Class    0.350877
dtype: float64


In [5]:
# 투표기반 앙상블
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import VotingClassifier

logit_model = LogisticRegression(random_state=42)
rnf_model = RandomForestClassifier(random_state=42)
svm_model = SVC(random_state=42)

voting_hard = VotingClassifier(
    estimators=[('lr', logit_model), ('rf', rnf_model), ('svc', svm_model)], voting='hard'
)

voting_hard.fit(X_scaled_train, y_train)

VotingClassifier(estimators=[('lr', LogisticRegression(random_state=42)),
                             ('rf', RandomForestClassifier(random_state=42)),
                             ('svc', SVC(random_state=42))])

In [7]:
# 정확도 계산
from sklearn.metrics import accuracy_score

# 각 알고리즘별 정확도 출력
for clf in (logit_model, rnf_model, svm_model, voting_hard):
    clf.fit(X_scaled_train, y_train)
    y_pred = clf.predict(X_scaled_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.9590643274853801
RandomForestClassifier 0.9649122807017544
SVC 0.9649122807017544
VotingClassifier 0.9649122807017544


In [13]:
# 로지스틱 회귀모델 혼동행렬 계산
from sklearn.metrics import confusion_matrix
log_pred_train = logit_model.predict(X_scaled_train)
log_confusion_train = confusion_matrix(y_train, log_pred_train)
print("로지스틱 분류기 훈련데이터 오차행렬 : \n", log_confusion_train)

log_pred_test = logit_model.predict(X_scaled_test)
log_confusion_test = confusion_matrix(y_test, log_pred_test)
print("\n로지스틱 분류기 테스트데이터 오차행렬 : \n", log_confusion_test)

로지스틱 분류기 훈련데이터 오차행렬 : 
 [[328   5]
 [  9 170]]

로지스틱 분류기 테스트데이터 오차행렬 : 
 [[106   5]
 [  2  58]]


In [16]:
# SVM 혼동행렬 계산
from sklearn.metrics import confusion_matrix
svm_pred_train = svm_model.predict(X_scaled_train)
svm_confusion_train = confusion_matrix(y_train, svm_pred_train)
print("로지스틱 분류기 훈련데이터 오차행렬 : \n", svm_confusion_train)

svm_pred_test = svm_model.predict(X_scaled_test)
svm_confusion_test = confusion_matrix(y_train, svm_pred_test)
print("\n로지스틱 분류기 테스트데이터 오차행렬 : \n", svm_confusion_test)

로지스틱 분류기 훈련데이터 오차행렬 : 
 [[329   4]
 [  4 175]]


ValueError: Found input variables with inconsistent numbers of samples: [512, 171]