In [9]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


# 데이터 가져오기
cancer = load_breast_cancer()

# 개별 모델은 로지스틱 회귀와 KNN
lr_clf = LogisticRegression()
knn_clf = KNeighborsClassifier(n_neighbors=8)

# 개별 모델을 소프트 보팅 기반의 앙상블 모델로 구현
vo_clf = VotingClassifier(estimators=[("LR", lr_clf), ("KNN", knn_clf)], voting="soft")

x_train, x_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2, random_state =156)


# VotingClassifier 학습/예측/평가
vo_clf.fit(x_train, y_train)
pred = vo_clf.predict(x_test)
print("Voting 분류기 정확도: {0:.4f}".format(accuracy_score(y_test, pred)))


# 개별 모델의 학습/예측/평가
classifiers = [lr_clf, knn_clf]
for cf in classifiers:
    cf.fit(x_train, y_train)
    pred=cf.predict(x_test)
    class_name = cf.__class__.__name__
    print("{0} 정확도: {1:.4f}".format(class_name, accuracy_score(y_test, pred)))

Voting 분류기 정확도: 0.9474
LogisticRegression 정확도: 0.9386
KNeighborsClassifier 정확도: 0.9386


##### 하나만 쓸 때보다 여러개 쓰는게 성능이 좀 더 좋음!

- voting 외에도 다양한 방식이 있음
- bagging, boosting, stacking 등의 방식
- 주로 bagging, boosting 많이 씀