# Voting_bagging

### Voting 
 voting 알고리즘의 경우, 여러개의 서로 다른 알고리즘을 이용해서 다수결 원칙으로 결과를 나타내는 알고리즘이다. 사용될 알고리즘은 로지스틱, SVC, decision tree를 이용하였다.

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Voting의 방식
+ hard --> 단순 투표. 개별 모형의 결과 기준
+ soft --> 가중치 투표. 개별 모형의 조건부 확률의 합 기준  

먼저 hard 방식의 voting의 결과이다. hard voting은 classifier의 결과들을 집계하여 가장 많은 표를 얻은 클래스를 최종 예측값으로 정하는 것.

In [2]:
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
log_clf = LogisticRegression(random_state=42)
dt_clf = DecisionTreeClassifier(max_depth=3,random_state=42)
svm_clf = SVC(random_state=42)

voting_clf = VotingClassifier(
    estimators=[('lr', log_clf), ('dt', dt_clf), ('svc', svm_clf)],
    voting='hard')
voting_clf.fit(X_train, y_train)



VotingClassifier(estimators=[('lr',
                              LogisticRegression(C=1.0, class_weight=None,
                                                 dual=False, fit_intercept=True,
                                                 intercept_scaling=1,
                                                 l1_ratio=None, max_iter=100,
                                                 multi_class='warn',
                                                 n_jobs=None, penalty='l2',
                                                 random_state=42, solver='warn',
                                                 tol=0.0001, verbose=0,
                                                 warm_start=False)),
                             ('dt',
                              DecisionTreeClassifier(class_weight=None,
                                                     criterion='gini',
                                                     max_depth=3,
                                                

In [3]:
from sklearn.metrics import accuracy_score

for clf in (log_clf, dt_clf, svm_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.86
DecisionTreeClassifier 0.8866666666666667
SVC 0.9133333333333333
VotingClassifier 0.8866666666666667




다음은 soft 방식의 voting 결과이다. soft voting이란, 절대적 다수결이 아닌 각 모델의 가중치를 주어 그 가중치에 해당하는 결과로 예측을 하는 모형이다.

In [5]:
log_clf = LogisticRegression(random_state=42)
dt_clf = DecisionTreeClassifier(max_depth=3,random_state=42)
svm_clf = SVC(probability=True,random_state=42)

voting_clf = VotingClassifier(
    estimators=[('lr', log_clf), ('dt', dt_clf), ('svc', svm_clf)],
    voting='soft')
voting_clf.fit(X_train, y_train)



VotingClassifier(estimators=[('lr',
                              LogisticRegression(C=1.0, class_weight=None,
                                                 dual=False, fit_intercept=True,
                                                 intercept_scaling=1,
                                                 l1_ratio=None, max_iter=100,
                                                 multi_class='warn',
                                                 n_jobs=None, penalty='l2',
                                                 random_state=42, solver='warn',
                                                 tol=0.0001, verbose=0,
                                                 warm_start=False)),
                             ('dt',
                              DecisionTreeClassifier(class_weight=None,
                                                     criterion='gini',
                                                     max_depth=3,
                                                

In [6]:
for clf in (log_clf, dt_clf, svm_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

LogisticRegression 0.86
DecisionTreeClassifier 0.8866666666666667
SVC 0.9133333333333333
VotingClassifier 0.9




# Bagging
- 하나의 알고리즘을 사용해 학습 데이터셋을 랜덤하게 추출하여 모델을 각각 다르게 학습시키는 방법으로 학습 데이터셋에서 랜덤하게 추출할 때, 중복을 허용하는 방식.  

- classification의 경우 최빈값(mode) 즉, 가장 많은 예측 클래스로 앙상블이 예측하며 regression일 경우에는 각 분류기의 예측값의 평균값을 예측값으로 계산한다.

기존의 decision tree와 bagging을 이용한 방식의 비교를 위해 두가지 모두 구현한다

In [7]:
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)
y_pred_tree = tree_clf.predict(X_test)
print('Accuracy =', accuracy_score(y_test, y_pred_tree))

Accuracy = 0.8533333333333334


In [8]:
from sklearn.ensemble import BaggingClassifier
bag_clf = BaggingClassifier(
    DecisionTreeClassifier(random_state=42), n_estimators=500,
    max_samples=100, bootstrap=True, n_jobs=-1, random_state=42)
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)
print('Accuracy =', accuracy_score(y_test, y_pred))

Accuracy = 0.9266666666666666
