# 앙상블 학습

- voting :  서로 다른 알고리즘을 가진 분류기를 결합

- bagging : 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만, 데이터 샘플링을 서로 다르게(중복될 수 있다)

## 보팅 유형 - hard voting, soft voting

- hard voting

    다수결 원칙과 비슷
    
    예측한 결괏값들 중 다수의 분류기가 결정한 예측값을 최종 보팅 결괏값으로 선정
    
- soft voting
    
    분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해 이들 중 확률이 가장 높은 레이블 값을 최종 보팅 결괏값으로 선정

## 보팅 분류기(voting classifier)

위스콘시 유방암 데이터 세트를 예측 분석하기

위스콘시 유방암 데이터 세트는 유방암의 악성종양, 양성종양 여부를 결정하는 이진 분류 데이터 세트이며 종양의 크기, 모양 들의 형태와 관련한 많은 피처가 있다

로지스틱 회귀와 KNN을 기반으로 보팅 분류기를 만들기

In [5]:
# 라이브러리 불러오기
# 데이터 불러오기

import pandas as pd
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

cancer = load_breast_cancer() # 데이터 세트 로드
cancer.keys() # 딕셔너리 키만 출력

df = pd.DataFrame(cancer.data, columns = cancer.feature_names) # dataframe로 가져오기

df.head(3)

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,radius error,texture error,perimeter error,area error,smoothness error,compactness error,concavity error,concave points error,symmetry error,fractal dimension error,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,1.095,0.9053,8.589,153.4,0.006399,0.04904,0.05373,0.01587,0.03003,0.006193,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,0.5435,0.7339,3.398,74.08,0.005225,0.01308,0.0186,0.0134,0.01389,0.003532,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,0.7456,0.7869,4.585,94.03,0.00615,0.04006,0.03832,0.02058,0.0225,0.004571,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758


- 로지스틱 회귀와 KNN을 기반으로 하여 소프트 보팅 방식으로 보팅 분류기 생성

- VotingClassifier클래스는 estimators(리스트 값으로 보팅에 사용될 여러 개의 classifier 객체들을 튜플 형식으로 입력)와 voting(hard, soft) 값을 입력받는다

In [8]:
# 개별 모델은 로지스틱 회귀와 KNN이다
# 개별 모델 생성

lr = LogisticRegression(solver = 'liblinear')
knn = KNeighborsClassifier(n_neighbors = 8)

# 개별 모델을 soft voting 기반의 앙상블 모델로 구현한 분류기
vo = VotingClassifier(estimators = [('LR', lr), ('KNN', knn)], voting = 'soft')

# 데이터 세트 나누기
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size = 0.2, random_state = 156)

VotingClassifier 학습/예측/평가

In [17]:
# 학습
vo.fit(X_train, y_train)

# 예측
pred = vo.predict(X_test)
print('예측값 : ', pred)
print('\n테스트 레이블 : ', y_test)

# 평가
print('voting 분류기 정확도 : {:.4f}'.format(accuracy_score(y_test, pred)))

예측값 :  [1 0 1 0 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 0 1 0 1 0 0 1 0 1 0 1 1 0 0 1
 1 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 0 1 1 0 1 1 1 0 1 0 1
 1 0 1 1 1 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 1 0 1 0 1 0 0 1 1 0 1 1 1 1 1 1
 1 1 1]

테스트 레이블 :  [1 0 1 0 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 0 1 0 0 0 0 1 0 1 0 1 1 0 0 1
 1 1 1 0 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 0 0 1 1 0 1 1 1 0 1 0 1
 1 0 1 1 1 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 0 1 0 0 1 1 0 1 1 1 1 1 1
 1 1 1]
voting 분류기 정확도 : 0.9561


개별 모델의 학습/예측/평가

In [12]:
classifiers = [lr, knn]
for classifier in classifiers:
    classifier.fit(X_train, y_train) # 학습
    pred = classifier.predict(X_test) # 예측
    class_name = classifier.__class__.__name__ # 클래스 이름 참조하기
    print('{}정확도 : {:.4f}'.format(class_name, accuracy_score(y_test, pred))) # 평가

LogisticRegression정확도 : 0.9474


KNeighborsClassifier정확도 : 0.9386
