# 앙상블 학습

## 앙상블 학습 (Ensemble Learning) 개요

### 앙상블 학습을 통한 분류
- 여러 개의 분류기(Classifier)을 사용해서 예측 결합함으로써 보다 정확한 최종 예측을 도출하는 기법
- 단일 분류기 사용 때보다 신뢰성이 높은 예측값을 얻을 수 있음
- 쉽고 편하면서도 강력한 성능 보유
- 대부분의 정형 데이터 분류 시 뛰어난 성능을 나타냄
- 이미지, 영상, 음성 등의 비정형 데이터 분류 : 딥러닝 성능 뛰어남

### 대표적인 앙상블 알고리즘
- 랜덤 포레스트(Random Forrest)
- 그레디언트 부스팅(Gradient Boosting)

### 앙상블 알고리즘 변화
- 뛰어난 성능, 쉬운 사용, 다양한 활용도로 인해 많이 애용되었고
- 부스팅 계열의 앙상블 알고리즘의 인기와 강세가 계속 이어져
- 기존의 그레디언트 부스팅을 뛰어넘는 새로운 알고리즘 가속화

**최신 앙상블 알고리즘**
- XGBoost
- LightBGM : XGBoost와 예측 성능 유사하면서도 수행 속도 훨씬 빠름
- Stacking : 여러 가지 모델의 결과를 기반으로 메타 모델 수립


XGBoost, LightBGM과 같은 최신 앙상블 알고리즘 한두 개만 잘 알고 있어도
정형 데이터의 분류 또는 회귀 분야에서 예측 성능이 매우 뛰어난 모델을 쉽게 만들 수 있음

## 앙상블 학습 유형
- 보팅(Voting)
- 배깅(Bagging)
- 부스팅(Boosting)
- 스태킹(Stacking)

보팅(Voting) : 여러 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식
- 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합

배깅(Bagging) : 보팅과 동일하게 여러 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식
- 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만, 
- 샘플링을 서로 다르게 하면서 학습 수행
- 대표적인 배깅 방식 : 랜덤 포레스트 알고리즘

![image-2.png](attachment:image-2.png)

보팅 분류기 도식화
- 선형회귀, K최근접 이웃, 서포트 벡터 머신 3개의 ML 알고리즘이
- 같은 데이터 세트에 대해 학습하고 예측한 결과를 가지고
- 보팅을 통해 최종 예측 결과를 선정

배깅 분류기 도식화
- 단일 ML 알고리즘(결정트리)만 사용해서
- 여러 분류기가 각각의 샘플링된 데이터 세트에 대해 학습하고 개별 예측한 결과를
- 보팅을 통해 최종 예측 결과 선정

샘플링 방식 : 부트 스트래핑 분할 방식
- 개별 Classifier에게 데이터를 샘플링해서 추출하는 방식
- 각 샘플링된 데이터 내에는 중복 데이터 포함
- (교차 검증에서는 데이터 세트 간에 중첩 허용하지 않음)

![image.png](attachment:image.png)
https://swalloow.github.io/bagging-boosting/

### 부스팅(Boosting)
- 여러 개의 분류기가 순차적으로 학습 수행하되
- 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측할 수 있도록
- 다음 분류기에게는 가중치(weight)를 부여하면서 
- 학습과 예측을 진행하는 방식
- 예측 성능이 뛰어나 앙상블 학습 주도
- boost : 밀어 올림

**대표적인 부스팅 모듈**
- Gradient Boost
- XGBost(eXtra Gradient Boost)
- LightGBM(Light Gradient Boost)

### 스태킹
- 여러 가지 다른 모델의 예측 결과값을 다시 학습 데이터로 만들어로
- 다른 모델(메타 모델)로 재학습시켜 결과를 예측하는 방식

### 보팅 유형 
- 하드 보팅 (Hard Voting)
- 소프트 보팅 (Soft Voting)

하드 보팅 (Hard Voting)
- 다수결 원칙과 유사
- 예측한 결과값들 중에서 
- 다수의 분류기가 결정한 예측값을
- 최종 보팅 결과값으로 선정

소프트 보팅 (Soft Voting)
- 분류기들의 레이블 값 결정 확률을 평균내서
- 확률이 가장 높은 레이블 값을
- 최종 보팅 결과값으로 선정
- 일반적으로 소프트 보팅이 예측 성능이 좋아서 더 많이 사용

![image-2.png](attachment:image-2.png)

하드 보팅 도식화
- Classifier 1, 2, 3, 4번 4개로 구성
- 분류기 1, 3, 4번 예측 : 레이블 값 1로 예측
- 분류기 2번 예측 : 2로 예측
- 다수결 원칙에 따라서 최종 예측은 레이블 값 1

소프트 보팅  도식화
- 레이블 값1과 레이블 값2에 대한 분류기 별 예측 확률
- 1번 : 0.7, 0.3
- 2번 : 0.2, 0.8
- 3번 : 0.8, 0.2
- 4번 : 0.5, 0.1
- 레이블 값 1예 대한 예측 확률 평균 : 0.64 
- 레이블 값 2예 대한 예측 확률 평균 : 0.35 
- 최종 레이블 값 1로 최종 보팅

## Voting Classifier

### 보팅 방식의 앙상블 예제 : 위스콘신 유방암 데이터 세트 예측 분석  

**위스콘신 유방암 데이터 세트**
- 유방암의 악성종양, 양성종양 여부를 결정하는 이진 분류 데이터 세트
- 종양의 크기, 모양 등의 형태와 관련한 많은 피처 포함
- 사이킷런의 보팅 양식의 앙상블을 구현한 VotingClassifier 클래스를 이용해서 보팅 분류기 생성  
- `load_breast_cancer()` 함수를 통해 위스콘신 유방암 데이터 세트 생성
- 로지스틱 회귀와 KNN 기반으로 소프트 보팅 방식으로 보팅 분류기 생성

### 위스콘신 유방암 데이터 로드

In [1]:
import pandas as pd
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

cancer = load_breast_cancer()
data_df = pd.DataFrame(cancer.data,columns=cancer.feature_names)
data_df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


In [12]:
lr_clf=LogisticRegression()
knn_clf = KNeighborsClassifier(n_neighbors=8)

vo_clf=VotingClassifier(estimators=[('LR',lr_clf),('KNN',knn_clf)],voting='soft')

X_train,X_test,y_train,y_test = train_test_split(cancer.data,cancer.target,test_size=0.2,random_state=156)

In [13]:
import warnings
warnings.filterwarnings('ignore')
vo_clf.fit(X_train,y_train)
pred =vo_clf.predict(X_test)
print('Voting Accuracy : {0:.4f}'.format(accuracy_score(y_test,pred)))

Voting Accuracy : 0.9474


In [14]:
classifiers = [lr_clf,knn_clf]

for classifier in classifiers:
    classifier.fit(X_train,y_train)
    pred = classifier.predict(X_test)
    class_name= classifier.__class__.__name__
    print('{0} 정확도 {1:.4f}'.format(class_name,accuracy_score(y_test,pred)))

LogisticRegression 정확도 0.9386
KNeighborsClassifier 정확도 0.9386


In [15]:
def get_new_feature_name_df(old_feature_name_df):
    feature_dup_df = pd.DataFrame(data=old_feature_name_df.groupby('column_name').cumcount(), columns=['dup_cnt'])
    feature_dup_df = feature_dup_df.reset_index()
    new_feature_name_df = pd.merge(old_feature_name_df.reset_index(), feature_dup_df, how='outer')
    new_feature_name_df['column_name'] = new_feature_name_df[['column_name', 'dup_cnt']].apply(lambda x : x[0]+'_'+str(x[1]) 
                                                                                           if x[1] >0 else x[0], axis=1)
    new_feature_name_df = new_feature_name_df.drop(['index'], axis=1)
    return new_feature_name_df


In [16]:
def get_human_dataset( ):
    
    # 각 데이터 파일들은 공백으로 분리되어 있으므로 read_csv에서 공백 문자를 sep으로 할당.
    feature_name_df = pd.read_csv('C:/Users/SEC/TIL/DS/UCI HAR Dataset/features.txt',sep='\s+',
                        header=None,names=['column_index','column_name'])
    
    # 중복된 feature명을 새롭게 수정하는 get_new_feature_name_df()를 이용하여 새로운 feature명 DataFrame생성. 
    new_feature_name_df = get_new_feature_name_df(feature_name_df)
    
    # DataFrame에 피처명을 컬럼으로 부여하기 위해 리스트 객체로 다시 변환
    feature_name = new_feature_name_df.iloc[:, 1].values.tolist()
    
    # 학습 피처 데이터 셋과 테스트 피처 데이터을 DataFrame으로 로딩. 컬럼명은 feature_name 적용
    X_train = pd.read_csv('C:/Users/SEC/TIL/DS/UCI HAR Dataset/train/X_train.txt',sep='\s+', names=feature_name )
    X_test = pd.read_csv('C:/Users/SEC/TIL/DS/UCI HAR Dataset/test/X_test.txt',sep='\s+', names=feature_name)
    
    # 학습 레이블과 테스트 레이블 데이터을 DataFrame으로 로딩하고 컬럼명은 action으로 부여
    y_train = pd.read_csv('C:/Users/SEC/TIL/DS/UCI HAR Dataset/train/y_train.txt',sep='\s+',header=None,names=['action'])
    y_test = pd.read_csv('C:/Users/SEC/TIL/DS/UCI HAR Dataset/test/y_test.txt',sep='\s+',header=None,names=['action'])
    
    # 로드된 학습/테스트용 DataFrame을 모두 반환 
    return X_train, X_test, y_train, y_test

In [17]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [19]:
X_train, X_test, y_train, y_test = get_human_dataset()

rf_clf = RandomForestClassifier(random_state=0)
rf_clf.fit(X_train,y_train)
pred = rf_clf.predict(X_test)
accuracy=accuracy_score(y_test,pred)
print('랜덤포레스트 정확도 : {0:.4f}'.format(accuracy))

랜덤포레스트 정확도 : 0.9253


In [22]:
from sklearn.model_selection import GridSearchCV

params={
    'n_estimators':[100],'max_depth':[6,8,10,12], 
    'min_samples_leaf':[8,12,18], 'min_samples_split':[8,16,20]
}
rf_clf = RandomForestClassifier(random_state=0,n_jobs=-1)

grid_cv=GridSearchCV(rf_clf,param_grid=params,scoring='accuracy',cv=2,n_jobs=-1)

grid_cv.fit(X_train,y_train)

print('GridSearchCV 최고의 평균 정확도 : {0:.4f}'.format(grid_cv.best_score_))
print('GridSearchCV 최적의 하이퍼 파라미터 :',grid_cv.best_params_)

GridSearchCV 최고의 평균 정확도 : 0.9180
GridSearchCV 최적의 하이퍼 파라미터 : {'max_depth': 10, 'min_samples_leaf': 8, 'min_samples_split': 8, 'n_estimators': 100}


In [21]:
from sklearn.ensemble import GradientBoostingClassifier
import time
import warnings
warnings.filterwarnings('ignore')

X_train, X_test, y_train, y_test = get_human_dataset()

# GBM 수행 시간 측정을 위함. 시작 시간 설정.
start_time = time.time()

gb_clf = GradientBoostingClassifier(random_state=0)
gb_clf.fit(X_train , y_train)
gb_pred = gb_clf.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)

print('GBM 정확도: {0:.4f}'.format(gb_accuracy))
print("GBM 수행 시간: {0:.1f} 초 ".format(time.time() - start_time))


GBM 정확도: 0.9389
GBM 수행 시간: 1501.5 초 


In [None]:
from sklearn.model_selection import GridSearchCV

params = {
    'n_estimators':[100, 500],
    'learning_rate' : [ 0.05, 0.1]
}
grid_cv = GridSearchCV(gb_clf , param_grid=params , cv=2 ,verbose=1)
grid_cv.fit(X_train , y_train)
print('최적 하이퍼 파라미터:\n', grid_cv.best_params_)
print('최고 예측 정확도: {0:.4f}'.format(grid_cv.best_score_))
