# <font color = 'green'>앙상블 학습 p.211~
    
- **여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 에측을 도출하는 기법** 

- 대부분의 **정형 데이터 분류** 시에는 앙상블이 뛰어난 성능을 나타낸다.


- 전반적으로 다른 단일 ML 알고리즘보다 **뛰어난 예측 성능**을 지님


- 쉽고 편하면서 강력한 성능 보유


- ***앙상블 알고리즘의 대표***
    - **랜덤 포레스트**
    - **그래디언트 부스팅 알고리즘**
    - **XGBoost** 
    - **LightGBM** : XGBoost와 유사한 예측 성능 & 빠른 수행 속도
    - **스태킹** : 여러 가지 모델의 결과를 기반으로 메타 모델을 수립
    
    
- **앙상블 학습 유형**
    - **<font color = 'Navy'>보팅**
        - 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식
        - 일반적으로 **서로 다른 알고리즘을 가진 분류기**를 결합
        - 다른 ML 알고리즘이 같은 데이터 세트에 대해 학습하고, 예측한 결과를 가지고 보팅을 통해 최종 예측 결과 선정 
        
    - **<font color = 'Navy'>배깅**
        - 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식
        - 각각의 분류기가 모두 같은 유형의 알고리즘 기반
        - 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행해 보팅을 수행함
        - 부트스트래핑(Booststrapping) 분할 방식 : 개별 분류기에게 데이터를 샘플링해서 추출하는 방식
        - 데이터 세트간에 중첩을 허용
        - **결정 트리 알고리즘 기반**
        - **랜덤 포레스트 알고리즘**
        
    - **<font color = 'Navy'>부스팅**
        - 여러 개의 분류기가 순차적으로 학습을 수행하되, 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측할 수 있도록 다음 분류기에게는 가중치(weight)를 부여하면서 학습과 예측을 진행하는 것.
        - 뛰어난 예측 성능
        - **그래디언트 부스트, XGBoost, LightGBM(Light Gradient Boost)**
        - **결정 트리 알고리즘 기반**
    
    - **<font color = 'Navy'>스태깅**
        - 여러 가지 다른 모델의 예측 결괏값을 다시 학습 데이터로 만들어서 다른 모델(메타 모델)로 재학습시켜 결과를 예측하는 방법
        - **서로 다른 알고리즘 기반**

## ✔ 배깅
![title](배깅.png)

## ✔ 보팅 유형 - 하드 보팅과 소프트 보팅


![title](보팅.png)


- **소프트 보팅**
    - 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 이들 중 확률이 가장 놓은 레이블 값을 최종 보팅 결괏값으로 선정
    - 일반적인 보팅 방법(하드 보팅보다 예측 성능 우수)
    
    
- **하드 보팅**
    - 예측한 결괏값들 중 다수의 분류기가 결정한 예측값을 최종 보팅 결괏값으로 선정
    - 다수결의 원칙

## ➕ KNN 알고리즘

출처 : https://www.youtube.com/watch?v=QRWNto6BsfY


- K-Nearest Neighbor

- KNN은 비지도학습의 간단한 옛

- 다양한 레이블 데이터 중에서 자신과 가까운 데이터를 찾아 자신의 레이블을 결정하는 방식

## ✔ 보팅 분류기(Voting Classifier)


In [3]:
# 보팅 방식의 앙상블을 이용해 위스콘신 유방암 데이터 세트 예측 분석
# 위스콘신 유방암 데이터 세트는 유방암의 악성종양, 양성종양 여부를 결정하는 이진 분류 데이터 세트
# 로지스틱 회귀와 KNN기반의 보팅 분류기 생성
 
import pandas as pd

from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer # 위스콘신 유방암 데이터 세트 불러오기
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

cancer = load_breast_cancer()

data_df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
data_df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


### VotingClassifier(estimators, voting)
- estimators : 리스트 , 보팅에 사용될 여러 개의 Classifier 객체들을 튜플 형식으로 입력
- voting : hard/soft 중 택1하여 입력. 디폴트는 hard

In [9]:
# 개별 모델은 로지스틱 회귀와 KNN
lr_clf = LogisticRegression()
knn_clf = KNeighborsClassifier(n_neighbors = 8)

# 개별 모델을 소프트 보팅 기반의 앙상블 모델로 구현한 분류기
vo_clf = VotingClassifier(estimators=[('LR',lr_clf),('KNN',knn_clf)], voting='soft')

x_train, x_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.2, random_state=156)

# VotingClassifier 학습/예측/평가
vo_clf.fit(x_train, y_train)
pred = vo_clf.predict(x_test)
print('Voting 분류기 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))


# 개별 모델의 학습/예측/평가.
classifiers = [lr_clf, knn_clf]
for classifier in classifiers:
    classifier.fit(x_train , y_train)
    pred = classifier.predict(x_test)
    class_name= classifier.__class__.__name__
    print('{0} 정확도: {1:.4f}'.format(class_name, accuracy_score(y_test , pred)))

Voting 분류기 정확도: 0.9474
LogisticRegression 정확도: 0.9386
KNeighborsClassifier 정확도: 0.9386


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## ✔ 마무리

- 편향 - 분산 트레이드오프는 ML모델이 극복해야 할 중요 과제


- 보팅과 스태킹 : 서로 다른 알고리즘 기반


- 배깅과 부스팅 : 대부분 결정 트리 알고리즘 기반
    - 결정트리 알고리즘은 쉽고 직관적인 분류 기준을 가짐
    - 과적합이 발생해 예측성능이 떨어지는 현상이 발생하기 쉬움


- 앙상블 학습이 결정 트리 알고리즘의 단점을 극복하게 해줌
    - 결정 트리 알고리즘의 장점은 그대로 취하고 단점은 보완
    - 편향 - 분산 트레이드오프의 효과를 극대화