<a href="https://colab.research.google.com/github/seunghuilee91/Deeplearning/blob/master/Ensemble.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)
import sys
sys.path.append("/content/gdrive/My Drive/Colab Notebooks")

# 앙상블


---



## 앙상블 학습이란?
####목적
- 여러 분류기를 하나의 메타 분류기로 연결하여 개별 분류기보다 더 좋은 **일반화** 성능을 달성

####방법
- 여러개 분류 알고리즘 사용 : 다수결 투표(Voting)
- 하나의 분류 알고리즘 이용 : 배깅(Bagging), 부스팅(Boosting)

####종류
- 투표(Majority Voting) : 동일한 훈련세트
- 배깅(Bagging) : 훈련샘플에서 알고리즘 마다 별도의 훈련세트 추출
  - 랜덤포레스트(Random Forest) 
- 부스팅(Boosting) : 샘플 뽑을 때 잘못 분류된 data 50%를 재학습, 또는 가중치 이용     **[셋 중 가장 정확도가 높음, But, 실제로 사용할 때 복잡하고 어렵다. 가중치를 어떻게 구현할 것인가?]**


## 과반수 투표(Majority Voting)
- 방법 : 동일한 훈련세트로 모델 구축


<img src="https://www.researchgate.net/publication/324014302/figure/fig2/AS:644424015040514@1530654066950/Majority-voting-algorithm.png">




## 배깅(Bagging)
- 훈련샘플에서 알고리즘마다 별도의 훈련세트 추출해서 모델 구축
- 부트스트랩(Bootstrap) 실시 : 데이터로 부터 복원추출(중복허용)을 이용

### 랜덤 포레스트(Random Forest)
- 방법
 - 배깅의 일종
 - 단일 분류 알고리즘(DT) 사용
 - 포레스트 구축 : 무작위로 예측변수 선택하여 모델 구축
 - 결과 결합 : 투표(분류), 평균화(예측)
 - 나무구조로 표현(x) -> **변수의 중요도 제공**
 ; 어떤 룰에 의해 어떻게 결정되는지 설명하기 어려운 단점있음

## 부스팅(Boosting)
- 샘플 뽑을 때 잘못 분류된 data 50%를 재학습
- AdaBoost : 전체 훈련샘플 사용하고, 잘못 분류된 data에 가중치 적용-> **더 잘맞출 수 있도록 모델을 재구축 할 수 있게**



# 코드실습


## 과반수투표 VotingClassifier


### 1. 기본 패키지 설치

In [0]:
# 1.기본
import numpy as np # numpy 패키지 가져오기
import matplotlib.pyplot as plt # 시각화 패키지 가져오기

# 2.데이터 가져오기
import pandas as pd # csv -> datafrom으로 전환


In [0]:
# 3.데이터 전처리
from sklearn.preprocessing import StandardScaler # 연속변수의 표준화
from sklearn.preprocessing import LabelEncoder # 범주형 변수 수치화

# 4.훈련/검증용 데이터 분리
from sklearn.model_selection import train_test_split

#5. 분류모델구축
from sklearn.tree import DecisionTreeClassifier # 결정트리
# from sklearn.naive_bayes import GaussianNB # 나이브 베이즈
from sklearn.neighbors import KNeighborsClassifier # K-최근접이웃
# from sklearn.linear_model import Perceptron # 퍼셉트론
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀 모델
# from sklearn.svm import SVC # 서포트 벡터 머신(SVM)
from sklearn.neural_network import MLPClassifier# 다중인공신경망

#6. 앙상블모델 추가
from sklearn.ensemble import VotingClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import RandomForestClassifier

#7. 모델검정
from sklearn.metrics import confusion_matrix, classification_report # 정오분류표
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score # 정확도, 민감도 등
from sklearn.metrics import roc_curve, auc # ROC 곡선 그리기

#8. 최적화
from sklearn.model_selection import cross_validate # 교차타당도
from sklearn.pipeline import make_pipeline # 파이프라인 구축
from sklearn.model_selection import learning_curve, validation_curve # 학습곡선, 검증곡선
from sklearn.model_selection import GridSearchCV # 하이퍼파라미터 튜닝
from sklearn.model_selection import cross_val_score # 교차타당도 # 추가




### 2. 데이터 가져오기
#### 2.1 데이터프레임으로 저장
- 원본데이터(csv)를 dataframe 형태로 가져오기(pandas)


In [0]:
bank_df = pd.read_csv('/content/gdrive/My Drive/Colab Notebooks/Ch06.앙상블/UniversalBank.csv', encoding='UTF-8') # 파이썬 저장 데이터 가져오기
bank_df.head()

In [0]:
bank_df.shape

In [0]:
bank_df.keys()

2.2 Data와 target으로 분리
- 필요한 데이터만 추출
- data: X, target :Y로 분리

In [0]:
X = bank_df.drop(['ID','ZIPCode','PersonalLoan'], axis=1)
X.head()

In [0]:
y = bank_df['PersonalLoan']
np.bincount(y)

### 3. 데이터 전처리
#### 3.1 data(X) 레이블 인코딩
- 문자형 자료를 숫자(범주형)로 인코딩 -> 범주형 변수를 가변수로 처리 : One Hot Encording 
- 숫자형 자료를 표준화
- 단, 결정나무, 랜덤포레스트, 나이브베이즈 분류 : 원본데이터 유지
- 가변수 처리시 문자로 처리를 해야 변수명 구분이 쉬움

In [0]:
X['Education'] = X['Education'].replace([1,2,3],['Under','Grad','Prof'])
X.head() 