In [1]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import os
os.getcwd()

'/content'

In [4]:
path = '/content/drive/MyDrive/DSL session/[DSL] Ensemble'  
os.chdir(path)

In [5]:
os.getcwd()

'/content/drive/MyDrive/DSL session/[DSL] Ensemble'

In [6]:
# Prepare dataset
data = np.loadtxt('data.csv', delimiter=',', dtype=float)
labels = data[:, 0]
features = preprocessing.minmax_scale(data[:, 1:])
X_train, X_test, y_train, y_test = train_test_split(features, labels.ravel(), test_size=0.3)

### 의사결정나무
* random_state = 2022 으로 설정
* 변수명은 dt_clf 로 설정

In [7]:
from sklearn.tree import DecisionTreeClassifier

In [34]:
# 빈 부분 코드 작성
# decision tree
dt_clf = DecisionTreeClassifier(random_state=2022)

In [35]:
# 개별 분류기에 train set 피팅
dt_clf.fit(X_train,y_train)

DecisionTreeClassifier(random_state=2022)

In [36]:
# test셋으로 prediction
dt_pred = dt_clf.predict(X_test)

In [38]:
# 성능 확인
# accuracy_score 계산
accuracy = accuracy_score(y_test , dt_pred)
print('의사결정나무 정확도: {0:.4f}'.format(accuracy))

의사결정나무 정확도: 0.8317


### 랜덤 포레스트
* random_state = 2022
* 변수명 rf_clf 로

In [19]:
from sklearn.ensemble import RandomForestClassifier

In [20]:
# random forest
rf_clf = RandomForestClassifier(random_state=2022)

In [21]:
# 개별 분류기에 train set 피팅
rf_clf.fit(X_train , y_train)

RandomForestClassifier(random_state=2022)

In [22]:
# test셋으로 prediction
rf_pred = rf_clf.predict(X_test)

In [24]:
# 성능 확인
# accuracy_score 계산
accuracy = accuracy_score(y_test , rf_pred)
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy))

랜덤 포레스트 정확도: 0.9604


### Gradient Boost
* random_state = 2022
* 변수명 gb_clf 로

In [29]:
from sklearn.ensemble import GradientBoostingClassifier

In [30]:
# gradient boost
gb_clf = GradientBoostingClassifier(random_state=2022)

In [31]:
# 개별 분류기에 train set 피팅
gb_clf.fit(X_train , y_train)

GradientBoostingClassifier(random_state=2022)

In [32]:
# test셋으로 prediction
gb_pred = gb_clf.predict(X_test)

In [33]:
# 성능 확인
# accuracy_score 계산
gb_accuracy = accuracy_score(y_test, gb_pred)
print('GBM 정확도: {0:.4f}'.format(gb_accuracy))

GBM 정확도: 0.9604


### 보고서 과제
1. voting, bagging, random forest, boosting, adaboost, gradient boost 의 특징 및 장단점을 스스로 정리해보기
2. Boosting의 advanced model 인 XGBoost, LightGBM, CatBoost에 대해 찾아보고 정리해보기

## 앙상블(Ensemble)
: 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법  
  
![이미지](https://discuss.pytorch.org/uploads/default/original/2X/4/4f894bb9c9b381c65a9e851ff8afeb5d48ffa58a.png)    

### 1) Bagging
- Breimen(1994)에 의해 제안
- 주어진 자료에서 여러개의 bootstrap* 자료를 생성 후 각 bootstrap 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법  
(* bootstrap = 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료)
- Voting은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해 최종 결과를 선정하는 과정
- Bagging에서는 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용
- 훈련자료의 모집단의 분포를 모르기 때문에 실제 문제에서는 평균 예측 모형을 구할 수 없음  
  -> Bagging은 이러한 문제를 해결하기 위해 훈련자료를 모집단으로 생각하고 평균예측모형을 구하여 분산을 줄이고 예측력을 향상시킬 수 있음  

### 2) Boosting
- 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법
- Adaboost (Freund & Schapire에 의해 제안) 는 이진분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법 (단, 가중치의 합은 1)  
- GBM(Gradient Boost Machine)도 AdaBoost와 유사하게 동작하지만 경사 하강법(Gradient descent)을 사용하여 가중치 업데이트를 한다는 차이점이 있음

### 3) Random forest
- Breimen(2001)에 의해 개발
- Bagging과 Boosting보다 더 많은 무작위성을 주어 약한 학습기들 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 랜덤한 forest에는 많은 트리들이 생성
- 수천 개의 변수를 통해 변수 제거 없이 실행되므로 좋은 정확도를 보임
- 예측력이 높다는 장점 있지만, 이론적 설명이나 최종 결과에 대한 해석이 어렵다는 단점 존재

## Advanaced Boosting Algorithm
### 1) XGBoost
- 여러개의 의사결정 나무를 조합해서 사용하는 Ensemble 알고리즘
- 병렬 처리를 지원 -> 실행 속도 개선
- 'depth-first' 방식의 가지치기
- Lasso(L1)와 Ridge(L2) 규제를 통해서 모델에 penalty를 부여하여 Overfitting 방지
- "Distributed weighted Quatile sketch" 알고리즘을 사용하여 최적이 분기점을 효율적으로 찾아냄

### 2) LightGBM
- GOSS(Gradient-based One-Side Sampling)는 Information gain을 계산할 때 기울기가 작은 개체에 승수 상수를 적용하여 데이터를 증폭시킴
 -> 이렇게 함으로써 데이터 분포를 많이 변경하지 않아도 훈련이 덜 된 개체에 초점을 보다 잘 맞출 수 있음
- leaf-wise(리프 중심 트리 분할): tree의 균형을 고려하지 않고 최대 손실 값(max data loss)를 가지는 leaf node를 지속적으로 분할하면서 tree의 깊이가 깊어지고 비대칭적인 tree가 생성
 -> 예측 오류 손실을 최소화
- 작은 dataset을 사용할 경우 과적합 가능성이 큼


### 3) CatBoost
- CatBoost의 약자는 Categorical Boosting로, Catergorical feature를 처리하는데 중점을 둔 알고리즘
- ordering principle을 적용한 Orderd Target Statistics(TS)*를 제안, 각 단계마다 다른 무작위 순열을 활용  
 ( *Ts 추정치를 observed history에서만 구하는 방식)
- 그 외 oblivious decision Tree와 feature combination과 같은 방법론도 사용  
> - Olivious descision Tree(망각 결정 트리)는 트리를 분할할 때 동일한 분할 기준이 전체 트리 레벨에서 적용되는 것으로 이는 균형적인 트리를 만들 수 있고 overfitting을 막을 수 있음  
> - Feature combination은 말그대로 범주형 변수의 조합으로 새로운 변수조합을 만드는 것. Greedy 방식으로 이러한 조합을 만들어 트리를 분할할때 이전에 사용된 데이터에서 조합을 찾아내고 TS로 변환하는 방식
- 데이터 대부분이 수치형일 경우 위와같은 알고리즘이 큰 효과를 내기가 어려움.  또한 lightgbm에 비해 학습 속도가 느림

###Reference  
[데이터 에듀] 데이터분석 전문가 제 4권  
https://statinknu.tistory.com/33  
https://mac-user-guide.tistory.com/79 
