In [1]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Prepare dataset
data = np.loadtxt('data.csv', delimiter=',', dtype=float)
labels = data[:, 0]
features = preprocessing.minmax_scale(data[:, 1:])
X_train, X_test, y_train, y_test = train_test_split(features, labels.ravel(), test_size=0.3)

### 의사결정나무
* random_state = 2022 으로 설정
* 변수명은 dt_clf 로 설정

In [3]:
from sklearn.tree import DecisionTreeClassifier

In [4]:
# 빈 부분 코드 작성
# decision tree
dt_clf = DecisionTreeClassifier(random_state=2022)

In [5]:
# 개별 분류기에 train set 피팅
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=2022)

In [6]:
# test셋으로 prediction
dt_pred = dt_clf.predict(X_test)

In [7]:
# 성능 확인
# accuracy_score 계산
accuracy=accuracy_score(y_test, dt_pred)
print('의사결정나무 정확도: {0:.4f}'.format(accuracy))

의사결정나무 정확도: 0.8713


### 랜덤 포레스트
* random_state = 2022
* 변수명 rf_clf 로

In [8]:
from sklearn.ensemble import RandomForestClassifier

In [9]:
# random forest
rf_clf = RandomForestClassifier(random_state=2022)

In [10]:
# 개별 분류기에 train set 피팅
rf_clf.fit(X_train, y_train)

RandomForestClassifier(random_state=2022)

In [11]:
# test셋으로 prediction
rf_pred = rf_clf.predict(X_test)

In [12]:
# 성능 확인
# accuracy_score 계산
accuracy=accuracy_score(y_test, rf_pred)
print('랜덤포레스트 정확도: {0:.4f}'.format(accuracy))

랜덤포레스트 정확도: 0.9406


### Gradient Boost
* random_state = 2022
* 변수명 gb_clf 로

In [13]:
from sklearn.ensemble import GradientBoostingClassifier

In [14]:
# gradient boost
gb_clf = GradientBoostingClassifier(random_state=2022)

In [15]:
# 개별 분류기에 train set 피팅
gb_clf.fit(X_train, y_train)

GradientBoostingClassifier(random_state=2022)

In [16]:
# test셋으로 prediction
gb_pred =gb_clf.predict(X_test)

In [17]:
# 성능 확인
# accuracy_score 계산
accuracy=accuracy_score(y_test, gb_pred)
print('Gradient Boost 정확도: {0:.4f}'.format(accuracy))

Gradient Boost 정확도: 0.9505


### 보고서 과제
1. voting, bagging, random forest, boosting, adaboost, gradient boost 의 특징 및 장단점을 스스로 정리해보기
2. Boosting의 advanced model 인 XGBoost, LightGBM, CatBoost에 대해 찾아보고 정리해보기


## *1.*
1. **Voting**  
여러개의 서로 다른 알고리즘을 가진 분류기로 나누어 같은 데이터셋을 학습한 후, 결과물을 조합하여 최종 투표하는 방식이다. 다수의 분류기가 예측한 결과값으로 최종결과값을 선정하는 Hard voting과, 모든 분류기가 예측한 확률값을 평균내어,가장 확률이 높은 값으로 선정하는 Soft voting으로 나뉘며 주로, 합리적인 Soft voting을 사용한다.

2. **Bagging**  
같은 알고리즘 유형의 모델들로 학습하지만, 데이터 샘플링(복원추출)을 다르게 해서 학습 데이터셋이 각각 다르고, 결과물을 조합하여 최종 투표하는 방식이다.
*   장점: 단일 model을 활용했을 때보다 Variance를 줄일 수 있다. Overfitting 방지를 할 수 있다.

3. **Random forest**  
의사결정나무를 이용한 대표적인 Bagging 방식으로, 앙상블의 다양성을 추가로 확보하기 위해 변수의 임의 추출 방식을 사용한다. 
*   변수의 임의 추출: **변수**의 임의 추출을 통해 tree의 다양성을 확보할 수 있다. 변수 임의 추출을 하게 되면 변수 중복이 줄어 개별 모형들 사이의 상관관계가 줄어들기 때문에 모형 성능의 변동이 감소하여 안정성을 갖추게 되는 효과가 있다.
> 변수를 임의 추출하기 때문에, 포레스트 안에서 information gain을 비교함으로써, 어떤 독립변수가 중요한지 간접적인 방식으로 변수중요도를 비교하고 해석할 수 있다.

4. **Boosting**  
여러개의 분류기가 순차적으로 학습을 수행하며, 이전 학습에서 잘못 예측된 데이터에 가중치를 부여해 오차를 보완해 나가는 방식이다.
*   장점: 더 예측이 어려운 관찰치 혹은 영역을 반복적으로 학습가능, 지속적 반복학습을 통해 이 영역에 더 정확한 예측 가능, 각 반복학습을 통합해 최종예측 수행
*   단점: 순차적알고리즘으로 병렬처리에 어려움이 있어, 학습시간이 다른 앙상블기법에 비해 오래걸린다. 

5. **Adaboost**  
가중치를 부여한 약 분류기를 모아서 최종적인 강분류기를 생성하는 기법
(1명의 천재< 10명의 평범한 사람)
* 특징: 랜덤포레스트와는 달리, 특정 분류기가 다른 분류기보다 더 중요한것을 고려하여 가중치를 차별하여 부여(분류기 별 가중치 차별화)
> 오분류된 데이터에 가중치 높게 설정

6. **Gradient boost**  
약분류기들을 결합한 강분류기를 사용하는 것은 동일 Residual Fitting이 특징이다. (잔차를 예측하는 방식)-> 그렇기 때문에 overfitting위험이 있음.
---
## *2.*
1. **XGBoost**  
 GBM은 잔여오차를 줄이는 방법으로 약한 학습기를 결합해서 높은 성능을 보이는 반면, 훈련데이터의 잔여오차를 계속해서 줄이기 때문에 과적합이 발생되기 쉽다. XGBoost는 GBM의 이러한 단점을 보완하여 높은 예측성능을 보이며 속도도 빠르게 수행하는 알고리즘이다. XGBoost는 병렬처리를 통해 빠른 학습을 하고, learning system이 유연하다. 또한, overfitting방지를 위한 설계가 되어있으며 다양한 시나리오에 대한 확장성을 가지고 있는 것이 특징이자 장점이다. 

2. **LightGBM**  
LightGBM은 대부분의 트리가 균형을 맞추며 분할하는 반면, 트리의 균형을 맞추지 않고, ’Leaf-wise(리프 중심)’로 분할되며 트리가 비대칭적인(균형 유지X) 트리를 생성하며(수직적으로 확장)커져서 예측 오류 손실을 최소화한다.

3. **CatBoost**  
XGBoost 와 더불어 Catboost 는 Level-wise 로 트리를 만들어나간다. 순열 기반의 대안인 ordered boosting이 특징이며, 범주형 피처처리를 위한 알고리즘이 도입됐다. 단점으로는 Sparse 한 Matrix 는 처리하지 못한다. 데이터 대부분이 수치형 변수인 경우, Light GBM 보다 학습 속도가 느리다. 속도측면에서 범주형변수에 사용하는게 적합하다.


