In [1]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Prepare dataset
data = np.loadtxt('data.csv', delimiter=',', dtype=float)
labels = data[:, 0]
features = preprocessing.minmax_scale(data[:, 1:])
X_train, X_test, y_train, y_test = train_test_split(features, labels.ravel(), test_size=0.3)

### 의사결정나무
* random_state = 2022 으로 설정
* 변수명은 dt_clf 로 설정

In [3]:
from sklearn.tree import DecisionTreeClassifier

In [38]:
# 빈 부분 코드 작성
# decision tree
dt_clf = DecisionTreeClassifier(splitter='random', random_state=None)

In [39]:
# 개별 분류기에 train set 피팅
dt_clf = dt_clf.fit(X_train, y_train)

In [40]:
# test셋으로 prediction
dt_pred = dt_clf.predict(X_test)

In [41]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, dt_pred))

0.9207920792079208


### 랜덤 포레스트
* random_state = 2022
* 변수명 rf_clf 로

In [9]:
from sklearn.ensemble import RandomForestClassifier

In [10]:
# random forest
rf_clf = RandomForestClassifier(random_state=2022)

In [12]:
# 개별 분류기에 train set 피팅
rf_clf = rf_clf.fit(X_train, y_train)

In [13]:
# test셋으로 prediction
rf_pred = rf_clf.predict(X_test)

In [14]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, rf_pred))

0.9504950495049505


### Gradient Boost
* random_state = 2022
* 변수명 gb_clf 로

In [15]:
from sklearn.ensemble import GradientBoostingClassifier

In [16]:
# gradient boost
gb_clf = GradientBoostingClassifier(random_state=2022)

In [17]:
# 개별 분류기에 train set 피팅
gb_clf = gb_clf.fit(X_train, y_train)

In [18]:
# test셋으로 prediction
gb_pred = gb_clf.predict(X_test)

In [19]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, gb_pred))

0.9504950495049505


### 보고서 과제
1. voting, bagging, random forest, boosting, adaboost, gradient boost 의 특징 및 장단점을 스스로 정리해보기
2. Boosting의 advanced model 인 XGBoost, LightGBM, CatBoost에 대해 찾아보고 정리해보기

#### 1

1. voting : 여러 분류기가 투표를 통해 결정 : 단점 : sample의 갯수가 많은 경우
2. Bagging : 샘플을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계 : 장점 : sample의 갯수가 많은 경우, 단점 : sample을 뽑는 방법 중요
3. random forest : 의사 결정 나무를 이용한 대표적인 bagging 방식 : 장점 : 앙상블의 다양성 획득, 변수의 임의 추출, 다른 앙상블 보델에 비해 해석력이 높음, 단점 : tree의 다양성을 확보해야함
4. Boosting : 여러 분류기가 순차적으로 학습 수행, 이전 학습에서 잘못 예측된 데이터에 가중치 부여 & 오차 보완
5. adaboost : 가중치를 부여한 약 분류기를 모아 강 분류기를 만듬, 장점 : 랜덤 포레스트와 달리 특정 분류기가 다른 분류기보다 더 중요한 것을 고려
6. Gradient boost : 5번이랑 비슷 but 잔차를 줄여나가는 방식 : 단점 : overfitting이 일어날 수 있는 문제가 있다.

#### 2 

- XGBOOST<br>
XGBOOST는 Gradient boosting 알고리즘의 단점을 보완해주기 위해 만들어진 알고리
즘 입니다. 기존에 배운 Gradient boosting은 느리고, 과적합 이슈가 있다는 단점이
있습니다.
이를 해결하기 위해 Gradient Boosting을 조금 더 향상시킨 XGBOOST라는 모델을 만
들게 되었는데 대표적인 장점들을 설명해 드리겠습니다.
첫번째로 Gradient boosting model 보다 빠르다는 장점이 있는데 이는 Parallelized
implementation을 통해 base learner를 만드는 loop의 시간을 단축시켜준다는 점이
긍정적인 영향을 끼칩니다. 그리고 가지치기에서 max_depth까지 트리를 만든다음 밑
부터 위로 올라가는 형식으로 split을 진행한다는 점 또한 빠른 알고리즘 실행이 가
능토록 해줍니다.
두번째로는 과적합 이슈를 해결했다는 점입니다. 기존의 Gradient boosting 알고리과
달리 Regularization Term을 둠으로서 과적합을 방지할 수 있습니다.<br>

- LIGHTGBM<br>
LIGHTGBM은 위에서 말씀드렸던 XGBOOST와 비슷하게 기존 Gradient boosting 알고
리즘을 발전시킨 알고리즘 입니다. LIGHTBOOST는 XGBOOST와 기존 Gradient
boosting에 비해 속도가 빠르다는 장점이 있습니다.
속도가 빨라지게 된 방법으로 Leaf-wise 즉 리프 중심 분할이라는 개념이 있습니다.
앞서 말한 XGBOOST와 Gradient boosting 알고리즘은 트리를 만들 때 균형 트리 분
할을 통해 최대한 균형 잡힌 트리를 만듭니다. 이를 통해 max_depth가 작은 트리가
만들어지고 과적합을 방지할 수 있지만 균형을 맞추는 시간이 오래 걸린다는 단점이
있습니다. 그러나 LIGHTGBM은 균형을 맞추지 않고 최대 손실 값을 가지는 리프노드
를 지속적으로 분할하면서 트리의 깊이가 깊어지고, 비대칭적인 트리가 생성됩니다.
이런 최대 손실 값을 가지는 리프를 계속 분할함으로서 예측 오류 손실을 최소화 시
키면서 과적합이 방지 되게 되는데 단점이 한가지 있습니다. 바로 데이터 수가 적은
경우 과적합이 일어날 수 있다는 점입니다.
<br>
- CATBOOST<br>
Gradient boost는 차에만 포커스를 맞추어 학습하는 것이 매우 이상적이라고 보일지도 모르겠지만 모델이 본적 없는 데이터에는 예측을 잘 하지 못하는 과적합(Overfitting) 문제를 유발할 가능성이 매우 높다는 것이 치명적인 단점
방법 : 주어진 전체 데이터를 임의적으로 N 개의 Fold로 나누어서 각 Fold에 속한 데이터셋들에 Ordered Boosting을 적용
담점 : sparse matrix 즉 결측치가 매우 많은 데이터셋에는 부적합한 모델