In [1]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Prepare dataset
data = np.loadtxt('data.csv', delimiter=',', dtype=float)
labels = data[:, 0]
features = preprocessing.minmax_scale(data[:, 1:])
X_train, X_test, y_train, y_test = train_test_split(features, labels.ravel(), test_size=0.3)

### 의사결정나무
* random_state = 2022 으로 설정
* 변수명은 dt_clf 로 설정

In [3]:
from sklearn.tree import DecisionTreeClassifier

In [4]:
# 빈 부분 코드 작성
# decision tree
dt_clf = DecisionTreeClassifier(random_state=2022)

In [5]:
# 개별 분류기에 train set 피팅
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=2022)

In [7]:
# test셋으로 prediction
dt_pred = dt_clf.predict(X_test)

In [8]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, dt_pred))

0.900990099009901


### 랜덤 포레스트
* random_state = 2022
* 변수명 rf_clf 로

In [10]:
from sklearn.ensemble import RandomForestClassifier

In [11]:
# random forest
rf_clf = RandomForestClassifier(random_state=2022)

In [13]:
# 개별 분류기에 train set 피팅
rf_clf.fit(X_train, y_train)

RandomForestClassifier(random_state=2022)

In [15]:
# test셋으로 prediction
rf_pred = rf_clf.predict(X_test)

In [16]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, rf_pred))

0.9603960396039604


### Gradient Boost
* random_state = 2022
* 변수명 gb_clf 로

In [18]:
from sklearn.ensemble import GradientBoostingClassifier

In [19]:
# gradient boost
gb_clf = GradientBoostingClassifier(random_state=2022)

In [20]:
# 개별 분류기에 train set 피팅
gb_clf.fit(X_train, y_train)

GradientBoostingClassifier(random_state=2022)

In [21]:
# test셋으로 prediction
gb_pred = gb_clf.predict(X_test)

In [22]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, gb_pred))

0.9702970297029703


### 보고서 과제
1. voting, bagging, random forest, boosting, adaboost, gradient boost 의 특징 및 장단점을 스스로 정리해보기
2. Boosting의 advanced model 인 XGBoost, LightGBM, CatBoost에 대해 찾아보고 정리해보기

In [None]:
'''
1.
    1) voting
        - 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하지만, 같은 데이터셋에 대해 
        분류기의 종류가 다르다.
    2) bagging
        - 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하지만, 서로 다른 데이터셋으로 샘플링하며 
        같은 종류의 분류기를 사용한다. 장점으로 과대적합에 강하지만, 단점으로 특정 영역에서 정확도가 낮다.
    3) random forest
        - 대표적인 bagging 방식 알고리즘이다. 결정 트리를 여러개 만들어 예측을 수행한다. 특히 변수의 특성을
        임의추출하여 트리를 만들어 트리끼리의 독립성을 높이고, 변수 중요도를 계산할 수 있다.
    4) boosting
        - bagging 처럼 데이터셋에서 샘플링하여 여러 번 학습을 진행하는 것은 같지만, bagging은 여러 분류기가
        동시에 병렬적으로 진행되는 것에 반해 boosting은 잘못 분류한 데이터에 가중치를 부여해
        순차적으로 학습이 진행된다. 장점으로 높은 정확도를 보여주고, 단점으로는 이상치에 취약하다.
    5) adaboost
        - 여러 결정 트리를 만들어가는 과정에서 오분류된 데이터에 가중치를 더 부여해서 분류해가는 알고리즘이다.
        Random forest와는 달리 특정 분류기가 다른 분류기보다 더 중요한가를 고려하여 선택한다. 
        
    6) gradient boost
        - 예측치와 데이터간의 차이인 잔차를 예측해나가는 방식으로 오분류를 줄여나가는 알고리즘이다.
        
2.
    1) XGBoost
        - gradient boost 알고리즘을 병렬 학습이 지원되도록 구현하도록 하는 알고리즘이다. 기존 boosting 모델
        보다 수행시간이 빠르며, 규제화 및 early stopping이 가능하며 인기 있게 사용되는 알고리즘이다.
    2) LightGBM
        - 이 역시 gradient boost 알고리즘을 사용하지만, 다른 트리 기반 알고리즘들은 level 기반으로 확장되는데
        반해, LightGBM은 leat 기반으로 확장이 되어 속도가 빠르다는 장점이 있다. 반면 이 특징으로 인해
        데이터의 수가 적을 경우 오버피팅이 일어나기 쉬운 단점이 있다.
        이 역시 인기 있게 사용되는 알고리즘이다.
    3) CatBoost
        - gradient boost 알고리즘의 단점인 오버피팅을 해결하면서 학습속도를 개선한 모델이다.
        또한 hyperparameter에 민감한 문제 역시 해결하는데 초점을 맞추었다. 
        학습을 진행하는 과정에서 데이터셋을 나누어 학습을 진행하는데, 만약 데이터가
        x1, x2, x3, x4, x5 이렇게 존재할 때 x1, x2로 학습한 후 x3에 대한 잔차를 만든다. 그 후 x4를 예측한다.
        그 다음으로 x1, x2, x3로 학습한 후 x4에 대한 잔차를 만들고, x5를 예측한다. 이처럼 시계열 데이터가
        아닌 경우에도 임의의 시계열처럼 생각하여 부스팅을 진행한다. 유의할 점은 이를 수행하기 위해 
        랜덤으로 permutation 해주는 과정도 포함되어 있다는 것이다.
        
'''