In [1]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Prepare dataset
data = np.loadtxt('data.csv', delimiter=',', dtype=float)
labels = data[:, 0]
features = preprocessing.minmax_scale(data[:, 1:])
X_train, X_test, y_train, y_test = train_test_split(features, labels.ravel(), test_size=0.3)

### 의사결정나무
* random_state = 2022 으로 설정
* 변수명은 dt_clf 로 설정

In [4]:
from sklearn.tree import DecisionTreeClassifier

In [15]:
# 빈 부분 코드 작성
# decision tree
dt_clf = DecisionTreeClassifier(random_state = 2022)

In [16]:
# 개별 분류기에 train set 피팅
dt_clf = dt_clf.fit(X_train, y_train)

In [17]:
# test셋으로 prediction
dt_pred = dt_clf.predict(X_test)

In [18]:
# 성능 확인
# accuracy_score 계산
from sklearn.metrics import accuracy_score

accuracy_score(y_test, dt_pred)

0.8613861386138614

### 랜덤 포레스트
* random_state = 2022
* 변수명 rf_clf 로

In [19]:
from sklearn.ensemble import RandomForestClassifier

In [20]:
# random forest
rf_clf = RandomForestClassifier(random_state = 2022)

In [21]:
# 개별 분류기에 train set 피팅
rf_clf = rf_clf.fit(X_train, y_train)

In [22]:
# test셋으로 prediction
rf_pred = rf_clf.predict(X_test)

In [23]:
# 성능 확인
# accuracy_score 계산
accuracy_score(y_test, rf_pred)

0.9702970297029703

### Gradient Boost
* random_state = 2022
* 변수명 gb_clf 로

In [24]:
from sklearn.ensemble import GradientBoostingClassifier

In [25]:
# gradient boost
gb_clf = GradientBoostingClassifier(random_state = 2022)

In [26]:
# 개별 분류기에 train set 피팅
gb_clf = gb_clf.fit(X_train, y_train)

In [27]:
# test셋으로 prediction
gb_pred = gb_clf.predict(X_test)

In [28]:
# 성능 확인
# accuracy_score 계산
accuracy_score(y_test, gb_pred)

0.9801980198019802

### 보고서 과제
1. voting, bagging, random forest, boosting, adaboost, gradient boost 의 특징 및 장단점을 스스로 정리해보기
2. Boosting의 advanced model 인 XGBoost, LightGBM, CatBoost에 대해 찾아보고 정리해보기

In [None]:
voting: 여러 개의 분류기가 투표를 통해 결정하는 방식, 하나의 dataset
- hard voting: 다수의 분류기가 예측한 결과값을 최종 결과로 선정
- soft voting: 모든 분류기가 예측한 값의 확률 값을 평균 내 가장 확률이 높은 값을 최종 결과로 선정
hard < soft

In [None]:
bagging(Bootstrap Aggregating): dataset을 여러 번 뽑아 각 모델을 학습시켜 결과물을 집계하는 방법
                                즉, 서로 다른 dataset을 복원추출 & 학습시킨 뒤, 이에 대한 투표로 결정
장점: 단일 model을 활용했을 때보다 variance를 줄이는 효과 & 과적합 방지에 효과적

In [None]:
random forest: 의사결정나무(Decision Forest)를 이용한 대표적인 bagging
                앙상블의 다양성을 추가로 확보하기 위해 변수의 임의 추출 방식을 사용
- 변수를 임의추출하기 때문에 Decision Forest보다 tree의 다양성을 확보하고,
    개별 모형들 사이의 상관관계가 줄어들기 때문에 모형 성능의 변동이 감소하는 효과를 가진다.
- out of Bag: 복원추출 시 36.8% 정도의 data는 한번도 사용되지 않음 -> test_set으로 활용
- 간접적인 방식으로 변수 중요도를 계산할 수 있음

In [None]:
Boosting: 여러 개의 분류기가 순차적으로 학습 수행
            이전 학습에서 잘못 예측된 데이터에 가중치를 부여해 오차를 보완해 나감
            지속적인 반복학습을 통해 이 영역에 더 정확한 예측 가능
단점: 순차적이므로 병렬 처리에 어려움이 있고 다른 앙상블 대비 학습 시간이 오래 걸림

In [None]:
AdaBoost(Adaptive Boosting): 가중치를 부여한 약분류기(weak classifier)를 모아서
                            최종적인 강분류기(strong classifier)를 생성
- 랜덤 포레스트와는 달리 특정 분류기가 다른 분류기보다 더 중요한 것을 고려하여 가중치 부여

In [None]:
Gradient Boost: 약분류기들을 결합한 강분류기 사용
    "Residual Fitting" tree_n의 잔차를 tree_(n+1)이 다시 예측 -> 점점 잔차를 줄여나감

In [None]:
XGBoost: Boosting + 병렬학습
- regression, classification 모두 지원, 성능과 자원 효율이 좋아서 인기 있는 알고리즘
장점
    1. GBM 대비 빠른 수행 시간
    2. 자체적인 과적합 규제
    3. 분류와 회귀에서 뛰어난 예측 성능 (CART 앙상블 모델 사용)
    4. Early Stopping 기능 지원
    5. 다양한 옵션 제공 -> customizing

In [None]:
LightGBM: XGBoosting의 느린 학습시간 보완
        대용량 데이터 처리 가능 & 다른 모델들보다 더 적은 자원 사용 & 빠르다 & GPU 지원
기존 Boosting 모델들은 level-wise / LightGBM은 leaf-wise

In [None]:
CatBoost: 과적합 & 속도 개선을 위해 개발됨
        대칭 트리 형성 구조
단점: sparse matrix = 결측치가 매우 많은 데이터셋에 부적합