In [1]:
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Prepare dataset
data = np.loadtxt('data.csv', delimiter=',', dtype=float)
labels = data[:, 0]
features = preprocessing.minmax_scale(data[:, 1:])
X_train, X_test, y_train, y_test = train_test_split(features, labels.ravel(), test_size=0.3)

### 의사결정나무
* random_state = 2022 으로 설정
* 변수명은 dt_clf 로 설정

In [3]:
from sklearn.tree import DecisionTreeClassifier

In [6]:
# 빈 부분 코드 작성
# decision tree
dt_clf = DecisionTreeClassifier(random_state=2022)

In [8]:
# 개별 분류기에 train set 피팅
dt_clf = dt_clf.fit(X_train, y_train)

In [9]:
# test셋으로 prediction
dt_pred = dt_clf.predict(X_test)

In [10]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, dt_pred))

0.8415841584158416


### 랜덤 포레스트
* random_state = 2022
* 변수명 rf_clf 로

In [11]:
from sklearn.ensemble import RandomForestClassifier

In [12]:
# random forest
rf_clf = RandomForestClassifier(random_state=2022)

In [13]:
# 개별 분류기에 train set 피팅
rf_clf = rf_clf.fit(X_train, y_train)

In [14]:
# test셋으로 prediction
rf_pred = rf_clf.predict(X_test)

In [15]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, rf_pred))

0.9207920792079208


### Gradient Boost
* random_state = 2022
* 변수명 gb_clf 로

In [16]:
from sklearn.ensemble import GradientBoostingClassifier

In [17]:
# gradient boost
gb_clf = GradientBoostingClassifier(random_state=2022)

In [18]:
# 개별 분류기에 train set 피팅
gb_clf = gb_clf.fit(X_train, y_train)

In [19]:
# test셋으로 prediction
gb_pred = gb_clf.predict(X_test)

In [20]:
# 성능 확인
# accuracy_score 계산
print(accuracy_score(y_test, gb_pred))

0.9306930693069307


### 보고서 과제
1. voting, bagging, random forest, boosting, adaboost, gradient boost 의 특징 및 장단점을 스스로 정리해보기
2. Boosting의 advanced model 인 XGBoost, LightGBM, CatBoost에 대해 찾아보고 정리해보기

1. voting
* 서로 다른 알고리즘이 도출해낸 결과물을 조합하여 최종 투표하는 방식

2. bagging
* 서로 다른 데이터셋으로 모델을 학습시킨 뒤, 이에 대한 결과물을 투표하는 방식
* 장점 : 병렬적으로 학습하기 때문에 모델의 분산을 줄이고, 과적합을 피할 수 있다.
* 단점 : 데이터 샘플링 시 중복이 허용되기 때문에 특정 데이터에 편향될 수 있다. 독립적인 데이터에만 사용이 가능하다.

3. random forest
* 의사결정나무를 이용한 bagging 방식으로 변수의 임의 추출 방식을 사용
* 장점 : 모델이 단순하고, 과적합이 잘 일어나지 않는다. 새로운 데이터에 잘 일반화된다.
* 단점 : 메모리 사용량이 많다. 고차원이나 희소 데이터에 대해서는 잘 작동하지 않는다.

4. boosting
* 여러 개의 분류기가 순차적으로 학습을 수행하고 이전 학습에서 잘못 예측된 데이터에 가중치를 부여해 오차를 보완하는 방식
* 장점 : 잘못 분류된 것에는 높은 가중치를 부여하고, 잘 분류한 것에는 낮은 가중치를 부여하기 때문에 잘못한 것에 더 집중하여 학습할 수 있다.
* 단점 : 이상치에 취약하다.

5. adaboost
* 특정 분류기가 다른 분류기보다 더 중요한 것을 고려하여 가중치를 부여하고, 이렇게 가중치가 부여된 약 분류기를 모아서 최종적인 강 분류기를 생성하는 방식

6. gradient boost
* 약 분류기를 결합한 강 분류기를 생성하지만, 잔차를 예측하는 방식으로 진행됨

1. XGBoost
* GBM 기반 알고리즘
* GBM 대비 빠른 수행시간
* 과적합 규제
* 결손값 자체 처리

2. LightGBM
* 빠른 학습 속도와 높은 효율
* 메모리 적게 필요
* 높은 정확도
* 대규모 데이터 감당 가능
* 적은 데이터 학습시 과적합 발생 가능성 높음

3. CatBoost
* 범주형 변수 처리하는데 유용
* 수치형 데이터의 경우 효과가 좋지 않음
* lightGBM에 비해 학습 속도가 느림