In [1]:
import numpy as np
from sklearn import preprocessing
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [3]:
# Prepare dataset
data = np.loadtxt('data.csv', delimiter=',', dtype=float)
labels = data[:, 0]
features = preprocessing.minmax_scale(data[:, 1:])
X_train, X_test, y_train, y_test = train_test_split(features, labels.ravel(), test_size=0.3)

### 의사결정나무
* random_state = 2022 으로 설정
* 변수명은 dt_clf 로 설정

In [4]:
from sklearn.tree import DecisionTreeClassifier

In [5]:
# 빈 부분 코드 작성
# decision tree
dt_clf = DecisionTreeClassifier(random_state = 2022)

In [6]:
# 개별 분류기에 train set 피팅
dt_clf = dt_clf.fit(X_train, y_train)

In [8]:
# test셋으로 prediction
dt_pred = y_pred = dt_clf.predict(X_test)

In [9]:
# 성능 확인
# accuracy_score 계산
accuracy = accuracy_score(y_test , dt_pred)
print('정확도: {0:.4f}'.format(accuracy))

정확도: 0.8713


### 랜덤 포레스트
* random_state = 2022
* 변수명 rf_clf 로

In [10]:
from sklearn.ensemble import RandomForestClassifier

In [11]:
# random forest
rf_clf = RandomForestClassifier(random_state=2022)

In [12]:
# 개별 분류기에 train set 피팅
rf_clf.fit(X_train , y_train)

RandomForestClassifier(random_state=2022)

In [13]:
# test셋으로 prediction
rf_pred = rf_clf.predict(X_test)

In [14]:
# 성능 확인
# accuracy_score 계산
accuracy = accuracy_score(y_test, rf_pred)
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy))

랜덤 포레스트 정확도: 0.9406


### Gradient Boost
* random_state = 2022
* 변수명 gb_clf 로

In [15]:
from sklearn.ensemble import GradientBoostingClassifier

In [16]:
# gradient boost
gb_clf = GradientBoostingClassifier(random_state=2022)

In [17]:
# 개별 분류기에 train set 피팅
gb_clf.fit(X_train , y_train)

GradientBoostingClassifier(random_state=2022)

In [18]:
# test셋으로 prediction
gb_pred = gb_clf.predict(X_test)

In [19]:
# 성능 확인
# accuracy_score 계산
gb_accuracy = accuracy_score(y_test, gb_pred)
print('GBM 정확도: {0:.4f}'.format(gb_accuracy))

GBM 정확도: 0.9406


### 보고서 과제
1. voting, bagging, random forest, boosting, adaboost, gradient boost 의 특징 및 장단점을 스스로 정리해보기
2. Boosting의 advanced model 인 XGBoost, LightGBM, CatBoost에 대해 찾아보고 정리해보기

1. 
  
  
voting  
특징 : 서로다른 알고리즘이 도출해낸 결과물을 조합하여 최종 투표  
  
bagging  
특징 : 서로다른 dataset(boost sampling)을 학습시켜 결과물을 집계  
장점 : 1) 분산을 줄임 2) 과적합 방지  
  
random forest  
특징 : 의사결정나무 + bagging + 변수의 임의추출   
장점 : 변수의 중요도를 계산할 수 있음  
  
boosting  
특징 : 여러 개의 분류기가 순차적으로 학습 수행, 순차적이라는 점이 bagging과의 차이점.  
장점 : 정확한 예측 가능  
단점 : 시간이 오래 걸림  
  
adaboost  
특징 : 오분류된 데이터에 가중치를 높게 설정하여 학습 수행  

gradient boost  
특징 : 순차적으로 예측하는데, 이전의 잔차를 가지고 예측.  


2.  
  
XGBoost  
: gradient boost에서 regularization term을 추가한 형태.  
-> 과적합 방지   

LightGBM  
: level 단위로 학습하는 것이 아닌, leaf 단위로 학습  
-> 과적합 가능성  

CatBoost  
: 일부만 가지고 잔차를 계산하여 모델을 만들기. 이를 피팅하고, 이의 잔차를 가지고 또 모델을 만드는 것을 반복한다.  