In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

## 사용할 데이터 선언
df_wine = pd.read_csv('https://bit.ly/wine_csv_data')

## 샘플과 타겟 분리
arr_data = df_wine[['alcohol', 'sugar', 'pH']].to_numpy()
arr_target = df_wine['class'].to_numpy()

## 훈련 세트, 테스트 세트 나누기
## 매개변수 test_size로 비율 정해주기
arr_train_input, arr_test_input, arr_train_target, arr_test_target = train_test_split(
    arr_data, arr_target, test_size= 0.2, random_state= 42
)

In [2]:
## 랜덤 포레스트 알고리즘을 사용하기 위해 필요한 모듈 import
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

## 객체 선언
c_rf = RandomForestClassifier(n_jobs= -1, random_state= 42)

## 교차 검증
## return_train_score를 True로 하면 훈련 세트에 대한 성능도 같이 반환
dict_scores = cross_validate(c_rf, arr_train_input, arr_train_target, return_train_score= True, n_jobs= -1)

## 훈련세트와 검증세트의 성능 값들의 평균 출력
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.9973541965122431 0.8905151032797809


In [3]:
## 훈련 후 특성 중요도 확인
c_rf.fit(arr_train_input, arr_train_target)
print(c_rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


In [4]:
## oob샘플로 훈련한 결정트리점수를 확인하기위해 매개변수 oob_score를 True로 해서 선언
## 훈련 후 oob샘플의 점수 출력
c_rf = RandomForestClassifier(oob_score=True, n_jobs= -1, random_state= 42)
c_rf.fit(arr_train_input,arr_train_target)
print(c_rf.oob_score_)

0.8934000384837406


In [5]:
## 엑스트라 트리 알고리즘을 사용하기 위해 필요한 모듈 import
from sklearn.ensemble import ExtraTreesClassifier

## 객체 선언
c_et = ExtraTreesClassifier(n_jobs= -1, random_state= 42)

## 교차 검증
dict_scores = cross_validate(c_et, arr_train_input, arr_train_target,
                        return_train_score= True, n_jobs= -1)

## 훈련세트와 검증세트의 성능 값들의 평균 출력
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.9974503966084433 0.8887848893166506


In [6]:
## 훈련 후 특성 중요도 확인
c_et.fit(arr_train_input, arr_train_target)
print(c_et.feature_importances_)

[0.20183568 0.52242907 0.27573525]


In [7]:
## 그래디언트 부스팅 모델을 사용하기위한 모듈 import
from sklearn.ensemble import GradientBoostingClassifier

## 객체 생성 후 교차 검증
c_gb = GradientBoostingClassifier(random_state= 42)
dict_scores = cross_validate(c_gb, arr_train_input, arr_train_target,
                             return_train_score= True, n_jobs= -1)

## 훈련 성능과 검증 성능 비교
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.8881086892152563 0.8720430147331015


In [8]:
## 결정트리개수를 기본값 100개에서 500개로, 학습률을 0.2로 설정해서 객체 생성
c_gb = GradientBoostingClassifier(n_estimators= 500, learning_rate= 0.2,
                                  random_state= 42)

## 교차 검증
dict_scores = cross_validate(c_gb, arr_train_input, arr_train_target,
                             return_train_score= True, n_jobs= -1)

## 훈련 성능과 검증 성능 비교
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.9464595437171814 0.8780082549788999


In [9]:
## 훈련 후 특성 중요도 확인
c_gb.fit(arr_train_input, arr_train_target)
print(c_gb.feature_importances_)

[0.15853457 0.68010884 0.1613566 ]


In [10]:
## 히스토그램 기반 그레이디언트 부스팅에 필요한 모듈 import
from sklearn.ensemble import HistGradientBoostingClassifier

## 객체 생성 후 교차 검증
c_hgb = HistGradientBoostingClassifier(random_state=42)
dict_scores = cross_validate(c_hgb, arr_train_input, arr_train_target,
                             return_train_score=True)

## 훈련 성능과 검증 성능 비교
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.9321723946453317 0.8801241948619236


In [11]:
## 히스토그램 기반 그레이디언트 부스팅의 특성 중요도를 계산하기위한 함수 import
from sklearn.inspection import permutation_importance

## 훈련 후 함수 사용해 결과값 저장
## 함수가 반환하는 것에는 특성 중요도, 평균, 표준편차를 담고있다.
c_hgb.fit(arr_train_input, arr_train_target)
dict_result = permutation_importance(c_hgb, arr_train_input, arr_train_target,
                                     n_repeats= 10, random_state= 42, n_jobs= -1)

## 결과 값중에 특성 중요도 출력
print(dict_result.importances_mean)

[0.08876275 0.23438522 0.08027708]


In [12]:
## 테스트 세트의 특성 중요도 확인
dict_result = permutation_importance(c_hgb, arr_test_input, arr_test_target,
                                     n_repeats= 10, random_state= 42, n_jobs= -1)

print(dict_result.importances_mean)

[0.05969231 0.20238462 0.049     ]


In [13]:
## 히스토그램 기반 그레이디언트 부스팅에서의 테스트 세트 성능 확인
c_hgb.score(arr_test_input, arr_test_target)

0.8723076923076923

In [14]:
#pip install xgboost

In [15]:
## 다양한 부스팅 알고리즘을 사용하기 위해 xgboost모듈 import
from xgboost import XGBClassifier

## 객체 생성
## tree_method매개변수로 부스팅 알고리즘 선택
c_xgb = XGBClassifier(tree_method = 'hist', random_state = 42)
dict_scores = cross_validate(c_xgb, arr_train_input, arr_train_target,
                             return_train_score= True)

## 훈련 성능과 검증 성능 비교
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.9555033709953124 0.8799326275264677


In [16]:
#pip install lightgbm

In [18]:
## 또 다른 라이브러리 모듈 import
from lightgbm import LGBMClassifier

## 객체 생성
c_lgb = LGBMClassifier(random_state= 42)
dict_scores = cross_validate(c_lgb, arr_train_input, arr_train_target,
                             return_train_score= True, n_jobs= -1)

## 훈련 성능과 검증 성능 비교
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.935828414851749 0.8801251203079884
