In [4]:
'''
Date: 2022.09.08
Title: 
By: Kang Jin Seong
'''
''' ## 트리의 앙상블'''

import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split

wine = pd.read_csv('https://bit.ly/wine_csv_data')
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()
train_input, test_input, train_target, test_target = train_test_split(data, target, random_state = 42)

In [5]:
# 랜덤 포레스트

from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_jobs = -1, random_state =42)

scores = cross_validate(rf, train_input, train_target, return_train_score= True, n_jobs = -1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.997844759088341 0.8914208392565683


In [7]:
# 랜덤 포레스트의 특성 중요도는 각 결정 트리의 특성 중요도를 취합한것.
rf.fit(train_input, train_target)
print(rf.feature_importances_)
'알콜, 당도, 산도'

[0.23155241 0.49706658 0.27138101]


'알콜, 당도, 산도'

In [8]:
# 부트스트랩 샘플에 포함되지 않고 남는 샘플(OOB: out of bag)로 평가 가능 마치 검증세트의 역활 처럼
rf = RandomForestClassifier(oob_score = True, n_jobs = -1, random_state = 42)
rf.fit(train_input, train_target)
print(rf.oob_score_)

0.8981937602627258


In [9]:
# 엑스트라 트리
from sklearn.ensemble import ExtraTreesClassifier
et = ExtraTreesClassifier(n_jobs = -1, random_state= 42)
scores = cross_validate(et, train_input, train_target, n_jobs = -1, return_train_score  = True)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.997844759088341 0.8903937240035804


In [10]:
et.fit(train_input, train_target)
print(et.feature_importances_)

[0.20702369 0.51313261 0.2798437 ]


In [11]:
from sklearn.ensemble import GradientBoostingClassifier
gb = GradientBoostingClassifier(random_state = 42)
scores = cross_validate(gb, train_input, train_target, return_train_score = True, n_jobs = -1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.8894704231708938 0.8715107671247301


In [12]:
# 결정 트리의 개수, 학습률을 증가시켜보기
gb = GradientBoostingClassifier(n_estimators= 500, learning_rate = 0.2, random_state = 42)
scores = cross_validate(gb, train_input, train_target, return_train_score = True, n_jobs = -1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

# 과대 적합을 잘 억제 하고 있다.

0.9512006117505237 0.879719686200179


In [13]:
 gb.fit(train_input, train_target)
 print(gb.feature_importances_)

[0.14799897 0.68877883 0.16322219]


In [14]:
'''
그레이디언트 부스팅은 랜던 포레스트 보다 조금더 높은 성능을 얻을 수있다.
순서대로 트리를 추가하기 때문에 훈련 속도가 느리다.
'''

'\n그레이디언트 부스팅은 랜던 포레스트 보다 조금더 높은 성능을 얻을 수있다.\n순서대로 트리를 추가하기 때문에 훈련 속도가 느리다.\n'