## 트리와 앙상블(ensemble)
- 정형 데이터 : 엑셀, CSV 등 숫자 데이터 등
- 비정형 데이터 : 텍스트 데이터, 사진, 음악 등

### 랜덤 포레스트(Random Forest)
- 결정 트리를 랜덤하게 만들어 결정트리(기본적으로 100그루)의 숲을 만들고 각 결정트리의 예측을 사용해 최종 예측
- 부트스트랩 샘플(bootstrap sample) : 훈련 데이터에서 랜덤하게 추출한 샘플(중복 추출 가능)

In [2]:
import pandas as pd

df = pd.read_csv('https://bit.ly/wine_csv_data')

data = df[['alcohol', 'sugar', 'pH']]
target = df[['class']]

In [3]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(data, target)

In [7]:
from sklearn.model_selection import cross_validate # 교차검증
from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트

rf = RandomForestClassifier(n_jobs=-1)
scores = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=1)
# return_train_score=True : 기본값 False, 검증 점수 뿐만 아니라 훈련 세트에 대한 점수도 같이 반환
print(scores)

  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)


{'fit_time': array([0.27810454, 0.29771256, 0.25453305, 0.25764036, 0.33008695]), 'score_time': array([0.05807328, 0.06624961, 0.02951455, 0.02814651, 0.06557631]), 'test_score': array([0.89128205, 0.90051282, 0.88090349, 0.90862423, 0.87577002]), 'train_score': array([0.9966641 , 0.99692071, 0.99794767, 0.99717804, 0.99769112])}


In [9]:
rf.fit(train_input, train_target)
rf.feature_importances_ # 특성 중요도 : 각 결정 트리의 특성 중요도를 취합한 것
# => 과대적합을 줄이고 일반화 성능을 높임

  return fit_method(estimator, *args, **kwargs)


array([0.23393935, 0.49320964, 0.27285101])

In [10]:
# OOB(out of bag) : 부트스트랩 샘플이 포함되지 않고 남는 샘플
rf = RandomForestClassifier(oob_score=True, n_jobs=1) # oob_score=True : 기본값 False, oob점수 평균 출력
rf.fit(train_input, train_target)
rf.oob_score_ # oob샘플을 사용하여 부트스트랩 샘플로 훈련한 결정트리 평가 => 검증 세트의 역할

  return fit_method(estimator, *args, **kwargs)


0.8916256157635468

### 엑스트라 트리(Extra Trees)
- 랜덤 포레스트와 비슷하게 동작
- 부트스트랩 샘플 사용x
- 노드를 분할할 때 가장 좋은 분할을 찾는 것이 아니라 무작위로 분할 => 과대적합을 막고 검증 세트의 점수를 높이는 효과, 계산속도 빠름

In [14]:
from sklearn.ensemble import ExtraTreesClassifier
et = ExtraTreesClassifier(n_jobs=-1)

scores = cross_validate(et, train_input, train_target, return_train_score=True)
print(scores)

  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)
  return fit_method(estimator, *args, **kwargs)


{'fit_time': array([0.19741988, 0.22886038, 0.15239906, 0.17894125, 0.20301867]), 'score_time': array([0.046736  , 0.03116846, 0.05438399, 0.03238487, 0.04111052]), 'test_score': array([0.88205128, 0.90153846, 0.88911704, 0.90143737, 0.87063655]), 'train_score': array([0.9966641 , 0.99692071, 0.99794767, 0.99717804, 0.99769112])}


### 그레이디언트 부스팅(Gradient boosting)
- 깊이가 얕은 결정트리 사용 => 과대적합에 강하고 높은 일반화 성능 기대
- 결정 트리를 계속 추가하면서 가장 낮은 곳을 찾아 이동

In [16]:
from sklearn.ensemble import GradientBoostingClassifier
gb = GradientBoostingClassifier(n_estimators=500) # n_estimators= : 결정 트리의 개수 지정
scores = cross_validate(gb, train_input, train_target, return_train_score=True)
print(scores)

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


{'fit_time': array([1.54862356, 1.49448752, 1.43767381, 1.52261519, 1.38275671]), 'score_time': array([0.00912738, 0.02007484, 0.00877643, 0.00961518, 0.01982927]), 'test_score': array([0.88102564, 0.88923077, 0.85420945, 0.88398357, 0.86652977]), 'train_score': array([0.91737234, 0.91993841, 0.923294  , 0.91739354, 0.92662904])}


### 히스토그램 기반 그레이디언트 부스팅(Histogram-based Gradient Boosting)
- 입력 특성을 256개 구간으로 나눔 => 최적의 분할을 매우 빠르게 찾을 수 있음
- permutation_importance() : 히스토그램 기반 그레이디언트 부스팅의 특성 중요도 계산

In [18]:
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier()
scores = cross_validate(hgb, train_input, train_target, return_train_score=True)
print(scores)

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


{'fit_time': array([0.3170011 , 0.21190739, 0.32871437, 0.29888535, 0.27225757]), 'score_time': array([0.00877333, 0.00933027, 0.00863838, 0.0113585 , 0.01746416]), 'test_score': array([0.88923077, 0.88307692, 0.8613963 , 0.88809035, 0.86858316]), 'train_score': array([0.93430844, 0.93456505, 0.93663417, 0.93022063, 0.93612109])}


In [20]:
from sklearn.inspection import permutation_importance

hgb.fit(train_input, train_target) # 하나씩 섞었을 때 변화량을 봐야하기 때문에 학습을 시킨 후 실행해야함
scores = permutation_importance(hgb, train_input, train_target)
print(scores.importances_mean)

  y = column_or_1d(y, warn=True)


[0.09737274 0.24482759 0.08633005]
