# 트리의 앙상블

<table align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/hg-mldl/blob/master/5-3.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩에서 실행하기</a>
  </td>
</table>

## 랜덤포레스트

In [1]:
import numpy as np  # 수치 데이터를 효율적으로 처리하기 위해 numpy를 가져옵니다.
import pandas as pd  # 표 형식의 데이터를 다루기 위해 pandas를 가져옵니다.
from sklearn.model_selection import train_test_split  # 데이터를 학습용과 테스트용으로 나누기 위해 train_test_split을 가져옵니다.

wine = pd.read_csv('https://bit.ly/wine_csv_data')  # 와인 데이터셋을 CSV 파일에서 불러옵니다.

data = wine[['alcohol', 'sugar', 'pH']].to_numpy()  # 'alcohol', 'sugar', 'pH' 열의 데이터를 numpy 배열로 변환합니다.
target = wine['class'].to_numpy()  # 'class' 열의 데이터를 numpy 배열로 변환하여 목표 변수로 사용합니다.

train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)  
# 데이터를 학습용과 테스트용으로 8:2 비율로 나누고, 무작위성 제어를 위해 시드 값을 설정합니다.


In [2]:
from sklearn.model_selection import cross_validate  # 교차 검증을 수행하기 위해 cross_validate 함수를 가져옵니다.
from sklearn.ensemble import RandomForestClassifier  # 랜덤 포레스트 분류기를 사용하기 위해 RandomForestClassifier를 가져옵니다.

rf = RandomForestClassifier(n_jobs=-1, random_state=42)  # 랜덤 포레스트 분류기 객체를 생성합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.

scores = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=-1)  
# cross_validate를 사용해 교차 검증을 수행합니다.
# rf: 사용할 모델 (랜덤 포레스트 분류기).
# train_input, train_target: 교차 검증에 사용할 학습 데이터와 레이블.
# return_train_score=True: 학습 점수도 반환하도록 설정합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.

print(np.mean(scores['train_score']), np.mean(scores['test_score']))  
# 학습 점수와 테스트 점수의 평균을 계산하고 출력합니다.

0.9973541965122431 0.8905151032797809


In [3]:
rf.fit(train_input, train_target)
print(rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


In [4]:
rf = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)

rf.fit(train_input, train_target)
print(rf.oob_score_)

0.8934000384837406


## 엑스트라트리

In [5]:
from sklearn.ensemble import ExtraTreesClassifier  # 앙상블 학습 모델인 ExtraTreesClassifier를 사용하기 위해 가져옵니다.

et = ExtraTreesClassifier(n_jobs=-1, random_state=42)  # Extra Trees 분류기 객체를 생성합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.

scores = cross_validate(et, train_input, train_target, return_train_score=True, n_jobs=-1)  
# cross_validate를 사용해 Extra Trees 분류기를 교차 검증합니다.
# et: 사용할 모델 (Extra Trees 분류기).
# train_input, train_target: 교차 검증에 사용할 학습 데이터와 레이블.
# return_train_score=True: 학습 점수도 반환하도록 설정합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.

print(np.mean(scores['train_score']), np.mean(scores['test_score']))  
# 학습 점수와 테스트 점수의 평균을 계산하고 출력합니다.

0.9974503966084433 0.8887848893166506


In [6]:
et.fit(train_input, train_target)
print(et.feature_importances_)

[0.20183568 0.52242907 0.27573525]


## 그레이디언트 부스팅

In [7]:
from sklearn.ensemble import GradientBoostingClassifier  # Gradient Boosting 모델을 사용하기 위해 GradientBoostingClassifier를 가져옵니다.

gb = GradientBoostingClassifier(random_state=42)  # Gradient Boosting 분류기 객체를 생성합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.

scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)  
# cross_validate를 사용해 Gradient Boosting 분류기를 교차 검증합니다.
# gb: 사용할 모델 (Gradient Boosting 분류기).
# train_input, train_target: 교차 검증에 사용할 학습 데이터와 레이블.
# return_train_score=True: 학습 점수도 반환하도록 설정합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.

print(np.mean(scores['train_score']), np.mean(scores['test_score']))  
# 학습 점수와 테스트 점수의 평균을 계산하고 출력합니다.


0.8881086892152563 0.8720430147331015


In [8]:
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)  
# Gradient Boosting 분류기 객체를 생성합니다.
# n_estimators=500: 500개의 트리를 사용하여 모델을 학습합니다.
# learning_rate=0.2: 각 트리의 기여도를 조절하는 학습률을 설정합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.

scores = cross_validate(gb, train_input, train_target, return_train_score=True, n_jobs=-1)  
# cross_validate를 사용해 Gradient Boosting 분류기를 교차 검증합니다.
# gb: 사용할 모델 (Gradient Boosting 분류기).
# train_input, train_target: 교차 검증에 사용할 학습 데이터와 레이블.
# return_train_score=True: 학습 점수도 반환하도록 설정합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.

print(np.mean(scores['train_score']), np.mean(scores['test_score']))  
# 학습 점수와 테스트 점수의 평균을 계산하고 출력합니다.


0.9464595437171814 0.8780082549788999


In [9]:
gb.fit(train_input, train_target)  
# Gradient Boosting 분류기를 사용해 주어진 학습 데이터(train_input)와 레이블(train_target)로 모델을 학습합니다.

print(gb.feature_importances_)  
# 학습된 모델에서 각 특징의 중요도를 출력합니다.
# 중요도는 모델이 예측을 수행할 때 각 특징이 기여한 정도를 나타냅니다.


[0.15882696 0.6799705  0.16120254]


## 히스토그램 기반 부스팅

In [10]:
# 사이킷런 1.0 버전 아래에서는 다음 라인의 주석을 해제하고 실행하세요.
# from sklearn.experimental import enable_hist_gradient_boosting

from sklearn.ensemble import HistGradientBoostingClassifier  
# HistGradientBoostingClassifier를 사용하기 위해 가져옵니다.
# 히스토그램 기반의 Gradient Boosting 모델로, 큰 데이터셋에 대해 효율적으로 학습할 수 있습니다.

hgb = HistGradientBoostingClassifier(random_state=42)  
# HistGradientBoostingClassifier 객체를 생성합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.

scores = cross_validate(hgb, train_input, train_target, return_train_score=True, n_jobs=-1)  
# cross_validate를 사용해 HistGradientBoostingClassifier를 교차 검증합니다.
# hgb: 사용할 모델 (HistGradientBoostingClassifier).
# train_input, train_target: 교차 검증에 사용할 학습 데이터와 레이블.
# return_train_score=True: 학습 점수도 반환하도록 설정합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.

print(np.mean(scores['train_score']), np.mean(scores['test_score']))  
# 학습 점수와 테스트 점수의 평균을 계산하고 출력합니다.


0.9321723946453317 0.8801241948619236


In [11]:
from sklearn.inspection import permutation_importance  
# permutation_importance를 사용하기 위해 가져옵니다.
# permutation_importance는 모델의 성능이 각 특징의 무작위 변동에 어떻게 반응하는지를 평가하여 특징의 중요도를 측정합니다.

hgb.fit(train_input, train_target)  
# HistGradientBoostingClassifier 모델을 학습합니다.
# 주어진 학습 데이터(train_input)와 레이블(train_target)로 모델을 학습합니다.

result = permutation_importance(hgb, train_input, train_target, n_repeats=10,  
                                random_state=42, n_jobs=-1)  
# permutation_importance를 사용해 각 특징의 중요도를 평가합니다.
# hgb: 평가할 모델 (HistGradientBoostingClassifier).
# train_input, train_target: 평가에 사용할 학습 데이터와 레이블.
# n_repeats=10: 각 특징에 대해 10번의 반복 평가를 수행합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.

print(result.importances_mean)  
# 각 특징의 중요도 평균을 출력합니다.
# result.importances_mean은 각 특징의 중요도의 평균값을 포함하는 배열입니다.


[0.08876275 0.23438522 0.08027708]


In [12]:
result = permutation_importance(hgb, test_input, test_target, n_repeats=10,  
                                random_state=42, n_jobs=-1)  
# permutation_importance를 사용해 각 특징의 중요도를 테스트 데이터에서 평가합니다.
# hgb: 평가할 모델 (HistGradientBoostingClassifier).
# test_input, test_target: 평가에 사용할 테스트 데이터와 레이블.
# n_repeats=10: 각 특징에 대해 10번의 반복 평가를 수행합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.

print(result.importances_mean)  
# 각 특징의 중요도 평균을 출력합니다.
# result.importances_mean은 각 특징의 중요도의 평균값을 포함하는 배열입니다.


[0.05969231 0.20238462 0.049     ]


In [13]:
hgb.score(test_input, test_target)

0.8723076923076923

#### XGBoost

In [17]:
from xgboost import XGBClassifier  
# XGBoost 라이브러리에서 XGBClassifier를 가져옵니다.
# XGBClassifier는 XGBoost 알고리즘을 사용하여 분류 문제를 해결합니다.

xgb = XGBClassifier(tree_method='hist', random_state=42)  
# XGBClassifier 객체를 생성합니다.
# tree_method='hist': 히스토그램 기반의 트리 방법을 사용하여 학습을 가속화합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.

scores = cross_validate(xgb, train_input, train_target, return_train_score=True, n_jobs=-1)  
# cross_validate를 사용해 XGBClassifier를 교차 검증합니다.
# xgb: 사용할 모델 (XGBClassifier).
# train_input, train_target: 교차 검증에 사용할 학습 데이터와 레이블.
# return_train_


In [15]:
print(xgb)
# print(scores)

XGBClassifier(base_score=None, booster=None, callbacks=None,
              colsample_bylevel=None, colsample_bynode=None,
              colsample_bytree=None, device=None, early_stopping_rounds=None,
              enable_categorical=False, eval_metric=None, feature_types=None,
              gamma=None, grow_policy=None, importance_type=None,
              interaction_constraints=None, learning_rate=None, max_bin=None,
              max_cat_threshold=None, max_cat_to_onehot=None,
              max_delta_step=None, max_depth=None, max_leaves=None,
              min_child_weight=None, missing=nan, monotone_constraints=None,
              multi_strategy=None, n_estimators=None, n_jobs=None,
              num_parallel_tree=None, random_state=42, ...)


#### LightGBM

In [18]:
from lightgbm import LGBMClassifier  
# LightGBM 라이브러리에서 LGBMClassifier를 가져옵니다.
# LGBMClassifier는 LightGBM 알고리즘을 사용하여 분류 문제를 해결합니다.

lgb = LGBMClassifier(random_state=42)  
# LGBMClassifier 객체를 생성합니다.
# random_state=42: 무작위성을 제어하기 위해 시드 값을 설정합니다.

scores = cross_validate(lgb, train_input, train_target, return_train_score=True, n_jobs=-1)  
# cross_validate를 사용해 LGBMClassifier를 교차 검증합니다.
# lgb: 사용할 모델 (LGBMClassifier).
# train_input, train_target: 교차 검증에 사용할 학습 데이터와 레이블.
# return_train_score=True: 학습 점수도 반환하도록 설정합니다.
# n_jobs=-1: 모든 CPU 코어를 사용해 병렬 처리합니다.

print(np.mean(scores['train_score']), np.mean(scores['test_score']))  
# 학습 점수와 테스트 점수의 평균을 계산하고 출력합니다.
# scores['train_score']: 학습 점수 배열의 평균값.
# scores['test_score']: 테스트 점수 배열의 평균값.

0.935828414851749 0.8801251203079884
