In [None]:
#드라이브 마운트
#디렉토리 변경

In [None]:
#1.CSV데이터 읽어오기("wine.csv")

In [None]:
#2.특성데이터와 정답데이터 구분

In [None]:
#3.훈련/데스트 데이터 분리(test_size=0.2)

###랜덤포레스트
![](https://www.tibco.com/sites/tibco/files/media_entity/2021-05/random-forest-diagram.svg)

랜덤 포레스트는 기능을 무작위로 선택하고 관찰하여 의사 결정 트리의 포레스트를 만든 다음 결과를 평균화합니다.

* 랜덤 포레스트의 이점

> 상대적 중요성을 측정하기 쉬움
해당 기능을 사용하여 해당 포레스트에 있는 모든 트리의 불순물을 줄이는 노드를 보면 기능의 중요성을 쉽게 측정할 수 있습니다.

* 다재다능

> 랜덤 포레스트는 분류 및 회귀 작업 모두에 사용할 수 있기 때문에 매우 다재다능합니다.

* 과적합 없음

> 포레스트에 트리가 충분하면 과적합의 위험이 거의 또는 전혀 없습니다.

* 높은 정확도

> 하위 그룹 간에 상당한 차이가 있는 여러 트리를 사용하면 랜덤 포레스트가 매우 정확한 예측 도구가 됩니다.

In [None]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier
import numpy as np

rf_model = RandomForestClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(rf_model, train_data, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

In [None]:
rf_model.fit(train_data, train_target)
print(rf_model.feature_importances_)

In [None]:
rf_model = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)
rf_model.fit(train_data, train_target)
print(rf_model.oob_score_)

###그레디언트 부스팅(gradient boosting)
* 그레이디언트 부스팅은 깊이가 얕은 결정 트리를 사용하여 이전 트리의 오차를 보완하는 방식

* 사이킷런의 GradientBoostingClassifier는 기본적으로 깊이가 3인 결정 트리를 100개 사용

* 깊이가 얕은 결정 트리를 사용하기 때문에 과대적합에 강하고 일반적으로 높은 일반화 성능을 기대

* 그레이디언트 부스팅은 경사 하강법을 사용. 분류에서는 로지스틱 손실 함수를, 회귀에서는 평균 제곱 오차 함수를 사용

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

gs_model = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gs_model, train_data, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

In [None]:
gs_model = GradientBoostingClassifier(n_estimators=500, max_depth=1, random_state=42)
scores = cross_validate(gs_model, train_data, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

In [None]:
gs_model = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2, random_state=42)
scores = cross_validate(gs_model, train_data, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

In [None]:
gs_model.fit(train_data, train_target)
print(gs_model.feature_importances_)

### 히스토그램 기반 그레디언트 부스팅(histogram-based gradient boosting)
* 히스토그램 기반 그레디언트 부스팅은 정형 데이터를 다루는 머신러닝 알고리즘 중에 가장 인기가 높은 알고리즘

* 히스토그램 기반 그레디언트 부스팅은 먼저 입력 특성을 256개의 구간으로 나눈다. 따라서 노드를 분할할 때 최적의 분할을 매우 빠르게 찾을 수 있다.

* 히스토그램 기반 그레디언트 부스팅은 256개의 구간 중에서 하나를 떼어 놓고 누락된 값을 위해서 사용. 따라서 입력에 누락된 특성이 있어도 이를 따라 전처리할 필요가 없다.

In [None]:
from sklearn.ensemble import HistGradientBoostingClassifier

hgb_model = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hgb_model, train_data, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

In [None]:
from sklearn.inspection import permutation_importance
hgb_model.fit(train_data, train_target)
result = permutation_importance(hgb_model, train_data, train_target, n_repeats=10, random_state=42)
print(result.importances_mean)

In [None]:
from lightgbm import LGBMClassifier
model = LGBMClassifier(random_state=42)
scores = cross_validate(model, train_data, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))

In [None]:
from xgboost import XGBClassifier
model = XGBClassifier(tree_method="hist", trandom_state=42)
scores = cross_validate(model, train_data, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores["train_score"]), np.mean(scores["test_score"]))