랜덤포레스트
  - 트리모델(결정트리)
  - 각 트리를 독립적으로 학습시키고, 다수결 또는 평균을 통해 최종 예측을 수행해서 일반화 성능을 높이는 방법
  - 과적합을 줄여줌
  - 피처의 중요도를 탐지

In [1]:
import numpy as np
import pandas as  pd
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/leekyuyoung20231211/python/main/data/wine_csv_cata.csv')
df.head(2)

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.2,0.0


In [3]:
X = df.iloc[:,:-1].to_numpy()
y = df['class'].to_numpy()
X_train,X_test,y_train,y_test =  train_test_split(X,y,random_state=42)

In [12]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_jobs=-1, random_state=42)
scores =  cross_validate(rf,X_train,y_train,return_train_score=True, n_jobs=-1)
scores

{'fit_time': array([0.92393303, 0.79743242, 1.15222311, 1.15252495, 0.52053094]),
 'score_time': array([0.08140969, 0.05771065, 0.07804966, 0.0888679 , 0.03442454]),
 'test_score': array([0.88      , 0.90051282, 0.90349076, 0.89014374, 0.88295688]),
 'train_score': array([0.99743392, 0.99692071, 0.99846075, 0.99820421, 0.99820421])}

In [13]:
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.997844759088341, 0.8914208392565683)

엑스트라 트리
  - 각 트리의 노드에서 랜덤하게 특성들을 선택해서 분할
  - 더 많은 다양성을 가지게 되어서 더 강력한 일반화 성능을 발휘

In [14]:
from sklearn.ensemble import ExtraTreesClassifier
et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores =  cross_validate(et,X_train,y_train,return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.997844759088341, 0.8903937240035804)

그레이언트 부스팅
  - 여러개의 모델을 결합해서 강력한 모델을 만드는 방법
  - 이전트리에서 발생한 오차를 새로운 트리에 학습시켜 예측의 정화도를 향상
  - 손실함수(loss function) 와 기울기(gradient)를 이용해서 오차를 줄이는 방향으로 학습

In [18]:
from sklearn.ensemble import GradientBoostingClassifier
model = GradientBoostingClassifier(random_state=42,n_estimators=500, learning_rate = 0.1)
scores =  cross_validate(model,X_train,y_train,return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.9268779591673904, 0.8801297320065288)

히스토그램 기반 부스팅
  - 그레이디언트 부스팅의 변종
  - 히스토그램을 사용해서 데이터를 이산화하고, 이 데이터를 기반으로 그레이디언트 부스팅
  - 대용량 데이터에 적합

In [20]:
from sklearn.ensemble import HistGradientBoostingClassifier
model = HistGradientBoostingClassifier(random_state=42,learning_rate = 0.1)
scores =  cross_validate(model,X_train,y_train,return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.9380129799494501, 0.8805410414363187)

XGBoost
  - Extreme Gradient Boosting의 약자
  - 대용량 데이터에 효과적
  - 병령처리를 지원
  - 규제기능
  - 자동 가지치지
  - 결측값 처리
  - 다양한 손실 함수
  - 머신러닝 경진대회에서 수상을 많이한 알고리즘

In [22]:
from xgboost import XGBClassifier
model = XGBClassifier(tree_method='hist',random_state=42)
scores =  cross_validate(model,X_train,y_train,return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.9617199190073062, 0.8825944295266677)

LightGBM
  - microsoft에서 제작
  - XGBBoost와 비슷
  - 대규모 데이터셋에 적합

In [23]:
from lightgbm import LGBMClassifier
model = LGBMClassifier(random_state=42)
scores =  cross_validate(model,X_train,y_train,return_train_score=True, n_jobs=-1)
np.mean(scores['train_score']), np.mean(scores['test_score'])

(0.9413484712095832, 0.8846461327857632)