## 랜덤포레스트

[결정트리 포스팅](https://yganalyst.github.io/study/ML_chap5/)에서도 언급했듯이, 랜덤포레스트는 일반적으로 [배깅(또는 페이스팅)](https://yganalyst.github.io/study/ML_chap6-2/)을 적용한 결정트리의 앙상블이다.  

앞의 포스팅에서 사용했었던 `BaggingClassifier`에 `DecisionTreeClassifier`를 넣어 앙상블을 만드는 대신  
결정트리에 최적화되어 있는 `RandomForestClassifier`를 사용할 수 있다(회귀는 `RandomForestRegressor`).  


다음 500개 트리로 이루어진 랜덤포레스트 분류기를 훈련시키는 코드를 보자.  

In [2]:
# moon dataset
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [3]:
from sklearn.ensemble import RandomForestClassifier

rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1)
rnd_clf.fit(X_train, y_train)

y_pred_rf = rnd_clf.predict(X_test)

`RandomForestClassifier`는 예외가 있지만, `DecisionTreeClassifier`와 `BaggingClassifier`의 매개변수를 모두 가지고 있다.  


예외  
- `splitter` : 항상 `best`  
- `presort` : 항상 False  
- `max_samples` : 항상 1  
- `base_estimator` : 항상 지정된 매개변수를 사용한 결정트리 모델  

랜덤포레스트는 트리의 노드를 분할할 때 전체 변수 중에서 최선의 변수를 찾는 대신, 무작위로 선택한 변수 후보 중에서 최적의 변수를 찾는 식으로 무작위성을 더 주입한다([결정트리](https://yganalyst.github.io/study/ML_chap5/) 참고).  


이는 결국 트리를 더욱 다양하게 만들고 편향을 손해 보는 대신 분산을 낮추어 전체적으로 더 훌륭한 모델을 만든다.  


다음은 `BaggingClassifier`를 사용해 랜덤포레스트와 유사하게 만든 것이다.  


In [5]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(DecisionTreeClassifier(splitter='random',
                                                  max_leaf_nodes=16),
                           n_estimators=500,
                           max_samples=1.0,
                           bootstrap=True,
                           n_jobs=-1)

## 엑스트라 트리  