<a href="https://colab.research.google.com/github/chiyeon01/Hands_On_Machine_Learning/blob/main/7%EC%9E%A5.%20%EC%95%99%EC%83%81%EB%B8%94%20%ED%95%99%EC%8A%B5%EA%B3%BC%20%EB%9E%9C%EB%8D%A4%20%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8/4.%20%EB%9E%9C%EB%8D%A4%20%ED%8F%AC%EB%A0%88%EC%8A%A4%ED%8A%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 랜덤 포레스트
랜덤 포레스트는 일반적으로 배깅 방법(또는 페이스팅)을 적용한 결정 트리의 앙상블임.

In [None]:
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=500, noise=0.3, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [None]:
from sklearn.ensemble import RandomForestClassifier

rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16,
                                 n_jobs=-1, random_state=42)

rnd_clf.fit(X_train, y_train)

y_pred_rf = rnd_clf.predict(X_test)

In [None]:
y_pred_rf

array([0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0,
       0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1,
       1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0])

In [None]:
# 배깅으로 RandomForestClassifier 구현
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(max_features='sqrt', max_leaf_nodes=16),
    n_estimators=500, n_jobs=-1, random_state=42
)

### 엑스트라 트리(extra-tree)
랜덤 포레스트에서 트리를 만들 때 각 예측기는 랜덤으로 특성의 서브셋을 만들어 분할에 사용한다.<br/>
트리를 더 랜덤하게 만들기 위해 최적의 임곗값을 찾는 대신 후보 특성을 사용해 랜덤으로 분할한 다음 그중에서 최상의 분할을 선택한다.<br/>
이렇게 극단적으로 랜덤한 랜덤 포레스트를 **익스트림 랜덤 트리(extremely randomized tree)**라고 부른다.

In [23]:
# Decision Tree의 splitter를 True로 만들어서 엑스트라 트리 만드는 방법.(랜덤 포레스트에 적용)
extra_rnd_bag_clf = BaggingClassifier(
    DecisionTreeClassifier(max_features='sqrt', max_leaf_nodes=16, splitter='random'),
    n_estimators=500, n_jobs=-1, random_state=42
)

In [24]:
from sklearn.ensemble import ExtraTreesClassifier

# sklearn API를 이용해 엑스트라 트리 만드는 방법.(랜덤 포레스트에 적용)
extra_rnd_clf = ExtraTreesClassifier(
    n_estimators=500,
    max_leaf_nodes=16,
    n_jobs=-1,
    random_state=42
)

In [25]:
extra_rnd_bag_clf.fit(X_train, y_train)
extra_rnd_clf.fit(X_train, y_train)

In [26]:
print('WITH BAGGING: {0:.4f}'.format(extra_rnd_bag_clf.score(X_test, y_test)))
print('WITH SKLEARN: {0:.4f}'.format(extra_rnd_clf.score(X_test, y_test)))

WITH BAGGING: 0.9120
WITH SKLEARN: 0.9120


### 특성 중요도
랜덤 포레스트는 학습한 feature의 상대적 중요도를 측정하기 쉽다.

In [None]:
from sklearn.datasets import load_iris

# 랜덤 포레스트 모델의 feature_importances_ 속성을 이용해 feature 중요도를 표현할 수 있음.
# 보통 히트 맵으로 많이 표현 함.
iris = load_iris(as_frame=True)
rnd_clf = RandomForestClassifier(n_estimators=500, random_state=42)
rnd_clf.fit(iris.data, iris.target)
print(iris.data.columns)
print(rnd_clf.feature_importances_)

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')
[0.11249225 0.02311929 0.44103046 0.423358  ]


In [None]:
'''
따라서 랜덤 포레스트는 특성을 선택해야 할 때 어떤 특성이 중요한지 빠르게 확인할 수 있음.
'''