# 랜덤 포레스트
- Bagging의 확장판
    - Bagging의 데이터 샘플링 방식 + 다수결 / 평균 사용
    - 여러 결정 트리를 서로 다르게 학습시킨 뒤 투표(분류) 또는 평균(회귀)으로 예측하는 Bagging 기반의 앙상블 모델
- 각 노드에서 분할할 때 모든 피쳐(특성) 중 일부만 무작위로 선택해 트리 간의 상관성을 낮춰 다양성 높임
- 부트스트랩 샘플링(중복 허용 데이터셋)과 특성 무작위 선택으로 모델 간의 상관성을 낮춰 안정성 높임
- 고차원 데이터에서 안정적
    - 피쳐가 여러 개면 과적합 문제가 발생할 수 있는데, 특정 피쳐만 선택할 수 있기 때문에 피쳐가 여러 개여도 좀 더 안정적으로 사용 가능
- 대부분의 실무에서 많이 사용되는 알고리즘

- 매개 변수
    - <span style="color:#ffd33d">**n_estimator**</span>
        </br>: 모델의 개수
        - 개수가 많아지면 시간 증가, 과적합 위험
        - 기본값: 50
            - 일반적으로 50~100
    - <span style="color:#ffd33d">**criterion**</span>
        </br>: 불순도의 계산 방법
        - 기본값: gini (분류), squared_error (회귀)
            - 분류 : gini, entropy, log_loss
            - 회귀 : squared_error, absolute_error, friedman_mes, poisson
    - <span style="color:#ffd33d">**max_depth**</span>
        </br>: 트리의 최대 깊이 제한
        - 기본값: None
            - None : Leaf까지 계속 분할 -> 과적합 위험
    - <span style="color:#ffd33d">**bootstrap**</span>
        </br>: 트리 학습에서 부트스트랩 사용 여부
        - 기본값: True
    - <span style="color:#ffd33d">**max_features**</span>
        </br>: 최적으로 분할 시 고려할 feature의 개수 제한 (분할할 때마다 무작위로 선택할 특성 개수)
        - 과적합 문제 완화 및 앙상블 모델의 다양성 확보에 기여.
        - 기본값: **None** (회귀), **"sqrt"** (분류)
            - None : 모든 feature 사용
            - sqrt : √(feature의 수) 만큼 사용
            - log2 : log2(feature의 수) 만큼 사용 <span style="color:#808080">(랜덤 포레스트 분류의 기본값과 유사)
            - 숫자 : 고정된 값 사용 (int, float(0~1))
    - <span style="color:#ffd33d">****</span>
        </br>: 
        - 기본값: 
    - <span style="color:#ffd33d">****</span>
        </br>: 
        - 기본값: 
    - <span style="color:#ffd33d">****</span>
        </br>: 
        - 기본값: 
    - <span style="color:#ffd33d">****</span>
        </br>: 
        - 기본값: 
    - <span style="color:#ffd33d">****</span>
        </br>: 
        - 기본값: 
    - <span style="color:#ffd33d">****</span>
        </br>: 
        - 기본값: 
    - <span style="color:#ffd33d">****</span>
        </br>: 
        - 기본값: 

In [9]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

In [10]:
# bodyPerformance 데이터를 로드
body = pd.read_csv("../data/bodyPerformance.csv")

body['gender'] = np.where(body['gender'] == 'M', 0, 1)

body['class'] = body['class'].map(
    {
        'A' : 0,
        'B' : 1,
        'C' : 2,
        'D' : 3
    }
)

feature_names = body.columns.difference(['class'])

x = body.drop('class', axis= 1).values
y = body['class']

X_train, X_test, Y_train, Y_test = train_test_split(
    x, y, test_size= 0.2, random_state= 42,
    stratify= y
)

In [11]:
# 랜덤 포레스트 모델 생ㅅㅇ
clf = RandomForestClassifier()
clf.fit(X_train, Y_train)

0,1,2
,n_estimators,100
,criterion,'gini'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [12]:
pred = clf.predict(X_test)

In [13]:
# 해당 데이터에서 다중 클래스 분류
# -> 정밀도, 재현율, f1 스코어를 생성할 때는 average의 값을 변경

cm = confusion_matrix(Y_test, pred)
acc = accuracy_score(Y_test, pred)
prc = precision_score(Y_test, pred, average= 'micro')
rcll = recall_score(Y_test, pred, average= 'micro')
f1 = f1_score(Y_test, pred, average= 'micro')

print(cm)
print("정확도 : ", round(acc, 2))
print("정밀도 : ", round(prc, 2))
print("재현율 : ", round(rcll, 2))
print("f1 : ", round(f1, 2))

[[587  75   6   2]
 [161 396  88  24]
 [ 64 123 451  32]
 [ 10  36  60 564]]
정확도 :  0.75
정밀도 :  0.75
재현율 :  0.75
f1 :  0.75


In [None]:
# RandomForest 분류 모델의 성능을 개선하기 위해 하이퍼 파라미터를 수정
# 학습할 트리의 개수를 200개 증가
# 노드 분할에 필요한 최소 샘플 수는 기본값 2 -> 4로 변환
# 트리 전체에서 리프 노드의 최대 개수의 제한을 10개로 변환
clf2 = RandomForestClassifier(
    n_estimators= 200,
    max_leaf_nodes= 20
    # 실행 시간이 줄어들고 정확도에 차이가 생김!
)

clf2.fit(X_train, Y_train)

print(round(clf2.score(X_test, Y_test), 2))

0.65
