#### Advanced 버전

In [None]:
# 라이브러리 및 데이터 확인

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import MinMaxScaler, StandardScaler

from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

# 분류 성능
from sklearn.metrics import accuracy_score, f1_score, recall_score, precision_score, roc_auc_score

# 회귀 성능
from sklearn.metrics import r2_score, mean_squared_error

# 출력 범위 조정
pd.options.display.max_columns = 999

In [None]:
# GridSearch CV를 활용한 하이퍼파라미터 최적화
# - GridSearch : 격자 탐색
# - CV = CrossValidation, 교차 검증

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

rf_params = {'n_estimators' : [30, 70, 100],
             'max_depth' : [6, 8, 10],
             'min_samples_leaf' : [1, 2, 3]}

# n_estimators : tree의 개수
# max_depth : tree의 최대 깊이
# min_samples_leaf : leaf node(더이상 본할되지 않는 마지막 노드)가 되기 위해 필요한 최소 샘플 수
# (이 값보다 작은 수의 샘플이 해당 노드에 있을 경우, 더이상 분할하지 않음!)

# RandomForestClassifier 객체 생성 후 GridSearchCV 수행
rf = RandomForestClassifier(random_state=2023)
grid_rf = GridSearchCV(rf, param_grid=rf_params, cv=10)
grid_rf.fit(x_train_ad, y_train_ad['target'])

# y값 입력 시 주의(1차원 형태로 들어가야 한다!)

print('최적 하이퍼파라미터 :', grid_rf.best_params_)
print('Best 예측정확도 : ', grid_rf.best_score_)

In [None]:
# (참고) help 함수를 통한 함수 사용법 확인

# from sklearn.model_selection import GridSearchCV
# help(GridSearchCV)

# from sklearn.ensemble import RandomForestClassifier
# help(RandomForestClassifier)

In [None]:
# 위 최적 하이퍼파라미터로 랜덤포레스트 모델 생성
from sklearn.ensemble import RandomForestClassifier

model_h = RandomForestClassifier(n_estimators=70,
                                 max_depth=10,
                                 min_samples_leaf=3,
                                 random_state=2023)

model_h.fit(x_train_ad, y_train_ad['target']) # y 데이터 입력 시 주의

In [None]:
# 모델 성능 평가 (정확도, F1 score, AUC)
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score

# test 데이터셋으로 성능평가
y_pred_h = model_h.predict(x_test)

acc_h = accuracy_score(y_test, y_pred_h)
f1_h = f1_score(y_test, y_pred_h)
auc_h = roc_auc_score(y_test, y_pred_h)