# 모델 셀렉션 모듈

- 훈련 데이터와 테스트 데이터로 분리하지 않고 학습 수행

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [2]:
iris = load_iris()
dtc = DecisionTreeClassifier(random_state=2022)
dtc.fit(iris.data, iris.target)
dtc.score(iris.data, iris.target)

1.0

- 교차 검증: cross_validate()
- 교차 검증 + 평가: cross_val_score()

In [3]:
from sklearn.model_selection import cross_val_score
cross_val_score(dtc, iris.data, iris.target, scoring='accuracy', cv=5)

array([0.96666667, 0.96666667, 0.9       , 0.93333333, 1.        ])

In [4]:
cross_val_score(dtc, iris.data, iris.target, scoring='accuracy', cv=5).mean()

0.9533333333333334

### GridSearchCV

In [5]:
# Train/Test data set 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, stratify=iris.target, test_size=0.2, random_state=2022
)

In [6]:
# 분류기와 그에 해당하는 하이퍼 파라메터
dtc = DecisionTreeClassifier(random_state=2022)
dtc.get_params()

{'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'random_state': 2022,
 'splitter': 'best'}

In [7]:
# 총 15가지 경우에 대해서 교차검증을 실시
params = {
    'max_depth': [2,3,4,5,6],
    'min_samples_split': [2,3,4]
}

In [8]:
from sklearn.model_selection import GridSearchCV

grid_dt = GridSearchCV(
    dtc, param_grid=params, scoring='accuracy', cv=5    # 총 15 * 5 = 75회의 학습과 평가
)

In [9]:
# 하이퍼 파라메터 별 교차 검증 시행
grid_dt.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(random_state=2022),
             param_grid={'max_depth': [2, 3, 4, 5, 6],
                         'min_samples_split': [2, 3, 4]},
             scoring='accuracy')

In [10]:
# 최적 파라메터
grid_dt.best_params_

{'max_depth': 3, 'min_samples_split': 2}

In [11]:
# 최적 모델
dtc_best = grid_dt.best_estimator_

In [12]:
# 최적 스코어
grid_dt.best_score_

0.9916666666666666

- 최적의 모델로 테스트 데이터에 대해 예측 및 평가

In [13]:
pred = dtc_best.predict(X_test)

In [14]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred)

0.9333333333333333

In [15]:
# 위 두가지를 한꺼번에
dtc_best.score(X_test, y_test)

0.9333333333333333