# 교차 검증과 그리드 서치

## 검증 세트

In [64]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_validate
from sklearn.model_selection import GridSearchCV
#from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from scipy.stats import uniform, randint
#from sklearn.tree import plot_tree
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [3]:
wine = pd.read_csv('https://bit.ly/wine-date')
wine.head()

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.2,0.0
2,9.8,2.3,3.26,0.0
3,9.8,1.9,3.16,0.0
4,9.4,1.9,3.51,0.0


In [5]:
data=wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

In [7]:
train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)
print(train_input.shape, test_input.shape)
# (5197, 3) (1300, 3)

(5197, 3) (1300, 3)


In [13]:
sub_input, val_input, sub_target, val_target = train_test_split(train_input, train_target, test_size=0.2, random_state=42)
print(sub_input.shape, val_input.shape)
# (4157, 3) (1040, 3)

(4157, 3) (1040, 3)


In [15]:
dt = DecisionTreeClassifier(random_state=42)
dt.fit(sub_input, sub_target)

print(dt.score(sub_input, sub_target))  # 훈련용 데이터
# 0.9971133028626413
print(dt.score(val_input, val_target))  # 검증용 데이터
# 0.864423076923077

0.9971133028626413
0.864423076923077


## 교차 검증

In [20]:
# cross_validate : 교차 검증을 사용
# 모델의 성능을 평가
# 훈련 데이터를 여러 개의 "폴드(fold)"로 나누고, 각 폴드에 대해 훈련과 테스트를 반복하는 방식
# 모델이 데이터셋에 대한 일반화 능력이 얼마나 뛰어난지를 평가하는 데 유용
scores = cross_validate(dt, train_input, train_target)
print(scores)
# {'fit_time': array([0.00672579, 0.00701618, 0.00619173, 0.00598431, 0.00623035]),
# 'score_time': array([0.00189161, 0.        , 0.00099492, 0.00099921, 0.        ]),
# 'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}

{'fit_time': array([0.00672579, 0.00701618, 0.00619173, 0.00598431, 0.00623035]), 'score_time': array([0.00189161, 0.        , 0.00099492, 0.00099921, 0.        ]), 'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}


In [26]:
# scores['test_score'] : 교차 검증(cross-validation)에서 각 폴드(fold)에서 계산된 테스트 정확도
# np.mean(scores['test_score']) : 전체 데이터에서 평균적으로 얼마나 잘 예측했는지
print(np.mean(scores['test_score']))
# 0.855300214703487

0.855300214703487


In [34]:
scores= cross_validate(dt, train_input, train_target, cv = StratifiedKFold())
print(np.mean(scores['test_score']))
# 0.855300214703487

0.855300214703487


In [38]:
splitter = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
scores = cross_validate(dt, train_input, train_target, cv= splitter)
print(np.mean(scores['test_score']))
# 0.8574181117533719

0.8574181117533719


| 교차 검증 방법          | 설명                                                       | 특징                                  |
|------------------------|------------------------------------------------------------|---------------------------------------|
| **정수 (n_splits)**     | 데이터를 n개의 폴드로 나누어 교차 검증                    | 기본적인 KFold 방식                   |
| **KFold**               | 데이터를 n개의 폴드로 나누어 훈련/테스트 수행               | 클래스 비율 고려하지 않음             |
| **StratifiedKFold**     | 클래스 비율을 유지한 채 데이터를 나누어 교차 검증          | 불균형 클래스 데이터에 유리            |
| **LeaveOneOut (LOO)**   | 각 샘플을 테스트 세트로 사용하고 나머지는 훈련 데이터로 사용 | 샘플 수가 적을 때 유용                |
| **LeavePOut (LPO)**     | 각 폴드에서 p개의 샘플을 테스트 세트로 사용               | 계산량이 많을 수 있음                  |
| **GroupKFold**          | 그룹 단위로 데이터를 나누어 교차 검증                     | 동일 그룹이 훈련/테스트 세트에 중복되지 않음 |
| **TimeSeriesSplit**     | 시계열 데이터를 위한 교차 검증 방식                        | 시간순서를 고려한 교차 검증           |
| **ShuffleSplit**        | 데이터를 무작위로 섞어 훈련/테스트 세트를 여러 번 나누기   | 임의로 데이터를 나누는 방식           |
| **StratifiedShuffleSplit** | 층화된 방식으로 무작위로 섞어서 훈련/테스트 세트 나누기    | 클래스 비율을 유지하며 샘플을 무작위로 나누기 |


## 하이퍼파라미터 튜닝

In [94]:
# min_impurity_decrease는 분할이 이루어지기 전에 불순도가 최소한 이만큼 감소해야만 해당 분할을 수행하도록 설정하는 하이퍼파라미터
# 값이 크면 트리가 더 간단, 작으면 트리가 더 복잡
# GridSearchCV : 하이퍼파라미터 값들에 대해 교차 검증을 수행하며, 최적의 파라미터를 찾는 방법
# n_jobs=-1: 가능한 모든 CPU 코어를 사용하여 병렬 처리로 속도를 높입니다. -1로 설정하면 모든 사용 가능한 코어를 활용
params = {'min_impurity_decrease' : [0.0001, 0.0002, 0.0003, 0.0004, 0.0005]}
gs = GridSearchCV(DecisionTreeClassifier(random_state = 42), params, n_jobs =-1)
gs.fit(train_input, train_target)

In [48]:
# gs.best_estimator_**는 그리드 서치 결과에서 최적의 모델을 반환
# 즉 최적 모델의 정확도 반환
dt = gs.best_estimator_
print(dt.score(train_input, train_target))
# 0.9615162593804117

# 최적 모델이 훈련 데이터에 대해 얼마나 잘 학습했는지 보여줌

0.9615162593804117


In [50]:
# 최적의 하이퍼파라미터를 찾은 후, 해당 최적 파라미터를 출력하는 부분
print(gs.best_params_)
# {'min_impurity_decrease': 0.0001}

{'min_impurity_decrease': 0.0001}


In [52]:
# 교차 검증의 평균 테스트 성능을 출력
# 교차 검증을 통해 검증 데이터에 대한 평균 성능 -> 모델의 일반화 성능을 평가
print(gs.cv_results_['mean_test_score'])
# [0.86819297 0.86453617 0.86492226 0.86780891 0.86761605]

[0.86819297 0.86453617 0.86492226 0.86780891 0.86761605]


In [54]:
# mean_test_score 배열에서 가장 큰 평균 테스트 정확도를 가지는 하이퍼파라미터 조합의 인덱스를 찾아 best_index에 저장
best_index = np.argmax(gs.cv_results_['mean_test_score'])

# best_index를 사용해 최적의 하이퍼파라미터 조합을 출력
print(gs.cv_results_['params'][best_index])
#{'min_impurity_decrease': 0.0001}

#  최적의 하이퍼파라미터 설정을 추출하여, 그리드 서치가 찾은 최적의 모델을 설정

{'min_impurity_decrease': 0.0001}


In [56]:
params = {'min_impurity_decrease' : np.arange(0.0001, 0.001, 0.0001),
         'max_depth':range(5, 20, 1),
         'min_samples_split':range(2, 100, 10)}

gs = GridSearchCV(DecisionTreeClassifier(random_state = 42), params, n_jobs =-1)
gs.fit(train_input, train_target)

In [58]:
print(gs.best_params_)
# {'max_depth': 14, 'min_impurity_decrease': 0.0004, 'min_samples_split': 12}

{'max_depth': 14, 'min_impurity_decrease': 0.0004, 'min_samples_split': 12}


In [60]:
print(np.max(gs.cv_results_['mean_test_score']))
# 0.8683865773302731

0.8683865773302731


## 랜덤 서치

In [67]:
#  0부터 9까지의 정수를 무작위로 생성
rgen = randint(0, 10)
rgen.rvs(10)
# array([3, 7, 7, 6, 5, 0, 9, 9, 1, 2], dtype=int64)

array([3, 7, 7, 6, 5, 0, 9, 9, 1, 2], dtype=int64)

In [69]:
np.unique(rgen.rvs(1000), return_counts=True)
# (array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int64),
# array([118, 103, 102,  90,  84,  82,  80, 111, 117, 113], dtype=int64))

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int64),
 array([118, 103, 102,  90,  84,  82,  80, 111, 117, 113], dtype=int64))

In [71]:
ugen = uniform(0,1)
ugen.rvs(10)
# array([0.43466715, 0.34160624, 0.65614432, 0.68206451, 0.75739647,
#       0.94491451, 0.94510073, 0.59068803, 0.31799185, 0.20166588])

array([0.43466715, 0.34160624, 0.65614432, 0.68206451, 0.75739647,
       0.94491451, 0.94510073, 0.59068803, 0.31799185, 0.20166588])

In [77]:
params = {'min_impurity_decrease' : uniform(0.0001, 0.001),
         'max_depth':randint(20, 50),
         'min_samples_split':randint(2, 25),
         'min_samples_leaf':randint(1, 25)}

gs = RandomizedSearchCV(DecisionTreeClassifier(random_state=42), params,
                       n_iter=100, n_jobs=-1, random_state=42)
gs.fit(train_input, train_target)

In [79]:
print(gs.best_params_)
# {'max_depth': 39, 'min_impurity_decrease': 0.00034102546602601173, 'min_samples_leaf': 7, 'min_samples_split': 13}

{'max_depth': 39, 'min_impurity_decrease': 0.00034102546602601173, 'min_samples_leaf': 7, 'min_samples_split': 13}


In [81]:
print(np.max(gs.cv_results_['mean_test_score']))
# 0.8695428296438884

0.8695428296438884


In [83]:
dt = gs.best_estimator_
print(dt.score(test_input, test_target))
# 0.86

0.86


## 확인문제

In [89]:
gs = RandomizedSearchCV(DecisionTreeClassifier(splitter='random', random_state=42), params,
                       n_iter=100, n_jobs=-1, random_state=42)
gs.fit(train_input, train_target)

In [91]:
print(gs.best_params_)
# {'max_depth': 43, 'min_impurity_decrease': 0.00011407982271508446, 'min_samples_leaf': 19, 'min_samples_split': 18}
print(np.max(gs.cv_results_['mean_test_score']))
# 0.8458726956392981
dt = gs.best_estimator_
print(dt.score(test_input, test_target))
# 0.786923076923077

{'max_depth': 43, 'min_impurity_decrease': 0.00011407982271508446, 'min_samples_leaf': 19, 'min_samples_split': 18}
0.8458726956392981
0.786923076923077
