<a href="https://colab.research.google.com/github/ouguro3/Study/blob/main/ML_Guide/chapter_2/02_Model_Selection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 모듈 소개

사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터 세트를 분리하거나  
교차 검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위한  
다양한 함수와 클래스를 제공한다

### 학습/테스트 데이터 세트 분리 - train_test_split()

사이킷런의 `train_test_split()`을 통해 원본 데이터 세트에서  
학습 및 테스트 데이터 세트를 쉽게 분리할 수 있다

train_test_split()은 첫 번째 파라미터로 피처 데이터 세트, 두 번째 파라미터로 레이블 데이터 세트를 입력받는다  

그리고 선택적으로 다음 파라미터를 입력받는다  

- test_size (기본값 : 0.25) : 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정한다  

- train_size : 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정한다  
다만 통상적으로 `test_size`를 사용하므로 잘 쓰이지 않는다  

- shuffle (기본값 : True) : 데이터를 분리하기 전에 데이터를 미리 섞을지를 결정한다  
데이터를 분산시켜서 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는 데 사용된다 

- random_state : 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수값이다  
호출 시 무작위로 데이터를 분리하므로 지정하지 않으면 수행할 때마다 다른 학습/테스트용 데이터를 생성한다

In [1]:
# 붓꽃 데이터 세트를 train_test_split()을 사용해 테스트 데이터 30% 학습 데이터 70%으로 분리

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size=0.3, random_state=121)

In [2]:
# 예측 정확도 측정
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


### 교차 검증

알고리즘을 학습시키는 학습 데이터와 이에 대한 예측 성능을 평가하기 위한 별도의 테스트 데이터가 필요한데  
이 방법 역시 과적합에 취약한 약점을 가질 수 있다  

과적합은 모델이 특정 학습 데이터에만 과도하게 최적화되어 다른 데이터에는  
예측 성능이 떨어지는것을 말한다  

이런 문제점을 개선하기 위해 교차 검증을 이용해 더 다양한 학습과 평가를 수행한다

#### K 폴드 교차 검증

K 폴드 교차 검증은 가장 보편적으로 사용되는 교차 검증 기법이다  

먼저 K 개의 데이터 폴드 세트를 만들어서 K 번만큼 각 폴드 세트에 학습과 검증 평가를   
반복적으로 수행하는 방법이다