# 교차 검증과 그리드 서치
* 검증 세트가 필요한 이유를 이해하고 교차 검증 방법 학습
* 그리드 서치와 랜덤 서치를 이용해 최적의 성능을 내는 하이퍼파라미터 찾기

### 지난 시간에

![image.png](attachment:e013585c-142a-41b6-a0eb-8fae1e005d5c.png)

### 일반화된 모델이 과연 맞을까?

* 모델을 만들어서 테스트 세트로만 평가한다면 테스트 세트에만 잘 맞는 모델이 생성되지 않는가?
  - 테스트 세트를 사용해 반복해서 성능평가를 하면 점점 테스트 세트에 적합한 모델이 만들어짐
  - **테스트 성능이 과대평가!!!**
* 테스트 세트로 일반화 성능을 올바르게 예측하려면?
  - **가능한 테스트 세트를 사용하지 말것!!!!**
  - **테스트 세트는 가장 마지막에만 한 번 사용**

### 검증 세트(Validation Set)
* 테스트 세트를 사용하지 않고 모델의 성능을 측정하기 위해 훈련 세트를 다시 나누어 생성한 데이터 세트
* 일반적으로 훈련 세트에서 다시 20% 정도 떼어 내서 검증 세트로 생성

![image.png](attachment:5c1affac-f1f3-4274-9d9c-21a55e190a23.png)

* **훈련 세트** : 모델의 학습에 사용
* **검증 세트** : 학습 중 모델 성능을 평가하고 하이퍼파라미터 튜닝에 사용
* **테스트 세트** : 최종 성능을 객관적으로 평가하는데 사용

---

* 와인 샘플 데이터를 이용하여 검증 세트 생성

In [None]:
import pandas as pd
wine = pd.read_csv('https://bit.ly/wine_csv_data')

* 특성, 타깃 데이터 배열 생성

In [None]:
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

* 훈련 세트와 테스트 세트 분리

* 훈련 세트를 다시 train_test_split() 함수를 이용하여 분리하고 검증 세트 생성
  - test_size 값을 0.2로 설정하여 검증 세트의 비율을 20%로 설정

* 다시 분리한 훈련 세트로 모델을 만들고 훈련 세트와 검증 세트로 평가

### 교차 검증(Cross Validation)
* 검증 세트 때문에 훈련 세트가 줄었음
* 좋은 모델을 만들기 위해 훈련 세트에 데이터를 많이 할당하고 검증 세트의 비율을 줄이면??
  - 검증 점수의 신뢰도가 떨어질 수 있음
* **검증 세트를 떼어 내어 평가하는 과정을 여러 번 반복하고, 이 점수를 평균하여 최종 검증 점수를 산출**
  - 안정적인 검증 점수를 얻고 훈련에 더 많은 데이터를 사용할 수 있음
 
![image.png](attachment:a5b14cd0-59b1-4610-b5c3-c22ff0fa32c6.png)

#### [k-폴드 교차 검증(K-Fold Cross Validation)]
* 전체 데이터를 **k개의 균등한 조각(fold)** 으로 나눈 후, **k번 반복 학습과 평가**를 수행하여 검증하는 방식
* 각 반복에서는
  - **k-1개의 fold**를 **훈련 데이터**로 사용
  - **나머지 1개의 fold**를 **검증 데이터**로 사용
* 동작 과정 예시 (k=5인 경우)

| 반복 | 훈련 세트 (Train)                     | 검증 세트 (Validation) |
| -- | --------------------------------- | ------------------ |
| 1  | Fold 2 + Fold 3 + Fold 4 + Fold 5 | Fold 1             |
| 2  | Fold 1 + Fold 3 + Fold 4 + Fold 5 | Fold 2             |
| 3  | Fold 1 + Fold 2 + Fold 4 + Fold 5 | Fold 3             |
| 4  | Fold 1 + Fold 2 + Fold 3 + Fold 5 | Fold 4             |
| 5  | Fold 1 + Fold 2 + Fold 3 + Fold 4 | Fold 5             |


* 각 Fold가 한 번씩 검증용 데이터로 사용되며, 공정하고 균형 있는 평가 가능
* 모든 샘플이 훈련/검증에 한 번씩 사용됨으로써 데이터 효율 향상 (데이터가 많지 않을 때 성능 평가에 매우 유용)

---

* **cross_validate() 함수**
  - 여러 성능 지표를 동시에 측정하고, 학습 시간과 예측 시간까지 함께 평가할 수 있는 강력한 교차 검증 도구
  - 기본적으로 5-폴드 교차 검증 수행 (cv 매개변수 설정)
  - 딕셔너리 타입의 값을 반환

```python
results = {
    'fit_time': [...],         # 학습 시간
    'score_time': [...],       # 예측 시간
    'test_score': [...],       # 검증 점수
    'train_score': [...]       # (선택적) 훈련 점수
}
```

* 교차 검증의 최종 점수 : test_score 키에 담긴 5개의 점수를 평균하여 산출

* cross_validate() 함수는 훈련 세트를 섞어 폴드를 나누지 않음
  - 데이터를 단순히 k 등분
* 교차 검증을 할 때 훈련 세트를 섞으려면 **분할기(Splitter)를 지정**해야 함

#### [분할기(Splitter)]
* 교차 검증에서 폴드를 어떻게 나눌지 결정
* cross_validate() 함수의 **매개변수 cv에 분할기 설정** (정수값, KFold, StratifiedKFold, GroupKFold, TimeSeriesSplit 등)

---
* **KFold**
  - 데이터를 **k개로 균등하게 나누고 무작위로 섞지 않음**
  - 샘플 수가 적을 경우 Overfitting 방지에 유리
``` python
from sklearn.model_selection import KFold
cv = KFold(n_splits=5)
```
* **StratifiedKFold**
  - **분류 문제**에서 사용
  - 각 Fold 마다 **클래스 비율이 원본과 동일하게 유지**
  - 불균형 데이터셋에서 강력하게 추천됨
``` python
from sklearn.model_selection import StratifiedKFold
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
```
* **GroupKFold**
  - **데이터가 그룹 단위로 묶여 있어** 같은 그룹이 train/test에 모두 포함되면 안되는 경우 사용
  - 예: 한 사람의 여러 사진이 있는 경우 -> 같은 사람은 한 Fold에만 있어야 함
``` python
from sklearn.model_selection import GroupKFold
cv = GroupKFold(n_splits=3)
```
* **TimeSeriesSplit**
  - **시계열 데이터**에 특화된 분할기
  - 시간 순서대로 누적해서 train/test 세트 생성
``` python
from sklearn.model_selection import TimeSeriesSplit
cv = TimeSeriesSplit(n_splits=4)
```
---

* 기본 StratifiedKFold 분할기 설정
  - cross_validate() 함수에 매개변수 cv를 설정하지 않은 코드와 동일한 결과

* 훈련 세트를 섞은 후 10-폴드 교차 검증 수행하는 StratifiedKFold 분할기 설정

### 하이퍼파라미터 튜닝

#### [파라미터 종류]
* **모델파라미터** : 머신러닝 모델이 학습하는 파라미터
* **하이퍼파라미터** : 머신러닝 모델 **학습 전에 사람이 직접 설정하는 값들**
  - 머신러닝 라이브러리에서 모두 클래스나 메서드의 매개변수로 표현
 
#### [하이퍼파라미터 튜닝의 목적]
* 모델의 성능은 **하이퍼파라미터 설정에 따라 크게 달라짐**
* 튜닝을 통해 모델의 **일반화 성능(새로운 데이터에 대한 정확도)** 을 최적화

#### [튜닝 방법]
#### (1) 직접 모델의 클래스나 매서드의 매개변수를 조금씩 바꿔 보면서 성능 측정
* 한 매개변수의 최적값을 찾고 다른 매개변수의 최적값을 순차적으로 찾는것은 매우 어려움
* **여러 매개변수를 동시에 바꿔가며 최적의 값을 찾아나가야 함 (매우 복잡)**

#### (2) Grid Search (그리드 서치)
* 가능한 모든 조합을 **완전탐색**
* 정확하지만 느림 (조합이 많을수록 비용 ↑)
* 사이킷런의 **GridSearchCV 클래스**를 이용하여 그리드 탐색 수행

#### (3) Random Search (랜덤 서치)
* 일부 하이퍼파라미터 조합만 무작위로 시도
  - 매개변수의 값이 수치일 때 값의 범위나 간격을 미리 정하기 어려울 경우
  - 너무 많은 매개 변수의 조건이 있어 그리드 서치 수행 시간이 오래 걸릴 경우
* 빠르지만 최적 조합을 놓칠 가능성 있음
* 사이킷런의 **RandomizedSearchCV 클래스**를 이용하여 랜덤 탐색 수행

| 항목        | GridSearchCV  | RandomizedSearchCV |
| --------- | ------------- | ------------------ |
| 방식        | 모든 조합 탐색      | 무작위 조합 추출          |
| 시간 소요     | 큼 (느림)        | 작음 (빠름)            |
| 최적값 발견 확률 | 높음 (완전 탐색)    | 중간 (운 좋으면 빠르게)     |
| 튜닝 대상 수   | 적은 경우 적합      | 많거나 연속형이면 더 효율적    |
| 사용 예      | 작은 하이퍼파라미터 공간 | 큰 공간, 빠른 테스트 필요 시  |

---

* **예제 1) 기본 매개변수를 사용한 결정 트리 모델에서 min_impurity_decrease 매개변수의 최적값 찾기**

* 그리드 서치 객체 생성

* 모델 훈련

* 그리드 서치 객체가 탐색한 최적의 모델 선택
  - 검증 점수가 가장 높은 모델의 매개변수 조합으로 전체 훈련 세트에서 자동으로 다시 모델을 훈련
  - 그리드 서치 객체의 **best_estimator_** 속성에 저장

* 최적의 매개변수 확인
  - **best_params_** 속성에 저장

* 각 매개변수에서 수행한 교차 검증의 평균 점수 확인
  - **cs_result_ 속성의 'mean_test_score'** 키에 저장

* argmax() 함수를 사용한 최적의 매개변수 조합 추출

* **예제 2) 여러 개의 매개변수(min_impurity_decrease, max_depth, min_samples_split)에 대한 최적의 조합 찾기**

* params 변수 설정

* 그리드 서치 객체 생성 및 훈련

* 최적의 매개변수 조합 확인

* 최적의 교차 검증 점수 확인

#### [랜덤 서치]
* 랜덤 서치에는 매개변수 값의 목록을 전달하는 것이 아니라 매개변수를 샘플링할 수 있는 **확률 분포 객체를 전달**
* 싸이파이(scipy) 라이브러리의 **uniform, randint 클래스를 사용하여 값을 샘플링**
  - **uniform** : 균등 분포에서 실수값을 샘플링
  - **randint** : 균등 분포에서 정수값을 샘플링

---
* uniform, randint 클래스 사용 예

In [None]:
# 0 ~ 10 사이의 범위를 갖는 randint 객체를 만들고 10개의 숫자를 샘플링
rgen = randint(0, 10)
rgen.rvs(10)

In [None]:
# 1,000개의 숫자를 샘플링하고 각 숫자의 개수 카운트
np.unique(rgen.rvs(1000), return_counts=True)

In [None]:
# 0 ~ 1 사이의 10개의 실수를 샘플링
ugen = uniform(0, 1)
ugen.rvs(10)

---

* **예제 3) 랜덤 서치를 사용하여 여러 개의 매개변수(min_impurity_decrease, max_depth, min_samples_split)에 대한 최적의 조합 찾기**

* params 변수 설정

* 랜덤 서치 객체 생성 및 훈련

* 최적의 매개변수 조합 확인

* 최적의 교차 검증 점수 확인

* 최적의 모델 확인