
##  Train-Test Split (훈련-테스트 데이터 분할)

Train-Test Split은 전체 데이터셋을 모델을 **훈련**시키는 데 사용할 데이터셋과 모델의 **성능을 평가**하는 데 사용할 데이터셋으로 나누는 과정입니다. 이는 모델이 보지 못한 새로운 데이터(테스트 데이터)에 대해 얼마나 잘 일반화(Generalize)하는지를 측정하기 위해 필수적입니다.

### 1\. 목적 및 필요성

  * **과적합 방지 (Preventing Overfitting):** 모델이 훈련 데이터에만 너무 잘 맞고 실제 데이터에서는 성능이 떨어지는 현상(과적합)을 방지하고 탐지합니다.
  * **일반화 성능 평가 (Generalization Assessment):** 모델이 보지 못한 데이터에 대해 정확히 예측할 수 있는지, 즉 **일반화 성능**을 객관적으로 평가합니다.

### 2\. sklearn 클래스

  * **클래스:** `sklearn.model_selection.train_test_split`

  * **용법:**

    ```python
    from sklearn.model_selection import train_test_split

    X_train, X_test, y_train, y_test = train_test_split(
        X,          # 독립 변수 (Feature Data)
        y,          # 종속 변수 (Target Label)
        test_size=0.3, # 전체 데이터 중 테스트 데이터 비율 (예: 30%)
        random_state=42, # 무작위성 제어를 위한 시드 (결과 재현성 확보)
        shuffle=True, # 분할 전 데이터를 섞을지 여부 (기본값: True)
        stratify=y # 클래스 비율을 유지하며 분할할지 여부 (주로 분류 문제에서 사용)
    )
    ```

### 3\. 주요 매개변수 (Parameters)

| 매개변수 | 설명 | 예시 값 |
| :--- | :--- | :--- |
| `X`, `y` | 분할할 **독립 변수 데이터**와 **종속 변수 데이터**입니다. | `X_data`, `y_data` |
| `test_size` | 테스트 데이터셋이 전체 데이터셋에서 차지하는 **비율**입니다. | `0.2` (20%) 또는 `300` (샘플 수) |
| `train_size` | 훈련 데이터셋의 비율 또는 크기를 지정합니다. (`test_size`와 상호 배타적) | `0.8` (80%) |
| `random_state` | 분할 과정의 **난수 시드**를 설정합니다. 같은 값으로 설정하면 항상 동일한 분할 결과를 얻습니다. | `42` 또는 `1004` |
| `shuffle` | 데이터를 분할하기 전에 **섞을지 여부**를 결정합니다. | `True` (기본값) |
| `stratify` | **분류 문제**에서 유용합니다. 원본 데이터의 **클래스 비율**을 훈련 및 테스트 데이터셋에 동일하게 유지하도록 합니다. | `y` (종속 변수) |

### 4\. 분할 비율 결정

일반적인 분할 비율은 데이터의 크기와 종류에 따라 달라지지만, 흔히 사용되는 비율은 다음과 같습니다.

  * **80% : 20%** (Train : Test)
  * **70% : 30%** (Train : Test)

데이터의 양이 매우 많을 때는 테스트 데이터의 비율을 더 낮게 설정하기도 합니다 (예: 90% : 10%).

-----