
# 🧪 실습: train_test_split을 활용한 데이터 분할

 Scikit-learn의 `train_test_split` 함수를 활용하여 머신러닝에서 자주 사용되는 **데이터 분할** 방법을 실습합니다.



## 📌 목표
- train_test_split의 기본 사용법 이해
- 분할 후 데이터 모양 확인



### train_test_split 이란?

- 머신러닝 모델을 훈련하고 평가하기 위해 전체 데이터를 용도별로 나누는 과정






1.   목적: 모델이 보지 못한 새로운 데이터에도 잘 작동하도록 일반화 성능 확보
2.   학습(train): 모델이 패턴을 학습하는 데 사용
3.   테스트(test): 최종 성능 평가용









In [16]:
#  필요한 라이브러리 불러오기
# 여기에 코드를 작성하세요!

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [17]:
## 모범답안

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split



## 1.  데이터셋 생성 및 확인

먼저 간단한 예제를 위해 `pandas`와 `numpy`를 사용해 가상의 분류용 데이터를 생성하였습니다.



In [18]:
# 가상의 데이터 생성
np.random.seed(42)  # 재현성을 위해 고정
X = pd.DataFrame({
    'feature1': np.random.rand(100),
    'feature2': np.random.rand(100)
})
y = pd.Series(np.random.choice([0, 1], size=100))  # 0 또는 1 라벨

데이터셋을 살펴보세요

In [19]:
# 여기에 코드를 작성하세요!-

display(X.head())

display(y.head())

Unnamed: 0,feature1,feature2
0,0.37454,0.031429
1,0.950714,0.63641
2,0.731994,0.314356
3,0.598658,0.508571
4,0.156019,0.907566


0    1
1    1
2    0
3    0
4    1
dtype: int64

In [20]:
## 모범답안


# 데이터 확인
print(" X 데이터 샘플:")
display(X.head())

print(" y 라벨 샘플:")
display(y.head())


 X 데이터 샘플:


Unnamed: 0,feature1,feature2
0,0.37454,0.031429
1,0.950714,0.63641
2,0.731994,0.314356
3,0.598658,0.508571
4,0.156019,0.907566


 y 라벨 샘플:


0    1
1    1
2    0
3    0
4    1
dtype: int64


## 2.  기본적인 train_test_split 사용법

`train_test_split`을 사용해 데이터를 학습용(train)과 테스트용(test)으로 나눠보겠습니다.

- `test_size`: 테스트 데이터 비율 (예: 0.2 → 20%)
- `random_state`: 데이터를 무작위로 섞을 때 결과를 매번 동일하게 만들기 위한 숫자 설정값 ( 고유번호)

sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)[source]

-`*arrays(필수)` : X, y
- `test_size`: 테스트 비율
- `random_state`: 랜덤 고유번호 (랜덤시드 32비트내에서, 0 ~ 2^32 - 1)
- `shuffle`: 섞기
- `stratify`: 데이터 비율의 균형




In [21]:
# 여기에 코드를 작성하세요!
# 각기 다른 변수에 담을 때는 X_train, X_test, y_train, y_test 순서로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1111)

# x, y 가 100개씩
print(f"{X_train.shape}\n{X_test.shape}\n{y_train.shape}\n{y_test.shape}")



(80, 2)
(20, 2)
(80,)
(20,)


In [22]:
y.value_counts()

1    55
0    45
Name: count, dtype: int64

In [23]:
## 모범답안


# 기본적인 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=1234
)

# 분할 결과 확인
print(f" X_train shape: {X_train.shape}")
print(f" X_test shape: {X_test.shape}")
print(f" y_train label 분포:\n{y_train.value_counts()}")
print(f" y_test label 분포:\n{y_test.value_counts()}")


 X_train shape: (80, 2)
 X_test shape: (20, 2)
 y_train label 분포:
1    46
0    34
Name: count, dtype: int64
 y_test label 분포:
0    11
1     9
Name: count, dtype: int64



### 문제
##### X, y 데이터를 학습 시킬 때 , 학습 70%, 테스트 30% 로 나누어 학습시키려고 합니다. 코드를 작성해보세요. 라이브러리를 불러오는 것부터 시작하세요 (데이터 분할 고유번호는 2025 입니다)

In [27]:
# 여기에 코드를 작성하세요
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.3, random_state=2025)

print(f"{X_train.shape}\n{X_test.shape}\n{y_train.shape}\n{y_test.shape}")

(70, 2)
(30, 2)
(70,)
(30,)


In [25]:
## 모범답안

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2025)


## 3.  정리

- `train_test_split`은 머신러닝 실습에서 가장 기초적이면서 중요한 함수입니다.
- 테스트 데이터는 반드시 훈련에 사용되지 않아야 하며, 모델 평가를 위해 **보존**해야 합니다.
- 일반적인 분할 비율은 8:2 또는 7:3입니다.
