훈련 세트와 테스트 세트

머신러닝 모델을 만들 때, 전체 데이터를 두 부분으로 나누는 것이 필수적입니다. 

이 두 부분이 바로 **훈련 세트**와 **테스트 세트**입니다.

훈련 세트 (Training Set): 모델이 학습하는 데 사용하는 데이터입니다. 마치 학생이 시험공부를 위해 보는 교과서와 참고서와 같습니다. 모델은 이 데이터에서 패턴과 규칙을 배웁니다.

테스트 세트 (Test Set): 모델이 학습을 마친 후 성능을 평가하는 데 사용하는 데이터입니다. 학생이 공부한 내용을 얼마나 잘 이해했는지 확인하는 기말고사와 같습니다.

왜 나누어야 할까요?

만약 모델이 훈련에 사용한 데이터로만 성능을 평가하면, 마치 시험 문제와 답을 미리 알고 시험을 보는 것과 같습니다. 
이렇게 되면 모델이 새로운 데이터에 대해서는 제대로 작동하지 않는 과대적합(Overfitting) 상태에 빠질 수 있습니다.

**훈련 세트**와 **테스트 세트**를 분리하면, 모델이 처음 보는 데이터로 평가를 받기 때문에 실제 현장에서 얼마나 잘 작동할지 객관적으로 측정할 수 있습니다.

In [2]:
# '학습'과 '훈련'은 같은 의미로 사용되므로, '훈련'으로 통일합니다.

# 필요한 라이브러리를 불러옵니다.
# pandas는 데이터프레임을 다루는 데 사용됩니다.
import pandas as pd
# train_test_split은 데이터를 훈련 세트와 테스트 세트로 나누는 데 사용됩니다.
from sklearn.model_selection import train_test_split

# 1. 와인 데이터를 웹 URL에서 불러와 'df'라는 데이터프레임에 저장합니다.
# 이 데이터는 와인의 '알코올', '당도', 'pH', 'class' 정보를 담고 있습니다.
df = pd.read_csv("https://bit.ly/wine_csv_data")

# 데이터프레임의 첫 5행을 출력하여 어떤 데이터가 있는지 확인합니다.
print("--- 데이터의 첫 5행 ---")
print(df.head())
print("\n")

# 2. 데이터를 '특성(X)'과 '타겟(y)'으로 분리합니다.
# X는 모델이 훈련할 입력 데이터('알코올', '당도', 'pH')입니다.
# y는 모델이 예측할 정답 데이터('class')입니다.
X = df[['alcohol', 'sugar', 'pH']]
y = df['class']

# 3. '훈련 세트'와 '테스트 세트'로 데이터를 나눕니다.
# 훈련 세트(X_train, y_train)는 모델을 훈련하는 데 사용됩니다.
# 테스트 세트(X_test, y_test)는 모델의 성능을 평가하는 데 사용됩니다.
# test_size=0.25: 전체 데이터의 25%를 테스트 세트로 사용하라는 뜻입니다.
# random_state=42: 매번 같은 결과로 데이터를 분리하기 위한 설정입니다.
# stratify=y: 타겟(y)의 비율을 훈련 세트와 테스트 세트에 동일하게 맞춰주는 기능입니다.
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42, stratify=y
)

# 4. 분할된 데이터의 크기(행, 열)를 출력하여 제대로 나뉘었는지 확인합니다.
print("--- 분할된 데이터 크기 확인 ---")
print(f"훈련 세트(X_train) 크기: {X_train.shape}")
print(f"테스트 세트(X_test) 크기: {X_test.shape}")


--- 데이터의 첫 5행 ---
   alcohol  sugar    pH  class
0      9.4    1.9  3.51    0.0
1      9.8    2.6  3.20    0.0
2      9.8    2.3  3.26    0.0
3      9.8    1.9  3.16    0.0
4      9.4    1.9  3.51    0.0


--- 분할된 데이터 크기 확인 ---
훈련 세트(X_train) 크기: (4872, 3)
테스트 세트(X_test) 크기: (1625, 3)
