In [6]:
# --- 1. 전처리된 CSV 파일 불러오기 ---
import pandas as pd
from sklearn.model_selection import train_test_split

# 분리 완료된 CSV 파일을 불러옵니다.

df = pd.read_csv('타이타닉_분리완료_mldl_250801.csv')
print(df)

     pclass        age  sibsp  parch     fare  adult_male  alone  sex_female  \
0         3  22.000000      1      0   7.2500        True  False         0.0   
1         1  38.000000      1      0  71.2833       False  False         1.0   
2         3  26.000000      0      0   7.9250       False   True         1.0   
3         1  35.000000      1      0  53.1000       False  False         1.0   
4         3  35.000000      0      0   8.0500        True   True         0.0   
..      ...        ...    ...    ...      ...         ...    ...         ...   
886       2  27.000000      0      0  13.0000        True   True         0.0   
887       1  19.000000      0      0  30.0000       False   True         1.0   
888       3  29.699118      1      2  23.4500       False  False         1.0   
889       1  26.000000      0      0  30.0000        True   True         0.0   
890       3  32.000000      0      0   7.7500        True   True         0.0   

     sex_male  embarked_C  embarked_Q  

In [7]:

# --- 2. 특성(X)과 타겟(y) 분리 ---
# 불러온 DataFrame에서 특성(X)과 타겟(y)을 다시 분리합니다.

y = df['survived']
X = df.drop('survived', axis=1)

# X와 y의 행 개수(크기) 확인
# X.shape는 (행, 열) 형태의 튜플을 반환하고, X.shape[0]은 그중 첫 번째 값인 행 개수를 가져와.

print(f"X 데이터의 행 개수: {X.shape[0]}")
print(f"y 데이터의 행 개수: {y.shape[0]}")

X 데이터의 행 개수: 891
y 데이터의 행 개수: 891


In [8]:

# --- 3. 훈련/테스트 데이터 분리 ---

# # - train_test_split() 함수를 사용해 X와 y를 훈련용(train)과 테스트용(test)으로 나눕니다.
# # - test_size=0.2: 전체 데이터 중 20%를 테스트 데이터로 사용하겠다는 의미입니다.
# # - random_state: 데이터를 나눌 때 무작위성을 제어합니다. 이 값을 지정해야 나중에 다시 실행해도 똑같은 결과가 나옵니다.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:

# --- 4. 분리 결과 확인 ---

# 분리된 데이터의 크기를 확인합니다.
# 891의 20%는 178.2인데, train_test_split가 자동으로 반올림해서 테스트 데이터는 179개로 나뉠 거야.
# 남은 712개(891 - 179)가 훈련 데이터가 되겠지.

print("--- 훈련/테스트 데이터 분리 완료, 크기 확인. ---")
print(f"X_train 훈련 데이터 크기: {X_train.shape[0]} 행")
print(f"X_test 테스트 데이터 크기: {X_test.shape[0]} 행")
print(f"y_train 훈련 데이터 크기: {y_train.shape[0]} 행")
print(f"y_test 테스트 데이터 크기: {y_test.shape[0]} 행")


--- 훈련/테스트 데이터 분리 완료, 크기 확인. ---
X_train 훈련 데이터 크기: 712 행
X_test 테스트 데이터 크기: 179 행
y_train 훈련 데이터 크기: 712 행
y_test 테스트 데이터 크기: 179 행


In [10]:
# --- 5. 분리된 데이터 저장 ---
# 훈련용, 테스트용 데이터를 각각의 CSV 파일로 저장합니다.

# # - *****중요****** 왜 이전 단계에서는 합친 후 저장하고 지금 단계에서는 나뉘어진 여러 파일로 저장할까?

# # - (단계 4: 특성(X)과 타겟(y) 분리 완료 후) 이 단계에서는 '문제(X)'와 '정답(y)'을 합쳐서 관리하는 것이 편리했습니다. 
# # - (단계 5: 훈련/테스트 분리 후) 하지만 지금은 train_test_split() 함수에 의해 데이터가 무작위로 나뉘어 역할이 정해졌습니다.

# # - 훈련 데이터로만 학습시키고 테스트 데이터로는 평가해야 하는데, 데이터를 하나로 합쳐 저장하면 훈련용/테스트용 구분이 사라집니다.

# # - 이렇게 되면 모델이 학습할 때 보지 말아야 할 테스트 데이터를 보게 되어, '컨닝'을 하게 되고 평가 결과가 왜곡될 수 있습니다.
# # - 따라서 이 상태를 그대로 보존해야 모델을 정확하게 학습하고 평가할 수 있기 때문에, 각각 따로 저장하는 것이 안전하고 효율적입니다.

# # - index=False를 사용해 인덱스를 불필요하게 저장하지 않습니다.


# 훈련 데이터 저장

X_train.to_csv('타이타닉_X_train_mldl_250801.csv', index=False)
y_train.to_csv('타이타닉_y_train_mldl_250801.csv', index=False)

X_train.to_csv('타이타닉_X_train_mldl_250801.csv', index=False)
y_train.to_csv('타이타닉_y_train_mldl_250801.csv', index=False)


# 테스트 데이터 저장

X_test.to_csv('타이타닉_X_test_mldl_250801.csv', index=False)
y_test.to_csv('타이타닉_y_test_mldl_250801.csv', index=False)

print("--- 훈련/테스트 데이터가 CSV 파일로 성공적으로 저장되었습니다. ---")

--- 훈련/테스트 데이터가 CSV 파일로 성공적으로 저장되었습니다. ---
