In [2]:
# 단계 3: 특성(X)과 타겟(y) 분리하기 (실전 워크플로우)

# --- 3.1 전처리된 CSV 파일 불러오기 ---
import pandas as pd

# pd.read_csv() 함수를 사용해 저장해 둔 파일을 불러와 df 변수에 담기

df = pd.read_csv('타이타닉_전처리완료_mldl_250801.csv')

print("--- 전처리된 데이터가 성공적으로 불러와졌습니다. ---")
print(df.head())

--- 전처리된 데이터가 성공적으로 불러와졌습니다. ---
   survived  pclass  sex   age  sibsp  parch     fare  embarked  class    who  \
0         0       3    0  22.0      1      0   7.2500         0  Third    man   
1         1       1    1  38.0      1      0  71.2833         1  First  woman   
2         1       3    1  26.0      0      0   7.9250         0  Third  woman   
3         1       1    1  35.0      1      0  53.1000         0  First  woman   
4         0       3    0  35.0      0      0   8.0500         0  Third    man   

   adult_male deck  embark_town alive  alone  
0        True  NaN  Southampton    no  False  
1       False    C    Cherbourg   yes  False  
2       False  NaN  Southampton   yes   True  
3       False    C  Southampton   yes  False  
4        True  NaN  Southampton    no   True  


In [3]:
# --- 3.2 예측에 사용할 컬럼들 확인하기 ---
# 현재 데이터프레임의 모든 컬럼을 확인합니다.

print("--- 현재 데이터의 전체 컬럼 목록 ---")
print(df.columns)

--- 현재 데이터의 전체 컬럼 목록 ---
Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')


In [4]:
# --- 3.3 효율적인 방법으로 특성(X)과 타겟(y) 분리 ---

# # - 불필요한 컬럼('name', 'ticket' 등)은 제외해야 합니다.

# #  - 특성(X)은 모델 학습에 필요한 '문제' 데이터입니다.
# # - 특성(X)은 타겟과 예측에 불필요한 컬럼('pclass'가 'class'와 중복)을 제외한 모든 컬럼입니다.

# # - 타겟(y)은 모델이 맞춰야 하는 '정답' 데이터입니다.

# 타겟(y) 설정: 'survived' 컬럼을 정답 데이터로 지정

y = df['survived']

# 특성(X) 설정: 'survived' 컬럼을 제외한 모든 컬럼을 X로 지정
# df.drop() 함수를 사용해 특정 컬럼을 제거. axis=1은 컬럼을 제거하라는 의미

# 'class' 컬럼을 제외한 이유. 
# 'class' 컬럼은 'pclass' 컬럼과 같은 정보를 담고 있습니다.
# 'pclass'는 1, 2, 3등석을 숫자로 나타내고, 'class'는 'First', 'Second', 'Third'로 나타냅니다.
# 두 컬럼 중 하나만 있어도 충분하기 때문에, 'pclass'만 남기고 'class'는 제거했습니다.
# 이렇게 중복된 정보는 모델 학습 시 오히려 혼란을 줄 수 있어 제거하는 것이 좋습니다.

X = df.drop(['survived', 'class'], axis=1)


# --- 3. 분리 결과 확인 ---
print("\n--- 2.3 특성(X)과 타겟(y) 분리 완료 ---")
print("\n[타겟(y) 데이터] (상위 5개)")
print(y.head())
print("\n[특성(X) 데이터] (상위 5개)")
print(X.head())


--- 2.3 특성(X)과 타겟(y) 분리 완료 ---

[타겟(y) 데이터] (상위 5개)
0    0
1    1
2    1
3    1
4    0
Name: survived, dtype: int64

[특성(X) 데이터] (상위 5개)
   pclass  sex   age  sibsp  parch     fare  embarked    who  adult_male deck  \
0       3    0  22.0      1      0   7.2500         0    man        True  NaN   
1       1    1  38.0      1      0  71.2833         1  woman       False    C   
2       3    1  26.0      0      0   7.9250         0  woman       False  NaN   
3       1    1  35.0      1      0  53.1000         0  woman       False    C   
4       3    0  35.0      0      0   8.0500         0    man        True  NaN   

   embark_town alive  alone  
0  Southampton    no  False  
1    Cherbourg   yes  False  
2  Southampton   yes   True  
3  Southampton   yes  False  
4  Southampton    no   True  


In [5]:
# --- 4. X, y 분리 완료된 데이터 저장 ---

# # - X와 y를 합쳐서 저장하는 이유
# # - X와 y의 행 순서(인덱스)를 유지해 데이터 무결성을 확보하고,
# # - 다음 단계에서 파일을 하나만 관리하며 데이터를 쉽게 재분리하기 위함입니다.

# 'X'와 'y'를 합쳐서 하나의 DataFrame으로 만든 후 저장합니다.
# axis=1로 설정해 컬럼 방향(옆으로)으로 합칩니다.

df_split = pd.concat([X, y], axis=1)


# 합쳐진 DataFrame을 새로운 파일명으로 저장

df_split.to_csv('타이타닉_분리완료_mldl_250801.csv', index=False)

print("--- X, y 분리가 완료된 데이터가 CSV 파일로 성공적으로 저장되었습니다. ---")
print(df_split)

--- X, y 분리가 완료된 데이터가 CSV 파일로 성공적으로 저장되었습니다. ---
     pclass  sex        age  sibsp  parch     fare  embarked    who  \
0         3    0  22.000000      1      0   7.2500         0    man   
1         1    1  38.000000      1      0  71.2833         1  woman   
2         3    1  26.000000      0      0   7.9250         0  woman   
3         1    1  35.000000      1      0  53.1000         0  woman   
4         3    0  35.000000      0      0   8.0500         0    man   
..      ...  ...        ...    ...    ...      ...       ...    ...   
886       2    0  27.000000      0      0  13.0000         0    man   
887       1    1  19.000000      0      0  30.0000         0  woman   
888       3    1  29.699118      1      2  23.4500         0  woman   
889       1    0  26.000000      0      0  30.0000         1    man   
890       3    0  32.000000      0      0   7.7500         2    man   

     adult_male deck  embark_town alive  alone  survived  
0          True  NaN  Southampton    no