In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

# 데이터 로드
file_path = "c:\\Users\\wlsgh\\Downloads\\인공지능개론\\2주차\\titanic.csv"
df = pd.read_csv(file_path)

# 기본 정보 확인
print("원본 데이터 정보:")
print(f"데이터 크기: {df.shape}")
print("컬럼 목록:", df.columns.tolist())
print("\n결측치 확인:")
print(df.isnull().sum())

# 'Name', 'Ticket', 'Embarked' 컬럼 제거
df = df.drop(['Name', 'Ticket', 'Embarked'], axis=1)
print("\n컬럼 제거 후 컬럼 목록:", df.columns.tolist())

# 범주형 데이터 인코딩 (Sex, Cabin)
def label_encode_columns(df, columns):
    df_encoded = df.copy()
    encoders = {}
    
    for col in columns:
        if col in df.columns:
            le = LabelEncoder()
            # 결측치 처리
            if df[col].isnull().any():
                # 결측치를 특별한 값(예: "Missing")으로 임시 대체
                df_encoded[col] = df[col].fillna("Missing")
            else:
                df_encoded[col] = df[col]
                
            df_encoded[col] = le.fit_transform(df_encoded[col].astype(str))
            encoders[col] = le
            print(f"\n'{col}' 컬럼 인코딩:")
            print(dict(zip(le.classes_, le.transform(le.classes_))))
    
    return df_encoded, encoders

# 'Sex'와 'Cabin' 컬럼 인코딩
categorical_cols = ['Sex', 'Cabin']
df, encoders = label_encode_columns(df, categorical_cols)



원본 데이터 정보:
데이터 크기: (891, 12)
컬럼 목록: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

결측치 확인:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

컬럼 제거 후 컬럼 목록: ['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Cabin']

'Sex' 컬럼 인코딩:
{'female': 0, 'male': 1}

'Cabin' 컬럼 인코딩:
{'A10': 0, 'A14': 1, 'A16': 2, 'A19': 3, 'A20': 4, 'A23': 5, 'A24': 6, 'A26': 7, 'A31': 8, 'A32': 9, 'A34': 10, 'A36': 11, 'A5': 12, 'A6': 13, 'A7': 14, 'B101': 15, 'B102': 16, 'B18': 17, 'B19': 18, 'B20': 19, 'B22': 20, 'B28': 21, 'B3': 22, 'B30': 23, 'B35': 24, 'B37': 25, 'B38': 26, 'B39': 27, 'B4': 28, 'B41': 29, 'B42': 30, 'B49': 31, 'B5': 32, 'B50': 33, 'B51 B53 B55': 34, 'B57 B59 B63 B66': 35, 'B58 B60': 36, 'B69': 37, 'B71': 3

In [2]:

# 결측치 평균으로 채우기
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
for col in numeric_cols:
    if df[col].isnull().sum() > 0:
        mean_value = df[col].mean()
        df[col] = df[col].fillna(mean_value)
        print(f"\n'{col}' 컬럼 결측치를 평균값({mean_value:.2f})으로 대체")

# 최종 결측치 확인
print("\n처리 후 결측치 확인:")
print(df.isnull().sum())

# 처리된 데이터 저장
output_file = "c:\\Users\\wlsgh\\Downloads\\인공지능개론\\2주차\\titanic_processed.csv"
df.to_csv(output_file, index=False)
print(f"\n처리된 데이터가 저장되었습니다: {output_file}")

# 처리된 데이터 미리보기
print("\n처리된 데이터 미리보기:")
print(df.head())


처리 후 결측치 확인:
PassengerId    0
Survived       0
Pclass         0
Sex            0
Age            0
SibSp          0
Parch          0
Fare           0
Cabin          0
dtype: int64

처리된 데이터가 저장되었습니다: c:\Users\wlsgh\Downloads\인공지능개론\2주차\titanic_processed.csv

처리된 데이터 미리보기:
   PassengerId  Survived  Pclass  Sex   Age  SibSp  Parch     Fare  Cabin
0            1         0       3    1  22.0      1      0   7.2500    146
1            2         1       1    0  38.0      1      0  71.2833     81
2            3         1       3    0  26.0      0      0   7.9250    146
3            4         1       1    0  35.0      1      0  53.1000     55
4            5         0       3    1  35.0      0      0   8.0500    146
