In [None]:
# 특성 공학(Features Engineering)

# features = 컬럼(변수)
# 모델 성능 향상을 위해 feature 를 선택/생성/변환

In [None]:
# 데이터 로딩

import seaborn as sns
import pandas as pd

pd.set_option('display.width', 200)

df = sns.load_dataset('titanic')

print("데이터셋 크기:", df.shape)
print(df.head(3))

In [None]:
# 결측치 확인

import seaborn as sns

df = sns.load_dataset('titanic')

missing = df.isnull().sum().sort_values(ascending=False)
print(missing)

In [None]:
# 불필요한 변수 제거

# deck - 결측치 많음
# alive - survived 와 중복
# embark_town - embarked 와 중복
# who/adult_male - sex 와 중복

import seaborn as sns

df = sns.load_dataset('titanic')

df_clean = df.drop(columns=['deck', 'alive', 'embark_town', 'who', 'adult_male'])

print('정제된 변수 목록:')

# print(df_clean.columns.tolist())
for clean in df_clean:
  print(clean)
# for문에서 실제로 반복되는 대상은 df_clean 자체가 아니라, df_clean.__iter__()가 반환하는 값
# 그리고 그 값은 df_clean.columns (컬럼 이름들)

In [None]:
# 2. 수치형 변수 전처리 (스케일링, 이상치 처리 등)

import pandas as pd
import seaborn as sns
from sklearn.preprocessing import StandardScaler

pd.set_option('display.width', 200)

# 데이터 로드
df = sns.load_dataset('titanic')
df = df.dropna(subset=['age', 'fare'])
df = df.drop(columns=['deck', 'alive', 'embark_town', 'who', 'adult_male'])
print(df.head())

# 스케일링 적용
scaler = StandardScaler()
df[['age_scaled', 'fare_scaled']] = scaler.fit_transform(df[['age', 'fare']])
display(df[['age_scaled', 'fare_scaled']].describe())

# 이상치 확인 - IQR 방식
Q1 = df['fare'].quantile(0.25)
Q3 = df['fare'].quantile(0.75)
IQR = Q3-Q1
lower = Q1 - IQR * 1.5
upper = Q3 + IQR * 1.5

# 이상치 제거
df_out = df[
  (df['fare'] > lower) & (df['fare'] < upper)
]
print("이상치 제거 후 데이터 크기:", df_out.shape)

In [None]:
# 2-3 수치형 변수 전처리
# age, fare 의 이상치 제거 및 스케일링 적용

from sklearn.preprocessing import StandardScaler

df = sns.load_dataset('titanic')

df = df.dropna(subset=['age', 'fare'])

df2 = df.dropna(subset=['age', 'fare'])
scaler = StandardScaler()
df2[['age_scaled', 'fare_scaled']] = scaler.fit_transform(df2[['age', 'fare']])
df2[['age_scaled', 'fare_scaled']].describe()

In [None]:
# 범주형 변수 처리

# 수치가 아닌 분류(Classification)를 나타내는 변수
# ex) sex, embarked, class, pclass

# 변수 처리 방법
# 설명, \n, 예시 / 사용 시기

# Label Encoding - 범주를 정수로 매핑, 알파벳 순 변환
# male → 1, female → 0 / 순서가 있을 때

# One_Hot Encoding - 각 범주마다 이진 컬럼 생성
# 아래 사진 참고 / 순서가 없을 때

# get_dummies - Pandas 함수, One-Hot 방식
# pd.get_dummies(df, ...) / 간편하게 처리하고 싶을 때

In [None]:
from IPython.display import Image
Image(filename='image/OneHot_Encoding.jpg', width=1000)

In [None]:
# 데이터 로드

import seaborn as sns

df = sns.load_dataset('titanic')

df = df.drop(columns=['deck', 'alive', 'embark_town', 'who', 'adult_male'])
df = df.dropna(subset=["age", "fare", "embarked", "sex", "class"])

In [None]:
# Label Encoding for 'sex'

import seaborn as sns
from sklearn.preprocessing import LabelEncoder

df = sns.load_dataset('titanic')

df = df.drop(columns=['deck', 'alive', 'embark_town', 'who', 'adult_male'])
df = df.dropna(subset=["age", "fare", "embarked", "sex", "class"])

le = LabelEncoder()
df['sex_encoded'] = le.fit_transform(df['sex'])
display(df[['sex', 'sex_encoded']].head())
# 알파벳 순서대로 변환 A = 0, B = 1

In [None]:
# One-hot encoding for 'embarked' and 'class'

import pandas as pd
import seaborn as sns
from sklearn.preprocessing import LabelEncoder

df = sns.load_dataset('titanic')

df = df.drop(columns=['deck', 'alive', 'embark_town', 'who', 'adult_male'])
df = df.dropna(subset=["age", "fare", "embarked", "sex", "class"])

df_onehot = pd.get_dummies(df, columns=['embarked', 'class'], drop_first=True)
display(df_onehot)

print("One-Hot Encoding 후 컬럼:")
for col_list in df_onehot:
  print(col_list)