1. 결측값 처리 (Handling Missing Values)
SimpleImputer: 결측값을 평균, 중앙값, 최빈값 또는 특정 값으로 대체할 수 있습니다.

In [None]:
from sklearn.impute import SimpleImputer
import numpy as np

imputer = SimpleImputer(strategy='mean')  # 'median', 'most_frequent', 'constant' 등 선택 가능
imputer.fit(X_train)
X_train = imputer.transform(X_train)


2. 스케일링 (Scaling)
StandardScaler: 데이터의 평균을 0, 분산을 1로 만듭니다. 대부분의 머신러닝 알고리즘에서 매우 유용합니다.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


MinMaxScaler: 모든 피처를 0과 1 사이의 값으로 변환합니다.


In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


3. 인코딩 (Encoding)
LabelEncoder: 범주형 변수를 0부터 n-1까지의 정수로 변환합니다. 주로 타겟 레이블에 사용합니다.

In [None]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
y_train = encoder.fit_transform(y_train)


OneHotEncoder: 범주형 변수를 원-핫 인코딩으로 변환합니다.


In [None]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(sparse_output=False)  # 기본적으로 희소 행렬 반환, sparse_output=False로 설정 시 밀집 행렬 반환
X_train = encoder.fit_transform(X_train)


4. 특징 선택 (Feature Selection)
SelectKBest: 통계적 테스트를 기반으로 상위 k개의 피처를 선택합니다.

In [None]:
from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(score_func=f_classif, k=10)
X_new = selector.fit_transform(X_train, y_train)


RFE (Recursive Feature Elimination): 주어진 모델을 기반으로 중요한 피처를 반복적으로 선택합니다.

In [None]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
rfe = RFE(estimator=model, n_features_to_select=10)
X_rfe = rfe.fit_transform(X_train, y_train)


5. 데이터 분할 (Train-Test Split)
train_test_split: 데이터를 학습 데이터와 테스트 데이터로 나누는 데 사용합니다.


In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


6. 파이프라인 (Pipeline)
여러 전처리 단계를 결합하여 코드의 가독성을 높이고 실수를 줄일 수 있습니다.

In [None]:
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', LogisticRegression())
])

pipeline.fit(X_train, y_train)
y_pred = pipeline.predict(X_test)
