In [1]:
from sklearn.compose import make_column_transformer
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler

In [2]:
# L1 페널티를 사용하는 로지스틱 회귀 모델을 생성합니다.
lr = LogisticRegression(penalty="l1")
print(lr)

LogisticRegression(penalty='l1')


In [3]:
# 수치형 데이터에 대한 전처리 파이프라인을 구성합니다. 중앙값으로 결측치를 대체하고, StandardScaler로 데이터를 정규화합니다.
num_proc = make_pipeline(SimpleImputer(strategy="median"), StandardScaler())
# 범주형 데이터에 대한 전처리 파이프라인을 구성합니다. 결측치를 "missing" 값으로 대체하고, OneHotEncoder로 인코딩합니다. 여기서 handle_unknown="ignore"는 학습 데이터에 없는 범주가 나타났을 때 무시하도록 설정합니다.
cat_proc = make_pipeline(
    SimpleImputer(strategy="constant", fill_value="missing"),
    OneHotEncoder(handle_unknown="ignore"),
)
# 수치형 데이터와 범주형 데이터를 각각 다르게 전처리하는 ColumnTransformer를 구성합니다. 
# "feat1", "feat3"은 수치형 데이터로 처리하고, "feat0", "feat2"은 범주형 데이터로 처리합니다.
preprocessor = make_column_transformer(
    (num_proc, ("feat1", "feat3")), (cat_proc, ("feat0", "feat2"))
)
# 전처리 파이프라인과 로지스틱 회귀 분류기를 결합한 최종 파이프라인을 생성합니다.
clf = make_pipeline(preprocessor, LogisticRegression())
clf