In [1]:
!pip install scikit-learn==0.23.2



In [2]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer
from sklearn.linear_model import LogisticRegression

In [3]:
# 数値データの前処理（中央値で欠損値補完して、標準化）
num_proc = make_pipeline(SimpleImputer(strategy='median'), StandardScaler())

# カテゴリデータの前処理（欠損値には"misssing"を代入補完し、ワンホットエンコーディング）
cat_proc = make_pipeline(
    SimpleImputer(strategy='constant', fill_value='missing'),
    OneHotEncoder(handle_unknown='ignore'))

# 前処理クラスを作成
preprocessor = make_column_transformer((num_proc, ('feat1', 'feat3')),
                                       (cat_proc, ('feat0', 'feat2')))

# 前処理と機械学習モデルを1つのパイプラインにする
clf = make_pipeline(preprocessor, LogisticRegression())


In [6]:
# パイプラインを表示させる設定
from sklearn import set_config

set_config(display="diagram")

clf