In [1]:
import matplotlib.pyplot as plt
import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer
from sklearn.inspection import permutation_importance
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder

- Titanic 데이터에 Random Forest 모델을 사용하여 불순도 기반의 MDI 방식과 Permutation Feature Importance 방식을 비교해보고자 함 
- 불순도 기반의 MDI 방식이 수치형 변수의 중요성을 과대평가한다는 케이스를 보여주고자 함
- titanic 데이터를 활용, 다만 titanic 데이터의 변수들과 상관성이 없는(not correlated) 2가지 random variable을 생성
> random_cat : [0,1,2] 중 하나의 값을 갖는 categorical variable <br>
> random_num : 가우시안 분포를 활용한 연속형 변수 생성

- default 형태의 RandomForest를 이용한 모델을 적합시킬 것
- 사전에 데이터는 다음과 같이 처리하기로 한다
> categorical variable : OneHotEncoder 적용 (옵션은 새로운 범주를 마주하면 0으로 치환시키는 옵션을 설정) <br>
> continuous variable : 결측치가 존재하면 평균값으로 대체하도록 설정

In [2]:
X,y = fetch_openml("titanic", version = 1,  as_frame = True , return_X_y = True)
rng = np.random.RandomState(seed = 50120057)
X['random_cat'] = rng.randint(3, size = X.shape[0])
X['random_num'] = rng.randn(X.shape[0])

ctgr_col = ['pclass', 'sex', 'embarked', 'random_cat']
num_col   = ['age', 'sibsp', 'parch', 'fare', 'random_num']

X = X[ctgr_col + num_col]

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify = y, random_state = 50120057)

ctgr_encoder = OneHotEncoder()
num_pipe = Pipeline([('imputer', SimpleImputer(strategy = 'mean'))])

preprocessing = ColumnTransformer([('cat', ctgr_encoder, ctgr_col)
                                  ,('num',num_pipe, num_col)])

rf = Pipeline([('preprocess',preprocessing),('classifier', RandomForestClassifier())])

rf.fit(X_train,y_train)

Pipeline(steps=[('preprocess',
                 ColumnTransformer(transformers=[('cat', OneHotEncoder(),
                                                  ['pclass', 'sex', 'embarked',
                                                   'random_cat']),
                                                 ('num',
                                                  Pipeline(steps=[('imputer',
                                                                   SimpleImputer())]),
                                                  ['age', 'sibsp', 'parch',
                                                   'fare', 'random_num'])])),
                ('classifier', RandomForestClassifier())])

### MDI 활용, 변수 중요도