### Permutation(순열) importance 개요
- 특정 피처들의 값을 완전히 변조했을 때 모델 성능이 얼마나 저하되는지를 기준으로  해당 피처의 중요도를 산정
- 학습 데이터를 제거하거나/변조하면 다시 재 학습을 수행해야 하므로 수행 시간이 오래 걸림
- 일반적으로 테스트 데이터(검증용 데이터)에 특정 피처들을 반복적으로 변조한 뒤 해당 피처의 중요도를 평균적으로 산정

### Permutation importance 프로세스
- 원본 모델의 기준 평가 성능을 설정.
- 개별 feature 별로 아래 수행
    - 1. 설정된 iteration 값 별로 아래 수행
        - a. 해당 feature로 shuffle
        - b. 모델 성능 평가
    - 2. 기준 평가 성능에서 모델 성능이 얼마나 저하되었는지 평가

In [3]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import r2_score
import numpy as np

diabetes = load_diabetes()
X_train, X_val, y_train, y_val = train_test_split(diabetes.data, diabetes.target, random_state=0)

# 학습, 예측, R2 Score 평가
model = Ridge(alpha=1e-2).fit(X_train,y_train)
y_pred = model.predict(X_val)
print('r2 score:',r2_score(y_val,y_pred))

r2 score: 0.35666062386954545


In [4]:
from sklearn.inspection import permutation_importance
r = permutation_importance(model, X_val, y_val, n_repeats=30, random_state=0)

# 가장 평균 permutation importance가 높은 순으로 내림차순 정렬 후 평균 permutation importance값과 표준 편차 출력
for i in r.importances_mean.argsort()[::-1]:
    if r.importances_mean[i] -2 * r.importances_std[i] > 0:
        print(diabetes.feature_names[i]," ",np.round(r.importances_mean[i], 4), "+/-", np.round(r.importances_std[i], 5))

s5   0.2042 +/- 0.04965
bmi   0.1758 +/- 0.0484
bp   0.0884 +/- 0.03284
sex   0.0559 +/- 0.02319
