# 중요 변수 추출 방법
### 1. 선형 회귀
- '다른 변수가 고정되어 있고 TV 광고가 1단위 증가할 때, 매출이 0.046 단위 증가한다.'
- 변수의 유의성은 p-value를 통해 파악 가능
- 성능 측면보다 변수들관의 연관성 파악을 위해 사용하는 경우 많이 사용
![ex2.jpg](attachment:ex2.jpg)

### 2. Decision Tree
- 독립 변수의 조건에 따라 종속변수를 분리(비가 내린다->축구를 하지 않는다.)
- 해석이 매우 용이

### 하지만 복잡한 모델은 해석이 쉽지 않다
- Bagging, RandomForest, Gradient Boosting, Neural Network 등은 모형에 대한 해석과 Prediction에 대한 해석이 어렵다
- 따라서 아래의 두 가지 카테고리 안에서 목적에 따라 선택하는 것이 중요함
- **Accuracy가 낮고 설명하기 쉬운 모델** : Linear Regression, DT
- **Accuracy가 높고 설명하기 어려운 모델** : Ensemble Learning, NN

### XGBoost의 feature importance
- Ensemble learning 모델들은 중요 feature를 추출할 수 있는 알고리즘이 내장되어 있음
- 은행 이용 고객 데이터에 대해 수입이 50만달러를 넘는지(Target)를 예측하는 데 중요한 feature들을 나타냄
- Age, Hours per week 등이 중요한 feature라는 것을 알 수 있음
- 다만 구체적인 영향이나 양의 방향/음의 방향인지는 알아낼수가 없음
![ex2.jpg](attachment:ex2.jpg)

- **XGBoost의 feature importance 측정 기준**
  - Weight : 변수별 데이터를 분리하는 데 쓰인 횟수
  - Cover : 변수별 데이터를 분리하는 데 쓰인 횟수(해당 변수로 분리된 데이터의 수로 가중치)
  - Gain : Feature를 사용했을 때 줄어드는 평균적인 Training Loss
  
  
- **feature importance의 문제점**
  - 변수 중요도 측정 기준별로 중요 변수가 상이함
  ![ex2.jpg](attachment:ex2.jpg)

### Feature importance의 좋고 나쁨의 기준
- Consistency : 특정 feature가 영향이 많이 가도록 모델을 수정하였다면, **중요도 측정 시 해당 feature의 중요도가 줄지 않아야 함**
- Consistency가 없다면, 두 모델의 feature에 대해 비교가 힘들고 **feature importance가 높다고 해서 중요하다라고 말하기가 힘들어짐**
- **대부분의 feature importance 지표는 inconsistecy**

![ex2.jpg](attachment:ex2.jpg)
- Model의 output = 특정 질병의 risk score
- 두 모델은 거의 비슷한 모델임
- 하지만 변수중요도를 보면 **각 모델별로 상이한 결과가 도출됨(Inconsistency)**

# Shap Value
- 연합 게임 이론의 Shapley value에서 따옴
- Goal을 성취하기 위해 player들이 협업
- 전체 payout(지불금, 포상금)에 대한 특정 player에게 기여도에 따른 payout을 배당
![ex2.jpg](attachment:ex2.jpg)

### ex : 평균 아파트 값이 310,000유로
- part-nearby / cat-forbidden / area-50m^2 / floor-2nd
- 위의 feature들이 아파트 값으로 300,000유로를 예측하기 위해 협업한다 가정
- Shap vlaue의 목적은 모델의 실제 예측 300,000 유로와 평균 예측값 310,000유로의 **차이인 -10,000유로를 설명**하는 것
  - part-nearby : 30,000유로
  - cat-forbidden : -50,000유로
  - area-50^2 : 10,000유로
  - floor-2nd : 0유로
  - 총합 : -10,000유로

#### cat-forbidden의 기여도를 알아보도록 하자
- park-nearby, 50m^2의 연합에 추가해보면서 파악
- **cat-forbidden, park-nearby, 50m^2이 포함된 연합**에 나머지 feature들은 무작위로 뽑고 predict : 30.1만 유로
- cat-forbidden값을 무작위로 바꾸고 **park-nearby, 50m^2만 고정.** 나머지는 랜덤인 상태에서 predict : 32만유로
- 위의 둘로 계산한 cat-forbidden의 marginal contribution : 30.1만-32만=-1.9만 유로

#### Shap value
- The average marginal contribution of a feature value over all possible conditions
- **shape value는 consistency한 특성이 있음**

#### Shap value 해석 시 유의점
- 특정 관측치의 j번째 feature로 인한 실제 예측치와 평균예측치의 평균적인 차이
- '연간 300유로를 더 벌면 신용점수는 5포인트 올라갈 것'이라는 해석을 하지 말아햐 함

#### Shap value 해석 예시
- 은행 이용 고객 수입 50만 달러 이상인지의 여부 예측
- Feature 'Age'에 대해 'Age'의 shap value값 plot
- Age=20 근방에서 수직적으로 넓게 분포
  - 같은 20대여도 prediction에 영향을 다르게 끼친다.
  - 다른 feature가 Age의 importance에 영향을 주고 있다.
  ![ex2.jpg](attachment:ex2.jpg)

#### 따라서 education-num의 feature value를 추가로 표시
- education-num 값이 크면 Age가 20쯤일 때에는 Age의 영향력이 감소
- Age가 30쯤 일때의 Age의 영향력은 더 증가
- 10대 후반~20대 초반에 교육수준이 높다(대학생일 가능성)
- 10대 후반~20대 초반에 교육수준이 낮다(바로 취업할 가능성)
![ex2.jpg](attachment:ex2.jpg)

#### hours per week feature를 추가해보자
- 주 50시간 이상 일하면 전반적으로 50만 달러 이상이 되도록 기여
- 결혼을 한다면(Relation=husband, wife) 초과 근로가 미치는 영향이 적어진다.
![ex2.jpg](attachment:ex2.jpg)

## Shap value 실습

In [3]:
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
# 데이터 불러오기
data = pd.read_csv("C:/Users/mitha/OneDrive/바탕 화면/kc_house_data.csv") 
data.head() # 데이터 확인

Unnamed: 0,id,date,price,bedrooms,bathrooms,floors,waterfront,condition,grade,yr_built,yr_renovated,zipcode,lat,long
0,7129300520,20141013T000000,221900.0,3,1.0,1.0,0,3,7,1955,0,98178,47.5112,-122.257
1,6414100192,20141209T000000,538000.0,3,2.25,2.0,0,3,7,1951,1991,98125,47.721,-122.319
2,5631500400,20150225T000000,180000.0,2,1.0,1.0,0,3,6,1933,0,98028,47.7379,-122.233
3,2487200875,20141209T000000,604000.0,4,3.0,1.0,0,5,7,1965,0,98136,47.5208,-122.393
4,1954400510,20150218T000000,510000.0,3,2.0,1.0,0,3,8,1987,0,98074,47.6168,-122.045


In [4]:
nCar = data.shape[0] # 데이터 개수
nVar = data.shape[1] # 변수 개수
print('nCar: %d' % nCar, 'nVar: %d' % nVar )
data = data.drop(['id', 'date', 'zipcode', 'lat', 'long'], axis = 1) # id, date, zipcode, lat, long  제거

nCar: 21613 nVar: 14


## 범주형 변수를 이진형 변수로 변환
- 범주형 변수는 waterfront 컬럼뿐이며, 이진 분류이기 때문에 0,1로 표현한다.
- 데이터에서 0,1로 표현되어 있으므로 과정은 생략

In [5]:
feature_columns = list(data.columns.difference(['price'])) # Price를 제외한 모든 행
X = data[feature_columns]
y = data['price']
train_x, test_x, train_y, test_y = train_test_split(X, y, test_size = 0.3, random_state = 42) # 학습데이터와 평가데이터의 비율을 7:3
print(train_x.shape, test_x.shape, train_y.shape, test_y.shape) # 데이터 개수 확인
import lightgbm as lgb
from math import sqrt
from sklearn.metrics import mean_squared_error
lgb_dtrain = lgb.Dataset(data = train_x, label = train_y) # 학습 데이터를 LightGBM 모델에 맞게 변환
lgb_param = {'max_depth': 10, # 트리 깊이
            'learning_rate': 0.01, # Step Size
            'n_estimators': 1000, # Number of trees, 트리 생성 개수
            'objective': 'regression'} # 목적 함수 (L2 Loss)
lgb_model = lgb.train(params = lgb_param, train_set = lgb_dtrain) # 학습 진행
lgb_model_predict = lgb_model.predict(test_x) # 평가 데이터 예측
print("RMSE: {}".format(sqrt(mean_squared_error(lgb_model_predict, test_y)))) # RMSE

(15129, 8) (6484, 8) (15129,) (6484,)




You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 237
[LightGBM] [Info] Number of data points in the train set: 15129, number of used features: 8
[LightGBM] [Info] Start training from score 537729.263666
RMSE: 212217.42594653403


## Shap value를 이용하여 변수별 영향도 파악

In [6]:
import shap
explainer=shap.TreeExplainer(lgb_model)#트리모델 shap value 계산 객체 지정
shap_values=explainer.shap_values(test_x)#shap value계산

In [7]:
import skimage
skimage.__version__

'0.18.2'

In [8]:
shap.initjs()#자바스크립트 초기화
shap.force_plot(explainer.expected_value,shap_values[0,:],test_x.iloc[1,:])#첫 번째 검증 데이터 인스턴스에 대해 shap value를 적용하여 시행
#빨간색이 영향도가 높으며, 파란색이 영향도가 낮음

In [None]:
shap.summary_plot(shap_values, test_x)
# grade : 변수의 값이 높을 수록, 예상 가격이 높은 경향성이 있다.
# yr_built : 변수의 값이 낮을 수록, 예상 가격이 높은 경향성이 있다.
# bathrooms : 변수의 값이 높을 수록, 예상 가격이 높은 경향성이 있다.
# bedrooms : 변수의 값이 높을 수록, 예상 가격이 높은 경향성이 있다.
# condition : 변수의 값이 높을 수록, 예상 가격이 높은 경향성이 있다
# waterfront : 변수의 값이 높을 수록, 예상 가격이 높은 경향성이 있다.
# floors : 해석 모호성 (Feature Value에 따른 Shap Values의 상관성 파악 모호)
# yr_renovated : 해석 모호성 (Feature Value에 따른 Shap Values의 상관성 파악 모호)

In [None]:
shap.force_plot(explainer.expected_value,shap_values,test_x)#전체 검증 데이터 셋에 대하여 적용

In [None]:
shap.summary_plot(shap_values, test_x, plot_type = "bar") # 각 변수에 대한 Shap Values의 절대값으로 중요도 파악

In [None]:
shap.dependence_plot("yr_built", shap_values, test_x)