# irisデータを使ってSHAPを使ってみる

このノートブックでは、SHAP値により特徴量が予測へどのように影響しているかを見てみる。


## SHAP値とは

SHAP値とは、データセット中の各特徴量が予測結果にどれだけ影響を与えたか、その影響度を算出したもの。この値を用いることで、ある特徴量の増減が予測に与える影響を可視化できる。

## 可視化方法

予測結果への影響を可視化するためには、SHAP値を算出する必要がある。ここではPythonライブラリの`shap`を用いて算出および可視化を行う。

![pic](./20200607_shapexplanation.png)

## 可視化手順

1. 任意のアルゴリズムによる学習済みモデルを用意する。
1. `shap`の`Explainer`に学習済みモデルを渡してSHAPモデルを作成する。
1. SHAPモデルの`shap_values`メソッドに予測用の説明変数を渡してSHAP値を取得する。
1. 得られたSHAP値から`force_plot`などにより可視化を行う。

## 環境

- python 3.7.5
- shap 0.35.0


In [1]:
# ライブラリのインポート
import shap  
import pandas as pd  
from sklearn.ensemble import RandomForestClassifier  
from sklearn.datasets import load_iris 

In [2]:
# irisデータのロード
iris = load_iris()  
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names) 

In [3]:
# shapモデル作成のためExplainerに学習済みモデルを渡す
explainer = shap.TreeExplainer(rfc)  

NameError: name 'rfc' is not defined

## SHAPモデルを作成する

SHAPモデルとはshapによる可視化を行うために必要な、shap算出のためのクラス。このクラスの作成には、`shap`ライブラリの`Explainers`機能と利用する。この機能を利用する場合は、学習モデルのアルゴリズムによりSHAPモデル作成の際に呼び出すメソッドが異なるので注意が必要。下記ではランダムフォレストを利用しているため、`TreeExplainer`を利用している。その他、ディープラーニングによる学習モデル用に用意された`DeepExplainer`などがある。

詳しくは[オフィシャルドキュメント](https://shap.readthedocs.io/en/latest/)を参照。


In [4]:
# 予測用の説明変数を渡してSHAP値を得る
pred_data = iris_df.loc[[0]]  

shap_values_force = explainer.shap_values(pred_data)  


NameError: name 'explainer' is not defined

In [6]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

In [5]:
# force_plot
for i in range(3):  
    shap.force_plot(explainer.expected_value[0], shap_values_force[i], pred_data, matplotlib=True)

NameError: name 'explainer' is not defined

## dependence_plot

`dependence_plot`では、対象のクラスに対して各特徴量の値とSHAP値の関係を可視化する。

たとえば、irisのクラス「

In [7]:
shap_values_dep = explainer.shap_values(iris_df)

for col in iris_df.columns.tolist():
    shap.dependence_plot(col, shap_values_dep[0], features=iris_df)

NameError: name 'explainer' is not defined

In [8]:
len(shap_values_dep)

NameError: name 'shap_values_dep' is not defined