# 情報活用講座：　SHAP編

## データセット
"California Housing" は、アメリカ・カリフォルニア州の住宅価格に関するデータを収集したデータセットです。このデータセットは、機械学習やデータ分析の教育や研究でよく使用され、住宅価格を予測するためのモデルを構築する際に役立ちます。

California Housingデータセットには、住宅価格を予測するための9種類の特徴量があります。

1. **MedInc**: 地域内の家計の収入（中央値）。  世帯収入の指標となります。
1. **HouseAge** : 地域内の住宅の築年数（中央値）。住宅がどれくらい古いかを示す指標です。
1. **AveRooms**: 平均部屋数。地域内の住宅の平均部屋数を示しています。
1. **AveBedrms**: 平均寝室数。地域内の住宅の平均寝室数を示しています。
1. **Population**: 地域内の総人口。
1. **AveOccup**: 平均住戸数。地域内の住宅の平均住戸数を示しています。
1. **Latitude**: 地域内の緯度。
1. **Longitude**: 地域の経度。
1. **MedHouseVal**: 地域内の住宅価格の中央値。機械学習では目的変数として、これを予測するこ一般的なタスクです。

## SHAP（SHapley Additive exPlanations）

SHAPは機械学習モデルの予測を解釈し、個々の特徴量が予測にどの程度寄与しているかを評価するための手法の一つです。SHAP値はゲーム理論に基づいており、特徴量の寄与度を公平かつ一貫性のある方法で評価するのに役立ちます。

![altメインイメージ](./img/shap_header.svg)

SHAPの主要な概念と要点は以下の通りです：

1. シャプリー値（Shapley Values）: シャプリー値はゲーム理論から派生した概念で、特徴量が予測にどれだけ寄与するかを評価するために使用されます。シャプリー値は、特徴量の組み合わせごとに計算され、その特徴量がどれだけ貢献したかを示します。このアプローチは、特徴量の寄与を公平に評価するために使用され、全ての特徴量が協力して予測に寄与する場合に特に役立ちます。

2. 予測の解釈: SHAPを使用することで、モデルの予測がどの特徴量にどの程度依存しているかを可視化できます。これにより、モデルの予測が理解しやすくなり、特徴量の重要性を定量化できます。

3. Tree SHAP: SHAP値の計算は、特にツリーベースのモデル（例: ランダムフォレスト、勾配ブースティングなど）に対して効率的に行うためのアルゴリズムがあります。Tree SHAPアルゴリズムは、特徴量の組み合わせを効率的に評価し、SHAP値を計算します。

4. モデルの説明性の向上: SHAPは、モデルの予測をより解釈可能にし、モデルの予測が不正確な場合やバイアスがある場合にその原因を特定するのに役立ちます。また、特徴量の寄与を評価することで、モデルの改善や特徴量の選択に関する意思決定を支援しす。

SHAPは、機械学習モデルの解釈性を向上させるための重要なツールの一つであり、特にブラックボックスモデルの解釈性を向るために役立つでしょう。

# 教材への接続
google colabにおけるオンラインの場合にこのラインを実行します。（Google colabに接続しない場合には不要）

In [None]:
!pip install xgboost
!pip install shap
!git clone https://github.com/ARIM-Training/Training_python_12.git
%cd Training_python_12

### ライブラリのインポート

In [None]:
import shap

### サンプルファイルの読み込み

In [None]:
# train an XGBoost model
X, y = shap.datasets.california()

In [None]:
X

### 機械学習モデル（XGboost）

In [None]:
import xgboost

In [None]:
model = xgboost.XGBRegressor()
model.fit(X, y)

### SHAPによる特徴量の説明・可視化方法

#### shapライブラリについて： https://github.com/shap/shap   
SHAPはあらゆる機械学習モデルの出力を説明することができます。私たちは、ツリーアンサンブル法のための高速な厳密アルゴリズムを開発ました。（私たちのNature MI論文を参照）。高速なC++実装は、XGBoost、LightGBM、CatBoost、scikit-learn、pysparkの木モデルに対応しています。

In [None]:
explainer = shap.Explainer(model)
shap_values = explainer(X)

【解説】　**Explainer** について   
Explainer()は、SHAPライブラリ内の主要なクラスの一つです。このクラスは、機械学習モデルの解釈性を向上させるために使用され、モデルの予測を説明するために SHAP 値を計算する役割を果たします。以下に、`shap.Explainer()` の主要な概念と使い方を説明します。

まず、
```
explainer = shap.Explainer(model, data=None, **kwargs)
``` 
のように初期化されます。

主なパラメータと引数:

1. `model`: SHAP 値を計算するための機械学習モデルです。このモデルは、Python の機械学習ライブラリ（例: scikit-learn、XGBoost、LightGBM）でトレーニングされたものである必要があります。

2. `data` (オプション): データセットを指定します。このデータセットは、モデルのトレーニング時と同じ特徴量を持つ必要があります。データを指定することで、SHAP 値を計算する際に参照されます。指定しない場合、`model` の特徴量が使用されます。

3. `**kwargs` (オプション): Explainer クラスの初期化に関する他のオプションやパラメータを指定します。具体的なオプションはライブラリのバージョンによって異なることがあります。

`shap.Explainer()` を使用する一般的な手順は次の通りです:

1. モデルをトレーニングします。
2. モデルとデータを `shap.Explainer()` に渡します。
3. `Explainer` オブジェクトを使用して SHAP 値を計算します。これにより、各予測に対するの解釈性向上に寄与する重要なツールです。

### 2.1 bar plot
各特徴のSHAP値の平均絶対値を取るだけで、標準棒グラフが得られます（マルチクラス出力では積み重ね棒グラフが得られます）。
バープロットではバーの高さが特徴量の重要性を示し、高いバーは予測に対して重要な特徴量を示します。

### Global bar plot

SHAP値のマトリックスを`plots.bar()`関数に渡すと、大域的な特徴量の重要度プロットが作成されます。各特徴の大域的な重要度は、与えられたすべてのサンプルにわたるその特徴の平均絶対値とみなされます。

In [None]:
shap.plots.bar(shap_values)

デフォルトでは、棒グラフは最大10本しか表示されませんが、これは`max_display`パラメータで制御できます。

In [None]:
shap.plots.bar(shap_values, 
               max_display=5
              )

### Local bar plot

SHAP値の行を`plots.bar()`関数に渡すと、各特徴量のSHAP値を棒グラフにしたサンプルごとの特徴量の重要度プロットが作成されます。なお、特徴量の値は特徴量名の左側にグレーで表示されます。

In [None]:
shap.plots.bar(shap_values[0])

### 2.2 beeswarm plot

ビースワームプロットでは、各特徴量のSHAP値が水平に散布され、各点はデータセット内の特定のデータポイントを表します。プロット内の点の分布は、特徴量のSHAP値の分布を示し、各特徴量が予測にどの程度影響を与えているかを示します。

### simple beeswarm summary plot
下のプロットは、全サンプルのSHAP値の大きさの合計で特徴をソートし、SHAP値を使って各特徴がモデル出力に与える影響の分布を示します。
色は特徴値を表しています（赤が高く、青が低い）。これにより、例えば世帯所得（MedInc）が高いほど住宅価格（予測値）は高まることがわかります。

In [None]:
# summarize the effects of all the features
shap.plots.beeswarm(shap_values)

### Feature ordering

デフォルトでは、各特徴量の SHAP 値の絶対値の平均値である shap_values.abs.mean(0) を用いて並べています。しかし、この順序は大まかな平均のImpactが重視されるため、稀ではありますが、大きなImpact影響が重視れないことがあります。このようなとき、代わりに絶対値の最大値でソートすることができます。

In [None]:
shap.plots.beeswarm(shap_values, 
                    order = shap_values.abs.max(0)
                   )

### 色のカスタマイズ化

デフォルトでは、beeswarmはshap.plots.colors.red_blueカラーマップを使用しますが、colorパラメータを使用して任意のmatplotlibカラーまたはカラーマップに変更することができます。

In [None]:
import matplotlib.pyplot as plt

shap.plots.beeswarm(shap_values, color=plt.get_cmap("cool"))

### 2.3 waterfall plot
waterfallプロットは、モデルの予測を理解し、個々のデータポイントに対する予測の詳細を調査するのに役立ちます。特に、どの特徴量が特定の予測にどの程度影響を与えているかを視覚的に理解できます。

各特徴が基本値（渡したトレーニングデータセットの平均モデル出力）からモデル出力を押し上げるのに貢献していることを示しています。  予測値を押し上げる特徴量は赤で、予測値を押し下げる特徴量は青で示されています。 プロットの下部には、全体の予測（E[f(x)]）と各特徴量の寄与の合計が表示されます。

In [None]:
# visualize the first prediction's explanation
shap.plots.waterfall(shap_values[0])

### 2.4 force plot
同じ説明を視覚化する別の方法としては、force plotを使うことができます。Force プロットは、特定のデータポイントに対する予測を詳細に解釈するための寄与度を視覚化します。  

プロット内には以下の情報が含まれます：

* Base Value: 予測の基本値（通常の予測の平均値）。
* Output Value: 特定のデータポイントの予測値。
* Feature Contributions: 各特徴量が予測に対してどの程度寄与しているか。
* Expected Value: 特定のデータポイントにおける特徴量の寄与の合計。与の合計。

In [None]:
# visualize the first prediction's explanation with a force plot
shap.plots.force(shap_values[0])

上図のフォース・プロットをたくさん取り出して90度回転させ、水平に積み重ねると、データセット全体の説明を見ることができます。下記は500番目までのサンプル（インスタンス）を縦に並べた表示例です。
（JupyterNotebookでは、このプロットはインタラクティブになっています）

In [None]:
# visualize all the training set predictions
shap.plots.force(shap_values[:500])

### 2.5 scatter plot
Scatter プロットでは、2つの特徴量に関連するSHAP値が表示されます。各点はデータセット内の特定のデータポイントを表し、x軸とy軸にはそれぞれ異なる特徴量のSHAP値が表示されます。プロット内の各点は、特定のデータポイントの予測に対する2つの特徴量の寄与を示します。点の位置が x 軸上で右に寄っている場合、その特徴量は予測を増加させる方向に寄与し、左に寄っている場合は予測を減少させる方向に寄与します。

SHAP値はモデル出力の変化に対する特徴量の寄与を表すので、下のプロットは、緯度の変化に伴う住宅価格の予測値の変化を表しています。

緯度（Latitude）の1つの値での垂直方向の分散は、他の特徴との相互作用効果を表します。これらの相互作用を明らかにするのを助けるために、別の特徴で色を付けることができます。
説明テンソル全体をcolor引数に渡すと、散布図は色付けするのに最適な特徴を選びますが、この場合は経度を選んでいます。

In [None]:
# create a dependence scatter plot to show the effect of a single feature across the whole dataset

shap.plots.scatter(shap_values[:, "Latitude"], 
                   color=shap_values
                  )