# 影響関数（influence function）


- [Koh & Liang (2017)](http://proceedings.mlr.press/v70/koh17a/koh17a.pdf)が提案
- [Hara et al. (2019)](https://proceedings.neurips.cc/paper/2019/file/5f14615696649541a025d3d0f8e0447f-Paper.pdf)はconvexでない損失関数にも使えるよう拡張


## Notation

- データ点$z=(x, y)$
- 誤差関数$L(z, \theta)$
  - 経験リスク：$R = \frac{1}{N} \sum^N_{i=1} L(z_i, \theta)$
- $N$訓練データ点が訓練集合$\mathcal{Z}$に含まれるとする
- 標準的な経験リスク最小化：$\hat{\theta} = \arg \min_{\theta} \frac{1}{N} \sum^N_{i=1} L(z_i, \theta)$


## LOO

1つのインスタンスを抜いた状態で訓練した場合にどれだけ予測値が変わるかを考える

$n$回学習し直す必要があるので現実的ではない


$$
\hat{\theta}_{-z} - \hat{\theta}\\
\hat{\theta}_{-z} := \arg \min_{\theta \in \Theta} \sum_{z_i \neq z} L(z_i, \theta)
$$

## Influence Function

LOOを近似し、再学習を不要にしたい

訓練データ全部を使った経験リスクに、データ点$z$についての誤差$L(z, \theta)$を重み付きで足したリスク関数で訓練したパラメータ$\hat{\theta}_{\epsilon,z}$を考える

$$
\hat{\theta}_{\epsilon,z}
:= \arg \min_{\theta} \frac{1}{N} \sum^N_{i=1} L(z_i, \theta) + \epsilon L(z, \theta)
$$

$z$を入れることによる変化分がとれるので、これの$\epsilon$での微分の$\epsilon = 0$のときの値をパラメータについての上側のinfluence functionとする

$$
\mathcal{I}_{up, params} := \left . \frac{d \hat{\theta}_{\epsilon,z} }{ d \epsilon } \right | _{\epsilon = 0}
= -H^{-1}_{\hat{\theta}} \nabla_{\theta} L(z, \hat{\theta})
$$

```{margin}
$$
\left. \frac{dy}{dx} \right|_{x=a}
$$

は「$\frac{dy}{dx}$に$x=a$を代入した値」あるいは「$x=a$のときの$\frac{dy}{dx}$」という意味らしい
```

## FastFI

Influence Functionは計算が重い

1. データ点の評価は$O(n)$
2. モデルパラメータのinverse Hessianの計算コストが高い
3. 上記の計算は並列可能であるが、先行研究のアルゴリズムでは直列

FastIfのアイデア

1. 全データを探索するのではなく、fast nearest neighbor search（Johnson et al., 2017）で探索範囲を狭め、桁違いに計算量を抑える
2. Hessianの推定において、品質を保ちつつ時間を半分以下にするハイパーパラメータ集合を識別
3. シンプルに並列計算へ拡張し、さらに2倍高速化

実験においてほとんどのケースで全体で2桁程度の高速化が確認された



## 参考文献

- [Influence Functionでインスタンスの重要度を解釈する - Dropout](https://dropout009.hatenablog.com/entry/2021/07/19/223929)