# バイアスとゲインについて

参考：
* [Markov Decision Processes: Discrete Stochastic Dynamic Programming](https://onlinelibrary.wiley.com/doi/book/10.1002/9780470316887)

今回は話をaperiodicな連鎖に限定しないために，Cesaro極限を使った定常分布を考えて話をしていきます．
[]RL_AverageReward_Basic_fundamental_theorem_proof(RL_AverageReward_Basic_fundamental_theorem_proof.ipynb)で示したように，状態空間が有限（もしくは可算）な確率行列では，Cesaro極限が存在します：
$$
\operatorname{C-\lim} _{N \rightarrow \infty} P^N=P^*
$$


## ゲインの基礎

ゲインは次で定義される量です：

$$
g(s) \equiv \lim _{N \rightarrow \infty} \frac{1}{N} E_s\left\{\sum_{t=1}^N r\left(X_t\right)\right\}=\lim _{N \rightarrow \infty} \frac{1}{N} \sum_{t=1}^N P^{t-1} r(s)
$$

一番右を定常分布で表現したいところですが，一般に積分と極限は交換してはいけません（教科書Example 5.1.2など）．しかし，$r$が有界ならば，
$$
g(s) \equiv \lim _{N \rightarrow \infty} \frac{1}{N} E_s\left\{\sum_{t=1}^N r\left(X_t\right)\right\}=\lim _{N \rightarrow \infty} \frac{1}{N} \sum_{t=1}^N P^{t-1} r(s)=P^* r(s)
$$
によって，交換することができます．
よって，ゲインを定常分布で表現することができます．

---

**irreducibleクラスでの挙動**

[RL_AverageReward_Basic_fundamental_theorem_proof](RL_AverageReward_Basic_fundamental_theorem_proof.ipynb)で示しましたが，閉じたirreducibleなrecurrent classにある極限遷移の列は同じになります（厳密には参照元ではCesaro-limitで示してないので示さないといけない．．．）．
これを使うと，次がすぐに言えます：

$P^*$が確率行列だとします．
* もし状態$j$と$k$が同じ既約なクラスにあるなら，$g(j) = g(k)$です．
* 連鎖が既約，もしくは単一のrecurrentなクラス（とtransientな状態集合）からなる場合は，$g(s)$は定数関数です

**証明**
教科書に証明がないですが，マルコフ連鎖の標準形を考えればすぐにわかるはず．
標準形：
$$
P=\left[\begin{array}{cccccc}
P_1 & 0 & 0 & . & . & 0 \\
0 & P_2 & 0 & . & . & 0 \\
. & & . & & & \\
. & & & . & & \\
0 & & & & P_m & 0 \\
Q_1 & Q_2 & \cdot & \cdot & Q_m & Q_{m+1}
\end{array}\right]
$$

に対して，その極限は
$$
P^*=\left[\begin{array}{cccccc}
P_1^* & 0 & 0 & . & . & 0 \\
0 & P_2^* & 0 & . & . & 0 \\
. & & . & & & \\
. & & & . & & \\
0 & & & & P_m^* & 0 \\
Q_1^* & Q_2^* & \cdot & \cdot & Q_m^* & 0
\end{array}\right]
$$
で与えられます．ゲインは$P^*r(s)$で与えられるので，明らかに同じクラスにあるならば，同じ値になります．

---



## バイアスの基礎

平均(ゲイン)最適方策の評価では，その途中経過は無視して，最終的に収束したときの報酬についてだけ考えます（途中経過は$\to \infty$で消えます）．
これは問題によってはあまり嬉しくありません．例えば迷路の問題を考えて見ましょう．ゴールすると$+1$，それ以外は$-1$の報酬とします．
このとき，ゴールに至るようなどんな方策も$+1$の平均報酬になり，最適方策の区別がつかなくなります．
一方で迷路のような問題ではなるべく早くゴールすることが望ましいです．

そこで，**バイアス最適**の概念が役に立ちます．
後で見ますが，バイアス最適を考えるためには，次の方程式を解くことになります：

$$
(I-P) v=r
$$

ここで，$(I-P)$は正則ではありません（１が$P$の固有値なので）．
よって，この方程式は唯一の解を持ちません．

[RL_AverageReward_Basic_fundamental_theorem_proof](RL_AverageReward_Basic_fundamental_theorem_proof.ipynb)でやった補題から，
$$
I-P=W^{-1}\left[\begin{array}{cc}
I-Q & 0 \\
0 & 0
\end{array}\right] W
$$
なので，真ん中の行列が問題になって$(I-P)^{-1}$は存在しません．
そこで，Drazinの逆行列を導入しましょう．

### Drazin逆行列

次の形式を持つ行列$B$を考えましょう
$$
B=W^{-1}\left[\begin{array}{ll}
C & 0 \\
0 & 0
\end{array}\right] W
$$
ここで，$C$は正則行列とします．
また，
$$
B^{\#}=W^{-1}\left[\begin{array}{cc}
C^{-1} & 0 \\
0 & 0
\end{array}\right] W
$$
としましょう．すると，

$$
B^\# B B^{\#}=B^\#, \quad B B^\#=B^\# B, \quad \text { and } \quad B B^\# B=B
$$

が成り立ってることがすぐにわかります．この条件を満たす行列$B^\#$をDrazin逆行列といいます．

Drazin逆行列を使うと，次が成り立ちます：

1. 行列$(I-P+P^*)$は正則です．その逆行列を$Z_P$とします．
   * 正則であることは次の式からすぐにわかります：
$
I-P+P^*=W^{-1}\left[\begin{array}{cc}
I-Q & 0 \\
0 & I
\end{array}\right] W
$
   * $Z_P$はfundamental matrixと呼ばれたりします（[Markov Chains and Optimality of the Hamiltonian Cycle](https://ris.utwente.nl/ws/portalfiles/portal/5103928/memo1841.pdf)）
2. Drazin逆行列$H_P$は次を満たします：
$
(I-P)^\#=\left(I-P+P^*\right)^{-1}\left(I-P^*\right) \equiv H_P
$
    * つまり，Drazin逆行列は$(I - P)$の逆行列的な役割を担ってます．
    * この変形は次の式から明らかです：
$$
\begin{aligned}
(I-P)^\# & =W^{-1}\left[\begin{array}{cc}
(I-Q)^{-1} & 0 \\
0 & 0
\end{array}\right] W \\
& =W^{-1}\left[\begin{array}{cc}
(I-Q)^{-1} & 0 \\
0 & I
\end{array}\right] W-W^{-1}\left[\begin{array}{ll}
0 & 0 \\
0 & I
\end{array}\right] W \\
& =\left(I-P+P^*\right)^{-1}-P^*=Z_P-P^*
\end{aligned}
$$
3. 最後に，$H_P=\operatorname{C-\lim}_{N \rightarrow \infty} \sum_{n=0}^{N-1}\left(P^n-P^*\right)$が満足されます．
証明はちょっと厄介ですが，
$\left(P-P^*\right)^n=P^n-P^*$
を使えばいけます．
    * この性質から，$H_P$はdeviation matrixとも呼ばれます．

---

**$H_P$の性質**

次の式が成立します：

$$
\begin{aligned}
(I-P) & H_P=H_P(I-P)=I-P^* \\
H_P P^* & =P^* H_P=0 \\
H_P & =Z_P-P^* \\
Z_P P^* & =P^* \\
P^* & =I-(I-P)(I-P)^\#
\end{aligned}
$$

便利なので覚えておきましょう．

---

**$H_P$の解釈**

aperiodicな連鎖の場合は，
$$
H_P=\lim _{N \rightarrow \infty}\left[\sum_{k=0}^{N-1} P^k-N P^*\right]
$$
が成り立ちます．つまり，$H_P(j\mid s)$は，
1. $s$からスタートして$j$を訪れる期待訪問回数
2. 遷移確率が$P^*$のときに，$s$からスタートして$j$を訪れる期待訪問回数

の差を表してます．



### バイアスの定義と解釈

Drazinの逆行列$H_P$を使って，バイアス$h$は
$$
h \equiv H_P r
$$
として定義されます．

---

**解釈１：transientな報酬**

aperiodicな連鎖で直感的に説明すると，これは
$$
\begin{aligned}
&h=\sum_{t=0}^{\infty}\left(P^{t}-P^*\right) r=\sum_{t=0}^{\infty} P^{t}(r-g)\\
&h(s)=E_s\left\{\sum_{t=1}^{\infty}\left[r\left(X_t\right)-g\left(X_t\right)\right]\right\}
\approx E_s\left\{\sum_{t=1}^{収束前}\left[r\left(X_t\right)-g\left(X_t\right)\right]\right\}
\end{aligned}
$$
であり，一般に連鎖は定常分布にすぐ収束するので，バイアスは「transientな」報酬の量を表します．

---

**解釈２：累積総報酬の平均差**

$v_{N+1}=\sum_{t=1}^N P^{t-1} r$を，$N$ステップまでの累積報酬和ベクトルとしましょう．
上で見た変形から，
$$
\begin{aligned}
h
&=\left(\sum_{t=1}^N P^{t-1} r-N g\right)+\sum_{t=N+1}^{\infty}\left(P^{t-1}-P^*\right) r\\
&=\sum_{t=1}^N P^{t-1} r-N g+\sum_{t=N+1}^{\infty}\left(P^{t-1}-P^*\right) r\\
\end{aligned}
$$
この３つ目の項について，deviation matrix 
$H_P = \operatorname{C-\lim}_{N\to \infty} \sum^{N-1}_{n=0}(P^n - P^*)$は有限なので，３項目は０になるはずです（そうじゃないと無限になっちゃう）．

よって，
$$
v_{N+1}=N g+h+o(1)
$$
とかけます．
つまり，累積報酬は，バイアスからスタートして，$g$のレートで枚ステップ増えていくとみなせます．
$v_{N+1} - v_N$が$g$のレートで増えていくので，$g$のことを**ゲイン**と呼ぶわけですね．

とくに状態$j$と$k$が閉じた既約なクラスのとき，$g(j)=g(k)$なので，
$$h(j)-h(k)=\lim _{N \rightarrow \infty}\left[v_N(j)-v_N(k)\right]$$
が成り立ちます．よって，バイアス$h$は状態$j$と$k$からそれぞれ始まる場合の累積報酬和の差に相当します．

---

**ゲインが０のとき**

そして，もし任意の$s \in \mathcal{S}$で$g(s)=0$のとき，
$$
\begin{aligned}
h(s)=\operatorname{C-\lim}_{N \rightarrow \infty} E_s\left\{\sum_{t=1}^N r\left(X_t\right)\right\}=\lim _{N \rightarrow \infty} \frac{1}{N} \sum_{k=1}^N v_k(s)
\end{aligned}
$$
が成立します．極限が存在するなら$\lim$と同じです．
つまり，ゲインが０のとき，バイアス関数は累積報酬と同じになります．

### バイアスと割引価値の関係

バイアス関数と割引価値は，[ローラン展開](https://manabitimes.jp/math/2627)を使うことで変形ができます．

---

#### レゾルベントとローラン展開

ローラン展開は割引なしのMDPを解析するさいに使える強力なツールです．
* [このブログ](https://qiita.com/tsubolabo/items/67cfad92c14f6a0bea96)とか参考になりますが，展開の中心が特異点（逆行列が$\infty$に飛んでいくところ）などの近くではテイラー展開よりも良い性質を示します．


$\rho > 0$について，行列$A$のレゾルベントは$(\rho I - A)^{-1}$で表されます．
つまり，$A$を$\rho I$だけ単位行列でずらしたときの，その逆行列の振る舞いを表します．

$P - I$のレゾルベントを$R^\rho=(\rho I+[I-P])^{-1}$とします．ここで，$\lambda=(1+\rho)^{-1}$とおくと，
$$
(I-\lambda P)=(1+\rho)^1(\rho I+[I-P])
$$
が明らかに成り立ちます．

$0 \leq \lambda<1$のときに$\sigma(\lambda P)<1$なら，$(I-\lambda P)^{-1}$が存在します．
今回は$P$が確立行列なので，$\rho > 0$ならば，レゾルベント$R^\rho$が存在します．
別の表現として，
* $(I-\lambda P)^{-1}=(1+\rho) R^\rho$
* $R^\rho=\lambda(I-\lambda P)^{-1}$

とも書けます．
このレゾルベントは級数展開できます．次が成立します．

$0 < \rho < \sigma(I - P)$について，
$$R^\rho=\rho^{-1} P^*+\sum_{n=0}^{\infty}(-\rho)^n H_P^{n+1}$$

**証明**

まず，確率行列の表現$P=W^{-1}\left[\begin{array}{cc}Q & 0 \\ 0 & I\end{array}\right] W$を考えましょう．$B=I - Q$とします．このとき，
$$
\rho I+I-P=W^{-1}\left[\begin{array}{cc}
\rho I+B & 0 \\
0 & \rho I
\end{array}\right] W
$$

と書けます．よって，
$$
\begin{aligned}
R^\rho & =W^{-1}\left[\begin{array}{cc}
(\rho I+B)^{-1} & 0 \\
0 & \rho^{-1} I
\end{array}\right] W \\
& =\rho^{-1} W^{-1}\left[\begin{array}{ll}
0 & 0 \\
0 & I
\end{array}\right] W+W^{-1}\left[\begin{array}{cc}
(\rho I+B)^{-1} & 0 \\
0 & 0
\end{array}\right] W
\end{aligned}
$$
が成り立ちます．この最初の項は$\rho^{-1}P^*$と同じです．
$$
(\rho I+B)^{-1}=\left(I+\rho B^{-1}\right)^{-1} B^{-1}
$$
なので，$\sigma\left(\rho B^{-1}\right)=[\rho / \sigma(I-Q)]<1$ or $\rho<\sigma(I-Q)=\sigma(I-P)$,のとき，
$$
(\rho I+B)^{-1}=\sum_{n=0}^{\infty}(-\rho)^n\left(B^{-1}\right)^n,
$$
であり，
$$
\sum_{n=0}^{\infty}(-\rho)^n W^{-1}\left[\begin{array}{cc}
(I-Q)^{-n} & 0 \\
0 & 0
\end{array}\right] W=\sum_{n=0}^{\infty}(-\rho)^n H_P^{n+1}
$$
が成立します．

---

このレゾルベントとローラン展開を使って，平均報酬を割引MDPに関連付けましょう．
$1+\rho$を$\lambda$の逆数とします．つまり，
$\lambda=(1+\rho)^{-1}$ or $\rho=(1-\lambda) \lambda^{-1}$です．
このとき，

$$
v_\lambda=(I-\lambda P)^{-1} r=(1+\rho)(\rho I+[P-I])^{-1} r
$$

が明らかに成立します．
$(\rho I+[P-I])^{-1}$が$I - P$のレゾルベントです．
このとき，ローラン級数展開すると，つぎが成立します．

---

$S$が有限とする．$\nu$を$I-P$のうち，絶対値が最小の非ゼロの固有値とする．このとき，任意の$0 < \rho < |\nu|$について，

$$
v_\lambda=(1+\rho)\left[\rho^{-1} y_{-1}+\sum_{n=0}^{\infty} \rho^n y_n\right]
$$

が成立します．ここで，
$$
y_{-1}=P^* r=g, y_0=H_P r=b, \text { and } y_n=(-1)^n H_P^{n+1} r \text { for } n=1,2, \ldots
$$
です．つまり，これは正規化された割引報酬和のグラフを平均報酬の近辺で展開したことになります．
平均報酬は$\infty$に飛ぶ点なので，ローラン展開が重要になります．

---

上の補題から，$g$と$b$をゲインとバイアスとすると，$S$が有限かつ報酬が有限ならば，
$$
v_\lambda=(1-\lambda)^{-1} g+b+f(\lambda)
$$
が成立します．ここで$f(\lambda)$は$\lambda \to 1$でゼロに収束するベクトルです．
さらに，
$$
g=\lim _{\lambda \uparrow 1}(1-\lambda) v_\lambda
$$
も言えます．

**証明**
ローラン級数展開を$\lambda$で表して，$h$を足し引きすると，

$$
v_\lambda=\frac{1}{1-\lambda} g+h+\frac{1-\lambda}{\lambda} h+\frac{1}{\lambda} \sum_{n=0}^{\infty}(-1)^n\left[\frac{1-\lambda}{\lambda}\right]^n y_n .
$$

が成立します．
$v_\lambda$は$\lambda \to 1$で収束するので，後ろの２項は$\lambda \to 1$で0に収束します．

---
