# バイアスとゲインについて

参考：
* [Markov Decision Processes: Discrete Stochastic Dynamic Programming](https://onlinelibrary.wiley.com/doi/book/10.1002/9780470316887)

今回は話をaperiodicな連鎖に限定しないために，Cesaro極限を使った定常分布を考えて話をしていきます．
[]RL_AverageReward_Basic_fundamental_theorem_proof(RL_AverageReward_Basic_fundamental_theorem_proof.ipynb)で示したように，状態空間が有限（もしくは可算）な確率行列では，Cesaro極限が存在します：
$$
\operatorname{C-\lim} _{N \rightarrow \infty} P^N=P^*
$$


## ゲインの基礎

ゲインは次で定義される量です：

$$
g(s) \equiv \lim _{N \rightarrow \infty} \frac{1}{N} E_s\left\{\sum_{t=1}^N r\left(X_t\right)\right\}=\lim _{N \rightarrow \infty} \frac{1}{N} \sum_{t=1}^N P^{t-1} r(s)
$$

一番右を定常分布で表現したいところですが，一般に積分と極限は交換してはいけません（教科書Example 5.1.2など）．しかし，$r$が有界ならば，
$$
g(s) \equiv \lim _{N \rightarrow \infty} \frac{1}{N} E_s\left\{\sum_{t=1}^N r\left(X_t\right)\right\}=\lim _{N \rightarrow \infty} \frac{1}{N} \sum_{t=1}^N P^{t-1} r(s)=P^* r(s)
$$
によって，交換することができます．
よって，ゲインを定常分布で表現することができます．

---

**irreducibleクラスでの挙動**

[RL_AverageReward_Basic_fundamental_theorem_proof](RL_AverageReward_Basic_fundamental_theorem_proof.ipynb)で示しましたが，閉じたirreducibleなrecurrent classにある極限遷移の列は同じになります（厳密には参照元ではCesaro-limitで示してないので示さないといけない．．．）．
これを使うと，次がすぐに言えます：

$P^*$が確率行列だとします．
* もし状態$j$と$k$が同じ既約なクラスにあるなら，$g(j) = g(k)$です．
* 連鎖が既約，もしくは単一のrecurrentなクラス（とtransientな状態集合）からなる場合は，$g(s)$は定数関数です

**証明**
教科書に証明がないですが，マルコフ連鎖の標準形を考えればすぐにわかるはず．
標準形：
$$
P=\left[\begin{array}{cccccc}
P_1 & 0 & 0 & . & . & 0 \\
0 & P_2 & 0 & . & . & 0 \\
. & & . & & & \\
. & & & . & & \\
0 & & & & P_m & 0 \\
Q_1 & Q_2 & \cdot & \cdot & Q_m & Q_{m+1}
\end{array}\right]
$$

に対して，その極限は
$$
P^*=\left[\begin{array}{cccccc}
P_1^* & 0 & 0 & . & . & 0 \\
0 & P_2^* & 0 & . & . & 0 \\
. & & . & & & \\
. & & & . & & \\
0 & & & & P_m^* & 0 \\
Q_1^* & Q_2^* & \cdot & \cdot & Q_m^* & 0
\end{array}\right]
$$
で与えられます．ゲインは$P^*r(s)$で与えられるので，明らかに同じクラスにあるならば，同じ値になります．

---



## バイアスの基礎

平均(ゲイン)最適方策の評価では，その途中経過は無視して，最終的に収束したときの報酬についてだけ考えます（途中経過は$\to \infty$で消えます）．
これは問題によってはあまり嬉しくありません．例えば迷路の問題を考えて見ましょう．ゴールすると$+1$，それ以外は$-1$の報酬とします．
このとき，ゴールに至るようなどんな方策も$+1$の平均報酬になり，最適方策の区別がつかなくなります．
一方で迷路のような問題ではなるべく早くゴールすることが望ましいです．

そこで，**バイアス最適**の概念が役に立ちます．
後で見ますが，バイアス最適を考えるためには，次の方程式を解くことになります：

$$
(I-P) v=r
$$

ここで，$(I-P)$は正則ではありません（１が$P$の固有値なので）．
よって，この方程式は唯一の解を持ちません．

[RL_AverageReward_Basic_fundamental_theorem_proof](RL_AverageReward_Basic_fundamental_theorem_proof.ipynb)でやった補題から，
$$
I-P=W^{-1}\left[\begin{array}{cc}
I-Q & 0 \\
0 & 0
\end{array}\right] W
$$
なので，真ん中の行列が問題になって$(I-P)^{-1}$は存在しません．
そこで，Drazinの逆行列を導入しましょう．

### Drazin逆行列

次の形式を持つ行列$B$を考えましょう
$$
B=W^{-1}\left[\begin{array}{ll}
C & 0 \\
0 & 0
\end{array}\right] W
$$
ここで，$C$は正則行列とします．
また，
$$
B^{\#}=W^{-1}\left[\begin{array}{cc}
C^{-1} & 0 \\
0 & 0
\end{array}\right] W
$$
としましょう．すると，

$$
B^\# B B^{\#}=B^\#, \quad B B^\#=B^\# B, \quad \text { and } \quad B B^\# B=B
$$

が成り立ってることがすぐにわかります．この条件を満たす行列$B^\#$をDrazin逆行列といいます．

Drazin逆行列を使うと，次が成り立ちます：

1. 行列$(I-P+P^*)$は正則です．その逆行列を$Z_P$とします．
   * 正則であることは次の式からすぐにわかります：
$
I-P+P^*=W^{-1}\left[\begin{array}{cc}
I-Q & 0 \\
0 & I
\end{array}\right] W
$
   * $Z_P$はfundamental matrixと呼ばれたりします（[Markov Chains and Optimality of the Hamiltonian Cycle](https://ris.utwente.nl/ws/portalfiles/portal/5103928/memo1841.pdf)）
2. Drazin逆行列$H_P$は次を満たします：
$
(I-P)^\#=\left(I-P+P^*\right)^{-1}\left(I-P^*\right) \equiv H_P
$
    * つまり，Drazin逆行列は$(I - P)$の逆行列的な役割を担ってます．
    * この変形は次の式から明らかです：
$$
\begin{aligned}
(I-P)^\# & =W^{-1}\left[\begin{array}{cc}
(I-Q)^{-1} & 0 \\
0 & 0
\end{array}\right] W \\
& =W^{-1}\left[\begin{array}{cc}
(I-Q)^{-1} & 0 \\
0 & I
\end{array}\right] W-W^{-1}\left[\begin{array}{ll}
0 & 0 \\
0 & I
\end{array}\right] W \\
& =\left(I-P+P^*\right)^{-1}-P^*=Z_P-P^*
\end{aligned}
$$
3. 最後に，$H_P=\operatorname{C-\lim}_{N \rightarrow \infty} \sum_{n=0}^{N-1}\left(P^N-P^*\right)$が満足されます．
証明はちょっと厄介ですが，
$\left(P-P^*\right)^n=P^n-P^*$
を使えばいけます．
    * この性質から，$H_P$はdeviation matrixとも呼ばれます．

---

**$H_P$の性質**

次の式が成立します：

$$
\begin{aligned}
(I-P) & H_P=H_P(I-P)=I-P^* \\
H_P P^* & =P^* H_P=0 \\
H_P & =Z_P-P^* \\
Z_P P^* & =P^* \\
P^* & =I-(I-P)(I-P)^\#
\end{aligned}
$$

便利なので覚えておきましょう．

---

**$H_P$の解釈**

aperiodicな連鎖の場合は，
$$
H_P=\lim _{N \rightarrow \infty}\left[\sum_{k=0}^{N-1} P^k-N P^*\right]
$$
が成り立ちます．つまり，$H_P(j\mid s)$は，
1. $s$からスタートして$j$を訪れる期待訪問回数
2. 遷移確率が$P^*$のときに，$s$からスタートして$j$を訪れる期待訪問回数

の差を表してます．



### バイアスの定義と解釈

Drazinの逆行列$H_P$を使って，バイアス$h$は
$$
h \equiv H_P r
$$
として定義されます．

---

**解釈１：transientな報酬**

aperiodicな連鎖で直感的に説明すると，これは
$$
\begin{aligned}
&h=\sum_{t=0}^{\infty}\left(P^{t}-P^*\right) r=\sum_{t=0}^{\infty} P^{t}(r-g)\\
&h(s)=E_s\left\{\sum_{t=1}^{\infty}\left[r\left(X_t\right)-g\left(X_t\right)\right]\right\}
\approx E_s\left\{\sum_{t=1}^{収束前}\left[r\left(X_t\right)-g\left(X_t\right)\right]\right\}
\end{aligned}
$$
であり，一般に連鎖は定常分布にすぐ収束するので，バイアスは「transientな」報酬の量を表します．

---

**解釈２：累積総報酬の平均差**

$v_{N+1}=\sum_{t=1}^N P^{t-1} r$を，$N$ステップまでの累積報酬和ベクトルとしましょう．
上で見た変形から，
$$
h=\sum_{t=1}^N P^{t-1} r-N g+\sum_{t=N+1}^{\infty}\left(P^{t-1}-P^*\right) r
$$
この３つ目の項は$N\to \infty$で0に収束します（TODO: 証明）．よって，
$$
v_{N+1}=N g+h+o(1)
$$
とかけます．
ちなみに，$v_{N+1} - v_N$が$g$のレートで増えていくので，$g$のことを**ゲイン**と呼ぶわけですね．

TODO: 続き書く


### バイアスと割引価値の関係

バイアス関数と割引価値は，[ローラン展開](https://manabitimes.jp/math/2627)を使うことで変形ができます．

まず，割引率$\lambda$の代わりに，$\lambda=(1+\rho)^{-1}$ or $\rho=(1-\lambda) \lambda^{-1}$なる変数$\rho$を使います．
つまり，$1+\rho$が$\lambda$の逆数です．
このとき，

$$
v_\lambda=(I-\lambda P)^{-1} r=(1+\rho)(\rho I+[P-I])^{-1} r
$$

が明らかに成立します．
ここで，ローラン展開を利用すると，つぎが成立します．

$S$が有限とする．$\nu$を$I-P$のうち，絶対値が最小の非ゼロの固有値とする．このとき，任意の$0 < \rho < |\nu|$について，

$$
v_\lambda=(1+\rho)\left[\rho^{-1} y_{-1}+\sum_{n=0}^{\infty} \rho^n y_n\right]
$$

が成立します．ここで，
$$
y_{-1}=P^* r=g, y_0=H_P r=b, \text { and } y_n=(-1)^n H_P^{n+1} r \text { for } n=1,2, \ldots
$$
です．

TODO: 証明．

上の補題から，$g$と$b$をゲインとバイアスとすると，$S$が有限かつ報酬が有限ならば，
$$
v_\lambda=(1-\lambda)^{-1} g+b+f(\lambda)
$$
が成立します．ここで$f(\lambda)$は$\lambda \to 1$でゼロに収束するベクトルです．

TODO: 証明

---
