# Gauss-Seidel-VI アルゴリズム

参考：
* [Markov Decision Processes: Discrete Stochastic Dynamic Programming](https://onlinelibrary.wiley.com/doi/book/10.1002/9780470316887)の6.3章

今回は価値反復法よりも少し賢い価値反復法について扱います（記法は教科書に任せます）

次の線形分解を考えましょう：

$$I - \lambda P_d = Q_d - R_d$$

ここで，$Q_d^{-1} \geq 0$かつ$R_d \geq 0$のとき，この分解を標準分解と呼ぶことにします．
一番簡単な分解方法は$Q_d = I$かつ$R_d = \lambda P_d$のときですね．実は，後で見るGauss-Seidelアルゴリズムでこの分解は価値反復法と一致します．

まず，有限な状態空間の各状態を$s_1, \dots, s_N$としましょう．
Gauss-Seidelアルゴリズムは次の処理を繰り返して，いい感じの$n$で止めます．

* 各$n$で，$j=1$から$j=N$まで次を繰り返す：

$$
v^{n+1}\left(s_j\right)=\max _{a \in A_{s_j}}\left\{r\left(s_j, a\right)+\lambda\left[\sum_{i<j} p\left(s_i \mid s_j, a\right) v^{n+1}\left(s_i\right)+\sum_{i \geq j} p\left(s_i \mid s_j, a\right) v^n\left(s_i\right)\right]\right\}
$$

この反復法は何をしてるのか見てみましょう．
ただ，これを正しく見つめるためにはノルム付き線形空間への理解が必要になります：




全ての$j=1~N$で上の処理を行い，何らかの$d$が出てきたときのことを考えます．
遷移行列に対して，その分解を次で表記します：
$$P_d = P_d^L + P_d^U$$

ここで，
$$
P_d^L=\left[\begin{array}{cccccc}
0 & 0 & . & . & . & 0 \\
p_{21} & 0 & & & & 0 \\
p_{31} & p_{32} & 0 & & & \\
\cdot & & & \cdot & & \\
\cdot & & & & \cdot & \\
p_{N 1} & & & & p_{N, N-1} & 0
\end{array}\right], P_d^U=\left[\begin{array}{cccccc}
p_{11} & p_{12} & \cdot & . & \cdot & p_{1 N} \\
0 & p_{22} & \cdot & . & \cdot & p_{2 N} \\
0 & 0 & p_{33} & & & p_{3 N} \\
\cdot & & & \cdot & & \cdot \\
\cdot & & & & \cdot & \cdot \\
0 & \cdot & . & \cdot & 0 & p_{N N}
\end{array}\right] .
$$
です．
さて，上の反復の前半部分と後半部分を分けて考えてみましょう．
* 前半部分では下三角行列を使って$d$についての方策評価をしているとみなしても良さそうです．
* また，後半部分は上三角行列によって方策評価をしています．
* そして，

こうすると，実はGauus-Seidel$アルゴリズムの気持ちとしては，次の処理をやろうとしています：

$$
v^{n+1}=\left(I-\lambda P_d^L\right)^{-1}\left(\lambda P_d^U\right) v^n+\left(I-\lambda P_d^L\right)^{-1} r_d
$$

これは

$Q_d=\left(I-\lambda P_d^L\right)$ and $R_d=\lambda P_d^U$