# LQRにおける方策勾配法

参考：
* [Reinforcement Learning: Theory and Algorithms](https://rltheorybook.github.io/)

LQRでも方策勾配ができます．LQRではノイズのバリアンス$\sigma^2$が最適方策に関係ないことから，ノイズを一旦無視して定式化を考えてみましょう．このとき，LQRは次を解くことになります．

$$
\min _K C(K), \text { where } C(K)=\mathbb{E}_{x_0 \sim \mathcal{D}}\left[\sum_{t=0}^\infty\left(x_t^{\top} Q x_t+u_t^{\top} R u_t\right)\right]
$$

ここで，ダイナミクスは$x_{t+1}=(A-B K) x_t$に従って進んでいきます．
これを$K$について最適化したいわけですが，MDPと同様に，$\min_K C(K)$が凸でも凹でもないLQR問題が$d\geq 3$に存在します．（教科書参照）．

## 方策勾配法

LQRでは次の方式で方策勾配を行います．

$$
K \leftarrow K-\eta \nabla C(K)
$$

つまり，$C(K)$の勾配が書き表せればよいわけですね．

---

**$C(K)$の表記**

$$
P_K=Q+K^{\top} R K+(A-B K)^{\top} P_K(A-B K)
$$
の解$P_K$を使うと，
$$
C(K)=\mathbb{E}_{x_0 \sim \mathcal{D}} x_0^{\top} P_K x_0
$$
として表せます．実際，

$$
\begin{aligned}
C_K\left(x_0\right)=x_0^{\top} P_K x_0 & =x_0^{\top}\left(Q+K^{\top} R K\right) x_0+x_0^{\top}(A-B K)^{\top} P_K(A-B K) x_0 \\
& =x_0^{\top}\left(Q+K^{\top} R K\right) x_0+C_K\left((A-B K) x_0\right) .
\end{aligned}
$$

なので，再帰的に展開すれば$C(K)=\mathbb{E}_{x_0 \sim \mathcal{D}} x_0^{\top} P_K x_0$の形になることがわかります．

---

**$C(K)$の勾配**

$$
\Sigma_K=\mathbb{E}_{x_0 \sim \mathcal{D}} \sum_{t=0}^{\infty} x_t x_t^{\top}
$$
を使うと$C(K)$の勾配が簡単に表現できます．
$C(K)$を$K$について微分します．
$$
C_K\left(x_0\right)=x_0^{\top} P_K x_0 =x_0^{\top}\left(Q+K^{\top} R K\right) x_0+x_0^{\top}(A-B K)^{\top} P_K(A-B K) x_0 
$$
なので，最初の項は

$$
x_0^{\top}\left(Q+K^{\top} R K\right) x_0 \to 2RKx_0x_0^\top
$$

で，２番目の項は

$$
x_0^{\top}(A-B K)^{\top} P_K(A-B K) x_0 = C_K\left(x_1\right)|_{x_1=(A-B K) x_0}
$$
なので，
$$
x_0^{\top}(A-B K)^{\top} P_K(A-B K) x_0 \to -2 B^{\top} P_K(A-B K) x_0 x_0^{\top}+\left.\nabla C_K\left(x_1\right)\right|_{x_1=(A-B K) x_0}
$$
になります．

よって，

$$
\begin{aligned}
\nabla C_K\left(x_0\right) & =2 R K x_0 x_0^{\top}-2 B^{\top} P_K(A-B K) x_0 x_0^{\top}+\left.\nabla C_K\left(x_1\right)\right|_{x_1=(A-B K) x_0} \\
& =2\left(\left(R+B^{\top} P_K B\right) K-B^{\top} P_K A\right) \sum_{t=0}^{\infty} x_t x_t^{\top}
\end{aligned}
$$

が再帰的に導出されます．よって，

$$
\nabla C(K)=2\left(\left(R+B^{\top} P_K B\right) K-B^{\top} P_K A\right) \Sigma_K
$$

であり，簡単のために

$$
E_K=\left(\left(R+B^{\top} P_K B\right) K-B^{\top} P_K A\right)
$$

とすれば，$\nabla C(K)=2 E_K \Sigma_K$になります．

---

**自然勾配**

TODO: 自然勾配について書く

## 方策勾配法の収束

MDPと同様に，$C(K)$は凸でも凹でもないので，収束が保証できるのかはいまいちよくわかりません．しかし，実際には方策勾配法で最適解に収束します．

TODO: 証明