# リスクについて

* [Risk-sensitive Reinforcement Learning](https://arxiv.org/abs/1311.2097) 直感が丁寧に書いてある


何か意思決定をする状況を考えましょう．
ここで，選択肢が複数あり，それぞれ別々の確率過程を生成するとします．
ある選択肢を選ぶと，outcome $\{X(i), \mu(i)\}_{i \in I}$ が発生します．
ここで，
* $I$はevent space（有限）
* $X(i)$は，イベント$i$でのoutcome
* $\mu(i)$はイベント$i$が発生する確率
* $X \leq Y$は任意の$i \in I$に対して，$X(i) \leq Y(i)$を意味します．
* $\mathscr{P}$はすべての$\mu$の集合

どのような選択肢を選ぶべきでしょうか？
選択肢に応じてoutcomeとその確率が変動することを踏まえて，選択肢を評価する関数$\rho: \mathbb{R}^{|I|}\times \mathscr{P}$を考えましょう．
そして，
$$
\rho(X, \mu) \geq \rho(Y, \nu)
$$
ならば，$X$のほうが$Y$よりも好ましいとします．
この$\rho$は，次の性質を満たすときにvaluation functionと呼ばれます．

1. monotonicity: $X \leq Y$ならば，$\rho(X, \mu) \leq \rho(Y, \nu)$
2. translational invariance: $\rho(X + y \mathbf{1}, \mu) = \rho(X, \mu) + y$
    * コストのときは符号が逆転するので注意

$\rho(\mathbf{0}, \mu) = 0$は必ずしも必要ではありません．
ただ，$\widetilde{\rho}(X, \mu) := \rho(X, \mu)-\rho(\mathbf{0}, \mu)$とすれば，０にできます．このとき，次が成立します．

$$
\min _{i \in I} X_i=: \underline{X} \leq \tilde{\rho}(X, \mu) \leq \bar{X}:=\max _{i \in I} X_i, \forall \mu \in \mathscr{P}, X \in \mathbb{R}^{|I|}
$$

つまり，$\tilde{\rho}(X, \mu)$は$X$の期待値を含んでいる一般的な期待値と見れます．

ここで，リスクは一般に分散すると小さくなると考えられます．
$\rho$によってリスクを表現するならば，$\rho$もそのような性質を持つべきです．
$(X, \mu)$と $(Y, \nu)$ につながる選択肢があり，$X$を$\alpha$，$Y$を$(1-\alpha)$で重み付けして選択するなら，それは別々に選ぶよりも良い結果になるべきです．そこで，次の性質を与えます：

$$
\rho(\alpha X+(1-\alpha) Y, \mu) \geq \alpha \rho(X, \mu)+(1-\alpha) \rho(Y, \mu)
$$

このようなvalue functionはconcaveであるといいます．（コストならconvex valuation function）

* valuation functionがconcaveなら，これを最大化するエージェントはリスクを避けるので，risk-averse agentといいます．
* convexなら，リスクを好むので，risk-seeking agentといいます．
* どちらでもないなら，risk-neutral agentといいます．普通の期待値はこれですね．

## Utility-based shortfall

Utility-based shortfallは，様々なvaluation functionを一般化する表現です．
$u: \mathbb{R} \to \mathbb{R}$を単調増加な関数とします．
これをutility functionと呼びます．

次の関数$\rho^u_{x_0}$を，$u$とaccident level $x_0$によって誘導されるshortfallと呼びます．

$$
\rho_{x_0}^u(X, \mu):=\sup \left\{m \in \mathbb{R} \mid \sum_{i \in I} u(X(i)-m) \mu(i) \geq x_0\right\}
$$

これはvaluation functionの要求２つをちゃんと満たします（証明略）．
また，$u$がconcaveなら$\rho$もconcaveなので，risk-averse agentを表現します．

普通のutility theoryは単に$X(i)$にutility関数を適用しますが，これは$X(i)-m$の差分に適用してることに注意しましょう．
直感的に，人間も効用を得るのは「何らかの基準$m$からの差分」である場合が多いですね．

### 例

1. $u(x)=x$かつ$x_0=0$なら，

$$
\begin{aligned}
\rho_{x_0}^u(X, \mu)&:=\sup \left\{m \in \mathbb{R} \mid \sum_{i \in I} (X(i)-m) \mu(i) \geq 0\right\}\\
&=\sup \left\{m \in \mathbb{R} \mid \sum_{i \in I} X(i) \mu(i) \geq m\right\}
\end{aligned}
$$
なので，$\rho$は期待値を表現します．

2. $u(x)=\exp(\lambda x)$かつ$x_0=1$なら，

$$
\begin{aligned}
\rho_{x_0}^u(X, \mu)&:=\sup \left\{m \in \mathbb{R} \mid \sum_{i \in I} \exp\left(\lambda (X(i)-m)\right) \mu(i) \geq 1\right\}\\
&=\frac{1}{\lambda} \log \left(\sum_{i \in I} \exp\left(\lambda X(i)\right) \mu(i)\right)
\end{aligned}
$$
を得ます．これはentropic mapと呼ばれ，次のように分散の項で表現できます．
$$
\rho(X, \mu)=\mathbb{E}^\mu[X]+\lambda \operatorname{Var}^\mu[X]+O\left(\lambda^2\right)
$$
$\lambda < 0$のとき，分散を小さくするように動くので，これはrisk-averse agentになります．$\lambda > 0$ならrisk-seekingです．

3. $\kappa \in (-1, 1)$について，こういうのもあります．詳細は論文参照．

$$
u(x)= \begin{cases}(1-\kappa) x & \text { if } x>0 \\ (1+\kappa) x & \text { if } x \leq 0\end{cases}
$$

## 補足：Coherent risk measure

参考：[Convex measures of risk and trading constraints](https://d-nb.info/1206794666/34)

$\Omega$上の関数の集合$\mathcal{X}$について，
次を満たす$\rho: \mathcal{X}\to \mathbb{R}$をcoherent measure of riskといいます．
1. subadditivity: $\rho(X+Y) \leq \rho(X)+\rho(Y)$
2. positive homogeneity: $\rho(\alpha X) = \alpha \rho(X)$ for $\alpha \geq 0$
3. monotonicity: $X \leq Y$ならば，$\rho(X) \geq \rho(Y)$
4. translation invariance: $\rho(X + c) = \rho(X) - c$ for $c \in \mathbb{R}$
    * これはコストの表記の場合．例えば$\rho(Y) = -Y$とすれば，コストがひっくり返って外に出ます．

このsubadditivityとhomogeneityは，しばしば要求として強すぎることがあります．
例えば，流動性リスク（お金が必要だが，資金繰りができないリスク）を考えると，単に定数倍するpositive homogeneityは成り立たないことがあります．
そこで，subadditivityとhomogeneityをconvexityで一般化できます．


## Convex risk measureの双対表現

参考：[Convex measures of risk and trading constraints](https://d-nb.info/1206794666/34)

以下，コストによるconvex risk measureを考えましょう．
すなわち，monotonicity, transition invariance, convexityを満たす risk measureです．

$\rho(X)$はこの文脈では，「ポジション$X$がどれくらい危険か」を表現します．
特に$\rho(0)=0$なら，これは「何もポジションを持たないときのリスクは０」と解釈できます．
このとき，$\rho(X)$は必要証拠金（margin）と解釈されます（取引を開始するために必要最低限の預け入れ金のこと）．

例えばあるポートフォリオ$X$があって，そのポートフォリオを保有するために必要な証拠金が$\rho(X)=10$万円ならば，
* このポートフォリオは，追加で10万円のキャッシュを入れてリスクフリー運用すれば受け入れ可能な水準になります．
* 逆に，最低でも10万円のキャッシュを入れないと，このポートフォリオは危険です．10万が，破綻しないための安全マージンを表現します．

この直感を踏まえると，「$X + c$が受け入れ可能（安全）になる最小の$c$」が，$\rho(X)$になるはずです．
これをちゃんと示すために，次のacceptance setを定義します．これは受け入れ可能になるポジションの集合です．

$$
\mathcal{A}_\rho=\{X \in \mathcal{X} \mid \rho(X) \leq 0\}
$$

この受け入れ可能なポジションの集合から逆に，リスクも復元できます：
$$
\rho_{\mathcal{A}}(X):=\inf \{m \in \mathbb{R} \mid m+X \in \mathcal{A}\}
$$

このとき，次が成立します．

---

$\rho: \mathcal{X} \to \mathbb{R}$がconvex risk measureならば，$\rho_{\mathcal{A}_\rho}=\rho$が成り立つ．
さらに，$\mathcal{A} := \mathcal{A}_\rho$は次を満たす：
1. $\mathcal{A}$ is convex and non-empty.
2. If $X \in \mathcal{A}$ and $Y \in \mathcal{X}$ satisfies $Y \geq X$, then $Y \in A$.つまり，安全なポジションよりもましなポジションは，安全である．
3. If $X \in \mathcal{A}$ and $Y \in \mathcal{X}$, then

$$
\{\lambda \in[0,1] \mid \lambda X+(1-\lambda) Y \in \mathcal{A}\}
$$

is closed in $[0,1]$.

証明は省略

---

これの応用例として，Value at Risk (VaR)を考えてみましょう．これは次で定義されます：

$$
\operatorname{VaR}_\gamma(X):=\inf \{m \mid P[X+m<0] \leq \gamma\}
$$

これはAcceptance setが凸にならないことが知られています．すなわち，VaRはconvex risk measureではないです．

さて，convex risk measureについて，次の双対表現が常に存在します：

---

有限な集合$\Omega$上のすべての関数の集合$\mathcal{X}$について，$\rho: \mathcal{X} \to \mathbb{R}$がconvex risk measureならば，iffで次を満たすpenalty function $\alpha : \mathcal{P} \to (-\infty, \infty]$が存在する．

$$
\rho(Z)=\sup _{Q \in \mathcal{P}}\left(E_Q[-Z]-\alpha(Q)\right)
$$

ここで，$\alpha$は$\alpha(Q) \geq -\rho(0)$を任意の$Q \in \mathcal{P}$に対して満たし，さらに$\mathcal{P}$について凸かつlower semicontinuousに取れます．

**補足**：これは証明を簡単にするために有限でやってますが，別に無限でもいけます．詳細はTheorem 6を参照．

**証明** ifの方は簡単です．それぞれの$Q \in \mathcal{P}$について，$X \mapsto E_Q[-X] - \alpha(Q)$は凸であり，明らかにtransition invarianceを満たします．supをとっても保存されるので大丈夫です．

only ifの方を示しましょう．

$$
\alpha(Q):=\sup _{X \in \mathcal{X}}\left(E_Q[-X]-\rho(X)\right)
$$

とします．このときまず，$\alpha(Q)=\sup _{X \in \mathcal{A}_\rho} E_Q[-X]$になることを示します．

右辺を$\hat{\alpha}(Q)$とします．$\mathcal{A}_\rho$の定義から，$\alpha(Q) \geq \hat{\alpha}(Q)$が成り立ちます．
逆の不等式を示すために，$X' := \rho(X) + X \in \mathcal{A}_\rho$であることを利用します（transition invarianceより）．
これから，
$$
\widehat{\alpha}(Q) \geq E_Q\left[-X^{\prime}\right]=E_Q[-X]-\rho(X)
$$

が成立します．よって，$\alpha(Q) = \hat{\alpha}(Q)$が成り立ちます．

改めて目標に戻ります．固定された$Y \in \mathcal{X}$について，上の$\alpha(\cdot)$の定義を代入すると，
$$
\rho(Y) \geq \sup _{Q \in \mathcal{P}}\left(E_Q[-Y]-\alpha(Q)\right)
$$
が明らかに成り立ちます．
この逆を示したいので，
$$
m>\sup _{Q \in \mathcal{P}}\left(E_Q[-Y]-\alpha(Q)\right)
$$
なる$m$を取ります．あとは$m \geq \rho(Y)$ or $m + Y \in \mathcal{A}_\rho$を示せばよいです．（あとはめんどいので省略）


---
