# このページについて

このページでは、Distributionally Robust Optimization(https://arxiv.org/abs/2411.02549)の第1章から2章の勉強内容をまとめていこうと思います。

  
  

## 分布ロバスト最適化とは
最適化問題を以下のように定式化します．$x$は制御できる変数であり，$\mathcal{X} \subseteq \mathbb{R}^n$は定義域というか$x$がとる値の集合です．関数は$\ell:\mathcal{X}\rightarrow \mathbb{R}$とします．
$$
\inf _{x \in \mathcal{X}} \ell(x)
$$
今後，ここではこの問題は最小化問題として扱います．$x$は決定論的であり，$x$は$x$です．どのようなタイミングで何回$\mathcal{X}$から取得しようが変わりません．一方で，関数は我々が制御できないような変数$z$が存在し，それが$\ell$の出力を左右するものだったとしましょう．$\mathbb{P}$は確率分布です．どんな値をとるかもわからない，敵対的な動きをするなどの場合はもうお手上げですが，この変数を確率変数としてモデル化できる，つまり$z\sim \mathbb{P}$だとしたらいかがでしょうか？$\mathbb{P}$は確率分布です．

確率変数としてモデル化できたとしたら，期待値を使えます．期待値とは確率変数がとる実現値の平均です．$z$をまあ大体これぐらいの値だろうと期待値で表現してしまって，あとは$x$で$\ell$を最適化すればよくね？となります．つまり以下のような最適化問題を考えます．
$$
\inf _{x \in \mathcal{X}} \ell(x,\mathbb{E}_{\mathbb{P}}[z])
$$
しかし、実際に不確実なパラメータが取る値は平均と大きく離れる場合があります(Savage, Scholtes and Zweidler 2006, Savage 2012)。最適値はあくまで$z$の期待値に対する最適ですので，パラメータが期待値から大きくはずれた値を取った場合には$x$は最適とはいえません．

それに対して，以下のような**確率的計画法**が導入されました。

$$

\begin{equation*}

\inf _{x \in \mathcal{X}} \mathbb{E}_{\mathbb{P}}[\ell(x, Z)] \tag{1.1}

\end{equation*}

$$

確率変数を入力とする関数は確率変数になります．ですので$\ell$は期待値をとることができます．(厳密には，$\ell$が可測関数なら言えます．入力が可測空間に属していれば可測関数です)。これはいい感じの定式化なのですが、不確実なパラメータがサンプルする**確率分布が既知**であるという仮定が必要です。さらに、この定式化は期待値があるためすべての要素を足す必要があり、次元の呪いを受けます。

$$
\begin{equation*}
\inf _{x \in \mathcal{X}} \mathbb{E}_{\mathbb{P}}[\ell(x, z)] =\inf _{x \in \mathcal{X}}\sum_{z}\mathbb{P}(z)\ell(x,z)
\end{equation*}
$$
そこで以下のように新しい定式化を考えます。

$$

\inf _{x \in \mathcal{X}} \sup _{z \in \mathcal{Z}} \ell(x, z)

$$

この定式化を、**ロバスト最適化問題**といいます。例えば、$\ell$が状態価値関数であれば、ロバストMDPにおける最適化問題と考えるができます。しかし、ロバスト最適化は、目的関数の実現値を直接的に考慮して最適化をするため、実現値が極端な場合だと過度に保守的になる場合があります。それに対して、実現値自体ではなく，目的関数の期待値に対してロバスト最適化問題を解く方法を**分布ロバスト最適化**問題といいます。

$$

\begin{equation*}

\inf _{x \in \mathcal{X}} \sup _{\mathbb{P} \in \mathcal{P}} \mathbb{E}_{\mathbb{P}}[\ell(x, Z)] \tag{1.2}

\end{equation*}

$$
でもこれ結局次元の呪いとか分布既知の問題とかが掘り起こされそうな気がする．．．しかし，**双対性**がそれを解決してくれるわけです！詳しくは次の次の？章で！
## 分布ロバストの歴史

**TODO**

  

## 不確実性集合

  

ロバストMDPで主に使われる不確実性集合はKL集合や$L_2$ノルムの集合などが挙げられます。ここでは、より一般化された分布ロバスト最適化という枠組みで、不確実性集合をまとめていこうと思います。

  

初期のDROに関する研究では、**モーメント不確実性集合**が用いられていました。モーメントとは、確率分布における平均や分散など、分布の特徴を示すものです。モーメント不確実性集合は、分布が大きく異なるようなものでも同じ集合に含まれてしまうという問題がありました。例えば平均が0という制約を考えると、ガウス分布や、一様分布がふくまれてしまいます。これではそもそも最適化問題を解くことが困難になってしまいます。そこで、近年(2013～)の研究では、確率分布(履歴データから推定した経験平均)そのものの距離(のようなもの)を制約として考える **$\phi$(ファイ)-ダイバージェンス**や**Wasserstein 距離**を用いた不確実性集合を導入しました。さらに最近(2018～)は、**最適輸送における距離**(のようなもの)を用いて不確実性集合を導入するケースが増えています。

  

### モーメント不確実性集合

#### 変数定義

*   **$\mathbb{E}_{\mathbb{P}}[f(Z)]$**：確率分布 $\mathbb{P}$ に関するモーメント関数 $f$ の期待値を表す。

*   **$\mathcal{F}$**：モーメント不確実性集合。モーメントの可能な値の範囲を定める。

*   **$\mathcal{Z}$**：確率変数 $Z$ の取りうる値の集合

  

#### 一般化された形

$f: \mathcal{Z} \rightarrow \mathbb{R}^{m}$ はボレル可測なモーメント母関数とします。$\mathcal{F} \subseteq \mathbb{R}^{m}$ は不確実性集合とします。一般化されたモーメント不確実性集合は、モーメントの期待値が不確実性集合に属するような、確率分布の集合です。

$$

\begin{equation*}

\mathcal{P}=\left\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}): \mathbb{E}_{\mathbb{P}}[f(Z)] \in \mathcal{F}\right\}

\end{equation*}

$$

この形式は、チェビシェフの不等式に関する研究から生まれたものです。この定式化を用いて、具体的な例を見てみましょう

  

#### 具体例①：サポートのみの不確実性集合

不確実性集合の制約条件として、サポートであるかどうかを考えます。サポートであるかどうか、は確率分布が確率0でないものを取りうるかどうかで判断します。ですので、最もプリミティブな制約を持つ不確実性集合といえるかもしれません。

  

具体的に見ていきましょう。

サポートのみの不確実性集合は、一般化された形の$f(z)=1$ と $\mathcal{F}=\{1\}$ のケースです。定式化すると、

$$

\mathcal{P}=\left\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}) \mid \mathbb{E}_{\mathbb{P}}[1]=1\right\}

$$

ここで、

$$

\mathbb{E}_{\mathbb{P}}[1]=\int_{\mathcal{Z}} 1 \cdot d \mathbb{P}(z)=\mathbb{P}(\mathcal{Z})=1

$$

これは、全確率が1かどうかの制約です。これは実質的に不確実性集合に属する確率分布が1つになるため、ミニマックスの内側最小化は、不確実性集合に属する確率変数に対してではなく、ある確率分布に対する確率変数を用いたものになります。つまり、分布ロバスト最適化というよりは、従来のロバスト最適化と同義となります。

$$

\inf _{x \in \mathcal{X}} \sup _{\mathbb{P} \in \mathcal{P}(\mathcal{Z})} \mathbb{E}_{\mathbb{P}}[\ell(x, Z)]=\inf _{x \in \mathcal{X}} \sup _{z \in \mathcal{Z}} \ell(x, z)

$$

#### 具体例②：マルコフ不確実性集合

マルコフの不等式を思い出しましょう。これは、確率変数の実現値が、ある値$\tau>0$よりも大きくなる確率の上界を、確率分布の真の平均$\mu$と$\tau$で表したものです。マルコフの不等式で評価できる分布は、「平均はわかっているけど、それ以外の情報が分からない(わかってても良い)分布」です。マルコフ不確実性集合は、その評価できる分布を要素としています。つまり、$Z$の期待値が$\mu$になるような確率分布を要素とした集合です。平均のみに制約を与えているため、形状や分散、その他モーメントが大きく異なるような分布も要素として受け入れることがあり、これは最適化を困難にさせる可能性があります。

  

$$

\begin{equation*}

\mathcal{P}=\left\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}): \mathbb{E}_{\mathbb{P}}[Z]=\mu\right\}

\end{equation*}

$$

  

#### 具体例③：チェビシェフ不確実性集合

チェビシェフの不等式は分散も分かっていて小さい場合、よりタイトな上界をだすことができています。それから転じて、以下のように分散の制約を追加したチェビシェフ不確実性集合を定義します。

  

$\mathcal{P}=\left\{\mathbb{P} \in \mathcal{P}(\mathbb{R}): \mathbb{E}_{\mathbb{P}}[Z]=\mu, \mathbb{E}_{\mathbb{P}}\left[Z^{2}\right]=\sigma^{2}+\mu^{2}\right\}$

  

#### 具体例④：モーメントが不確実な場合のチェビシェフ不確実集合

平均や分散が完全にわからず、推定誤差がある場合に用いられることがあります。

  

#### 具体例⑤平均分散不確実集合

平均は既知と仮定し、制約を与えて、分散に関する制約を工夫します。後者がチェビシェフ不確実性集合との違いです。

  

#### 具体例⑥高次モーメント不確実集合

尖度をはじめとした、高次モーメントに対して制約を与えた不確実性集合です。分布の様々な性質まで制約として制御できますが、一般的にはこの不確実性集合を用いた最適化問題は**NP困難**になります。また、計算コストが非常に高くなるため、近似解法を使って解くことが前提となることが多いです。

  

### $\phi$-ダイバージェンス不確実性集合

#### 定義

*   **$\phi$**：エントロピー関数

*   **$\phi^{\infty}(1)$**：$\phi$ のリセッション関数

*   **$\mathrm{D}_{\phi}(\mathbb{P}, \hat{\mathbb{P}})$**：$\phi$-ダイバージェンス

*   **$\operatorname{KL}(\mathbb{P}, \hat{\mathbb{P}})$**：KLダイバージェンス

*   **$\mathrm{TV}(\mathbb{P}, \hat{\mathbb{P}})$**：全変動距離

*   **$\chi^{2}(\mathbb{P}, \hat{\mathbb{P}})$**：$\chi^2$-ダイバージェンス

*   **$\mathbb{P} \ll \hat{\mathbb{P}}$**：$\mathbb{P}$ が $\hat{\mathbb{P}}$ に関して絶対連続

*   **$\mathcal{F}$**：すべての有界ボレル関数 $f: \mathcal{Z} \rightarrow \operatorname{dom}\left(\phi^{*}\right)$ の族

  

確率分布の性質で制約をとるモーメント不確実性集合に対して確率分布間の距離(のようなもの)で制約をとる$\phi$-ダイバージェンス不確実性集合を紹介します。が、その前にいくつか紹介したい性質があります。$\phi$-ダイバージェンスを直接計算するには、

  

$$

\mathrm{D}_{\phi}(\mathbb{P}, \hat{\mathbb{P}})=\int_{\mathcal{Z}} \phi^{\pi}\left(\frac{\mathrm{d} \mathbb{P}}{\mathrm{~d} \rho}(z), \frac{\mathrm{d} \hat{\mathbb{P}}}{\mathrm{~d} \rho}(z)\right) \mathrm{d} \rho(z)

$$

以下が、$\phi$-ダイバージェンスの双対表現です。

$$

\mathrm{D}_{\phi}(\mathbb{P}, \hat{\mathbb{P}})= \begin{cases}\int_{\mathcal{Z}} \phi\left(\frac{\mathrm{dP}}{\mathrm{~d} \hat{\mathbb{P}}}(z)\right) \mathrm{d} \hat{\mathbb{P}}(z) & \text { if } \mathbb{P} \ll \hat{\mathbb{P}} \\ +\infty & \text { otherwise }\end{cases}

$$

双対表現を使って、$\phi$-ダイバージェンス不確実性集合を以下のように定義します。

$$

\begin{equation*}

\mathcal{P}=\left\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}): \mathrm{D}_{\phi}(\mathbb{P}, \hat{\mathbb{P}}) \leq r\right\} \tag{2.10}

\end{equation*}

$$

  
  

#### カルバック・ライブラー不確実性集合

KLダイバージェンスは$\phi$-ダイバージェンスにおいて、$\phi(s)=s \log (s)-s+1$ とした場合のインスタンスです。以下に定義とその双対表現を示します。$\mathcal{F}$ は、すべての有界ボレル関数 $f: \mathcal{Z} \rightarrow \mathbb{R}^{d}$ の族です。

  

**$\hat{\mathbb{P}} \in \mathcal{P}(\mathcal{Z})$ に関する $\mathbb{P} \in \mathcal{P}(\mathcal{Z})$ の KLダイバージェンス**

  

$$

\operatorname{KL}(\mathbb{P}, \hat{\mathbb{P}})= \begin{cases}\int_{\mathcal{Z}} \log \left(\frac{\mathrm{d} \mathbb{P}}{\mathrm{~d} \hat{\mathbb{P}}}(z)\right) \mathrm{d} \mathbb{P}(z) & \text { if } \mathbb{P} \ll \hat{\mathbb{P}} \\ +\infty & \text { otherwise }\end{cases}

$$

**KLダイバージェンスの双対表現**

$$

\begin{equation*}

\operatorname{KL}(\mathbb{P}, \hat{\mathbb{P}})=\sup _{f \in \mathcal{F}} \int_{\mathcal{Z}} f(z) \mathrm{d} \mathbb{P}(z)-\log \left(\int_{\mathcal{Z}} e^{f(z)} \mathrm{d} \hat{\mathbb{P}}(z)\right) \

\end{equation*}

$$

**KL不確実性集合**

$$

\begin{equation*}

\mathcal{P}=\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}): \operatorname{KL}(\mathbb{P}, \hat{\mathbb{P}}) \leq r\} .

\end{equation*}

$$

  

**証明**

  

#### 性質など

* 凸集合(双対化できるため)

* 絶対連続性が必要

  

#### 尤度不確実性集合

KLダイバージェンスが距離と言い切れない所以の一つとして、対称性を持たないという性質があります。つまり、以下のような不確実性集合は、$\mathcal{P}=\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}): \operatorname{KL}(\mathbb{P}, \hat{\mathbb{P}}) \leq r\}$と異なる要素を持つ場合があります。

$$

\begin{equation*}

\mathcal{P}=\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}): \operatorname{KL}(\hat{\mathbb{P}}, \mathbb{P}) \leq r\}

\end{equation*}

$$

これを、$\hat{\mathbb{P}} \in \mathcal{P}(\mathcal{Z})$ を中心とした尤度不確実性集合と呼びます。$\hat{\mathbb{P}}$を経験分布とすれば、この不確実集合は、統計的視点から性質を考えることができます。

  

#### 性質など

* KL不確実集合は、半径$r$の決定が難しいですが、尤度不確実集合は、$r \sim \mathcal{O}(1/N)$ or $\mathcal{O}(1/\sqrt{N})$ で統計的に導けます。

* 双対が存在

* **信頼区間に関する統計的保証** 理解しきれていません。

#### 全変動不確実性集合

 $\phi(s) = \frac{1}{2}|s - 1|$のときの$\phi$-ダイバージェンスのインスタンスとして、全変動距離があります。これを用いて不確実集合を定義しましょう。

  

**全変動距離の定義**

$$

\mathrm{TV}(\mathbb{P}, \hat{\mathbb{P}})=\sup _{\mathcal{B} \subseteq \mathcal{Z}}|\mathbb{P}(\mathcal{B})-\hat{\mathbb{P}}(\mathcal{B})|

$$

**全変動距離不確実集合の定義**

$$

\mathcal{P}=\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}): \operatorname{TV}(\mathbb{P}, \hat{\mathbb{P}}) \leq r\}

$$

#### 性質など

* Contaminationモデルとの関係

  

#### $\chi^{2}$-ダイバージェンス不確実性集合

$\phi(s) = (s - 1)^2$の場合の$\phi$-ダイバージェンスを用いた不確実集合です。

  

**$\chi^{2}$の定義**

$$

\chi^2(\mathbb{P}, \hat{\mathbb{P}})= \begin{cases}\int_{\mathcal{Z}}\left(\frac{d \mathbb{P}}{d \hat{\mathbb{P}}}(z)-1\right)^2 d \hat{\mathbb{P}}(z) & \mathbb{P} \ll \hat{\mathbb{P}} \\ +\infty & \text { otherwise }\end{cases}

$$

**$\chi^{2}$-不確実性集合の定義**

$$

\begin{equation*}

\mathcal{P}=\left\{\mathbb{P} \in \mathcal{P}(\mathcal{Z}): \chi^{2}(\mathbb{P}, \hat{\mathbb{P}}) \leq r\right\}

\end{equation*}

$$

  

### 最適輸送不確実性集合

  

#### Wasserstein不確実性集合