# 弱凸関数での制約付き最適化

参考：
* [Oracle Complexity of Single-Loop Switching Subgradient Methods for Non-Smooth Weakly Convex Functional Constrained Optimization](https://arxiv.org/abs/2301.13314)
* このへんも読んでおこう：
  * [Stochastic first-order methods for convex and nonconvex functional constrained optimization](https://link.springer.com/article/10.1007/s10107-021-01742-y)
  * [Quadratically Regularized Subgradient Methods for Weakly Convex Optimization with Weakly Convex Constraints](https://proceedings.mlr.press/v119/ma20d.html)
  * [First-Order Methods for Nonsmooth Nonconvex Functional Constrained Optimization with or without Slater Points](https://arxiv.org/abs/2212.00927)

表記：
* 劣勾配：$\partial h(\boldsymbol{x})=\left\{\boldsymbol{\zeta} \in \mathbb{R}^d \mid h\left(\boldsymbol{x}^{\prime}\right) \geq h(\boldsymbol{x})+\left\langle\boldsymbol{\zeta}, \boldsymbol{x}^{\prime}-\boldsymbol{x}\right\rangle+o\left(\left\|\boldsymbol{x}^{\prime}-\boldsymbol{x}\right\|\right), \boldsymbol{x}^{\prime} \rightarrow \boldsymbol{x}\right\}$
* $\rho$-弱凸関数：$h(\boldsymbol{x}) \geq h\left(\boldsymbol{x}^{\prime}\right)+\left\langle\boldsymbol{\zeta}, \boldsymbol{x}-\boldsymbol{x}^{\prime}\right\rangle-\frac{\rho}{2}\left\|\boldsymbol{x}-\boldsymbol{x}^{\prime}\right\|^2$
* 集合$\mathcal{A}$までの距離：$\operatorname{dist}(\boldsymbol{x}, \mathcal{A}):=\min _{\boldsymbol{y} \in \mathcal{A}}\|\boldsymbol{x}-\boldsymbol{y}\|$

今回は次の問題について考えます：
$$
f^* \equiv \min _{\boldsymbol{x} \in \mathcal{X}} f(\boldsymbol{x}) \quad \text { s.t. } \quad g(\boldsymbol{x}) \leq 0
$$

ここで，
* $\mathcal{X} \subset \mathbb{R}^d$は凸かつ簡単にprojectionができる集合
* $f$, $g$は 連続な弱凸関数．
* $\left\|\boldsymbol{\zeta}_f\right\| \leq M$ 及び $\left\|\boldsymbol{\zeta}_g\right\| \leq M$ が 任意の$\boldsymbol{x} \in \mathcal{X}, \boldsymbol{\zeta}_f \in \partial f(\boldsymbol{x})$ と $\boldsymbol{\zeta}_g \in \partial g(\boldsymbol{x})$で成立する

$g(\boldsymbol{x}) \equiv \max _{i=1, \ldots, m} g_i(\boldsymbol{x})$とすれば，これは複数の制約のもとでの最適化と同じです．

---

**停留点について**

この問題は非凸なので，$\varepsilon$-最適な解を見つけるのは一般に無理です．
しかし，停留点ならば見つけることができます．停留点$\boldsymbol{x}^* \in \mathcal{X}$は次のKKT条件を満たす点です：
$$
\zeta_f^*+\lambda^* \zeta_g^* \in-\mathcal{N}_{\mathcal{X}}\left(\boldsymbol{x}^*\right), \quad \lambda^* g\left(\boldsymbol{x}^*\right)=0, \quad g\left(\boldsymbol{x}^*\right) \leq 0, \quad \lambda^* \geq 0
$$
ここで，$\lambda^*$はラグランジュの未定定数，$\zeta_f^* \in \partial f\left(\boldsymbol{x}^*\right)$ and $\boldsymbol{\zeta}_g^* \in \partial g\left(\boldsymbol{x}^*\right)$です．
$\mathcal{N}_\mathcal{X}(\boldsymbol{x})$を$\boldsymbol{x}$における$\mathcal{X}$についてのNormal coneとしました．


Normal coneは
$$
\mathcal{N}_\mathcal{X}(\boldsymbol{x}) = \{\boldsymbol{g} \in \mathbb{R}^n \mid \boldsymbol{g}^\top \boldsymbol{y} \leq \boldsymbol{g}^\top \boldsymbol{x} \quad \forall \boldsymbol{y} \in \mathcal{X}\}
$$
で定義されます．
よって，上のKKT条件では，任意の$\boldsymbol{y} \in \mathcal{X}$に対して，
$$
\begin{aligned}
\left\langle
\zeta_f^* + \lambda^* \zeta_g^*, \boldsymbol{y} - \boldsymbol{x}^*  \right\rangle
\geq 0
\end{aligned}
$$
が成り立ってます．
つまり，どの方向$\boldsymbol{y}$に進んでも，１次では目的（ラグランジュ関数）が増えるので，これは停留点を表してます．

Exactな停留点を求めるのは一般に難しいので，普通は次の$\varepsilon$-停留点$\widehat{\mathbf{x}}$を求めます：

$$
\operatorname{dist}\left(\widehat{\boldsymbol{\zeta}}_f+\widehat{\lambda}_g,-\mathcal{N}_{\mathcal{X}}(\widehat{\mathbf{x}})\right) \leq \epsilon, \quad|\widehat{\lambda} g(\widehat{\mathbf{x}})| \leq \epsilon^2, \quad g(\widehat{\mathbf{x}}) \leq \epsilon^2, \quad \widehat{\lambda} \geq 0
$$


## ほぼ$\varepsilon$-停留点

上で定義した停留点ですが，$f$と$g$は平滑ではないので，制約がない場合でも停留点を探すのは難しい問題です．
そこで，次の**ほぼ$\varepsilon$-停留点**を考えましょう．

$\hat{\rho} \geq 0, \tilde{\rho} \geq 0$ and $\mathbf{x} \in \mathcal{X}$について，

* $\varphi(\mathbf{x}) \equiv \min _{\mathbf{y} \in \mathcal{X}}\left\{f(\mathbf{y})+\frac{\hat{\rho}}{2}\|\mathbf{y}-\mathbf{x}\|^2 \text {, s.t. } g(\mathbf{y})+\frac{\tilde{\rho}}{2}\|\mathbf{y}-\mathbf{x}\|^2 \leq 0\right\}$
    * これは**制約付きの**モーロー包ですね．制約の部分も非凸なので，**制約の部分でもモーロー包を考えている**のがポイントです．
* $\widehat{\mathbf{x}}(\mathbf{x}) \equiv \underset{\mathbf{y} \in \mathcal{X}}{\arg \min }\left\{f(\mathbf{y})+\frac{\hat{\rho}}{2}\|\mathbf{y}-\mathbf{x}\|^2 \text {, s.t. } g(\mathbf{y})+\frac{\tilde{\rho}}{2}\|\mathbf{y}-\mathbf{x}\|^2 \leq 0\right\}$
    * これはモーロー法でMinimizerを与える点です．

を考えましょう．
$\mathbf{x}$と，そのモーロー包における最小値$\widehat{\mathbf{x}}(\mathbf{x})$の距離$\|\widehat{\mathbf{x}}(\mathbf{x})-\mathbf{x}\|$は，直感的には停留点までの近さを表現しています．

---

**モーロー包と停留点**

<!-- * $\widehat{\rho}$と$\widetilde{\rho}$が十分小さい場合は，モーロー包の最小値はほぼ制約付き最適化問題の最適解になります．よって，距離が最適解との近さを表します． -->
<!-- また，これは次の意味で -->

停留点との関係を直感的に理解するために，一旦このモーロー包を使った表現において，KKT条件を満たすラグランジュの未定定数$\widehat{\lambda}$が存在するとしましょう．すなわち，

$$
\begin{aligned}
& \widehat{\boldsymbol{\zeta}}_f+\hat{\rho}(\widehat{\mathbf{x}}(\mathbf{x})-\mathbf{x})+\widehat{\lambda}\left(\widehat{\boldsymbol{\zeta}}_g+\tilde{\rho}(\widehat{\mathbf{x}}(\mathbf{x})-\mathbf{x})\right) \in-\mathcal{N}_{\mathcal{X}}(\widehat{\mathbf{x}}(\mathbf{x})) \\
& \widehat{\lambda}\left(g(\widehat{\mathbf{x}}(\mathbf{x}))+\frac{\tilde{\rho}}{2}\|\widehat{\mathbf{x}}(\mathbf{x})-\mathbf{x}\|^2\right)=0, \quad g(\widehat{\mathbf{x}}(\mathbf{x}))+\frac{\tilde{\rho}}{2}\|\widehat{\mathbf{x}}(\mathbf{x})-\mathbf{x}\|^2 \leq 0, \quad \widehat{\lambda} \geq 0
\end{aligned}
$$

です．このとき，$\|\widehat{\mathbf{x}}(\mathbf{x})-\mathbf{x}\| \leq \epsilon$ならば，明らかに

$$
\operatorname{dist}\left(\widehat{\boldsymbol{\zeta}}_f+\widehat{\lambda}_g,-\mathcal{N}_{\mathcal{X}}(\widehat{\mathbf{x}}(\mathbf{x}))\right) \leq(\hat{\rho}+\widehat{\lambda} \tilde{\rho}) \epsilon, \quad|\widehat{\lambda} g(\widehat{\mathbf{x}}(\mathbf{x}))|=\widehat{\lambda} \tilde{\rho} \epsilon^2 / 2, \quad g(\widehat{\mathbf{x}}(\mathbf{x})) \leq 0 .
$$

が成り立ってます．すなわち，$\widehat{\mathbf{x}}(\mathbf{x})$は元の問題の$\varepsilon$-停留点を表してます．その意味で，$\mathbf{x}$は**ほぼ**$\varepsilon$-停留点になってるわけですね．

もちろん，これはこの$\widehat{\lambda}$が存在する場合にしか成立しません．つまり，モーロー包における制約付き最適化を考えた上でのSlater条件を満たさないといけません．
これは後で見ますが，簡単な仮定のもとで満足されます．

## 停留点を見つけるアルゴリズム

* 引用先：[A general method of solving extremum problems](https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=dan&paperid=33049&option_lang=eng)

停留点はSwitching Subgradient Methodで見つけることができます．
各イテレーション$t=0, 1, \dots, T-1$で，
1. もし$g\left(\mathbf{x}^{(t)}\right) \leq \epsilon_t$ならば，
   * $\mathbf{x}^{(t+1)}=\operatorname{proj}_{\mathcal{X}}\left(\mathbf{x}^{(t)}-\eta_t \boldsymbol{\zeta}_f^{(t)}\right)$ for any $\boldsymbol{\zeta}_f^{(t)} \in \partial f\left(\mathbf{x}^{(t)}\right)$ and, if $t \geq S, I=I \cup\{t\}$.
2. そうでないならば，
   * $\mathbf{x}^{(t+1)}=\operatorname{proj}_{\mathcal{X}}\left(\mathbf{x}^{(t)}-\eta_t \boldsymbol{\zeta}_g^{(t)}\right)$ for any $\boldsymbol{\zeta}_g^{(t)} \in \partial g\left(\mathbf{x}^{(t)}\right)$ and, if $t \geq S, J=J \cup\{t\}$.
3. 最後に，
   * $g$が凸ならば，$\mathbf{x}^{(\tau)}$を返します．ここで，$\tau$は$I$から$\operatorname{Prob}(\tau=t)=\eta_t / \sum_{s \in I} \eta_s$ に従ってランダムにサンプルされた値です．
   * $g$が弱凸ならば，$\mathbf{x}^{(\tau)}$を返します．ここで，$\tau$は$I \cup J$から$\operatorname{Prob}(\tau=t)=\eta_t / \sum_{s \in I} \eta_s$ に従ってランダムにサンプルされた値です．

**コメント**これ最終的に$\mathbb{E}_\tau\left[\left\|\widehat{\mathbf{x}}^{(\tau)}-\mathbf{x}^{(\tau)}\right\|\right] \leq \epsilon$しか保証されないので，平均収束に近いかも．last-iterate収束ではない．

## 収束の証明（TODO）