# 最適化と双対問題とラグランジアン

参考
* [Convex Optimization](https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf)

最適化問題において，ラグランジアンを使った双対問題への変形はそれなりにややこしいです．ちゃんとまとめておきます．

## ラグランジアンについて

ラグランジアンは「制約をはずして，目的関数だけ考えたい」というのが基本的な動機になります．
次のような問題を考えてみましょう．これは凸最適化問題でなくても構いません．

$x \in \mathbf{R}^n$として，

$$
\begin{array}{ll}
\operatorname{minimize} & f_0(x) \\
\text { subject to } & f_i(x) \leq 0, \quad i=1, \ldots, m 
\end{array}
$$

以降，これを主問題と呼び，その最適値を$p^*$とします．このドメイン$\mathcal{D}=\bigcap_{i=0}^m \operatorname{dom} f_i \cap$は空でないとします．このような最適化問題に対して，ラグランジアンは次で定義されます：

---

**ラグランジアン**

次の関数$L: \mathbf{R}^n \times \mathbf{R}^m\rightarrow \mathbf{R}$をラグランジアンといいます．

$$
L(x, \lambda)=f_0(x)+\sum_{i=1}^m \lambda_i f_i(x)
$$

このドメインは$\operatorname{dom} L=\mathcal{D} \times \mathbf{R}^m \times \mathbf{R}^p$です．
これはつまり制約を目的関数に合体させた形式ですね．

---

このラグランジアンに対して，次の関数を「ラグランジアン双対関数」と呼びます．

---

**ラグランジュ双対関数**

次の関数$g: \mathbf{R}^m \rightarrow \mathbf{R}$をラグランジュ双対関数と呼びます．

$$
g(\lambda)=\inf _{x \in \mathcal{D}} L(x, \lambda)=\inf _{x \in \mathcal{D}}\left(f_0(x)+\sum_{i=1}^m \lambda_i f_i(x)\right)
$$

いくつか大事な性質：
* ラグランジアン$L(x, \lambda)=f_0(x)+\sum_{i=1}^m \lambda_i f_i(x)$が$x$について下に有界でないならば，ラグランジュ双対関数は$-\infty$を取ります．
* これは$\lambda$についての線形関数について，Point-wiseにinfを取っているので，凹関数です．

---

---

**ラグランジュ双対関数と主問題の下界**

ラグランジュ双対関数は主問題の下界になっています．

例えば主問題の実行可能解$\tilde{x}$を考えましょう．つまり，$f_i(\tilde{x})$です．
このとき，$\lambda_i \geq 0$なら，

$$\sum_{i=1}^m \lambda_i f_i(\tilde{x})\leq 0$$

が成り立ちます．よって，

$$
L(\tilde{x}, \lambda)=f_0(\tilde{x})+\sum_{i=1}^m \lambda_i f_i(\tilde{x})\leq f_0(\tilde{x})
$$

が成り立ちます．これは任意の実行可能解について成り立つので，

$$
g(\lambda)=\inf _{x \in \mathcal{D}} L(x, \lambda) \leq L(\tilde{x}, \lambda) \leq f_0(\tilde{x})
$$

より，明らかに$g(\lambda) \leq p^{\star}$なので，これは主問題の下界になっています．

---


### ラグランジュ双対関数の別の解釈

ラグランジュ双対関数は制約を実現するバリア関数を「緩くした問題」とみることができます．

まず，主問題を思い出してみましょう．
$$
\begin{array}{ll}
\operatorname{minimize} & f_0(x) \\
\text { subject to } & f_i(x) \leq 0, \quad i=1, \ldots, m 
\end{array}
$$
これは次のような指示関数$I_{-}: \mathbf{R} \rightarrow \mathbf{R}$を利用すれば，制約を外して書くことができます．

$$
I_{-}(u)= \begin{cases}0 & u \leq 0 \\ \infty & u>0\end{cases}
$$

これをつかうと，主問題は以下と等価です：

$$
\operatorname{minimize} \quad f_0(x)+\sum_{i=1}^m I_{-}\left(f_i(x)\right)
$$

ここでの$I_{-}$は「強い」バリア関数によって制約を実現しているわけですね．このような強い関数ではなく，線形関数$\lambda_i u$, where $\lambda_i \geq 0$を使って制約を実現することを考えてみましょう．

$$
\operatorname{minimize} \quad f_0(x)+\sum_{i=1}^m \lambda_i f_i(x)
$$

これはラグランジュ双対関数と同じですね．ここで，任意の$u$に対して明らかに$\lambda_i u \leq I_{-}(u)$なので，双対関数が主問題の解の下界になっているのがわかります．

このように，主問題における「強い」バリア関数を，線形関数による「緩い」バリア関数で置き換えているとみなせるわけですね．

### ラグランジュ双対関数と共役関数の関係

ラグランジュ双対関数は，[CVX_convex_functions.ipynb](CVX_convex_functions.ipynb)で説明した共役関数と密接に関係しています．
共役関数を思い出してみましょう．次の$f^*$のことを，関数$f: \mathbf{R}^n \rightarrow \mathbf{R}$の「共役」と呼びます．

$$
f^*(y)=\sup _{x \in \operatorname{dom} f}\left(y^T x-f(x)\right)
$$

ここで，次のような最適化問題を考えてみます．先ほどとは異なり，線形な不等式制約が入っていますね．

$$
\begin{array}{ll}
\operatorname{minimize} & f_0(x) \\
\text { subject to } & A x \preceq b \\
\end{array}
$$

この問題のラグランジュ双対関数を書いてみます．

$$
\begin{aligned}
g(\lambda) & =\inf _x f_0(x)+\lambda^T(A x-b)\\
& =-b^T \lambda+\inf _x\left(f_0(x)+\lambda^T A x\right) \\
& =-b^T \lambda-\sup _x\left(-\lambda^T A x - f_0(x)\right) \\
& =-b^T \lambda-f^*_0(-A^T \lambda)
\end{aligned}
$$

つまり，線形な不等式であれば，このようにラグランジュ双対関数は主問題の共役関数を使って書き直すことができます．

## ラグランジュ双対問題

今まで見たように，ラグランジュ双対関数は主問題の下界になっています．
よって自然な考えとして，次のような問題を考えれば，下界として一番良い値が手に入るはずです．

$$
\begin{array}{ll}
\text { maximize } & g(\lambda) \\
\text { subject to } & \lambda \succeq 0 .
\end{array}
$$

これをラグランジュ双対問題と呼びます．

大事な性質：
* これは$g$が$\lambda$について凹関数であり，制約は凸関数なので，凸最適化問題です．これは主問題が凸であるかどうかにかかわらず成り立ちます．
* ラグランジュ双対問題の最適値を$d^{\star}$とすると，$d^* \leq p^{\star}$が成り立ちます．このギャップ$p^* - d^*$のことを**最適双対ギャップ**と呼びます．
* $d^{\star}=p^{\star}$のとき，「強双対性が成り立っている」と言います．

### 強双対性とSlater条件

強双対性は，一般に次のような問題について，$f_0, \ldots, f_m$が凸関数なら成り立ちます．

$$
\begin{array}{ll}
\operatorname{minimize} & f_0(x) \\
\text { subject to } & f_i(x) \leq 0, \quad i=1, \ldots, m \\
& A x=b
\end{array}
$$

強双対性が成り立つ条件は凸であること以外にも色々あります．

---

**Slater条件**

最適化問題が凸であり，かつ次を満たす解$x \in \operatorname{relint} \mathcal{D}$が存在している時，強双対性が成り立ちます．

$$
f_i(x)<0, \quad i=1, \ldots, m
$$

このような実行可能解を「強実行可能解」といいます．

**relint**について補足：

* [相対的内部と内部のイメージ](https://moba1.hatenablog.com/entry/2019/01/09/174709)がわかりやすいよ

数学において集合$S \subset X$の内部（$\operatorname{int}$）とは，次で定義されます：
簡単のために測度空間$X$の上に測度$d$が定義されているとします．

まず，$x\in S$は次を満たすときに$S$の内点である，と言えます：「$d(x, y) < r$である場合は$y\in S$であるような$r$が存在する．」
つまり，$x$を中心として$S$に含まれるような開球が存在するときです．

このとき，$S$の内部とは，$S$のすべての内点からなる集合のことです．

この内部の定義は，例えば３次元空間で平たい集合を考える場合に不便です（どんなに小さい$r$に対しても開球を考えることができません．）
そこで，$S$のアフィン集合と開球の積集合のうち，$S$に入るものを相対的内点とよび，すべての相対的内点の集合を$S$の相対的内部と呼びます．

---

凸最適化問題について，Slater条件があるときに強双対性が成り立つことを証明してみましょう．
すなわち，$\tilde{x} \in \operatorname{relint} \mathcal{D}$かつ$f_i(\tilde{x}) < 0$であるような点$\tilde{x}$が存在するとします．

簡単のため，$\operatorname{relint} \mathcal{D}=\operatorname{int} \mathcal{D}$かつ等式成約は無視します．
また，$p^\star$は有限であるとします．


ここで，実行可能な解が存在するような制約と目的値の集合を
$$
\mathcal{A}= \left\{(u, t) \mid \exists x \in \mathcal{D}, f_i(x) \leq u_i, i=1, \ldots, m, f_0(x) \leq t\right\}
$$
とします．この集合は凸です（感度解析の話でできるはず）．

また，次の凸集合を定義します：

$$
\mathcal{B}=\left\{(0,s) \in \mathbf{R}^m \times \mathbf{R} \mid s<p^{\star}\right\}
$$

ここで，$\mathcal{A}$と$\mathcal{B}$は交叉しません．
実際，$(u, t) \in \mathcal{A} \cap \mathcal{B}$であるとすると，$(u, t)$は$u=0$かつ$t < p^\star$を満たします．すると，$f_i(x) \leq 0$かつ$f_0(x) \leq t < p^\star$であるような$x$が存在することになります．
しかし，$p^\star$は最適な値なので，このような$x$は存在しません．

よって$\mathcal{A}$と$\mathcal{B}$は交叉しないので，分離超平面定理から，

$$
\begin{aligned}
& (u, t) \in \mathcal{A} \Longrightarrow \tilde{\lambda}^T u +\mu t \geq \alpha, \\
& (u, t) \in \mathcal{B} \Longrightarrow 
\tilde{\lambda}^T u+\mu t \leq \alpha 
\Longleftrightarrow \mu t \leq \alpha 
\end{aligned}
$$

を満たすような$(\tilde{\lambda}, \mu) \neq 0$ と $\alpha$が存在します．
また，１つ目の不等式から$\tilde{\lambda} \succeq 0$ and $\mu \geq 0$であることがわかります（図を考えるとわかるはず）．
２つ目の条件より$\mu p^\star \leq \alpha$です．

よって，
$$
\sum_{i=1}^m \tilde{\lambda}_i f_i(x)+\mu f_0(x) \geq \alpha \geq \mu p^{\star}
$$
が成り立ちます．
$\mu >0$としましょう．すると，

$$
L(x, \tilde{\nu} / \mu) \geq p^{\star}
$$

がすべての$x \in \mathcal{D}$で成立します．
よって，$g(\lambda) \geq p^\star$です．（ここで$\lambda=\tilde{\lambda} / \mu$としました）

weak dualityより$g(\lambda) \leq p^\star$なので，$g(\lambda)=p^\star$が成立します．
つまり，$\mu > 0$である場合はstrong dualityが成立します．

$\mu=0$の場合を考えましょう．このとき，任意の$x \in \mathcal{D}$について

$$
\sum_{i=1}^m \tilde{\lambda}_i f_i(x) \geq 0
$$

です．
Slater条件を満たす$\tilde{x}$を当てはめると，$\sum_{i=1}^m \tilde{\lambda}_i f_i(\tilde{x}) \geq 0$が成立します．
$f_i(\tilde{x}) < 0$かつ$\tilde{\lambda}_i \geq 0$なので，$\tilde{\lambda}=0$です．
これは$\tilde{\lambda}, \mu \neq 0$に矛盾します．

**直感**

![strong-duality](figs/strong-duality-proof.png)

上の図のように，$\mathcal{A}$と$\mathcal{B}$を考えることで証明します．ここで，Slater条件はHyper plainが垂直にならないことを保証するために使ってます．


### 双対問題と鞍点としての解釈

主問題と双対問題の関係は，MinとMaxを入れ替えた対称的な式として書き直すこともできます．

まず，

$$
\begin{aligned}
\sup _{\lambda \succeq 0} L(x, \lambda) & =\sup _{\lambda \succeq 0}\left(f_0(x)+\sum_{i=1}^m \lambda_i f_i(x)\right) \\
& = \begin{cases}f_0(x) & f_i(x) \leq 0, \quad i=1, \ldots, m \\
\infty & \text { otherwise. }\end{cases}
\end{aligned}
$$

であることに注意しましょう．実際，$x$が実行不可能であるとすると，どこかの$i$で$f_i(x)>0$であるため，$\lambda_i\to \infty$とすれば簡単にわかります．
一方で，$f_i(x) \leq 0$が全ての$i$で成り立つなら，最大値は$\lambda=0$で与えられるため，$\sup _{\lambda \succeq 0} L(x, \lambda)=f_0(x)$です．

よって，主問題の解は

$$
p^{\star}=\inf _x \sup _{\lambda \succeq 0} L(x, \lambda)
$$

で与えられます．

一方で，双対問題の定義から，

$$
d^{\star}=\sup _{\lambda \succ 0} \inf _x L(x, \lambda)
$$

です．

つまり，強双対性が成り立つ時，$\sup _{\lambda \succeq 0} \inf _x L(x, \lambda)=\inf _x \sup _{\lambda \succeq 0} L(x, \lambda)$なので，MaxとMinが入れ替えられるわけですね．

また，強双対性が成り立つ時，この二つの最適値を与える$x$と$\lambda$は同じになります．

---

参考：[Lecture 16: Duality and the Minimax theorem](https://courses.cs.washington.edu/courses/cse521/16sp/521-lecture-16.pdf)


* $x^\star=\inf _x \sup _{\lambda \succeq 0} L(x, \lambda)$
* $\lambda^{\star}=\sup _{\lambda \succ 0} \inf _x L(x, \lambda)$

とします．すると，

$$
L(x^\star, \lambda^\star) \leq \sup _{\lambda \succeq 0} L(x^\star, \lambda) = \inf _x L(x, \lambda^\star) \leq L(x^\star, \lambda^\star)
$$

が自然に成り立ちます．よって，この不等号が成立するのは等号成立の時だけです．

---