# 二次规划

<a id='QuandprogWithEqConstraint'></a>
## 等式约束下的二次规划问题

等式约束下的二次规划问题：
$$
\begin{aligned}
& \mathop{\min}_{\mathbf{x}}\mathbf{x}'\mathbf{V}\mathbf{x}+\mathbf{c}'\mathbf{x}\\
& \rm{s.t.}\ \mathbf{A}\mathbf{x}=\mathbf{b}
\end{aligned}
$$
其中，$\mathbf{V}$ 是正定阵。

Lagrange 函数为：
$$
L(\mathbf{x}, \boldsymbol{\lambda}) = \mathbf{x}'\mathbf{V}\mathbf{x}+\mathbf{c}'\mathbf{x}+\boldsymbol{\lambda}'(\mathbf{A}\mathbf{x}-\mathbf{b})
$$

极值点的一阶必要条件：
$$
\left\{
\begin{aligned}
& \frac{\partial L}{\partial \mathbf{x}} = 2\mathbf{V}\mathbf{x}+\mathbf{A}'\boldsymbol{\lambda}+\mathbf{c} = 0\\
& \frac{\partial L}{\partial \mathbf{\lambda}} = \mathbf{A}\mathbf{x}-\mathbf{b} = 0
\end{aligned}
\right.
$$
即：
$$
\begin{pmatrix} 2\mathbf{V} & \mathbf{A}' \\ \mathbf{A} & \mathbf{0} \end{pmatrix} \begin{pmatrix} \mathbf{x} \\ \boldsymbol{\lambda} \end{pmatrix} = \begin{pmatrix} -\mathbf{c} \\ \mathbf{b} \end{pmatrix}
$$
由[分块矩阵的逆公式](./矩阵运算.ipynb/#InvOfBlockMatrix)得：
$$
\left\{
\begin{aligned}
& \mathbf{x} = \mathbf{V}^{-1}\mathbf{A}'(\mathbf{A}\mathbf{V}^{-1}\mathbf{A}')^{-1}\mathbf{b} - \frac{1}{2}\left(\mathbf{V}^{-1}-\mathbf{V}^{-1}\mathbf{A}'(\mathbf{A}\mathbf{V}^{-1}\mathbf{A}')^{-1}\mathbf{A}\mathbf{V}^{-1}\right)\mathbf{c}\\
& \boldsymbol{\lambda} = -2(\mathbf{A}\mathbf{V}^{-1}\mathbf{A}')^{-1}\mathbf{b} - (\mathbf{A}\mathbf{V}^{-1}\mathbf{A}')^{-1}\mathbf{A}\mathbf{V}^{-1}\mathbf{c}
\end{aligned}
\right.
$$


# Lagrange 对偶性

**原问题（Primal Problem）**

考虑约束最优化问题：
$$
\begin{aligned}
\mathop{\min}_{\mathbf{x}\in\mathbf{R}^n}&\ f(\mathbf{x})\\
\rm{s.t.}&\ c_i(\mathbf{x})\leq0,\ i=1,2,\ldots,k\\
&\ h_j(\mathbf{x})=0,\ j=1,2,\ldots,l
\end{aligned}
$$
记可行域为：$\mathcal{C}=\{\mathbf{x}\in\mathbf{R}^n|\mathbf{c}(\mathbf{x})\leq\mathbf{0},\ \mathbf{h}(\mathbf{x})=\mathbf{0}\}$，其中，$\mathbf{c}(\mathbf{x})=(c_1(\mathbf{x}),\ldots,c_k(\mathbf{x}))', \mathbf{h}(\mathbf{x})=(h_1(\mathbf{x}),\ldots,h_l(\mathbf{x}))'$。

引入**广义 Lagrange 函数（Generalized Lagrange Function）**：
$$
L(\mathbf{x}, \boldsymbol{\alpha}, \boldsymbol{\beta}) = f(\mathbf{x}) + \sum\limits_{i=1}^{k}\alpha_ic_i(\mathbf{x}) + \sum\limits_{j=1}^{l}\beta_jh_j(\mathbf{x})
$$
其中，$\boldsymbol{\alpha}\geq\mathbf{0},\boldsymbol{\beta}$ 是 **Lagrange 乘子（Lagrange Multiplier）**，定义关于 $\mathbf{x}$ 的函数：
$$
\theta_P(\mathbf{x}) = \mathop{\max}_{\boldsymbol{\alpha}\geq\mathbf{0},\boldsymbol{\beta}}\ L(\mathbf{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})=\left\{
\begin{aligned}
& f(\mathbf{x}),\ \mathbf{x}\in\mathcal{C}\\
& +\infty, \ \mathbf{x}\notin\mathcal{C}
\end{aligned}
\right.
$$
从而原约束最优化问题等价于下面的无约束最优化问题：
$$
\min_{\mathbf{x}\in\mathbf{R}^n}\theta_P(\mathbf{x})=\min_{\mathbf{x}\in\mathbf{R}^n}\max_{\boldsymbol{\alpha}\geq\mathbf{0},\boldsymbol{\beta}}\ L(\mathbf{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})
$$
上述问题也称为**广义 Lagrange 函数 $L(\mathbf{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})$ 的极小极大问题**。

**对偶问题（Dual Problem）**

定义关于 $(\boldsymbol{\alpha},\boldsymbol{\beta})$ 的函数：
$$
\theta_D(\boldsymbol{\alpha},\boldsymbol{\beta})=\min_{\mathbf{x}\in\mathcal{R}^n}L(\mathbf{x},\boldsymbol{\alpha},\boldsymbol{\beta})
$$
则原问题的对偶问题为：
$$
\begin{aligned}
\max_{\boldsymbol{\alpha},\boldsymbol{\beta}}&\ \theta_D(\boldsymbol{\alpha},\boldsymbol{\beta})=\max_{\boldsymbol{\alpha},\boldsymbol{\beta}}\min_{\mathbf{x}\in\mathbf{R}^n}\ L(\mathbf{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})\\
\rm{s.t.}&\ \boldsymbol{\alpha}\geq\mathbf{0}
\end{aligned}
$$
上述问题也称为**广义 Lagrange 函数 $L(\mathbf{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})$ 的极大极小问题**。

**原问题和对偶问题的关系**

* 若原问题和对偶问题均有最优解，则：
$$
\max_{\boldsymbol{\alpha}\geq\mathbf{0},\boldsymbol{\beta}}\theta_D(\boldsymbol{\alpha}\geq\mathbf{0},\boldsymbol{\beta})=\max_{\boldsymbol{\alpha},\boldsymbol{\beta}}\min_{\mathbf{x}\in\mathbf{R}^n}\ L(\mathbf{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})\leq\min_{\mathbf{x}\in\mathbf{R}^n}\max_{\boldsymbol{\alpha}\geq\mathbf{0},\boldsymbol{\beta}}\ L(\mathbf{x}, \boldsymbol{\alpha}, \boldsymbol{\beta})=\min_{\mathbf{x}\in\mathbf{R}^n}\theta_P(\mathbf{x})
$$


* 若 $\mathbf{x}^*$ 是原问题的可行解，$(\boldsymbol{\alpha}^*, \boldsymbol{\beta}^*)$ 是对偶问题的可行解，并且有 $\theta_P(\mathbf{x}^*)=\theta_D(\boldsymbol{\alpha}^*, \boldsymbol{\beta}^*)$，则 $\mathbf{x}^*$ 和 $(\boldsymbol{\alpha}^*, \boldsymbol{\beta}^*)$ 分别是原问题和对偶问题的最优解。


* 假设 $f(\mathbf{x})$ 和 $c_i(\mathbf{x})$ 均为凸函数，$h_j(\mathbf{x})$ 为仿射函数，并且假设不等式约束 $c_i(\mathbf{x})$ 是严格可行的，即：
$$
\exists \mathbf{x}\in\mathcal{R}^n,\ s.t.\ c_i(\mathbf{x})<0,\ \forall i
$$
那么存在 $\mathbf{x}^*, \boldsymbol{\alpha}^*, \boldsymbol{\beta}^*$，使得 $\mathbf{x}^*$ 是原问题的解，$\boldsymbol{\alpha}^*, \boldsymbol{\beta}^*$ 是对偶问题的解，并且：
$$
\theta_P(\mathbf{x}^*)=\theta_D(\boldsymbol{\alpha}^*, \boldsymbol{\beta}^*)
$$


* 假设 $f(\mathbf{x})$ 和 $c_i(\mathbf{x})$ 均为凸函数，$h_j(\mathbf{x})$ 为仿射函数，并且假设不等式约束 $c_i(\mathbf{x})$ 是严格可行的，即：
$$
\exists \mathbf{x}\in\mathcal{R}^n,\ s.t.\ c_i(\mathbf{x})<0,\ \forall i
$$
那么 $\mathbf{x}^*$ 和 $\boldsymbol{\alpha}^*, \boldsymbol{\beta}^*$ 分别是原问题和对偶问题的解的充要条件为，$\mathbf{x}^*, \boldsymbol{\alpha}^*, \boldsymbol{\beta}^*$ 满足下面的 **KKT（Karush-Kuhn-Tucker）条件**：
$$
\begin{aligned}
& \nabla_\mathbf{x}L(\mathbf{x}^*, \boldsymbol{\alpha}^*, \boldsymbol{\beta}^*)=\mathbf{0}\\
& \nabla_\boldsymbol{\alpha}L(\mathbf{x}^*, \boldsymbol{\alpha}^*, \boldsymbol{\beta}^*)=\mathbf{0}\\
& \nabla_\boldsymbol{\beta}L(\mathbf{x}^*, \boldsymbol{\alpha}^*, \boldsymbol{\beta}^*)=\mathbf{0}\\
& \alpha_i^*c_i(\mathbf{x}^*)=0,\ i=1,\ldots,k\\
& c_i(\mathbf{x}^*)\leq0,\ i=1,\ldots,k\\
& \alpha_i^*\geq0,\ i=1,\ldots,k\\
& h_j(\mathbf{x}^*)=0,\ j=1,\ldots,l\\
\end{aligned}
$$
其中，$\alpha_i^*c_i(\mathbf{x}^*)=0$ 称为 KKT 的**对偶互补条件**，由此条件可知：若 $\alpha^*_i>0$，则 $c_i(\mathbf{x}^*)=0$；若 $c_i(\mathbf{x}^*)<0$，则 $\alpha^*_i=0$。

## 线性规划的对偶性

考虑线性规划问题：
$$
\begin{aligned}
\min&\ \mathbf{c}'x\\
\rm{s.t.}&\ \mathbf{A}x\geq\mathbf{b}\\
&\ \mathbf{x}\geq\mathbf{0}
\end{aligned}
$$

记 Lagrange 函数为
$$
L(\mathbf{x}, \boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2) = \mathbf{c}'\mathbf{x} + \boldsymbol{\alpha}'_1(\mathbf{b}-\mathbf{A}\mathbf{x}) + \boldsymbol{\alpha}'_2(-\mathbf{x}) = (\mathbf{c}-\mathbf{A}'\boldsymbol{\alpha}_1-\boldsymbol{\alpha}_2)'\mathbf{x} + \boldsymbol{\alpha}'_1\mathbf{b}
$$

对偶问题的目标函数为：
$$
\theta_D(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2) = \min_{\mathbf{x}\in\mathbf{R}^n}\ L(\mathbf{x}, \boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2) = \left\{
\begin{aligned}
& \boldsymbol{\alpha}'_1\mathbf{b},\ \mathbf{c}-\mathbf{A}'\boldsymbol{\alpha}_1-\boldsymbol{\alpha}_2=\mathbf{0}\\
& -\infty, \ \mathbf{c}-\mathbf{A}'\boldsymbol{\alpha}_1-\boldsymbol{\alpha}_2\neq\mathbf{0}
\end{aligned}
\right.
$$

从而对偶问题为：
$$
\begin{aligned}
\max&\ \theta_D(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2)\\
\rm{s.t.}&\ \boldsymbol{\alpha}_1\geq\mathbf{0},\boldsymbol{\alpha}_2\geq\mathbf{0}
\end{aligned}
$$
等价为：
$$
\begin{aligned}
\max&\ \boldsymbol{\alpha}'_1\mathbf{b}\\
\rm{s.t.}&\ \boldsymbol{\alpha}_1\geq\mathbf{0},\boldsymbol{\alpha}_2\geq\mathbf{0}\\
&\ \mathbf{c}-\mathbf{A}'\boldsymbol{\alpha}_1-\boldsymbol{\alpha}_2=\mathbf{0}
\end{aligned}
$$
由于 $\boldsymbol{\alpha}_2$ 没有出现在目标函数中，将等式约束改为不等式约束，消掉 $\boldsymbol{\alpha}_2$：
$$
\mathbf{c}-\mathbf{A}'\boldsymbol{\alpha}_1 = \boldsymbol{\alpha}_2 \geq \mathbf{0}
$$
再做变量代换 $\boldsymbol{\lambda} = \boldsymbol{\alpha}_1$ 得：
$$
\begin{aligned}
\max&\ \mathbf{b}'\boldsymbol{\lambda}\\
\rm{s.t.}&\ \mathbf{A}'\boldsymbol{\lambda}\leq\mathbf{c}\\
&\ \boldsymbol{\lambda}\geq\mathbf{0}
\end{aligned}
$$
其中，$\boldsymbol{\lambda}$ 为对偶变量，这种对偶称为对称形式的对偶。

若原问题为等式约束：
$$
\begin{aligned}
\min&\ \mathbf{c}'x\\
\rm{s.t.}&\ \mathbf{A}x=\mathbf{b}\\
&\ \mathbf{x}\geq\mathbf{0}
\end{aligned}
$$
一种方法是按照通常的对偶方法推导，或者可以化为不等式约束：
$$
\begin{aligned}
\min&\ \mathbf{c}'x\\
\rm{s.t.}&\ \mathbf{A}x\geq\mathbf{b}\\
&\ -\mathbf{A}x\geq-\mathbf{b}\\
&\ \mathbf{x}\geq\mathbf{0}
\end{aligned}
$$
从而对偶问题为：
$$
\begin{aligned}
\max&\ \begin{pmatrix} \mathbf{b}' & -\mathbf{b} \end{pmatrix} \cdot \begin{pmatrix} \boldsymbol{\lambda}_1 \\ \boldsymbol{\lambda}_2 \end{pmatrix}\\
\rm{s.t.}&\ \begin{pmatrix} \mathbf{A}' & -\mathbf{A}' \end{pmatrix} \begin{pmatrix} \boldsymbol{\lambda}_1 \\ \boldsymbol{\lambda}_2 \end{pmatrix}\leq\mathbf{c}\\
&\ \begin{pmatrix} \boldsymbol{\lambda}_1 \\ \boldsymbol{\lambda}_2 \end{pmatrix}\geq\mathbf{0}
\end{aligned}
$$
做变量代换 $\boldsymbol{\lambda} = \boldsymbol{\lambda}_1 - \boldsymbol{\lambda}_2$ 得：
$$
\begin{aligned}
\max&\ \mathbf{b}'\boldsymbol{\lambda}\\
\rm{s.t.}&\ \mathbf{A}'\boldsymbol{\lambda}\leq\mathbf{c}
\end{aligned}
$$
没有了非负约束，这种关系称为非对称形式的对偶。

**原问题和对偶问题的关系**

* **弱对偶引理**：假设 $\mathbf{x}$ 和 $\boldsymbol{\lambda}$ 分别是线性规划的原问题和对偶问题的可行解，则极大值小于等于极小值：
$$
\mathbf{b}'\boldsymbol{\lambda} \leq \mathbf{c}'\mathbf{x}
$$
* 假设 $\mathbf{x}$ 和 $\boldsymbol{\lambda}$ 分别是线性规划的原问题和对偶问题的可行解，如果 $\mathbf{b}'\boldsymbol{\lambda} = \mathbf{c}'\mathbf{x}$，那么 $\mathbf{x}$ 和 $\boldsymbol{\lambda}$ 分别是各自问题的最优解。
* **对偶定理**：如果原问题有最优解，那么其对偶问题也有最优解，并且它们目标函数的最优值相同。
* **互补松弛条件**：假设 $\mathbf{x}$ 和 $\boldsymbol{\lambda}$ 分别是原问题和对偶问题的可行解，则它们分别是各自问题的最优解的充分必要条件为 
$$
\begin{aligned}
& (\mathbf{A}'\boldsymbol{\lambda}-\mathbf{c})'\mathbf{x} = 0\\
& (\mathbf{A}\mathbf{x}-\mathbf{c})'\boldsymbol{\lambda} = 0
\end{aligned}
$$

# References

1. 李航，统计学习方法，2012-03