 # Lagrangian multiplier
 
 **KKT 条件是“拉格朗日乘子法”在不等式约束问题中的拓展。它把原始的以目标为导向的约束最优化问题，转化为可直接步骤化求解的方程问题** 

### 问题1:  $\min\limits_\mathbf{x} f(\mathbf{x}),\quad s.t.\; \mathbf{h(x)}\le0$

该问题的极值点，存在两者可能性:

- $f(x)$ 的极小值，落在 可行解（feasible solutions）区域 $h(x)<0$ 的内部，
![lagrangian_1](images/lagrangian_1.jpg)
显然这种极值点 $x^*$ 满足条件：
$$
\left\{\begin{align}
\left({\partial f\over\partial x}\right)_{x^*} &&=0\nonumber\\
h(x^*)&&<0\nonumber
\end{align}\right.
$$

- $f(x)$ 的极小值，落在可行解区域的边界 $h(x)=0$ 上，
![lagrangian_2](images/lagrangian_2.jpg)
根据上图，这种极值点 $x^*$ 处的梯度方向 $\partial f/\partial \mathbf{x}$ 应落在 梯度 $\partial h/\partial \mathbf{x}$ 对应的直线上（且注意到梯度始终指向“等值线”上升的方向，因此这两个矢量方向相反），即：

$$
\left\{\begin{align}
\left({\partial f\over\partial x}\right)_{x^*} &&=-\alpha \left({\partial h\over\partial x}\right)_{x^*}\nonumber\\
h(x^*)&&=0\nonumber
\end{align}\right.
$$

综合上述两种可能性，$\min\limits_\mathbf{x} f(\mathbf{x}),\quad s.t.\; \mathbf{h(x)}\le0$ 的最优解$x^*$需满足的条件可以概括为“KKT条件”：

$$
\text{(Karush-Kuhn-Tucker条件)}\left\{\begin{align}
&\left({\partial L\over\partial \mathbf{x}}\right)_{x^*} =0,\quad L(\mathbf{x}|\alpha) \equiv f(\mathbf{x}) + \alpha h(\mathbf{x})\;\text{（拉格朗日量）}\nonumber\\
&\alpha h(x^*)=0\nonumber\\
&\alpha\ge 0\nonumber\\
&h(x^*)\le 0
\end{align}\right.
$$
其中 $\alpha$ 称为“拉格朗日乘子”（也称为 dual variables）

### 问题2:  $\min\limits_\mathbf{x} f(\mathbf{x}),\quad s.t.\; \mathbf{h_j(x)}\le0\quad j=1,2\cdots n$ (n个不等式约束)

同样可以证明：最优解 $x^∗$ 满足“KKT条件”：

$$
\text{(Karush-Kuhn-Tucker条件)}\left\{\begin{align}
&\left({\partial L\over\partial \mathbf{x}}\right)_{x^*} =0,,\quad L(\mathbf{x}|\alpha) \equiv f(\mathbf{x}) + \sum_j\alpha_j h_j(\mathbf{x})\;\text{（拉格朗日量）} \nonumber\\
&\alpha_j h_j(x^*)=0\quad j=1,2,\cdots,n\nonumber\\
&\alpha_j\ge 0\quad j=1,2,\cdots,n\nonumber\\
&h_j(x^*)\le 0\quad j=1,2,\cdots,n
\end{align}\right.
$$

### 问题3:  $\min\limits_\mathbf{x} f(\mathbf{x}),\quad s.t.\; \mathbf{g_i(x)}=0\; \mathbf{h_j(x)}\le0$ (m个等式约束，n个不等式约束)

同样可以证明：最优解 $x^∗$ 满足“KKT条件”：

$$
\text{(Karush-Kuhn-Tucker条件)}\left\{\begin{align}
&\left({\partial L\over\partial \mathbf{x}}\right)_{x^*} =0 \nonumber\\
&\alpha_j h_j(x^*)=0\quad j=1,2,\cdots,n\nonumber\\
&\alpha_j\ge 0\quad j=1,2,\cdots,n\nonumber\\
&h_j(x^*)\le 0\quad j=1,2,\cdots,n\nonumber\\
&g_i(x^*)= 0\quad i=1,2,\cdots,m\\
\end{align}\right.\qquad\text(1)
$$
其中
$$L(\mathbf{x}|\alpha,\beta) \equiv f(\mathbf{x}) + \sum_{j=1}^n\alpha_j h_j(\mathbf{x}) + \sum_{i=1}^m\beta_i  g_i(\mathbf{x})\;\text{（拉格朗日量）}\qquad\text{(2)}$$


### 问题3的 prmary form

暂时忘记KKT条件，考虑公式（2）对应的拉格朗日量（只要求所有的$\alpha_j\ge0$），我们有，

$$\max\limits_{\beta,\alpha\ge0} L(\mathbf{x}|\alpha,\beta)=
\left\{\begin{align}
&f(\mathbf{x})\quad\text{当所有约束条件 $\forall i,j:\;\mathbf{g_i(x)}=0,\;\mathbf{h_j(x)}\le0$ 满足时}\\
&+\infty \quad\text{otherwise}\\
\end{align}\right.
$$

因此，上述**问题3**可以表述为如下 **primary form**

$$ \min_x\left(\max\limits_{\beta,\alpha\ge0} L(\mathbf{x}|\alpha,\beta)\right) $$

> 注意：和原始的**问题3**，primary form的特点在于不再显含约束条件。 primary form 的求解方式就是“KKT条件”

# 对偶问题


定义该primary form 对应的**dual form**为：

$$ \max\limits_{\beta,\alpha\ge0}\left(\min\limits_x L(\mathbf{x}|\alpha,\beta)\right) $$

可以证明，当所求解满足**KKT条件**, 且(1) 所有不等式约束中的 $h_j(x)$ 都是“凸函数”（convex function）; (2) 所有等式约束中的$g_i(x)$ 都是线性函数时，我们有“强对偶”关系: **primary form**的解和 **dual form**  完全一致

> - 凸集：（在欧氏空间中）集合内的任意一对点连线段上的点也属于该集合，则此集合称为“凸集合”(convect set)
> - 凸函数: 实函数$f(\mathbf{x})$，给定任意一个允许的$\mathbf{x}$凸集$C$，若 $C$ 中任意一对点 $\mathbf{x}_1,\mathbf{x}_2$ 都满足：$f\left({\mathbf{x}_1 + \mathbf{x}_2\over2}\right)\ge {f\left(\mathbf{x}_1\right)+ f\left(\mathbf{x}_1\right)\over2}$, 则称 $f(\mathbf{x})$ 是“凸函数”

**在凸优化条件满足时，dural form的求解往往比primary form更容易，在svm问题中dural form的另一个好处是可以引入kernel trick**

在不少场合dual form 比primary form的求解更简单。一般求解步骤如下：

1. 根据 $\min\limits_x L(\mathbf{x}|\alpha,\beta)$ 对应的鞍点条件： $\left({\partial L(\mathbf{x}|\alpha,\beta)\over\partial \mathbf{x}}\right)_{x^*} = 0$ 得出 $\mathbf{x}^*$ 关于
对偶变量 $\alpha, \beta$ 的表达式 $x^*=q(\alpha,\beta)$

2. 将此表达式代入 $L(\mathbf{x}|\alpha,\beta)$，于是dual form化为仅包含$\alpha,\beta$的形式：$\max\limits_{\beta,\alpha\ge0}\theta_D(\alpha,\beta)$

3. 根据 $\max\limits_{\beta,\alpha\ge0}\theta_D(\alpha,\beta)$ 对应的鞍点条件： $\left({\partial \theta_D(\alpha,\beta)\over\partial \alpha}\right)_{\alpha^*,\beta^*} = \left({\partial \theta_D(\alpha,\beta)\over\partial \beta}\right)_{\alpha^*,\beta^*} = 0$ 得出 对偶问题的最优解 $(\alpha^*,\beta^*)$

4. 根据关系步骤1得到的关系 $x^*=q(\alpha^*,\beta^*)$，求出primary form的最优解 $\mathbf{x}^*$，并验证 $\alpha^*,\beta^*, x^*$ 是否满足 KKT 条件 