 # 支持向量机中的拉格朗日乘子法与 KKT 条件

在 SVM 中，我们希望找到一个最大间隔的超平面，将数据线性可分为两类。该问题可形式化为带有不等式约束的凸优化问题，并借助 **拉格朗日乘子法** 及其 **KKT 条件** 求解。

---

## 🎯 原始问题：最大化间隔

给定训练集 $\{(\mathbf{x}_i, y_i)\}_{i=1}^n$，其中 $\mathbf{x}_i \in \mathbb{R}^d$，$y_i \in \{+1, -1\}$，构建线性分类器：

$$
f(\mathbf{x}) = \mathbf{w}^\top \mathbf{x} + b
$$

最小化以下目标函数（最大化间隔）：

$$
\min_{\mathbf{w}, b} \quad \frac{1}{2} \|\mathbf{w}\|^2
$$

约束条件（所有样本被正确分类）：

$$
\text{subject to } \quad y_i(\mathbf{w}^\top \mathbf{x}_i + b) \geq 1, \quad i = 1, 2, \dots, n
$$

---

## 🧮 拉格朗日函数构建

为了引入不等式约束，使用 **拉格朗日乘子法**。引入乘子 $\alpha_i \geq 0$，构建拉格朗日函数：

$$
\mathcal{L}(\mathbf{w}, b, \boldsymbol{\alpha}) = \frac{1}{2} \|\mathbf{w}\|^2 - \sum_{i=1}^{n} \alpha_i \left[ y_i(\mathbf{w}^\top \mathbf{x}_i + b) - 1 \right]
$$

---

## ✅ KKT 条件（Karush-Kuhn-Tucker Conditions）

KKT 条件是求解该类凸优化问题的必要条件（也是充分条件，因为该问题是凸的）。KKT 条件包括以下四条：

1. **原始约束满足（可行性）**：

   $$
   y_i(\mathbf{w}^\top \mathbf{x}_i + b) - 1 \geq 0
   $$

2. **对偶约束满足**：

   $$
   \alpha_i \geq 0
   $$

3. **驻点条件**（对 $\mathbf{w}$ 和 $b$ 求导并设为 0）：

   $$
   \frac{\partial \mathcal{L}}{\partial \mathbf{w}} = \mathbf{w} - \sum_{i=1}^{n} \alpha_i y_i \mathbf{x}_i = 0
   \quad \Rightarrow \quad
   \mathbf{w} = \sum_{i=1}^{n} \alpha_i y_i \mathbf{x}_i
   $$

   $$
   \frac{\partial \mathcal{L}}{\partial b} = - \sum_{i=1}^{n} \alpha_i y_i = 0
   $$

4. **互补松弛性（Complementary Slackness）**：

   $$
   \alpha_i \cdot \left( y_i(\mathbf{w}^\top \mathbf{x}_i + b) - 1 \right) = 0
   $$

---

## 🧠 物理意义

- 若 $\alpha_i > 0$，说明该样本点在间隔边界上，称为**支持向量**；
- 若 $\alpha_i = 0$，说明该样本点对最终分类面无直接影响；
- 互补松弛性保证了对所有非支持向量点，约束为松弛的（严格大于 1）。

---

## 📌 总结

拉格朗日乘子法将原始的约束优化问题转化为无约束的对偶问题，并通过 KKT 条件确保最优解的成立。在 SVM 中，这一过程不仅让我们能求得最优分类超平面，还揭示了哪些样本点对模型起关键作用 —— 即**支持向量**。