# 非线性支持向量机（Nonlinear SVM）详解

非线性支持向量机是在处理**非线性可分数据**时非常强大的工具。它的核心思想是：**将输入数据映射到一个更高维的特征空间，在这个空间中实现线性可分**，再用线性支持向量机分类。

---

## 一、线性SVM的回顾

线性SVM的目标是：

- 寻找一个超平面 $$ w^T x + b = 0 $$ 来最大间隔地分开正负类；
- 对应的优化问题为：

$$
\min_{w,b} \frac{1}{2} \|w\|^2 \quad \text{s.t. } y_i(w^T x_i + b) \geq 1
$$

---

## 二、非线性问题的提出

许多真实世界的问题中的数据**在原始空间中并不是线性可分的**，例如：

```
正类：◯    负类：×
输入空间可能是这样的：
◯   ×   ◯
 ×     ×
◯   ×   ◯
```

这类问题无法通过单一超平面解决。

---

## 三、特征映射（Feature Mapping）

为了解决非线性问题，引入一个非线性映射函数：

$$
\phi(x): \mathbb{R}^n \rightarrow \mathbb{R}^m \quad (m \gg n)
$$

将输入数据 $$x$$ 映射到高维空间，在该空间中实现线性可分。

---

## 四、核函数方法（Kernel Trick）

直接计算 $$\phi(x)$$ 通常代价高昂甚至不可行。**核技巧的关键在于只需计算内积而非显式映射**：

$$
K(x_i, x_j) = \phi(x_i)^T \phi(x_j)
$$

这样，支持向量机的对偶形式可以改写为使用核函数，避免直接计算高维映射。

### 常用核函数：

1. **多项式核（Polynomial Kernel）**：
   $$
   K(x, x') = (x^T x' + c)^d
   $$

2. **径向基函数核（RBF / 高斯核）**：
   $$
   K(x, x') = \exp\left( -\frac{\|x - x'\|^2}{2\sigma^2} \right)
   $$

3. **Sigmoid核（神经网络相关）**：
   $$
   K(x, x') = \tanh(\alpha x^T x' + \beta)
   $$

---

## 五、非线性SVM的对偶形式优化

非线性SVM的对偶问题为：

$$
\max_{\alpha} \sum_i \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j K(x_i, x_j)
$$

约束条件：

$$
0 \leq \alpha_i \leq C, \quad \sum_i \alpha_i y_i = 0
$$

求得 $$\alpha_i$$ 后，决策函数为：

$$
f(x) = \sum_{i=1}^{n} \alpha_i y_i K(x_i, x) + b
$$

其中，**仅支持向量对应的 $$\alpha_i > 0$$**。

---

## 六、非线性SVM的使用步骤

1. **选择合适的核函数**（如 RBF）；
2. **设置核函数参数和惩罚参数 $$C$$**；
3. **训练SVM模型**，求解对偶问题；
4. **用训练好的模型进行预测**。

---

## 七、可视化理解（文字版）

1. 原始空间中无法线性分隔：

```
◯   ×   ◯
 ×     ×
◯   ×   ◯
```

2. 映射到高维后，存在平面可以将两类分开。

---

## 八、总结

非线性支持向量机的本质是：

- **使用核函数将非线性问题转化为线性问题**；
- **利用对偶形式避免高维计算**；
- **在高维空间中实现最大间隔分类**。

它广泛应用于图像识别、文本分类、生物信息学等领域，效果优越。

---#%% md
# 非线性支持向量机（Nonlinear SVM）详解

非线性支持向量机是在处理**非线性可分数据**时非常强大的工具。它的核心思想是：**将输入数据映射到一个更高维的特征空间，在这个空间中实现线性可分**，再用线性支持向量机分类。

---

## 一、线性SVM的回顾

线性SVM的目标是：

- 寻找一个超平面 $$ w^T x + b = 0 $$ 来最大间隔地分开正负类；
- 对应的优化问题为：

$$
\min_{w,b} \frac{1}{2} \|w\|^2 \quad \text{s.t. } y_i(w^T x_i + b) \geq 1
$$

---

## 二、非线性问题的提出

许多真实世界的问题中的数据**在原始空间中并不是线性可分的**，例如：

```
正类：◯    负类：×
输入空间可能是这样的：
◯   ×   ◯
 ×     ×
◯   ×   ◯
```

这类问题无法通过单一超平面解决。

---

## 三、特征映射（Feature Mapping）

为了解决非线性问题，引入一个非线性映射函数：

$$
\phi(x): \mathbb{R}^n \rightarrow \mathbb{R}^m \quad (m \gg n)
$$

将输入数据 $$x$$ 映射到高维空间，在该空间中实现线性可分。

---

## 四、核函数方法（Kernel Trick）

直接计算 $$\phi(x)$$ 通常代价高昂甚至不可行。**核技巧的关键在于只需计算内积而非显式映射**：

$$
K(x_i, x_j) = \phi(x_i)^T \phi(x_j)
$$

这样，支持向量机的对偶形式可以改写为使用核函数，避免直接计算高维映射。

### 常用核函数：

1. **多项式核（Polynomial Kernel）**：
   $$
   K(x, x') = (x^T x' + c)^d
   $$

2. **径向基函数核（RBF / 高斯核）**：
   $$
   K(x, x') = \exp\left( -\frac{\|x - x'\|^2}{2\sigma^2} \right)
   $$

3. **Sigmoid核（神经网络相关）**：
   $$
   K(x, x') = \tanh(\alpha x^T x' + \beta)
   $$

---

## 五、非线性SVM的对偶形式优化

非线性SVM的对偶问题为：

$$
\max_{\alpha} \sum_i \alpha_i - \frac{1}{2} \sum_{i,j} \alpha_i \alpha_j y_i y_j K(x_i, x_j)
$$

约束条件：

$$
0 \leq \alpha_i \leq C, \quad \sum_i \alpha_i y_i = 0
$$

求得 $$\alpha_i$$ 后，决策函数为：

$$
f(x) = \sum_{i=1}^{n} \alpha_i y_i K(x_i, x) + b
$$

其中，**仅支持向量对应的 $$\alpha_i > 0$$**。

---

## 六、非线性SVM的使用步骤

1. **选择合适的核函数**（如 RBF）；
2. **设置核函数参数和惩罚参数 $$C$$**；
3. **训练SVM模型**，求解对偶问题；
4. **用训练好的模型进行预测**。

---

## 七、可视化理解（文字版）

1. 原始空间中无法线性分隔：

```
◯   ×   ◯
 ×     ×
◯   ×   ◯
```

2. 映射到高维后，存在平面可以将两类分开。

---

## 八、总结

非线性支持向量机的本质是：

- **使用核函数将非线性问题转化为线性问题**；
- **利用对偶形式避免高维计算**；
- **在高维空间中实现最大间隔分类**。

它广泛应用于图像识别、文本分类、生物信息学等领域，效果优越。

---