# 利用SVM处理线性不可分情况

假如我们有一个数据集，在这个数据集中有两类数，标签分别为“0”和“1”，那么我们如何去区分这两类数据呢？要是有其他的数据，那么那个其他的数据要归为哪一类呢？

最简单的情况是这个数据集中的两类数据是<span class="mark">线性可分</span>的，也就是说不对原始数据集进行处理，可以找打一个超平面用来直接将这两类数据区分开来。这个时候就相对简单了，具体可以参考：[支持向量机（SVM）](https://love.lrting.top/archives/690)


还有一种情况是这两类数据<span class="mark">线性不可分</span>的，这个时候，另一种方法就派上用场了---支持向量机（SVM）。那么什么是支持向量机是如何区分非线性可分的数据集呢？简单来说就是对原始数据进行维度变换，一般是扩维变换，使得原样本空间中的样本点线性不可分，但是在变换维度之后的高维空间中线性可分，最后在变换后的高维空间中进行分类。

令$\phi$(x)表示将x 后的特征向量，于是在特征空间中的划分超平面变为：
\begin{equation}\label{1}
f(x) = w^T \phi(x)  + b
\end{equation}
而对偶问题变为：
\begin{equation}\label{2}
\max_\alpha \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jk(x_i, y_i), \ \ \ \ \ k(x_i, y_i) = \phi(x_i) \phi(x_j)
\end{equation}
\begin{equation}\label{3}
s.t. \sum_{i=1}^m\alpha_iy_i=0, \alpha_i > 0, i = 1, 2,... , m
\end{equation}
其中<span class="burk"><span class="girk">k为核函数</span></span>。

# 常用核函数

$k(x_i, x_j) = $

线性核函数：$x_i^Tx_j$

多项式核函数：$(x_i^Tx_j)^d$

高斯核函数：$e^{-\frac{||x_i-x_j||^2}{2\sigma^2}}$

拉普拉斯核函数：$e^{-\frac{||x_i-x_j||}{\sigma}}$

Sigmoid核函数：$\tanh(\beta x_i^Tx_j + \theta)$

# 使用sklearn做SVM分类

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
import numpy as np
import scipy.io as scio  # 读取matlab生成的mat文件

In [None]:
# 数据读取
result_tamper = scio.loadmat('result_tamper.mat')  # 读入字典
result_original = scio.loadmat('result_original.mat')
tamper_result = []
original_result = []


# 数据处理
for i in range(100):
    tamper_result.append(result_tamper['result_tamper'][i][0])
    original_result.append(result_original['result_original'][i][0])
tamper_result_array = np.array(tamper_result)  # shape为（100， 3， 1800）
original_result_array = np.array(original_result)  # shape为（100， 3， 1800）
result = np.concatenate((tamper_result_array[0:100], original_result_array[0:100]), axis=0)
label = np.array([1] * 100 + [0] * 100)


# 交叉验证
X_train, X_test, y_train, y_test = train_test_split(result, label, random_state=1, train_size=0.68)

X_train = np.reshape(X_train, (-1, 3000))
X_test = np.reshape(X_test, (-1, 3000))
X_train = X_train[:,1000:3000]
X_test = X_test[:, 1000:3000]


# 配置SVC
svc = SVC(kernel='rbf', degree=100, gamma=1, coef0=1, C=90)

# 训练
svc.fit(X_train, y_train)

# 测试
svc.score(X_test, y_test)