## Support Vector Machines 支持向量机

## Cost Function
SVM的假设（$hypothesis$）定义为
$$h_{\theta}(x)=\begin{equation}
\begin{cases}1 \quad if,\  \theta^{T}x\gg0\\
0 \quad otherwise
\end{cases}\end{equation}$$
即：
$$h_{\theta}(x)=\begin{equation}
\begin{cases}1 \quad if,\  \theta^{T}x\geq1\\
0 \quad if,\  \theta^{T}x\leq-1
\end{cases}\end{equation}$$
SVM的代价函数定义为：
$$\min \limits_{\theta} \ C\sum_{i=1}^{m}\left[y^{(i)}\mbox{cost}_{1}(\theta^{T}x^{(i)})+(1-y^{(i)})\mbox{cost}_{0}(\theta^{T}x^{(i)})\right]+\frac{1}{2}\sum_{j=1}^{n}\theta_{j}^2$$

## SVM Decision Boundary
目标是：$$\min \limits_{\theta} \frac{1}{2}\sum_{j=1}^{n}\theta_{j}^2$$

条件为：
$$\begin{equation}
\begin{cases}p^{(i)}\cdot\|\theta\|\geq1 \quad if \ y^{(i)}=1\\
p^{(i)}\cdot\|\theta\|\leq-1 \quad if \ y^{(i)}=0
\end{cases}\end{equation}$$
其中$p^{(i)}$是样本特征向量$x^{(i)}$在参数向量$\theta$上的投影

##  SVM kernel (支持向量机核心)
在给定样本$x$下，将样本与标记点(landmarks) $l^{(1)},l^{(2)},l^{(3)}$之间的近似度作为新的特征参与计算

#### Similarity 相似度
$$f_{1}=similarity(x,l^{(1)})=exp\left(-\frac{\|x-l^{(1)}\|^2}{2\sigma^2}\right)=exp\left(-\frac{\sum_{j=1}^{n}(x_j-l_j^{(1)})^2}{2\sigma^2}\right)$$
$$f_{2}=similarity(x,l^{(2)})=exp\left(-\frac{\|x-l^{(2)}\|^2}{2\sigma^2}\right)=exp\left(-\frac{\sum_{j=1}^{n}(x_j-l_j^{(2)})^2}{2\sigma^2}\right)$$
$$f_{3}=similarity(x,l^{(3)})=exp\left(-\frac{\|x-l^{(3)}\|^2}{2\sigma^2}\right)=exp\left(-\frac{\sum_{j=1}^{n}(x_j-l_j^{(3)})^2}{2\sigma^2}\right)$$

则预测函数变为：
$$\begin{equation}
\begin{cases}Predict \ '1' \quad if \ \theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3\geq0\\
Predict \  '0' \quad if \ \theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3<0
\end{cases}\end{equation}$$


## Choosing the landmarks 标记点的选择
将所有训练样本全部作为标记点(landmarks)：

即给定训练样本$(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})$，选择标记点为:
$l^{1}=x^{(1)},l^{(2)}=x^{(2)},\cdots,l^{(m)}=x^{(m)}$

则对于样本$x$:
$$f_{1}=similarity(x,l^{(1)})$$
$$f_{2}=similarity(x,l^{(2)})$$
$$\cdots$$
则对于训练样本$(x^{(i)},y^{(i)})$有
$$ f^{(i)}=\left[\begin{array}{ccc}
    f_{1}^{(i)} \\
    f_{2}^{(i)} \\
    \vdots  \\
    f_{m}^{(i)}\end{array}\right]$$

## SVM with Kernel 
假设为：
在给出新的样本$x$下，计算出特征$f\in\mathbb{R}^{n+1}$,若有$\theta^Tf\geq0$，则预测结果为$y=1$

$Cost \ Function$为：
$$\min \limits_{\theta} \ C\sum_{i=1}^m\left[y^{(i)}\mbox{cost}_1(\theta^Tf^{(i)})+(1-y^{(i)}\mbox{cost}_0(\theta^Tf^{(i)}))\right]+\frac{1}{2}\sum_{j=1}^{m}\theta_j^2$$

## Parameter 参数影响

$C \ $: Large C，Lower Bias, High Variance;

$\quad$ Small C，Higher Bias, Low Variance.

$\sigma^2 \ $:Large $\sigma^2$ 特征$f_i$变化更加平滑，Higher Bias, Lower Variance;

$\quad \ $Small $\sigma^2$  特征$f_i$变化更加突变，Lower Bias, Higher Variance.

## Using An SVM 

通常使用现成的SVM软件包进行计算；

需手动解决两个问题：

1.选择参数$C$;

2.选择核函数（Kernel），即$Similarity \ Function$;

## Kernel 核函数

Kernel 需满足Mercer's Theorem 

**1.No kernel** ("linear kernel")
  
$\quad$ Predict 'y=1' if $\theta^Tx\ge0$

**2.Gassian Kernel**

$\quad$ $similarity(x^{(i)},l^{(i)})=f_i=exp\left(-\frac{\|x-l^{(i)}\|^2}{2\sigma^2}\right)$，where $l^{(i)}=x^{(i)}$

$\quad$ 需手动选择$\sigma^2$，视具体情况可能需要进行特征缩放

**3.Polynomial kernel**

$\quad$ $similarity(x,l)=(x^Tl)^2,(x^Tl)^3,(x^Tl+3)^3,\cdots$

**String Kernel**

**chi-square kernel**

**histogram intersectionkernel**

**$\cdots$**

## Multi_class classfication 多分类问题

1.通常现有的SVM软件包都已经包含有多分类函数；

2.否则，通常使用one-vs.-all method(训练K个SVM，每一个都是为了将$y=i$的类别从整体中区分出来，从而可以得到$\theta^{(1)},\theta^{(2)},\cdots,\theta^{(K)}$)。

$ \ \ $ 对于样本$x$，选择$(\theta^{(i)})^Tx$中最大的值作为样本的类别


## Logistic Regression vs. SVMs 算法选择

$n$为样本特征的数目，$m$为参与训练样本的数量

1.当$n$相对于$m$很大时

$\quad$使用Logistic Regression，或No kernel("Linear Kernel")的SVM

2.当$n$很小，$m$数量居中，即不大不小时

$\quad$使用Gaussian Kernel的SVM

3.当$n$很小，$m$很大时

$\quad$增加特征数量，使用Logistic Regression，或No kernel("Linear Kernel")的SVM

神经网络在这几种情形中，都可以表现良好，但训练速度表现较差