# サポートベクトルマシン

二値分類問題を解くモデルで頑健なものがサポートベクトルマシンである。

サポートベクトルマシンでは、マージンを最大化するように分類境界を決める。ここで分類境界は

$$
f({\bf x}) \equiv {\bf w}^T {\bf x} + b = 0
$$

を満たす超平面である。いま、データ集合が線形分離可能であると仮定し、それを線形分離するような超平面(のパラメータ${\bf w}$)をとる。このときデータ$x_n$と分類境界との距離は$\hat{y_n} = f({\bf x_n})$として

$$
D({\bf x_n}) \equiv \frac{|f({\bf x_n})|}{||{\bf w}||} = \frac{y_n \hat{y_n}}{||{\bf w}||} = \frac{y_n ({\bf w}^T {\bf x_n} + b)}{||{\bf w}||}
$$

と求められる。ここで正しく予測できたデータについては

$$
y_n \hat{y_n} > 0
$$

が成立していることを利用している。


2つのクラスを$C_+, C_-$と書き、

$$
S_+ = \{ {\bf x_n} | y_n \in C_+ \} \\
S_- = \{ {\bf x_n} | y_n \in C_- \}
$$

とする。また、クラス$C_+$, $C_-$と分類境界との距離をそれぞれ

$$
D(C_+) \equiv min_{\bf x \in S_+} D({\bf x}) \\
D(C_-) \equiv min_{\bf x \in S_-} D({\bf x})
$$

と定義する。超平面${\bf w}^T {\bf x} + b = 0$データ集合を線形分離したとき、この$D(C_+)$または$D(C_-)$を
マージンという。ただし、分類境界は$D(C_+) = D(C_-)$となるように定めることにする。さらに、

$$
{\bf x_+} \equiv argmin_{\bf x \in S_+} D({\bf x}) \\
{\bf x_-} \equiv argmin_{\bf x \in S_-} D({\bf x}) \\
$$

をサポートベクトルと呼ぶ。定義より、

\begin{eqnarray*}
\forall {\bf x} \in S_+. D({\bf x_+}) &\le& D({\bf x}) \\
\forall {\bf x} \in S_-. D({\bf x_-}) &\le& D({\bf x}) \\
D({\bf x_+}) &=& D({\bf x_-})
\end{eqnarray*}

が成立する。

サポートベクトルマシンでは超平面${\bf w}^T {\bf x} + b = 0$を分類境界とし、各データ${\bf x}$に対するスコア

$$
f({\bf x}) = {\bf w}^T {\bf x} + b
$$

が正の値ならば$C_1$に属すると予測し、負の値ならば$C_2$に属すると予測する。

さて、${\bf x_+}, {\bf x_-}$について、

\begin{eqnarray*}
\forall {\bf x} \in S_+. D({\bf x_+}) \le D({\bf x})
&\Leftrightarrow& \forall {\bf x} \in S_+. {\bf w}^T {\bf x_+} + b \le {\bf w}^T {\bf x} + b \\
&\Leftrightarrow& \forall {\bf x} \in S_+. f({\bf x_+}) \le f({\bf x})
\end{eqnarray*}

\begin{eqnarray*}
\forall {\bf x} \in S_-. D({\bf x_-}) \le D({\bf x})
&\Leftrightarrow& \forall {\bf x} \in S_-. {\bf w}^T {\bf x_-} + b \le {\bf w}^T {\bf x} + b \\
&\Leftrightarrow& \forall {\bf x} \in S_-. f({\bf x_-}) \le f({\bf x})
\end{eqnarray*}

\begin{eqnarray*}
D({\bf x_+}) = D({\bf x_-})
&\Leftrightarrow& {\bf w}^T {\bf x_+} + b = {\bf w}^T {\bf x_-} + b \\
&\Leftrightarrow& f({\bf x_+}) = f({\bf x_-})
\end{eqnarray*}

が成立している。また、定数$c > 0$に対して

\begin{eqnarray*}
{\bf w'} &=& c {\bf w} \\
b' &=& c b
\end{eqnarray*}

と変換しても予測結果は変化せず、スコアの大小関係も変化しない。ゆえに${\bf w}, b$を適当にスケーリングすることで

$$
{\bf w'}^T {\bf x_+} + b' = 1 \\
{\bf w'}^T {\bf x_-} + b' = 1 \\
\forall {\bf x}. | {\bf w'}^T {\bf x} + b' | \ge 1
$$

を満たすようにできる。以下ではこの${\bf w'}, b'$を改めて${\bf w}, b$と書くことにする。

以上の設定を踏まえ、マージンの最大化問題を定式化すると次のようになる。

\begin{eqnarray*}
argmax_{{\bf w},b} \frac{1}{||{\bf w}||} \text{ s.t. } t_n ({\bf w}^T {\bf x_n} + b) \ge 1
\end{eqnarray*}

ここでパラメータのスケーリングによって$f({\bf x_+}) = f({\bf x_-}) = 1$となっていることに注意する。この最大化問題は

\begin{eqnarray*}
argmin_{{\bf w},b} \frac{1}{2} ||{\bf w}||^2 \text{ s.t. } t_n ({\bf w}^T {\bf x_n} + b) \ge 1
\end{eqnarray*}

という最小化問題と同値である。ここで最小化したい値$\frac{1}{2} ||{\bf w}||^2$をハードマージンという。

一般に線形分離可能とは限らないデータ集合について二値分類を行うことを考える。線形分離可能とは限らないデータ集合に対してはペナルティを導入し、ソフトマージンを最小化する。

\begin{eqnarray*}
argmin_{{\bf w},b} \frac{1}{2} ||{\bf w}||^2 + C \Sigma_n \xi_n \\
\text{ s.t. } y_n ({\bf w}^T {\bf x_n} + b) \ge 1 - \xi_n, {\bf \xi} \ge {\bf 0}
\end{eqnarray*}

