<a href="https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/machine_learning/support_vector_machine.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# サポートベクターマシン(SVM)

## マージン

- 線形判別関数ともっとも近いデータ点との距離

マージンが最大となる線形判別関数を求める



## 目的関数の導出(準備)


各クラスのデータをwの方向kへ射影した点w軸に座標
$$
w^{T}x+b
$$
線形判別関数のマージンを$\kappa$とした時に全てのデータ点でなりたつ条件
- 特に路肩上のデータに対しては=$\kappa$が成り立つ
$$
|w^{T}x+b| \geq \kappa
$$

$$
\rho(w,b)=\min_{x\in C_{t_i}=+1}\frac{w^Tx_i}{||w||}-\max_{x\in C_{t_i}=-1}\frac{w^Tx_i}{||w||}
$$

各点と決定境界との距離
- 絶対値の定義より

$$
\frac{|w^Tx_i+b|}{||w||}=\frac{t_i(x^Tx_i+b)}{||w||}
$$
マージンは決定境界と最も距離の近い点との距離
$$
\min_{i}\frac{t_i(x^Tx_i+b)}{||w||}
$$

目的関数
- SVMはマージンを最大化することを目標としている

  マージンが最大となる直線(パラメータ)を探す
$$
\max_{w,b}=[\min_t\frac{t_i(w^Tx_i+b)}{||w||}]
$$

## SVMの主問題

主問題の目的関数と制約条件
$$
\min_{w,b}\frac{1}{1}||w||^2 \\
t_i(w^Tx_i+b) \geq 1 ~~~~~(i=1,2,\dots,n)
$$

### KKT条件

- 制約付き最適化問題において最適解が満たす条件

  制約$g_i(x)\geq0(i=1,2,\dots,n)$のもとで、f(x)が最小となる$x^*$は以下の条件を満たす
  - L:ラグランジュ関数
  - $\lambda$:ラグランジュ乗数
$$
\frac{\partial L}{\partial x_j}|x^* = 0(j=1,2,\dots,m) \\
h_i(x^*)\leq0,\lambda_i\geq0,\lambda_ig_i(x^*)=0(i-1,2,\dots,n)
$$

### ラグランジュの未定乗数法


制約付き最適化問題を解くための手法
- 定義

  制約$g_i(x)\geq 0(i=1,2,\dots,n)$のもとで、$f(x)$が最小となる$x$は、
  変数$\lambda_i\geq 0(i=1,2,\dots,n)$を用いて新たに定義したラグランジュ関数

  $L(x,\lambda,x)=f(x)-\sum_{i=1}^n\lambda_ig(x)$において
  
  $\frac{\partial L}{\partial x_j}=0(j=1,2,\dots,m)$を満たす



ラグランジュ関数
$$
L(w,b,a)=\frac{1}{2}||w||^2-\sum_{i-1}^n(t_i(w^Tx_i+b)-1)
$$
ラグランジュ乗数
$$
a_i\leq0(i=1,2,\dots,n)
$$
最小となるw,bは以下を満たす
$$
\frac{\partial L}{\partial w}=w-\sum_{i=1}^na_it_ix_i=0 \\
\frac{\partial L}{\partial b}=-\sum_{i=1}^na_it_i=0
$$



### 双対問題

- 双対問題の目的関数と制約条件
$$
\max_a\sum_{i=1}^na_i-\frac{1}{1}\sum_{i=1}^n\sum_{j=1}^na_ia_jt_it_jx_i^Tx_j\\
\sum_{i=1}^na_it_i=0 \\
a_i \geq0 ~~~~(i=1,2,\dots,n)
$$

#### 主問題と双対問題


主問題の最適解と双対問題の最適解は一対一対応

### 予測

- SVMの決定関数
$$
y(x)=w^Tx+b=\sum_{i=1}^{n}a_it_ix^Tx+b
$$
KKT条件の相補性条件$a_i(t_i(w^Tx_i+b)-1)=0$より
- $t_i(w^Tx_i+b)-1 >0$

  予測に影響を与えない
- $t_i(w^Tx_i+b)-1 =0$

  予測に影響を与える。(サポートベクター)

### サポートベクター 

分離超平面を構成する学習データはサポートベクターだけ必要

### ソフトマージンSVM

- サンプルを線形分離できないとき
- 誤差を許容し、誤差に対してペナルティを与える

マージン内に入るデータや誤分類されたデータに対して誤差を表す変数$\xi_i$を導入する

$$
\xi_i=1-t_i(w^Tx+b) >0
$$

- 線形分離できない場合でも対応
- パラメータCの大小で決定境界が変化

#### ソフトマージンSVMの目的関数と制約条件

$$
\frac{1}{2}||w||^3+C\sum_{i=1}^n\xi_i
$$

### カーネルトリック

- カーネル関数(ここのみ変化):
$$
k(x_i,x_j)=\phi(x_i)^T\phi(x_j)
$$ 
- 高次元ベクトルの内積をスカラー関数で表現
- 特徴空間が高次元でも計算コストを抑えられる
目的関数
$$
\max_a\sum_{i=1}^na_i=-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^na_ia_jt_it_j\phi(x_i)^T\phi(x_j)
$$

## 演習

https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/machine_learning/exercises/np_svm.ipynb