## Support Vector Machines

### Classification

- 데이터의 특질을 잘 나타내는 hyperplane 찾기.
- 높은 일반화 성능을 가진 hyperplane을 어떻게 찾는가?

-> margin이 최대화되는 hyperplane을 찾으면 됨


- margin?  
: 똑같은 거리를 두고 평행하게 존재하는 hyperplane이 있다고 가정할 때, 평행하게 움직인 hyperplane과 원래 존재하는 hyperplane 사이의 거리


- 데이터들은 margin만큼 움직인 두 개의 평행한 hyperplane(아래로 하나, 위로 하나) 사이에 존재해서는 안됨. 전부 위나 아래에 위치해야함.

즉, margin이 최대화되는 hyperplane을 찾는다는 것은 데이터를 구분할 수 있는 최적의 hyperplane을 찾는 것이라 볼 수 있음

### Hard-margin formulation
SVM은 $y_i \in {-1, 1}$일 때, $y_i = +1$과 $y_i = -1$ 사이 margin이 최대인 $w^Tx + b = 0$을 찾는 것임.

(이때 margin은 점과 직선 사이의 거리에 따라 $2/||w||$)

예측
- $\hat{y} = f(x) = sign(w^Tx + b)$   
=> hyperplane 위에 있냐 아래에 있냐니까 부호로 구분 가능.

margin 식의 분모인 가중치 행렬을 최소화하는 문제로 변경

$min \ J(w, b) = \frac{1}{2}w^Tw$

subject to $y_i(w^Tx_i + b) >= 1, \forall i$

### Slack Variables

- 하지만 선형으로 분류가 안되는 경우 역시 존재함.  
=> 제약 조건을 약간은 틀릴 수도 있도록 허용하고 목적함수에 추가로 넣어서 정도의 총합히 일정치를 넘지 않게 완화함.  
=> $\xi_i$이라는 변수를 넣어서 hyperplane 사이에 있는 값들도 허용하겠끔 함

### Soft-margin formulation
- 크사이를 포함한 식

$\xi_i >= 0$이라 가정

$min \ J(w,b,\xi) = \frac{1}{2}w^Tw + C\sum_i\xi_i$

subject to  
$y_i(w^Tx_i + b) >= 1 - \xi_i,$  
($\xi_i >=0, \ \forall i$)

- $C$는 trade-off로 제약의 강도 

- convex 형태이므로 dual-problem으로 변환 가능


### trained model

$f(x) = sign(w^{*T}x + b) = sign(\sum_{(x_i, y_i) \in D} a_iy_ix_i^Tx + b^*)$

- 많은 경우에 $a_i$가 0이 되어 영향을 주지 않으므로 $a_i > 0$인 것들만 추려서 모음

let $D_{SV} = \{(x_i, y_i) \in D \ | \ a_i > 0\}$, then $f(x) = sign(\sum_{(x_i, y_i) \in SV} a_iy_ix_i^Tx + b^*)$


- 훈련된 모델은 support vector들에 영향을 받음

![test](../img/sv.png)

### trade-off hyperparameter C

- C가 작으면 규제가 강해져 underfitting

- C가 크면 규제가 약해져 overfitting

### Kernelized Support Vector Classification


- 비선형 데이터를 분류하기 위해 고안된 방법
- 기존 feature를 변형하여 만든 고차원 공간으로 데이터를 매핑하여 선형 모델을 사용함.

- 이러면 어떤 feature를, 얼마나 많이 사용해야하는지 모름. 또한 연산량도 어마어마 함   
=> 수학적 트릭으로 실제 계산은 안 하지만 해당 효과를 만들어낼 수 있음

#### Kernel Trick

데이터를 고차원 공간으로 매핑하는 함수 $\phi$가 있다고 가정

$x_i$ -> $\phi(x_i)$


trained model에 등장하는 $x_i^Tx$, 즉 $x_i^Tx_j$의 형태는 내적임으로 실수값임. $\phi$를 거친 $\phi(x_i)^T \phi(x_j)$도 역시 실수값임

kernel function k에 대해 $k(x_i, x_j) = \phi(x_i)^T \phi(x_j)$라고 하면 $\phi$를 모르더라도 k로 계산이 간편하게 됨


Kernel Function의 예시들  
- Linear Kernel $k(x, x') = x^Tx'$
- Polynomial Kernel $k(x, x') = (1 + x^Tx')^p$
- Tanh Kernel $k(x, x') = tanh(a + bx^Tx')$
- RBF Kernel $k(x, x') = exp(-\gamma ||x-x'||^2)$



주로 RBF Kernel이 많이 쓰임

$\gamma$ : 데이터 간 거리의 민감도. 즉, 개별 데이터 포인트가 얼마나 영향을 미치는가.  

- $\gamma$ 작음 -> underfitting
- $\gamma$ 큼 -> overfitting

#### trained model

$f(x) = sign(w^{*T}x + b) = sign(\sum_{(x_i, y_i) \in D} a_iy_ik(x_i, x) + b^*)$  

let $D_{SV} = \{(x_i, y_i) \in D \ | \ a_i > 0\}$, then $f(x) = sign(\sum_{(x_i, y_i) \in SV} a_iy_ik(x_i, x) + b^*)$


### 실습

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score


cancer = load_breast_cancer()
X_train, X_test, y_train, y_test= train_test_split(cancer.data, cancer.target, random_state=0)

In [2]:
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled= scaler.transform(X_train)
X_test_scaled= scaler.transform(X_test)

In [3]:
clf= SVC(C=100)
clf.fit(X_train_scaled, y_train)

0,1,2
,C,100
,kernel,'rbf'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [4]:
y_train_hat= clf.predict(X_train_scaled)
print('train accuracy: %.5f'%accuracy_score(y_train, y_train_hat))
y_test_hat= clf.predict(X_test_scaled)
print('test accuracy: %.5f'%accuracy_score(y_test, y_test_hat))

train accuracy: 1.00000
test accuracy: 0.95804


### Multi-Class Classification

- OVR Approach
- OVO Approach

### Regression

- 어떤 linear function에 $\epsilon$ 크기의 영역에 데이터포인트가 존재해야함  
- $\xi$만큼의 오차 인정

### trained model

$f(x) = w^T\phi(x) + b = \sum^N_{i=1}(\alpha_i - \beta_i)k(x_i, x) + b$

let $D_{SV} = \{(x_i, y_i) \in D | \alpha_i > 0 or \beta_i > 0\}$  
then $f(x) = \sum_{(x_i, y_i) \in D_{SV}}(\alpha_i - \beta_i)k(x_i, x) + b$


![sv2](../img/sv2.png)

### Hyperparameter

- C, $\epsilon$, $\gamma$

- $\epsilon$

    - 크다 -> underfitting
    - 작다 -> overfitting

In [8]:
import mglearn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


X, y = mglearn.datasets.make_wave()
X_train, X_test, y_train, y_test= train_test_split(X, y, random_state=0)

In [9]:
scalerX= StandardScaler()
scalerX.fit(X_train)
X_train_scaled= scalerX.transform(X_train)
X_test_scaled= scalerX.transform(X_test)

scalerY= StandardScaler()
scalerY.fit(y_train.reshape(-1,1))
y_train_scaled= scalerY.transform(y_train.reshape(-1,1))
y_test_scaled= scalerY.transform(y_test.reshape(-1,1))

In [10]:
reg= SVR()
reg.fit(X_train_scaled, y_train_scaled)

  y = column_or_1d(y, warn=True)


0,1,2
,kernel,'rbf'
,degree,3
,gamma,'scale'
,coef0,0.0
,tol,0.001
,C,1.0
,epsilon,0.1
,shrinking,True
,cache_size,200
,verbose,False


In [11]:
y_train_hat_scaled = reg.predict(X_train_scaled)
y_train_hat = scalerY.inverse_transform(y_train_hat_scaled.reshape(-1,1))
print('train MAE: %.5f'%mean_absolute_error(y_train,y_train_hat))
print('train RMSE: %.5f'% mean_squared_error(y_train,y_train_hat)**0.5)
print('train R_square: %.5f'%r2_score(y_train,y_train_hat))


y_test_hat_scaled = reg.predict(X_test_scaled)
y_test_hat = scalerY.inverse_transform(y_test_hat_scaled.reshape(-1,1))
print('test MAE: %.5f'%mean_absolute_error(y_test,y_test_hat))
print('test RMSE: %.5f'%mean_squared_error(y_test,y_test_hat)**0.5)
print('test R_square: %.5f'%r2_score(y_test,y_test_hat))

train MAE: 0.43786
train RMSE: 0.55072
train R_square: 0.63602
test MAE: 0.42278
test RMSE: 0.55002
test R_square: 0.68355


In [14]:
import pandas as pd


training_r2score = []
test_r2score = []
C_list, epsilon_list, gamma_list = [], [], []

C_settings = [1, 100]
epsilon_settings = [0.001, 0.01, 0.1]
gamma_settings = [0.01, 0.1]
for C in C_settings:
    for epsilon in epsilon_settings:
        for gamma in gamma_settings:
            reg = SVR(C=C, kernel='rbf', epsilon=epsilon, gamma=gamma)
            reg.fit(X_train_scaled, y_train_scaled)
            
            y_train_hat = scalerY.inverse_transform(reg.predict(X_train_scaled).reshape(-1,1))
            training_r2score.append(r2_score(y_train, y_train_hat))
 
            y_test_hat = scalerY.inverse_transform(reg.predict(X_test_scaled).reshape(-1,1))
            test_r2score.append(r2_score(y_test, y_test_hat))
            
            C_list.append(C)
            epsilon_list.append(epsilon)
            gamma_list.append(gamma)

pd.DataFrame({"C": C_list, "epsilon": epsilon_list, "gamma": gamma_list, "training R_square": training_r2score, "test_R_square": test_r2score})            

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


Unnamed: 0,C,epsilon,gamma,training R_square,test_R_square
0,1,0.001,0.01,0.520341,0.449092
1,1,0.001,0.1,0.605281,0.616165
2,1,0.01,0.01,0.520095,0.448628
3,1,0.01,0.1,0.604692,0.613496
4,1,0.1,0.01,0.497085,0.413537
5,1,0.1,0.1,0.609425,0.619795
6,100,0.001,0.01,0.592046,0.602897
7,100,0.001,0.1,0.624414,0.660577
8,100,0.01,0.01,0.592683,0.603481
9,100,0.01,0.1,0.626266,0.658129
