# Support Vector Machine (SVM)

- 딥러닝 이전에 분류에서 뛰어난 성능으로 많이 사용되었던 분류 모델
- 하나의 분류 그룹을 다른 그룹과 분리하는 최적의 경계를 찾아내는 알고리즘
- 중간 크기의 데이터셋과 특성이(Feature) 많은 복잡한 데이터셋에서 성능이 좋은 것으로 알려져있다.

## 선형(Linear) SVM 


**선 (1)과 (2)중 어떤 선이 최적의 분류 선일까?**
![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)

## 목표: support vector간의 가장 넓은 margin을 가지는 초평면(결정경계)를 찾는다.
> ### 초평면
> - 데이터가 존재하는 공간보다 1차원 낮은 부분공간
>    - n차원의 초평면은 n-1차원
>    - 공간을 나누기 위해 초평면을 사용한다.
>    - 1차원-점, 2차원-선, 3차원-평면, 4차원이상 초평면

- **Support Vector**: 경계를 찾아내는데 기준이 되는 데이터포인트. 초평면(결정경계)에 가장 가까이 있는 vector(데이터포인트)를 말한다.
- **margin**: 두 support vector간의 너비
- margin이 넓은 결정경계를 만드는 함수를 찾는 것.


![image.png](attachment:image.png)

## 규제 - Hard Margin, Soft Margin

- SVM은 데이터 포인트들을 잘 분리하면서 Margin 의 크기를 최대화하는 것이 목적이다. 
    - Margin의 최대화에 가장 문제가 되는 것이 Outlier(이상치) 들이다. 
    - Train set의 Outlier들은 Overfitting에 주 원인이 된다.
- Margine을 나눌 때 Outlier을 얼마나 무시할 것인지에 따라 Hard margin과 soft margin으로 나뉜다.
- **Hard Margin**
    - Outlier들을 무시하지 않고 Support Vector를 찾는다. 그래서 Support Vector와 결정 경계 사이의 거리 즉 Margin이 매우 좁아 질 수 있다. 학습시 이렇게 개별 데이터포인트들을 다 놓치지 않으려는 기준으로 결정 경계를 정해버리면 overfitting 문제가 발생할 수 있다.
- **Soft Margin**    
    - 일부 Outlier들을 무시하고 Support Vector를 찾는다. 즉 Outlier들이 Margin 안에 어느정도 포함되도록 기준을 잡는다. 그래서 Support Vector와 결정 경계 사이 즉 Margin의 거리가 넓어진다. 얼마나 많은 Outlier들을 무시할 지는 하이퍼파라미터로 설정한다. 무시비율이 너무 커지면 underfitting 문제가 발생할 수 있다.

![image-4.png](attachment:image-4.png)

### 하이퍼파라미터 C
- Outlier 를 무시하는 비율을 설정하는 하이퍼파라미터
- 노이즈가 있는 데이터나 선형적으로 분리 되지 않는 경우 **하이퍼파라미터인 C값을** 조정해 마진을 변경한다.
- 기본값 1
- 파라미터값을 크게주면 제약조건을 강하게 한다.
    - 마진폭이 좁아져 마진 오류가 작아지나 Overfitting이 일어날 가능성이 크다.
- 파라미터값을 작게 주면 제약조건을 약하게 한다.
    - 마진폭이 넓어져 마진 오류가 커진다. 
    - 훈련데이터에서는 성능이 안좋아지나 일반화(generalization)되어 테스트 데이터의 성능이 올라간다. 그러나 underfitting 이 날 가능성이 있다.

### Linear SVM에서 C의 변화에 따른 성능변화 확인

##### import

In [None]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, GridSearchCV

from sklearn.preprocessing import StandardScaler

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

##### 데이터 로딩, train/test set 나누기

In [None]:
X, y = load_breast_cancer(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

##### Feature scaling

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

##### 모델생성 및 학습
- 규제 파라미터인 **C** 값을 변경하면서 성능 확인

In [None]:
c_params = [0.0001, 0.001, 0.01, 0.1, 1, 10,100]

train_acc_list = []
test_acc_list = []

for c in c_params:
    svc = SVC(kernel='linear', C=c, random_state=0)
    svc.fit(X_train_scaled, y_train)
    
    pred_train = svc.predict(X_train_scaled)
    pred_test = svc.predict(X_test_scaled)
    
    train_acc_list.append(accuracy_score(y_train, pred_train))
    test_acc_list.append(accuracy_score(y_test, pred_test))

##### 결과 확인

In [None]:
result_df = pd.DataFrame({
    'C':c_params,
    'Train':train_acc_list,
    'Test':test_acc_list
})
result_df

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8,6))
plt.plot(c_params, train_acc_list, marker='o', label="Train")
plt.plot(c_params, test_acc_list, marker='x', label='Test')
# plt.xlim (0,0.05)
plt.legend()
plt.show()

## 커널 SVM
### 비선형데이터 셋에 SVM 적용
- 선형으로 분리가 안되는 경우는?
![image.png](attachment:image.png)

- 다항식 특성을 추가하여 차원을 늘려 선형 분리가 되도록 변환   
<center>[2차원으로 변환 $x_3=x_1^2$ 항 추가]</center>

![image.png](attachment:image.png)

<center>[원래 공간으로 변환]</center>

![image.png](attachment:image.png)

https://www.youtube.com/watch?v=3liCbRZPrZA&t=42s

### 차원을 늘리는 경우의 문제
- 다항식 특성을 추가하는 방법은 낮은 차수의 다항식은 데이터의 패턴을 잘 표현하지 못해 과소적합이 너무 높은 차수의 다항식은 과대적합과 모델을 느리게 하는 문제가 있다.

### 커널 트릭(Kernel trick)
- 다항식을 만들기 위한 특성을 추가하지 않으면서 수학적 기교를 적용해 다항식 특성을 추가한 것과 같은 결과를 얻을 수있다.
- 이런 방식을 커널 트릭이라고 한다.
- 커널 트릭을 위한 다양한 함수가 있는데 이중 **방사 기저 함수**가 제일 많이 사용된다.

#### 방사기저(radial base function-RBF) 함수
- 커널 서포트 벡터 머신의 기본 커널 함수
- 기준점들이 되는 위치를 지정하고 각 샘플이 그 기준점들과 얼마나 떨어졌는 지를 계산한다. => 유사도(거리)
- 기준점 별 유사도 계산한 값은 원래 값보다 차원이 커지고 선형적으로 구분될 가능성이 커진다.

    
$$
\Phi(x, l) = exp\left(-\gamma \left\|x-l\right\|^2\right)
$$

$$
e^{-\gamma \left\|x-l\right\|^2}
$$

<center>방사기저함수($\Phi$) x: 샘플, l: 기준값, $\gamma$(gamma): 규제 파라미터, e: 자연상수- 2.71828<center>

![image.png](attachment:image.png)

- ### rbf(radial basis function) 하이퍼파라미터
    - C
        - 오차 허용기준. 작은 값일 수록 많이 허용한다.
            - 큰 값일 수록 과적합이 날 가능성이 높아진다.
        - 과적합일 경우 값을 감소시키고, 과소적합일 경우 값을 증가 시킨다.
    - gamma 
        - 방사기저함수의 $\gamma$로 규제의 역할을 한다.
            - 큰 값일 수록 과적합이 날 가능성이 높아진다.
        - 모델이 과대적합일 경우 값을 감소시키고, 과소적합일 경우 값을 증가시킨다.
        

##### Gamma 변경에 따른 성능 변화 확인

In [None]:
gamma_param = [0.0001, 0.001, 0.01, 0.1, 1, 10, 100]

train_acc_list = []
test_acc_list = []
for gamma in gamma_param:
    svc = SVC(kernel='rbf', # default가 rbf->생략가능
              C=1,
              gamma=gamma, 
              random_state=0)
    svc.fit(X_train_scaled, y_train)
    
    pred_train = svc.predict(X_train_scaled)
    pred_test = svc.predict(X_test_scaled)
    
    train_acc_list.append(accuracy_score(y_train, pred_train))
    test_acc_list.append(accuracy_score(y_test, pred_test))

##### 결과 확인

In [None]:
result_df = pd.DataFrame({
    'gamma':gamma_param,
    'train':train_acc_list,
    'test':test_acc_list
})
result_df

##### ROC AUC score, AP score 

In [None]:
svc = SVC(C=1, gamma=0.01, random_state=0)#, probability=True)
svc.fit(X_train_scaled, y_train)

In [None]:
prob_test = svc.predict_proba(X_test_scaled)

In [None]:
from sklearn.metrics import roc_auc_score, average_precision_score
roc_auc_score(y_test, prob_test[:, 1]), average_precision_score(y_test, prob_test[:, 1])

## GridSearch로 최적의 조합찾기

##### GridSearchCV 생성 및 학습

In [None]:
param = {
    'kernel':['rbf', 'linear'],
    'C':[0.001, 0.01, 0.1, 1, 10, 100],
    'gamma':[0.001, 0.01, 0.1, 1, 10]
}
svc = SVC(random_state=0, probability=True)
gs_svc = GridSearchCV(svc, 
                      param_grid=param, 
                      scoring='accuracy',
                      cv=3,
                      n_jobs=-1)

In [None]:
gs_svc.fit(X_train_scaled, y_train)

#####  결과확인

In [None]:
gs_svc.best_params_

In [None]:
gs_svc.best_score_

In [None]:
import pandas as pd
df = pd.DataFrame(gs_svc.cv_results_)

In [None]:
df.columns

In [None]:
df.sort_values('rank_test_score').head(10)

In [None]:
pred_train = gs_svc.predict(X_train_scaled)
pred_test = gs_svc.predict(X_test_scaled)

In [None]:
print(accuracy_score(y_train, pred_train),  accuracy_score(y_test, pred_test))

In [None]:
from sklearn.metrics import classification_report
confusion_matrix(y_test, pred_test)

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, pred_test))

In [None]:
print(classification_report(y_train, pred_train))

# TODO: iris DataSet으로 분류 
- 다중 클래스 분류
- svm
    - Pipeline이용: Feature Scaling => SVM
    - GridSearch를 이용해서 최적의 C, gamma 
    - 평가지표: 정확도