# SVM 
[참고](https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-2%EC%84%9C%ED%8F%AC%ED%8A%B8-%EB%B2%A1%ED%84%B0-%EB%A8%B8%EC%8B%A0-SVM)
> SVM이란? 
 - 어느 카테고리에 속할지 판단하는 `이진선형분류모델`
 - `margin` : 선과 서포트 벡터의 거리 
 - `Support vector` : 선과 가장 가까운 데이터 
 - `Decision Boundary` : 두 데이터를 구분하는 선 
 - `Robustness` : outlier에 영향을 받지 않는 정도, margin을 최대화하면 커짐 

 > 어떤 선이 구분선으로 적절한가? 
 - 데이터를 정확히 분류하는 범위찾음
 - 그 범위 안에서 margin을 최대화하는 구분선 택함 

 > outlier 처리 : soft margin 
 - 어느 정도 outlier를 무시하고 최적의 구분선을 찾음 

 > `Kernel Trick` 란? 
 - lineaar line으로 구분할 수 없는 경우, 
 - `차원`을 바꿔주어 구분선을 그린다 
 - 즉, 저차원 공간을 고차원 공간으로 매핑해주는 작업 

 - 데이터를 저차원 공간에서 고차원 공간으로 매핑함 -> 고차원에서 line을 구함 -> 그 line을 다시 저차원 공간에 매핑한다 

 > 파라미터 
 - `kernel` : decision boundary의 모양을 선형으로 할지 다항식형으로 할지 결정하는 것 
    - `linear` : gamma(y)의 영향이 없음 
        - kernel을 적용하지 않은 기본 SVM으로 soft margin을 계산하는데만 사용된다. 
    - `polynomial` : 다항식 커널 
        - 파라미터 : cost, Gamma, coef, degree 
        - degree : feature space의 차원 개수 

    - `sigmoid`
        - 파라미터 : cost, Gamma, coef 
    - `rbf (default)` 
        - 파라미터 : cost, Gamma 
        - 작을 수록 마진이 넓어짐, 클수록 작아지면서 세분화 

- `C` : decision boundary의 굴곡정도 
    - 크면 : 굴곡짐 -> training 포인트를 정확히 구분함 
    - 작으면 : 직선에 가까움 -> margin이 커짐

- `Gamma(y)` : Gamma가 작다면 reach가 멀다는 뜻, 크면 좁다는 뜻 
    - reach : decision boundary의 굴곡에 영향을 주는 데이터의 범위 
    - 즉 고려하는 데이터의 수가 많냐 적냐인가..? 
    - 크면 : decision boundary는 더 굴곡짐 
    - 작으면 : 직선에 가까움  -> margin이 커짐 

> C와 gamma의 차이점 
- C : 두 데이터를 정확히 구분하는 것에 초점 
    - 아무리 커져도 decision boundary는 하나임 (이상치가 없을 때)
- Gamma : 개별 데이터마다 decision boundary를 만드는 것에 초점 
    - 커짐에 따라 여러 decision boundary 만듦 


> 장점
- 고차원에서 모두 효과적이다. (차원 = 특성개수) 
- decision function에서 메모리 효율성 
- 차원 수 > 데이터 수 일때도 효율적 
- 커널함수 커스터마이징 가능 

> 단점 
- 데이터가 너무 많으면 속도가 느리고 메모리적으로 힘듦
- 확률 추정치를 ㅔㅈ공하지 않고, 5분할 교차검증을 사용하여 소비 리소스가 큼 



## SVM 종류 
### SVC 
- 표준 SVM으로, M을 C로 바꿔서 사용한 것 
### NuSVC 
- 오류 처리방식의 조금 차이 
### SVR
- Regression 용 

### LinearSVC 
- SVC의 linear kernel의 특화버전
- 정답률은 떨어지지만 속도가 비약적으로 상승한다 

### LinearSVR 
- Regreesion 용 

### OneClassSVM
- 특이점 판별

# 적용

In [1]:
import pandas as pd 

df = pd.read_csv('./data/glass.csv')
df.head()

Unnamed: 0,RI,Na,Mg,Al,Si,K,Ca,Ba,Fe,Type
0,1.52101,13.64,4.49,1.1,71.78,0.06,8.75,0.0,0.0,1
1,1.51761,13.89,3.6,1.36,72.73,0.48,7.83,0.0,0.0,1
2,1.51618,13.53,3.55,1.54,72.99,0.39,7.78,0.0,0.0,1
3,1.51766,13.21,3.69,1.29,72.61,0.57,8.22,0.0,0.0,1
4,1.51742,13.27,3.62,1.24,73.08,0.55,8.07,0.0,0.0,1


In [2]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

df_x = scaler.fit_transform(df.drop('Type', axis = 1))

In [3]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(df_x, df['Type'])

In [4]:
# 선형분리 
from sklearn.model_selection import cross_val_score, cross_validate
import sklearn.svm as svm
svm_clf = svm.SVC(kernel= 'linear')

scores = cross_val_score(svm_clf, df_x, df['Type'], cv = 5 ) # cv는 폴드의 수
print(scores.mean())

0.5282392026578073


In [5]:
# 비선형분리 

svm_clf = svm.SVC(kernel= 'rbf')

scores = cross_val_score(svm_clf, df_x, df['Type'], cv = 5 ) # cv는 폴드의 수
print(scores.mean())

0.5985603543743079


- 선형분리, 비선형분리 중 비선형분리에서 좀 더 높은 평균 스코어를 보임 
- svm은 `스케일링`에 민감함 

## 1) Sclaer 바꿔보기 
- minmax -> standard

In [6]:
# StandardScaling으로 해보기 
df = pd.read_csv('./data/glass.csv')

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_x = scaler.fit_transform(df.drop('Type', axis = 1))

svm_clf = svm.SVC(kernel= 'rbf')

scores = cross_val_score(svm_clf, df_x, df['Type'], cv = 5 ) # cv는 폴드의 수
print(scores.mean())


0.6497231450719824


- Standard Scaler가 좀 더 스코어가 높군 

In [7]:
x_train, x_test, y_train, y_test = train_test_split(df_x, df['Type'])

In [12]:
svm_clf =svm.SVC(kernel = 'rbf', random_state=100)
scores = cross_val_score(svm_clf, df_x, df['Type'], cv = 5 ) # cv는 폴드의 수

print(pd.DataFrame(cross_validate(svm_clf, df_x, df['Type'], cv =5)))

print('평균: ', scores.mean())

   fit_time  score_time  test_score
0  0.005983    0.000998    0.581395
1  0.003989    0.001008    0.697674
2  0.001993    0.000000    0.534884
3  0.005016    0.003963    0.744186
4  0.002990    0.000997    0.690476
평균:  0.6497231450719824


## 2) 하이퍼파라미터 튜닝

In [14]:
from sklearn.model_selection import GridSearchCV

svm_clf =svm.SVC(kernel = 'rbf', random_state=100)


# 테스트하고자 하는 파라미터 dict 타입으로 정의 
parameters = {'C' : [0.001, 0.01, 0.1, 1, 10, 25, 50, 100] , 
              # C가 클수록 데이터 잘 구분, 작을수록 margin 커짐 ,
              # C값이 낮을 수록 서포트 벡터가 많이 생성되어, 예측 시간이 늘어남  
              # 범위 : -10^3 ~ 10^3
              'gamma' : [0.001, 0.01, 0.1, 1, 10, 25, 50, 100] }

grid_svm = GridSearchCV(svm_clf, param_grid= parameters, cv = 5)

grid_svm.fit(x_train, y_train)

result = pd.DataFrame(grid_svm.cv_results_['params'])
result['mean_test_score'] = grid_svm.cv_results_['mean_test_score']
result.sort_values(by = 'mean_test_score', ascending= False)



Unnamed: 0,C,gamma,mean_test_score
50,50.000,0.100,0.72500
42,25.000,0.100,0.71250
58,100.000,0.100,0.71250
26,1.000,0.100,0.70625
34,10.000,0.100,0.70625
...,...,...,...
21,0.100,25.000,0.36875
22,0.100,50.000,0.36875
23,0.100,100.000,0.36875
24,1.000,0.001,0.36875


trainset으로 했을 때랑 전체 데이터셋으로 했을 때랑 점수가 다르네

In [15]:
grid_svm = GridSearchCV(svm_clf, param_grid= parameters, cv = 5)

grid_svm.fit(df_x, df['Type'])

result = pd.DataFrame(grid_svm.cv_results_['params'])
result['mean_test_score'] = grid_svm.cv_results_['mean_test_score']
result.sort_values(by = 'mean_test_score', ascending= False)

Unnamed: 0,C,gamma,mean_test_score
49,50.000,0.010,0.659025
57,100.000,0.010,0.649612
26,1.000,0.100,0.645072
50,50.000,0.100,0.640089
41,25.000,0.010,0.626357
...,...,...,...
21,0.100,25.000,0.355150
22,0.100,50.000,0.355150
23,0.100,100.000,0.355150
24,1.000,0.001,0.355150
