#### SVM(Support Vector Machine)
* SVM은 분류를 위한 기준선을 정의하는 모델 
* 분류되지 않은 새로운 데이터가 나타나면 결정 경계(기준선)를 기준으로 경계의 어느 쪽에 속하는지를 분류하는 모델이다.
* SVM에서는 결정경계를 이해하는 것이 중요하다. 
* 결정경계는 데이터를 분류하기 위한 기준선이다.
* 결정경계는 데이터가 분류된 클래스에서 최대한 멀리 떨어져있을 때 성능이 가장 좋다.
* SVM을 이해하기 위해서는 margin이라는 개념을 이해할 필요가 있는데, margin은 결정 경계가 support vector(결정 경계와 가까이에 있는 데이터)사이의 거리를 의미하고, 결국 이 데이터들이 경계를 정의하는 결정적인 역할을 한다.
* 최적의 결정 경계는 margin을 최대로 해야 한다.  
* SVM운 데이터들을 올바르게 분리하면서 margin크기를 최대호 해야 하는데 결국 이상치(outlier)를 잘 다루는 것이 중요하다. 
    - soft margin : 어느 정도의 이상치들이 margin에 포함되는 것을 허용
    - hard margin : 이상치를 margin에 포함되는 것을 허용하지 않음 
 

In [21]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn 
import sklearn 
import os 
import tensorflow as tf
from google.colab import drive  

In [32]:
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score 
from sklearn.preprocessing import StandardScaler 
from sklearn import datasets
from sklearn import svm

In [22]:
os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
# log 
# default 0 : 모든 log 표시
# INFO : 1 
# WARNING : 2
# ERROR : 3 

In [9]:
drive.mount("/content/drive/")
FILE_PATH = "/content/drive/MyDrive/dataset/pytorch/iris.data"

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [12]:
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv(FILE_PATH, names=names)

In [19]:
def get_show_shape_array(np_array):
    for i in range(len(np_array)):
        print(f"shape {np_array[i].shape}")

def get_show_shape_dict(dict):
    for key, value in dict.items():
        print(f"{key}, {value.shape}")

In [17]:
dataset.head(n=10)
X = dataset.iloc[:, :-1].values
Y = dataset.iloc[:, 4].values
print(f"X shape {X.shape}")
print(f"X type {type(X)}")
print(f"X lengtth {len(X)}")

X shape (150, 4)
X type <class 'numpy.ndarray'>
X lengtth 150


In [20]:
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state =2022)
dict_data =  {"x_train": x_train, "x_test":x_test, "y_train":y_train, "y_test":y_test }
get_show_shape_dict(dict_data)

x_train, (120, 4)
x_test, (30, 4)
y_train, (120,)
y_test, (30,)


In [30]:
iris = datasets.load_iris()
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.6, random_state=42)

#### Support Vector Machine kernel  
* SVM은 선형 분류와 비선형 분류를 지원한다. 
* 비선형 문제를 해결하는 가장 기본적인 방법은 저차원의 데이터를 고차원으로 보내는 것이다. 하지만 이것은 많은 수학적 계산이 필요하기 때문에 성능에 문제를 준다. 
* 이러한 문제를 해결하기 위해서 나온 것이 바로 **kernel trick**이다. 
* 선형 모델을 위한 kernel에는 linear kernel이 있고 비선형을 위한 kernel에는 
gaussian kernel(RBF:Radial Basis Function), polynomial kernel 이 있다. 
    - linear kernel 
$$K(a, b) = a^T* b $$
$$(a, b) : \text{input vector}$$
    - polynomoal kernel 
        - 실제로는 특성을 추가하지는 않지만 다항식 특성을 많이 추가한 것과 같은 결과를 얻을 수 있는 방법 
        - 엄청난 수의 특성 조합이 생기는 것과 같은 효과를 얻기 때문에 고차원으로 데이터 매핑이 가능 

        $$K(a, b) = (\gamma a^T*b)^d$$ 
        $$\gamma\text{ : gamma  d : dimension}$$
        $$ \gamma\text{ , d  : hyper parameter} $$
    - gaussian kernel 
        - polynomoal kernel의 확장 
        - 입력 vector를 차원이 무한한 고차원으로 매핑하는 것 모든 차수의 다항식을 고려한다.
        $$K(a, b) = exp(-\gamma||a-b||^2)$$ 
        $$ \gamma\text{: hyper parameter} $$

* C 값이 클수록 hard margin 이고 작을수록 soft margin에 해당한다. 
* gamma 는 결정 경계를 얼마나 유연하게 가져갈지를 결정한다. 
* gamma값이 높으면 training에 많이 의존을 하게 되기 때문에 결정 경계가 곡선형태를 뛰며 overfitting 를 초래할 수 있다. 


In [33]:
svm = svm.SVC(kernel="linear", C=1.0, gamma=0.5)
svm.fit(x_train, y_train)
predictions = svm.predict(x_test)
score = accuracy_score(y_test, predictions)
print(f"accuracy {score}")

accuracy 0.9888888888888889
