- SVM은 강력한 다목적 머신러닝 모델
- 반드시 알아야함
- 복잡한 분류문제에 잘 맞으며, 작거나 중간 크기의 데이터셋에 적합함

# 5.1. Linear SVM Classifier
- Large Margin 분류라고도 불림
- 클래스 사이를 가르는 가장 넓은 도로를 찾아내는 느낌임

## 5.1.1. 소프트 마진 분류
- 모든 샘플이 샘플 사이를 가르는 도로 바깥쪽에 올바르게 분류된다면 이를 하드 마진 분류라고 함
- 하지만 하드 마진 분류의 경우 두 가지 문제가 있음
    - 1) 데이터가 선형적으로 구분될 수 있어야만함
    - 2) 이상치에 민감함
        - 이상치가 하나만 있어도 마진을 찾기 어려움
- 이를 해결 하기 위해서는 좀 더 유연한 모델이 필요함
- 도로를 적당히 넓게 유지하는 것 + 마진 오류 사이의 적절한 균형을 잡아야함
- 이를 Soft margin Classification이라고 함
- sklearn의 SVM모델에서는 C 하이퍼 파라메터를 이용하여 이 균형을 조절할 수 있음
    - C 값을 줄이면 도로의 폭이 넓어짐 -> But 마진 오류가 커짐
        - 근데 이렇게되면 오버피팅의 가능성이 줄어들어, 실제로 test에서는 더 좋은 성능을 보일 수도 있음
- 붓꽃 데이터를 활용해보자

In [1]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

In [2]:
iris = datasets.load_iris()
X = iris["data"][:, [2, 3]] #꽃잎 길이, 너비
y = (iris["target"] == 2).astype(np.float64)

svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("liner_svc", LinearSVC(C=1, loss = "hinge"))
    ])

svm_clf.fit(X, y)

Pipeline(memory=None,
         steps=[('scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('liner_svc',
                 LinearSVC(C=1, class_weight=None, dual=True,
                           fit_intercept=True, intercept_scaling=1,
                           loss='hinge', max_iter=1000, multi_class='ovr',
                           penalty='l2', random_state=None, tol=0.0001,
                           verbose=0))],
         verbose=False)

In [3]:
svm_clf.predict([[5.5, 1.7]]) # SVC의 경우 proprobablity를 제공하지 않음

array([1.])

- 지금은 LinearSVC라는 모듈을 사용함
- 다른 방법으로는
    - 1) SVC(kernel = "linear", C = 1)과 같은 SVC모델 활용 가능
        - 하지만 훈련 세트가 클 때 속도가 매우 느리므로 ㄴ 권장
    - 2) SGDClassifer(loss = "hinge", alpha = 1/(m+C))와 같이 SGD를 사용하는 방법이 있음
        - LinearSVC만큼 빠르게 수렴하지는 않지만 데이터가 너무 커서 메모리에 적재할 수 없거나, 온라인으로 학습문제를 분류할 때좋음
- 참고로 SGDClassifier의 경우 규제에 Bias가 포함됨
    - 따라서 훈련세트에서 평균을 빼 중앙에 맞춰야함
    - 즉, Standard Scaling이 필요한 것
    - 그리고 반드시 loss 변수를 "hinge"로 지정해야함
    - 훈련 샘플보다 특성이 많은 것이 아니라면 dual 매개변수를 False로 지정해야함
        - 자세한 설명은 뒷장에서 이어서
    - 위 설정의 경우 SVC(kernel = "linear")와 같게 동작하는 것을 가정하고 설명함

# 5.2. Non-linear SVC
- 선형적으로 분류할 수 없는 데이터셋이 많음
- 이럴 때 사용하는 것이 다항 특성과 같이 특성을 더 추가해주는 것
- 이렇게 하기 위해서는 PolynomialFeatures변환기와 StandardScaler, LinearSVC를 Pipeline으로 연결해주면 좋음

In [4]:
from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler

X, y = make_moons(n_samples = 100, noise = 0.15, random_state =42)

In [5]:
polynomial_svm_clf = Pipeline([
        ("poly_features", PolynomialFeatures(degree = 3)),
        ("scaler", StandardScaler()),
        ("svm_clf", LinearSVC(C = 10, loss = "hinge"))
    ])

In [6]:
polynomial_svm_clf.fit(X, y)



Pipeline(memory=None,
         steps=[('poly_features',
                 PolynomialFeatures(degree=3, include_bias=True,
                                    interaction_only=False, order='C')),
                ('scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('svm_clf',
                 LinearSVC(C=10, class_weight=None, dual=True,
                           fit_intercept=True, intercept_scaling=1,
                           loss='hinge', max_iter=1000, multi_class='ovr',
                           penalty='l2', random_state=None, tol=0.0001,
                           verbose=0))],
         verbose=False)

## 5.2.1. 다항식 커널
- 다항식 특성을 추가하는건 매우 간단하며, 대다수의 ML 모델링에서 잘 먹히는 수법
- 그러나
    - 1) 낮은 차수의 다항식의 경우, 복잡한 셋을 잘 설명하지 못함
    - 2) 높은 차수의 다항식의 경우 모델이 너무 느려짐
- But 이런 부분때문에 SVM에서는 커널트릭이라는 기적같은 수학적 기교를 활용할 수 있음
    - 실제로는 다항 특성을 추가하지 않으면서, 그와 같은 효과를 얻을 수 있음
    - 정확히는 어떠한 특성도 추가하지 않는 것임

In [7]:
from sklearn.svm import SVC
poly_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel = "poly", degree = 3, coef0 = 1, C = 5))
])

In [8]:
poly_kernel_svm_clf.fit(X, y)

Pipeline(memory=None,
         steps=[('sclaer',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('svm_clf',
                 SVC(C=5, break_ties=False, cache_size=200, class_weight=None,
                     coef0=1, decision_function_shape='ovr', degree=3,
                     gamma='scale', kernel='poly', max_iter=-1,
                     probability=False, random_state=None, shrinking=True,
                     tol=0.001, verbose=False))],
         verbose=False)

- 위 코드는 3차 다항식 커널로 SM분류기를 훈련시키는 것
    - 모델이 과대적합일 떄는 다항식의 차수를 줄일 것
    - 모델이 과소적합일 때는 늘릴 것

## 5.2.2. 유사도 특성 추가
- 또 다른 비선형 특성 체크 방법
- 각 샘플이 특정 랜드마크와 얼마나 닮았는가를 따지는 유사도 함수 계산 특성을 추가하는 것
- 이 떄 가우시안 방사 기저 함수(RBF)를 유사도함수로 정의
    - pi_gamma(x, lambda) = exp(-gamma||x-lambda||^2)
        - 이 함수의 경우 랜드마크와 아주 멀리떨어진 경우 ->0
        - 랜드마크에 위치할 경우 1로 나타내며 종 모양으로 표시됨
    - 이 과정을 통해 비선형 데이터를 선형으로 펼 수 있음
    - 자세한 건 책을 보며 참고

## 5.2.3. 가우시안 RBF 커널
- 얘도 ML 알고리즘에 유용하게 사용할 수 있음
- But 연산 cost가 매우 높음
- 훈련 세트가 커질 때 그 cost가 기하급수적으로 늘어날 것
    - But 이것도 커널 트릭을 통해서 해결할 수 있음!!!

In [9]:
rbf_kernel_svm_clf = Pipeline([
        ("scaler", StandardScaler()),
        ("svm_clf", SVC(kernel = "rbf", gamma = 5, C = 0.001))
    ])

rbf_kernel_svm_clf.fit(X, y)

Pipeline(memory=None,
         steps=[('scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('svm_clf',
                 SVC(C=0.001, break_ties=False, cache_size=200,
                     class_weight=None, coef0=0.0,
                     decision_function_shape='ovr', degree=3, gamma=5,
                     kernel='rbf', max_iter=-1, probability=False,
                     random_state=None, shrinking=True, tol=0.001,
                     verbose=False))],
         verbose=False)

- 위 식에서 제일 중요한 역할을 하는 건 gamma임
    - 이게 규제의 역할을 수행함
    - gamma값은 넓은 종 모양의 그래프를 만들며 샘플이 넓은 범위에 영향을 줄 수 있게 함
        - 따라서, 결정경계를 더 부드러운 모양으로 만들어냄
- 모델이 과대적합인 경우에는 gamma를 감소시켜야함
- 모델이 과소적합인 경우에는 gamma를 증가시켜야함


- 다른 커널도 사실 많지만, 거의 사용되지 않음
- 주로 사용되는건 linear커널, poly커널과 rbf커널임
    - 문자열 커널(string kernel), 문자열 서비스퀀스 커널(string subsequence kernel), 레벤슈타인 거리(Levenshtein distance kernel) 정도만 가끔 상황에 따라 활용됨
- 경험적으로 봤을 때는 linear 커널을 무조건 먼저 시도해봐야함
    - linear 커널은 SVC(kernel = "linear")이 아니라, LinearSVC가 훨씬 더 빠름
        - 특히 훈련세트가 클 때
    - 훈련세트가 너무 크지 않을 경우, rbf커널을 시도해볼것
        - 대부분의 경우 rbf가 잘 맞음

## 5.2.4. 계산 복잡도
- LinearSVC의 경우 선형계산에 최적화된 알고리즘인 liblinear라이브러리 기반임
    - 커널 트릭을 지원하지 않지만, 훈련 샘플과 특성 수에 거의 선형적으로 늘어남
    - 훈련 시간 복잡도는 O(m*n)에 가까움
- SVC는 커널 트릭 알고리즘을 구현한 libsvm 라이버리를 기반으로함
    - 훈련 시간 복잡도는 보통 O(m^2*n)과 O(m^3*n) 사이의 복잡도임
    - 훈련세트가 커지면 진짜 좆되는 거임
    - 하지만 특성의 개수(특히 Sparse한 경우)가 클 경우에는 잘 확장됨

# 5.3. SVM Regression
- 선형/비선형 분류 이외에도 회귀에도 사용할 수 있음
- 회귀에 적용하는 방법 -> 목표를 반대로 하는 것
    - 일정한 마진 오류 내에서 도로 폭을 최대로 하는 것이 SVC였음
    - SVR에서는 반대로 일정한 마진 오류 안에서 도로 "안에" 가능한 많은 샘플이 들어가도록 함
        - 도로의 폭은 epsilon하이퍼 파라미터로 조절함
- 마진 안에서는 훈련 샘플이 추가되어도 모델 예측에는 영향이 없음
    - 오차가 발생하지 않는 것이니까... 수정할 이유가 없음
    - 그래서 이 모델은 epsilon에 민감하지 않다고 함

In [10]:
from sklearn.svm import LinearSVR
svm_reg = LinearSVR(epsilon = 1.5)
svm_reg.fit(X, y)

LinearSVR(C=1.0, dual=True, epsilon=1.5, fit_intercept=True,
          intercept_scaling=1.0, loss='epsilon_insensitive', max_iter=1000,
          random_state=None, tol=0.0001, verbose=0)

- 비선형 회귀 작업을 처리하려면 커널 SVM 모델을 활용함
- C값으로 규제를 걸어주는 것은 같음
    - C값이 크면, 규제가 거의 없고, C값이 작으면 규제가 많은 것!!
- LinearSVR은 LinearSVC의 회귀 버전
- LinearSVR은 필요한 시간이 훈련 세트의 크기에 비례하여 선형적으로 늘어남
- But SVR은 SVC처럼 훈련 세트가 커지면 훠어어어어어어얼씬 느려짐

In [11]:
from sklearn.svm import SVR

svm_poly_reg = SVR(kernel = "poly", degree = 2, C = 100, epsilon = 0.1)
svm_poly_reg.fit(X, y)

SVR(C=100, cache_size=200, coef0=0.0, degree=2, epsilon=0.1, gamma='scale',
    kernel='poly', max_iter=-1, shrinking=True, tol=0.001, verbose=False)

# 5.4. SVM 이론
- 좀 복잡하니, 초보자는 넘어가라는 경고까지 있는 그런 상황 ㅋㅋㅋㅋㅋ
- 편향을 b라고 표현하고 피쳐의 가중치 벡터를 w라고 표기할 것
    - 앞에서까지는 x(i = 0 ~ n)이었고, x_0는 편향이었음. 이번에는 편의상 가중치벡터와 편향을 따로 표기

## 5.4.1. 결정함수와 예측
- 선형SVM모델은 단순히 결정함수를 계산하여 새로운 샘플 x의 클래스를 예측함
    - 결정함수 : w'x+b = w1x1 + ... + wnxn + b
- 결과값이 0보다 크면 y_hat은 양성클래스, 아니면 음성클래스로 구분함
    - y_hat = 0 if w'x + b <0 // y_hat = 1 if w'x + b >= 0
- 결정함수를 초평면으로 그려보면, 기존 데이터셋과는 다른 차원의 초평면이 하나 생성됨
- ![image.png](attachment:image.png)

## 5.4.2. 목적함수
- 결정함수의 기울기 -> 가중치 벡터 ||w||의 노름과 같음
- 이 기울기를 2로 나누면 결정함수의 값이 +-1이 되는 점들이 결정경계로부터 2배 멀어짐
    - 즉, 기울기를 2로 나누는 것은 마진에 2를 곱하는 것과 같음
    - w가 작을 수록 마진이 커지며, w가 커질수록 하드마진에 가까워지는 것
- ![image.png](attachment:image.png)
- 결국 마진을 크게 하기 위해서는 ||w||를 최소화해야함
- but 마진 오류를 하나도 만들지 않는 하드 마진의 모델을 만들기 위해서는 결정함수가 모든 양성 훈련 샘플에서는 1보다 커야하며, 모든 음성 훈련 샘플에서는 -1보다 작아야함
    - 즉, y_i = 0 -> t_i = -1, y_i = 1 -> t_i = 1
    - 그러므로 하드 마진 선형 SVM의 경우 목적 함수를 제약이 있는 최적화의 문제로 표현할 수 있게 됨
- 하드 마진 선형 SVM분류기의 목적함수
    - minimize_w,b(1/2w'w) ... i = 1 ~ m, t_i(w'x_i + b) >= 1
        - ||w||의 경우 w = 0인 지점에서 미분이 불가능함
        - 따라서 ||w||^2을 미분하는게 좋은데, 미분을 깔끔하게 하기 위해서 1/2||w||^2을 사용하며, 이를 표현하면 1/2w'w가 되는 것

- 소프트 마진 분류기의 목적함수를 구성하려면 각 샘플에 슬랙 변수(slack variable)인 s_i >=0 을 도입해야함
    - ** x_i는 i번 째 샘플을, xi는 i번째 피쳐를 의미하는 것으로 본 노트북에서 정의
- s_i는 i번째 샘플이 얼마나 마진을 위반할지 결정하는 변수임
- 결국 이것은 두 개의 상충되는 목표를 가지고 있는 꼴인데...
    - 마진오류를 일단 최소화 시키긴 해야함 -> 이게 궁극적인 목표니까 -> 슬랙 변수를 작게 해야함
    - 근데, 오버피팅의 문제 등을 위해 마진 오류를 또 크게 해줘야함 -> 그래서 목적함수(1/2w'w)를 작게해야함;;;;;;;
        - 여기서 등장하는게 하이퍼파라미터 C임
        - C는 두 목표 사이의 트레이드 오프를 정의함
- 결국 이 문제는 제약을 가진 최적화의 문제로 귀결됨
- 소프트 마진 선형 SVC의 목적 함수
    - minimize(w, b, s)(1/2 w'w + CSigma(i=1, m)s_i) (i = 1 ~ m일 때, t_i(w'x_i + b)>=1-s_i, s_i >= 0)

## 5.4.3. 콰드라틱 프로그래밍
- 하드 마진 및 소프트 마진문제는 모두 선형적인 제약 조건이 있는 볼록함수의 이차 최적화 문제임
    - 이런 문제를 콰드라틱 프로그래밍(QP)문제라고 함
- 이런 문제를 푸는 테크닉은 굉장히 많지만, 일단 이 책의 범위는 벗어난다...
- 일반적인 활용 공식은 아래와 같음
    - minimize_p(1/2 p'Hp + f'p) ... if Ap <= b
        - p는 n_p차원의 벡터(n_p = #model parameter)
        - H는 n_p x n_p크기의 행렬
        - f는 n_p차원의 벡터
        - A는 n_c x n_p 크기의 행렬(n_c는 제약의 수)
        - b는 n_c차원의 벡터
- Ap <= b는 n_c개의 제약을 정의함
    - i = 1, 2, ... , n_c일 때, p'a_i <= b_i인 제약이 있음
- QP 파라메터는 다음과 같이 지정하면 하드 마진을 갖는 선형 SVC 분류기의 목적 함수를 간단히 검증할 수 있음
    - n_p = n+1 ... n = #feature
    - n_c = m_c ... m = #train_sample
    - H = n_p x n_p matrix -> H(1,1) = 0인 I
    - f = 0 ... n_p차원의 벡터이며 모든 원소가 0
    - b = 1 ... n_c차원의 벡터이며 모든 원소가 1
    - a_(i) = -t_(i)x_(i) ... x_(i)는 편향을 위해 특성 x_(0) = 1 을 추가한 x_(i)와 같음
- 하드 마진 선형 분류기를 훈련시키는 방법 중 하나는 이미 준비되어있는 QP알고리즘에 관련 파라미터를 전달하는 것
- 결과 벡터 p는 편향 b = p_0와 feature weight w_m = p_m(i = 1,...,m)을 담고 있음
- 비슷하게 소프트 마진 문제에서도 QP알고리즘을 사용할 수 있음
    - BUT kernel Trick을 사용하려면 제약이 있는 최적화 문제를 다른 형태로 바꿔야 함
         
    

## 5.4.4. 쌍대문제(Dual Problem)
- 원 문제(primal problem)라는 제약이 있는 최적화 문제가 주어질 경우 -> 쌍대 문제라고 하는 다른 문제로 표현할 수 있음
- 일반적으로 쌍대문제의 해는 원 문제 해의 하한값 -> but 상황에 따라 같은 해를 제공할 수도 있음
    - SVM은 후자임. 즉, 원 문제를 쌍대문제로 바꿔서 표현할 수 있음
- 선형 SVM 목적 함수의 쌍대 형식은 아래와 같음
    - minimize(a)(1/2 * Sigma(i=1, m)Sigma(j=1, m)(a(i)a(j)t(i)t(j)x(i)'x(j) - Sigma(i=1, m)a(i)
        - if i = 1, ... , m -> a(i) >= 0
- 위 식을 최소화하는 a_hat 벡터를 찾았다면, 아래 식을 통해 원 문제의 식을 최소화하는 w_hat과 b_hat을 계산할 수 있음
    - w_hat = Sigma(i=1, m)(a_hat(i)t(i)x(i))
    - b_hat = 1/n * Sigma(i=1, m)(t(i) - w_hat'x(i)) ... a_hat(i) > 0
- 훈련 샘플 수가 feature수보다 작을 때는 primal problem보다는 dual problem으로 가는 것이 더 좋음
    - 더 중요한 포인트는 원문제에서는 커널 트릭이 불가능하지만, 쌍대문제에서는 커널 트릭이 가능하다는 점임
- *** Primal Problem과 Dual Problem이 무엇인지 좀 더 찾아보기

## 5.4.5. Kernel SVM
- 2차원 데이터셋에 2차 다항식 변환을 적용하고 이 데이터를 선형 SVC에 적용한다고 가정
- 활용할 2차 다항색 매핑 함수는 아래와 같음
    - pi(x) = pi[(x1, x2)] = [x1^2, sqrt(2)*x1x2, x2^2] -- [ ]는 벡터 표시
- 즉 pi(x)를 통해 변환된 데이터는 2차원이 아니고 3차원이 됨
- 두 개의 2차원 벡터인 a와 b에 2차 다항식 매핑을 적용한 후 행렬 점곱(dot prodiuct) 실행
    - pi(a)'pi(b) = [a1^2, sqrt(2)*a1a2, a2^2]'[b1^2, sqrt(2)*b1b2, b2^2]
        - = a1^2b1^2 + 2a1b1a2b2 + a2^2b2^2
        - = (a1b1 + a2b2)^2
        - = [[a1, a2]'[b1, b2]]^2
        - = (a'b)^2
    - a'b는 그냥 벡터 a와 벡터 b의 점곱
- 즉, pi(x)로 변환된 벡터 점곱이 원래 벡터 점곱의 제곱과 같은 것
    - pi(a)'pi(b) = (a'b)^2
- 핵심은 다음과 같음
    - 결국 모든 훈련 샘플에 pi변환을 적용하면 쌍대문제에 dot product인 pi(x(i))'pi(x(j))가 포함될 것
    - 그러나, pip가 5.4.5. 처음에 정의한 2차 다항식 변환이라면, 해당 dot prodcut를 (x(i)'x(j))^2로 변환 가능
    - 즉, 실제 훈련 샘플을 변환할 필요가 없음
        - 그냥 dot product를 제곱으로 바꿔주기만 하면 되는 것
    - 이를 통하면 실제로 훈련 샘플을 어렵게 변환하여 Linear SVM을 적용하는것과 완전히 같으나, 훨씬 효유ㄹ적
    - 이런 것을 커널 트릭이라고 함
- 함수 K(a, b) = (a'b)^2을 2차 다항식 커널이라고 부름
    - 커널은 특정 함수인 변환 pi를 계산하지 않고도(심지어 모르더라도) a, b 벡터 기반으로 pi(a)'pi(b)를 계산할 수 있게 해줌
    - 일반적으로 사용되는 커널은 아래와 같음
        - 1) 선형 커널 : K(a, b) = a'b
        - 2) 다항 커널 : K(a, b) = (gamma a'b + r)^d
        - 3) 가우시안 RBF : K(a, b) = exp(-gamma||a-b||^2)
        - 4) 시그모이드 : K(a, b) = tanh(gamma a'b + r)

- (참고) 머서의 정리(Mercer's Theorem)
    - K(a, b)가 머서의 조건(Mercer's Cond)를 따르면,
        - 머서의 조건
            - 1) 함수 K가 매개변수에 대해 연속, 대칭임
                - 즉, K(a, b) = K(b, a)
            - 2) ...
    - a, b를 더 높은 차원의 다른 공간(초평면, SV)에 매핑하는 K(a, b) = pi(a)'pi(b)와 같은 함수 pi가 존재함
        - 그런데 , pi가 뭔 지 몰라도, 커널 트릭을 사용하면 K를 커널로 사용할 수 있게 되는 것
        - 가우시안 RBF의 경우, pi는 각 훈련 샘플을 무한 차원의 공간에 매핑하는 것이나 마찬가지
    - 시그모이드 커널같은 경우 머서의 조건을 모두 따르지는 않지만, 실전에서 꽤나 잘 작동하여 애용됨

- 쌍대문제의 경우, 커널 트릭을 사용하게 되면 결국 예측 식에 pi(x(i))가 포함되어야함
- w_hat의 차원 -> 매우 크거나 혹은 무한한 pi(x(i))의 차원과 같아져야 함
    - 즉, w_hat을 계산할 수 없음
    - 근데 이를 모르는 채로 예측을 만드는 것은 어려움
        - 다행히, 다른 방법이 존재함
        - w_hat에 대한 식을 새로운 샘플 x(n)의 결정함수에 적용하여 입력 벡터간의 dot product로만 이루어진 식을 얻을 수 있음
        - 그러면 커널 트릭을 사용할 수 있게 되어 다시 동일 식이 됨
- 커널 SVM으로 예측하기
    - h_whatbhat(pi(x(n)) = w_hat'pi(x(n))+b_hat = (Sigma(i=1, m)(a_hat(i)t(i)pi(x(i)))'pi(x(n))+b_hat
        - = Sigma(i=1, m)(a_Hat(i)t(i)( pi(x(i))'pi(x_(n)) )) + b_hat
        - = Sigma(i=1, m )(a_hat(i)t(i)K(x(i), x(n))) + b_hat
    - a_hat(i)!=0이기 떄문에 예측을 만드는데는 전체 샘플이 아니라 SV와 새로운 입력벡터 x(n)간의 dot product만 계산하면 됨
    - 물론 b또한 커널트릭으로 구해야하긴 함
    - b_hat = 1/n_s * Sigma(i=1, m)(t(i) - w_hat'pi(x(i)))
        - = 1/n_s * Sigma(i=1, m)(t(i)-(Sigma(j=1, m)(a_hat(j)t(j)pi(x(j))))pi(x(i))
        - = 1/n_s * Sigma(i=1, m)(t(i) - Sigma(j=1, m)(a_hat(j)t(j)K(x(i),x(j)))

# 5.4.6. 온라인 SVM
- 온라인 학습이 가능하긴 하나, 일단 SGD방식을 쓰게되는데 이는 QP방식의 학습보다 월등히 느림
- 커널을 구현할 수도 있지만, 대규모 비선형문제라면 NN알고리즘을 고려하는게 더 낫다~ 이말이야