# Sprint_5 SVM

ハードマージン（分類の間違いを認めない）SVMをスクラッチする。

In [5]:
import numpy as np


In [1]:
class ScratchSVMClassifier():
    """
    SVM分類器のスクラッチ実装

    Parameters
    ----------
    num_iter : int
      イテレーション数
    lr : float
      学習率
    kernel : str
      カーネルの種類。線形カーネル（linear）か多項式カーネル（polly）
    threshold : float
      サポートベクターを選ぶための閾値
    verbose : bool
      学習過程を出力する場合はTrue

    Attributes
    ----------
    self.n_support_vectors : int
      サポートベクターの数
    self.index_support_vectors : 次の形のndarray, shape (n_support_vectors,)
      サポートベクターのインデックス
    self.X_sv :  次の形のndarray, shape(n_support_vectors, n_features)
      サポートベクターの特徴量
    self.lam_sv :  次の形のndarray, shape(n_support_vectors, 1)
      サポートベクターの未定乗数
    self.y_sv :  次の形のndarray, shape(n_support_vectors, 1)
      サポートベクターのラベル

    """
    def __init__(self, num_iter, lr, kernel='linear', threshold=1e-5, verbose=False):
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
        self.kernel = kernel
        self.threshold = threshold
        self.verbose = verbose
        
        
    ############################################################################################
    #追加部分#    

    def kernel_fai(self, X):
        """
        Xの総当たり、独立させたカーネル関数
        Returns
        -------
        answer : 次の形のndarray, shape (n_samples, 1) 
        """
        answer = np.dot(X, X.T)
        return answer
        
    def lagrange_gradient(self, weight, lam, X, y, kernel_function):
        """
        【問題1】ラグランジュの未定乗数法による最急降下
        
         Parameters
        ----------
        weight : 学習率（int or float）
        lam : ラグランジュ乗数λ（int or float）
        kernel_function : カーネル関数 (function)
        
        Returns
        -------
        lam_new : 次の形のndarray, shape (n_samples, 1)
            更新されたラグランジュ乗数
            
        """
        lam_new = np.empty(0)

        if np.all(lam >= 0):
            lam_new = np.append(lam_new, lam + weight * (1 - np.sum(np.dot(lam.T, (np.dot(y, y.T) * kernel_function)))))

        else:
            lam_new = np.append(lam_new, weight * (1 - np.sum(np.dot(lam.T, (np.dot(y, y.T) * kernel_function)))))

        return lam_new
    
    def support_vector(lam_new, threshold):
        """
        【問題2】サポートベクターの決定
        
        Parameters
        ----------
        threshold : 閾値 (float or int)
        
        """
        lam_sv = np.where(lam_new>threshold) 
        return lam_sv
    
    
    ############################################################################################

    def fit(self, X, y, X_val=None, y_val=None):
        """
        SVM分類器を学習する。検証データが入力された場合はそれに対する精度もイテレーションごとに計算する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass
    
    def predict(self, X):
        """
        SVM分類器を使いラベルを推定する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル

        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            SVM分類器による推定結果
        """
        pass
        return

## 【考察】

* SVMは未知のデータを識別するためにある。
* 識別境界線を引いて、1と-1のクラス領域に分ける。
    * 境界線に最も近いサンプルとの距離（マージン）が最大となるようにする。
    
* ラグランジュ未定乗数法を用いる。
    * サンプル数分のラグランジュ乗数 $\lambda$ を用意する。
    * 以下の式で$\lambda$を更新していく。
    * $ \lambda_i^{new} = \lambda_i + \alpha(1 - \sum_{j=1}^{n}{\lambda_j y_i y_j k(x_i, x_j)})\ $
    * $k(x_i, x_j)$ はカーネル関数
        * 多項式カーネル
        * この部分は独立したメソッド
        
    * $ k(x_i, x_j) = x_{i}^{T} x_j\ $
        * 更新毎に $\lambda_i >= 0$を満たす必要がある。
        * 満たさない場合は $\lambda_i = 0$とする。


## 【問題1】ラグランジュの未定乗数法による最急降下

* ScratchSVMClassifierに実装する。
* g(x, y) = 0 が制約条件
* 目的関数 f(x, y) を最大化（最小化）にする x, y を求める手法

【復習】
* np.dot: ベクトルの内積の結果、行列の積の結果を返す。


In [179]:
"""""
ramda = samples in axis=0
i, j = number of samples
w = weight

"""""


# for i, j in range(len(ramda)):
    
# Xの総当たり、独立させたカーネル関数
def kernel_fai(a, b):
    answer = np.dot(a, b.T)
    return answer

def lagrange_gradient(weight, lam, X, y, kernel_function):
    lam_new = np.empty(0)
    
    if np.all(lam >= 0):
        lam_new = np.append(lam_new, lam + weight * (1 - np.sum(np.dot(lam.T, (np.dot(y, y.T) * kernel_function)))))

    else:
        lam_new = np.append(lam_new, weight * (1 - np.sum(np.dot(lam.T, (np.dot(y, y.T) * kernel_function)))))
    
    return lam_new



In [147]:
# test_data
weight = 0.01
lam = np.array([8, 3, 5, 9, 1])

print(f'lam.shape:{lam.shape}')

X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
print(f'X.shape:{X.shape}')
print(f'X:{X}')

y = np.array([1, -1, 1, -1, 1])
y = y.reshape(-1, 1)
print(f'y.shape:{y.shape}')
print(f'y:{y}')

lam.shape:(5,)
X.shape:(5, 2)
X:[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]]
y.shape:(5, 1)
y:[[ 1]
 [-1]
 [ 1]
 [-1]
 [ 1]]


In [180]:
kernel_fai(X, X)

array([[  5,  11,  17,  23,  29],
       [ 11,  25,  39,  53,  67],
       [ 17,  39,  61,  83, 105],
       [ 23,  53,  83, 113, 143],
       [ 29,  67, 105, 143, 181]])

In [109]:
np.dot(y, y.T)

array([[ 1, -1,  1, -1,  1],
       [-1,  1, -1,  1, -1],
       [ 1, -1,  1, -1,  1],
       [-1,  1, -1,  1, -1],
       [ 1, -1,  1, -1,  1]])

In [110]:
np.dot(y, y.T) * kernel_fai(X)

array([[   5,  -11,   17,  -23,   29],
       [ -11,   25,  -39,   53,  -67],
       [  17,  -39,   61,  -83,  105],
       [ -23,   53,  -83,  113, -143],
       [  29,  -67,  105, -143,  181]])

In [118]:
n = np.dot(lam, (np.dot(y, y.T) * kernel_fai(X)))
np.sum(n)

-318

In [125]:
0.01 * (1 - np.sum(n))

3.19

In [121]:
lam + 0.01 * (1 - np.sum(n))

array([11.19,  6.19,  8.19, 12.19,  4.19])

In [167]:
lam_new = lagrange_gradient(weight, lam, X, y, kernel_fai(X))
lam_new

array([11.19,  6.19,  8.19, 12.19,  4.19])

## 【問題2】サポートベクターの決定

サポートベクターを決定し、インスタンス変数として保持しておくコードを書いてください。

* 計算したラグランジュ乗数 λ が設定した閾値より大きいサンプルをサポートベクターとして扱う。
* 推定時にサポートベクターが必要になる。
* (ヒント)閾値はハイパーパラメータだが、1e-5程度からはじめると良い。
* (ヒント)サポートベクターの数を出力させられるようにしておくと学習がうまく行えているかを確認できる。

In [189]:
"""
Parameters
----------
threshold : 閾値 (float or int)

"""

def support_vector(lam_new, threshold):
    lam_sv_index = np.where(lam_new>threshold)
    
    return lam_sv_index

## 【問題3】推定

* 推定したいデータの特徴量とサポートベクターの特徴量をカーネル関数によって計算する。
* 求めた符号（正か負）が分類結果。

In [220]:
lam_sv_index = support_vector(lam_new, 7)
lam_new[lam_sv_index]

array([11.19,  8.19, 12.19])

In [202]:
y[lam_sv_index]

array([[ 1],
       [ 1],
       [-1]])

In [218]:
np.dot(lam_new[lam_sv_index].reshape(3, 1), y[lam_sv_index].T)

array([[ 11.19,  11.19, -11.19],
       [  8.19,   8.19,  -8.19],
       [ 12.19,  12.19, -12.19]])

In [219]:
kernel_fai(X, lam_new[lam_sv_index])

ValueError: shapes (5,2) and (3,) not aligned: 2 (dim 1) != 3 (dim 0)

In [185]:
y[0] * kernel_fai(X, lam_new[0])

array([[ 11.19,  22.38],
       [ 33.57,  44.76],
       [ 55.95,  67.14],
       [ 78.33,  89.52],
       [100.71, 111.9 ]])

In [186]:
np.dot()

array([1])