# 【問題1】ラグランジュの未定乗数法による最急降下
SVMの学習は、ラグランジュの未定乗数法を用います。サンプル数分のラグランジュ乗数 
λを用意して、以下の式により更新していきます。この計算を行うメソッドをScratchSVMClassifierクラスに実装してください。

$$
λ
n
e
w
i
=
λ
i
+
α
(
1
−
n
∑
j
=
1
λ
j
y
i
y
j
k
(
x
i
,
x
j
)
)
$$ 
ここで 
k
(
x
i
,
x
j
)
 はカーネル関数です。線形カーネルの場合は次のようになります。他のカーネル関数にも対応できるように、この部分は独立したメソッドとしておきましょう。

$$
k
(
x
i
,
x
j
)
=
x
T
i
x
j
$$
条件として、更新毎に 
λ
i
>=
0
を満たす必要があります。満たさない場合は 
λ
i
=
0
とします。


i
,
j
 : サンプルのインデックス


λ
n
e
w
i
 : 更新後のi番目のサンプルのラグランジュ乗数


λ
i
 : 更新前のi番目のサンプルのラグランジュ乗数


α
 : 学習率


λ
j
 : j番目のサンプルのラグランジュ乗数


y
i
 : i番目のサンプルのラベル


y
j
 : j番目のサンプルのラベル


x
i
 : i番目のサンプルの特徴量ベクトル


x
j
 : j番目のサンプルの特徴量ベクトル


あるサンプルに対しての全てのサンプルとの関係を計算していくことになります。



In [102]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
X = X.loc[:, ['petal length (cm)', 'petal width (cm)']][0:100].to_numpy()
y = iris.target[0:100]

a = np.random.rand(X.shape[0], 1)
b = np.arange(0,12).reshape(3,4)
c = np.arange(0,15).reshape(3,5)



In [None]:
class ScratchSVMClassifier():
    """
    SVM分類器のスクラッチ実装
    Parameters
    ----------
    num_iter : int
      イテレーション数
    lr : float
      学習率
    kernel : str
      カーネルの種類。線形カーネル（linear）か多項式カーネル（polly）
    threshold : float
      サポートベクターを選ぶための閾値
    verbose : bool
      学習過程を出力する場合はTrue
    Attributes
    ----------
    self.n_support_vectors : int
      サポートベクターの数（線を引く時の最小値の数）
    self.index_support_vectors : 次の形のndarray, shape (n_support_vectors,)
      サポートベクターのインデックス
    self.X_sv :  次の形のndarray, shape(n_support_vectors, n_features)
      サポートベクターの特徴量
    self.lam_sv :  次の形のndarray, shape(n_support_vectors, 1)
      サポートベクターの未定乗数
    self.y_sv :  次の形のndarray, shape(n_support_vectors, 1)
      サポートベクターのラベル
    """
    def __init__(self, num_iter, lr, kernel='linear', threshold=1e-5, verbose=False):
        # ハイパーパラメータを属性として記録
        self.iter = num_iter
        self.lr = lr
        self.kernel = kernel
        self.threshold = threshold
        self.verbose = verbose
        self.lam_sv = np.random.rand(X.shape[0], 1)
    
    def fit(self, X, y, X_val=None, y_val=None):
        """
        SVM分類器を学習する。検証データが入力された場合はそれに対する精度もイテレーションごとに計算する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        if self.verbose:
            #verboseをTrueにした際は学習過程を出力
            print()
        pass
    def predict(self, X):
        """
        SVM分類器を使いラベルを推定する。
        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            サンプル
        Returns
        -------
            次の形のndarray, shape (n_samples, 1)
            SVM分類器による推定結果
        """
        pass
        return
    
    def gradient(self, X, y, ):
        self.lam_sv += self.lr*(1-np.sum(self,lam_sv*np.dot()))  
        
        
    def _kernel(self, X):
        kernel = np.dot(X.T, X)
        return kernel
    
    def _sign(self, X, w):
        y_sign = np.sign(w.T, X)
        return y_sign
    

In [167]:
X.shape

(100, 2)

In [None]:
#　実験２　i,jをdiver通りにしてみる
# 結論 実験２の考え方をfor分を使って実装するのが正しい

lam_sv # shape(100,1)
lam_sv[j] # shape(1,1)?
lam_sv[i] # shape(1,1)?
y.reshape(-1,1) # shape(100, 1)
y[i] # shape(1,1)?
y[j] # shape(1,1)?
X # shape(100,2)
X.T[i] # shape(1,2)
X[j] # shape(1,2)

# 例 λi * λj
i = 1, j=1
shape(1,2)*shape(1,2) 

i = 1, j=2
shape(1,2)*shape(2,2)

i = 1, j=3
shape(1,2)*shape(3,2)
...


i = 2, j=1
shape(2,2)*shape(1,2) 

i = 2, j=2
shape(2,2)*shape(2,2)

i = 2, j=3
shape(2,2)*shape(3,2)



lam_sv = np.random.rand(X.shape[0], 1)
def gradient(X, y, lr):
    iter = 1000
    y = y.reshape(-1,1)
    lam_sv = np.random.rand(X.shape[0], 1)
    
    for i in range(X.shape[0]):
        for j in range(X.shape[0]):
            calculation = (y[i]*y[j]*np.dot(X[i, 0].T,X[j, 1])) # iにするとreturnで止まるので無理
            #print(calculation.shape)
            delta = 1 - (np.sum(lam_sv[j]*calculation)) 
            lam_sv[i] += lam_sv[i]*delta # 更新されなくなるからぼつ
        return lam_sv

a = gradient(X, y, 0.01)
print(X.shape)
print(y.shape)

print(X[0,0].T*X[0,1])
d = (y[0].T*y[0]).reshape(-1,1)
lam_sv[0]
e = np.arange(0,30)
print((e * lam_sv[0]).shape)
a

In [168]:
# 実験１　独自で放り込む
# 更新ごとにλ>=0を満たす、という点は考慮しない
f = lam_sv = np.random.rand(X.shape[0], 1)
def gradient(X, y, lr):
    iter = 1000
    y = y.reshape(-1,1)
    lam_sv = np.random.rand(X.shape[0], 1)
    
    for i in range(iter):
        for j in range(X.shape[0]):
            kernel = np.dot(X[j, 0].T,X[j, 1])
            calculation = (y[j]*y[j].T*kernel).reshape(-1,1)
            delta = 1 - (np.sum(lam_sv.T*calculation))
            lam_sv[j] += lam_sv[j]*delta 
        return lam_sv

a = gradient(X, y, 0.01)
print(X.shape)
print(y.shape)

print(X[0,0].T*X[0,1])
d = (y[0].T*y[0]).reshape(-1,1)
e = np.maximum(0, f)


(100, 2)
(100,)
0.27999999999999997


array([ 1.98076328e+00,  1.42215859e+00,  1.26466522e+00,  9.56176036e-01,
        3.55049203e-01,  1.57000290e+00,  1.82051188e+00,  1.00249380e+00,
        1.93772521e+00,  1.19155903e+00,  1.15530044e+00,  9.83058375e-01,
        1.95153863e+00,  5.16947601e-01,  5.83559045e-01,  1.27940406e+00,
        3.18563080e-01,  9.95594973e-01,  2.55064095e-01,  8.46682166e-01,
        2.59023213e-01,  1.91466642e+00,  1.89586042e+00,  1.80913514e+00,
        2.85597151e-01,  4.62729173e-01,  1.53726674e+00,  1.71587694e+00,
        1.97636664e+00,  1.78185359e+00,  5.80189443e-01,  1.91268176e+00,
        1.52681327e+00,  5.79205742e-01,  1.53163126e+00,  5.96530816e-01,
        2.28294323e-01,  1.91726085e+00,  1.33091238e+00,  1.88039562e+00,
        4.00934061e-01,  5.66622877e-01,  3.85782915e-01,  1.04113777e+00,
        6.66585794e-01,  5.66001254e-01,  1.59948729e+00,  1.75708661e+00,
        1.11194591e-01,  1.99754336e+00, -4.75678484e+02,  1.67774273e+03,
       -4.37182395e+03,  

In [24]:
import numpy
from matplotlib import pyplot
import sys

def f(x, y):
    return x - y

if __name__ == '__main__':

    param = sys.argv

    numpy.random.seed()
    N = 30
    d = 2
    X = numpy.random.randn(N, d)
    T = numpy.array([1 if f(x, y) > 0 else - 1 for x, y in X]) #sign関数
    alpha = numpy.zeros(N)
    beta = 1.0
    eta_al = 0.0001 # update ratio of alpha
    eta_be = 0.1 # update ratio of beta
    itr = 1000

    for _itr in range(itr):
        for i in range(N):
            delta = 1 - (T[i] * X[i]).dot(alpha * T * X.T).sum() - beta * T[i] * alpha.dot(T)
            alpha[i] += eta_al * delta
        for i in range(N):
            beta += eta_be * alpha.dot(T) ** 2 / 2

    index = alpha > 0
    w = (alpha * T).T.dot(X)
    b = (T[index] - X[index].dot(w)).mean()

    if '-d' in param or '-s' in param:
        seq = numpy.arange(-3, 3, 0.02)
        pyplot.figure(figsize = (6, 6))
        pyplot.xlim(-3, 3)
        pyplot.ylim(-3, 3)
        pyplot.plot(seq, -(w[0] * seq + b) / w[1], 'k-')
        pyplot.plot(X[T ==  1,0], X[T ==  1,1], 'ro')
        pyplot.plot(X[T == -1,0], X[T == -1,1], 'bo')

        if '-s' in param:
            pyplot.savefig('graph.png')

        if '-d' in param:
            pyplot.show()



# 【問題2】サポートベクターの決定
計算したラグランジュ乗数 
λ
 が設定した閾値より大きいサンプルをサポートベクターとして扱います。推定時にサポートベクターが必要になります。サポートベクターを決定し、インスタンス変数として保持しておくコードを書いてください。


閾値はハイパーパラメータですが、1e-5程度からはじめると良いでしょう。サポートベクターの数を出力させられるようにしておくと学習がうまく行えているかを確認できます。

# 【問題3】推定
推定時には、推定したいデータの特徴量とサポートベクターの特徴量をカーネル関数によって計算します。求めた 
f
(
x
)
 の符号が分類結果です。

# 【問題4】学習と推定
機械学習スクラッチ入門のSprintで用意したシンプルデータセット1の2値分類に対してスクラッチ実装の学習と推定を行なってください。


scikit-learnによる実装と比べ、正しく動いているかを確認してください。


AccuracyやPrecision、Recallなどの指標値はscikit-learnを使用してください。

# 【問題5】決定領域の可視化
決定領域を可視化してください。


以下の例のようにサポートベクターは異なる色で示してください。

# 【問題6】（アドバンス課題）多項式カーネル関数の作成
最初に作成した実装では線形カーネルを使用していました。多項式カーネルにも切り替えられるようにしましょう。