# 损失函数：多类支持向量机损失

Multiclass SVM Loss

$L_i = \sum_{j\ne y_i} max(0,s_j-s_{y_i}+1)\,. $

In [None]:
import numpy as np

def L_i_vectorized(x, y, W):
    scores = W.dot(x)  # 计算得分
    margins = np.maximum(0, scores - scores[y] + 1)  # 最大值计算
    margins[y] = 0  # 正确类别对应的最大裕量 margins
    loss_i = np.sum(margins)  # 求和运算
    return loss_i

In [None]:
# 计算多类支持向量损失函数，非矢量化和半矢量化形式

def L_i(x, y, W):
    """
    未向量化版本.
      对给定的单个样本(x,y)计算multiclass svm loss.
      - x: 代表图片像素输入的向量 （例如CIFAR-10中是3073 x 1， 因为添加了bias项对应的1到x中）
      - y: 图片对应的类别编号 （比如CIFAR-10 中是 0-9）
      - W: 权重矩阵 （例如CIFAR-10 中是10 x 3073）
    """
    delta = 1.0  # 设定delta
    scores = W.dot(x)  # 内积计算得分
    correct_class_score = scores[y]
    D = W.shape[0]  # 类别数，例如10
    loss_i = 0.0
    for j in xrage(D):  # 遍历所有错误的类别
        if j == y:
            # 跳过正确类别
            continue
        # 对第 i 个样本累加 loss
        loss_i += max(0, scores[j]-correct_class_score+delta)
    return loss_i

def L_i_vectorized(x, y, W):
    """
    半向量化版本，速度更快。
    之所以说是半向量化，是因为这个函数外层要用for循环遍历整个训练集
    """
    delta = 1.0
    scores = W.dot(x)
    # 矩阵一次性计算
    margins = np.maximum(0, scores-scores[y]+delta)
    # 忽略正确类别
    margins[y] = 0
    loss_i = np.sum(margins)
    return loss_i

# 最优化： 策略 #1 ——随机搜索

策略 #1：欠佳的解决思路：随机搜索

In [None]:
import numpy as np
# 假设 X_train 是训练集 (例如. 3073 x 50, 000)
# 假设 Y_train 是类别结果 （例如. 1D array of 50, 000)

bestloss = float("inf")  # 初始化一个最大的 float值
for num in xrange(1000):
    W = np.random.randn(10, 3073) * 0.0001  # 随机生成一组参数
    loss = L(X_train, Y_train, W)  # 计算损失函数
    if loss < bestloss:  # 比对已搜寻中最好的结果
        bestloss = loss
        bestW = W
    print('in attempt $d the loss was %f, best %f' % (num, loss, bestloss))

# 尝试在测试集上的性能
# 假定 X_test 为 [3073 x 10000], Y_test 为 [10000 x 1]
scores = Wbest.dot(Xte_cols)  # 10 x 10000, 计算类别得分
# 找到最高得分作为结果
Yte_predict = np.argmax(scores, axis = 0)
# 计算准确度
np.mean(Yte_predict == Yte)
# 返回 0.1555

# 最优化：数值梯度计算

In [None]:
import numpy as np

def eval_numerical_gradient(f, x):
    """
    一个最基本的计算x点上f的梯度的算法
    - f 为参数为x的函数
    - x 是一个numpy的vector
    """
    
    fx = f(x)  # 计算原始点上的函数值
    grad = np.zeros(x.shape)
    h = 0.00001
    
    # 对x的每个维度都计算一遍
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    while not it.finished:
        
        # 计算 x+h 处的函数值
        ix = it.multi_index
        old_value = x[ix]
        x[ix] = old_value + h  # 加 h
        fxh = f(x)  # 计算 f(x + h)
        x[ix] = old_value  # 存储之前的函数值
        
        # 计算偏导数
        grad[ix] = (fxh - fx) / h  # 斜率
        it.iternext()  # 开始下一个维度上的偏导计算
        
    return grad

# 最优化：梯度下降

In [None]:
# 伪代码
while True:
    weights_grad = evaluate_gradient(loss_fun, data, weights)
    weights += - step_size * weights_grad  # 梯度下降更新参数

# 最优化：小批量梯度下降

In [None]:
# 伪代码
while True:
    data_batch = sample_training_data(data, 256)  # 抽样256个样本作为一个batch
    weights_grad = evaluate_gradient(loss_fun, data_batch, weights)
    weights += - step_size * weights_grad  # 参数更新