 - 损失函数可视化
 - 最优化

前面介绍了两部分：
 1. 评分函数：将原始图像像素映射为分类评分值
 2. 损失函数：根据评分函数和训练集图像数据实际分类的一致性，衡量某个具体参数集的质量好坏。
那么寻找到能使损失函数值最小化的参数的过程就是最优化 Optimization。

损失函数可视化
====
损失函数L可以看作是权重W的函数，在CIFAR-10中一个分类器的权重矩阵大小是[10,3073]，即$L(W_1,W_2,....,W10)$，对其中某一个分类器$W_i$有3073个参数，想要得到$L$关于$W_i$的可视化很难。
但是方法还是有的，随机生成一个权重矩阵W，并沿着此方向计算损失值，$L(W+\alpha W_1)$。

[具体参考这里！](https://zhuanlan.zhihu.com/p/21360434?refer=intelligentunit)
[还有这样一篇paper！](https://arxiv.org/abs/1712.09913)

总而言之，就是将高维空间压缩到二维，$W_i[1,3073]$转换到$[1,1]$然后在此基础上，画出loss关于它的值。
如果是压缩到三维，就是[1,3073]->[1,2]，那么完整的loss就是这个形状的3073/2*10维的版本。

最优化Optimization
==

在数学上我们已经知道loss下降最快的方向就是梯度方向（gradient）。

**有限差值法计算梯度**：

公式：$\frac{df(x)}{dx} = \lim_{h\to 0}\frac{f(x+h)-f(x)}{h}$
下面代码是一个输入为函数f和向量x，计算f的梯度的通用函数，它返回函数f在点x处的梯度：

In [1]:
def eval_numerical_gradient(f, x):
  """  
  一个f在x处的数值梯度法的简单实现
  - f是只有一个参数的函数
  - x是计算梯度的点
  """ 

  fx = f(x) # 在原点计算函数值
  grad = np.zeros(x.shape)   ##
  h = 0.00001

  # 对x中所有的索引进行迭代
  it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
  while not it.finished:

    # 计算x+h处的函数值
    ix = it.multi_index
    old_value = x[ix]
    x[ix] = old_value + h # 增加h
    fxh = f(x) # 计算f(x + h)
    x[ix] = old_value # 存到前一个值中 (非常重要)

    # 计算偏导数
    grad[ix] = (fxh - fx) / h # 坡度
    it.iternext() # 到下个维度

  return grad

可以使用上面这个公式来计算任意函数在任意点上的梯度。下面计算权重空间中的某些随机点上，CIFAR-10损失函数的梯度：

In [3]:
import random
import numpy as np
from assignment1.cs231n.data_utils import load_CIFAR10
from assignment1.cs231n.classifiers.softmax import softmax_loss_vectorized

##原始数据
cifar10_dir = 'cs231n/datasets/cifar-10-batches-py'
X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir)

##根据softmax损失函数据算loss,这个函数里面有用微分法计算梯度，但我们只取loss
def CIFAR_loss_fun(W):
    loss,dw = softmax_loss_vectorized(W, X_train, y_train, 0.000005)
    return  loss

W = np.random.randn(3073, 10) * 0.0001  ##随机权重向量
df = eval_numerical_gradient(CIFAR_loss_fun, W) ##计算权重空间下任意点关于loss的梯度

loss_original = CIFAR_loss_fun(W)  ##初始损失值
print("original loss: %f"%(loss_original,))

#查看不同步长的效果
for step_size_log in [-10,-9,-8,-7,-6,-5,-4,-3,-2,-1]:
    step_size = 10**step_size_log
    W_new = W-step_size*df
    loss_new = CIFAR_loss_fun(W_new)
    print("for step size %f new loss: %f" % (step_size, loss_new))
    

ModuleNotFoundError: No module named 'cs231n'