## 梯度

### 梯度的概念

对于函数$f(x_0,x_1)=x_0^2+x_1^2$可以分别计算$(x_0,x_1)$的偏导数$(\frac{df}{dx_0},\frac{df}{dx_1})$.
梯度就是有全部变量的偏导数汇总在一起的向量.
其代码如下:

In [1]:
# 计算函数的梯度
import numpy as np

def numerical_gradient(f,x):
    """
    f:表示为函数
    x:表示函数的变量,numpy数组
    """
    h = 1e-4 #0.0001
    grad = np.zeros_like(x) # 生成于x size一样的数组
    
    for idx in range(x.size):
        tmp_val = x[idx]
        # 计算f(x+h)
        x[idx] = tmp_val + h
        fxh1 = f(x)
        # 计算f(x-h)
        x[idx] = tmp_val - h
        fxh2 = f(x)
        
        # 利用导数的公式计算
        grad[idx] = (fxh1 - fxh2) /(2*h)
        x[idx] = tmp_val
    
    return grad
        

In [2]:
# 定义函数f(x)=x0^2+x1^2
def function_2(x):
    return np.sum(x**2)


In [13]:
#计算梯度
print(numerical_gradient(function_2,np.array([2.0,1.0])))

print(numerical_gradient(function_2,np.array([3.0,4.0])))

print(numerical_gradient(function_2,np.array([4.0,5.0])))

[4. 2.]
[6. 8.]
[ 8. 10.]


上面我们计算不同点的梯度,其实梯度的向量就是指向函数最小值的方向.为了更好的理解梯度的意义,看看下图的表示:
![](imgs/3.jpg)

**梯度指示的方向是各点处的函数值减少最多的方向**

### 梯度法

我们在上一小节说到可以通过损失函数来优化参数,至于怎么来优化并没有给出具体的方法.这一小节我们就来说说利用梯度法来优化参数.

损失函数就是我们这里需要求解的梯度函数.利用梯度来找到损失函数最小的值.这就是我们所说的梯度法.

#### 梯度法的由来
梯度表示的是各点处的函数值减小最多的方向。因此，无
法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。实际上，在复杂的函数中，梯度指示的方向基本上都不是函数值最小处。  
虽然梯度的方向并不一定指向最小值，但沿着它的方向能够最大限度地减小函数的值。  
通过不断地沿梯度方向前进，逐渐减小函数值的过程就是**梯度法（gradient method）**。梯度法是解决机器学习中最优化问题的常用方法，特别是在神经网络的学习中经常被使用。

#### 两种梯度法

**梯度下降法（gradient descent method）**  
就是寻找最小值的梯度法  

**梯度上升法（gradient ascent method）**  
找最大值的梯度法  

神经网络（深度学习）中，梯度法主要是指梯度下降法。

这里我们是需要根据计算的梯度的值来更新参数，根据上面的我们定义的函数：$f(x_0,x_1)=x_0^2+x_1^2$

其梯度法的表示如下：

$
x_0=x_0-\alpha \frac{df}{dx_0}
$

$
x_1=x_1-\alpha \frac{df}{dx_1}
$

其中公式中：
$\alpha$称作网络的学习率，它决定了网络每次更新的多少。说的简单点每一步的步长的大小。一般设定为0.01,0.001等值.
上面的公式就可以看出数据的不断的变化,直到函数获得一个较少的值.
我们利用公式实现如下




In [3]:
def gradient_descent(f,init_x,lr=0.01,step_num=100):
    """
    f:需要优化的函数
    init_x: 参数的初始化
    lr:学习率
    step_num: 更新的次数
    """
    # 初始化参数
    x = init_x
    
    # 循环执行参数的优化
    for i in range(step_num):
        # 计算当前的梯度值
        grad = numerical_gradient(f,x)
        # 利用梯度下降法更新参数
        x -= lr*grad
        
    return x

这里我们利用上面梯度的函数寻找该函数的最小值,我们更新100次发现其效果如下,(2.03703598e-10 4.07407195e-10),该值已经非常接近最小值(0,0).更新的过程如下:
![](imgs/4.jpg)

这里我们再做一个试验,看看不同的学习率,带来不同的效果如下:
- 学习率过小,收敛的速度较慢
- 学习率过大,数据发散了

这里可以看出学习率是一个非常重要的参数,它就是我们这里常说的超参数.

In [5]:
# 测试梯度法的优化效果
init_x = np.array([1.0,2.0])
print(gradient_descent(function_2,init_x,lr=0.1,step_num=100))

# 学习率过小
init_x = np.array([1.0,2.0])
print(gradient_descent(function_2,init_x,lr=0.00001,step_num=100))

# 学习率过大
init_x = np.array([1.0,2.0])
print(gradient_descent(function_2,init_x,lr=10,step_num=100))

[2.03703598e-10 4.07407195e-10]
[0.99800198 1.99600396]
[6.38707405e+12 1.61426731e+13]


### 神经网络的梯度

上面小节我们介绍关于梯度法来更新参数的过程,以上的函数是我们自己设置的函数.接下来我们看看具体到神经网络中,我们怎么利用梯度法来更新参数.
按照梯度的概念,假设我们这这里的权重参数W(2x3),损失函数为L,对于W的梯度我们可以写成如下:
![](imgs/5.jpg)

上面的公式:
- $\frac{dL}{dW}$ 表示函数L对W的偏导
- $\frac{dL}{dW_11}$ 表示函数L对W11的偏导

下面来实现一个简单的神经网络，定一个simpleNet类

In [4]:
import sys,os
sys.path.append(os.pardir)
import numpy as np
from common.functions import softmax,cross_entropy_error
from common.gradient import numerical_gradient

class simpleNet:
    #定义的输入为2，隐藏层为3的网络
    def __init__(self):
        self.W = np.random.randn(2,3)
        
    # 仅仅计算权重的结果    
    def predict(self,x):
        return np.dot(x,self.W)
    
    def loss(self,x,t):
        # 计算z
        z = self.predict(x)
        # 计算a
        y = softmax(z)
        # 计算cross_entropy的损失值
        loss = cross_entropy_error(y,t)
        
        return loss

In [10]:
# 定义一个只有一个隐含的神经网络
net = simpleNet()
print(net.W)
# 定义输入为2
x = np.array([0.5,0.6])
# 计算权重的值
p = net.predict(x)
print(p)
# 计算最大的值的index
print(np.argmax(p))
# 标签的定义
t = np.array([0,0,1])
print(net.loss(x,t))

# 定义损失函数
def f(W):
    return net.loss(x,t)
# 梯度下降计算dw的值
dW = numerical_gradient(f,net.W)
print(dW)

[[-0.90312864  0.73281655 -0.04845894]
 [-0.41849842  0.51630247  0.42324743]]
[-0.91852576  0.90436215  0.35184732]
1
1.1047081044971634
[[ 0.05580413  0.34541126 -0.40121539]
 [ 0.08370619  0.5181169  -0.60182309]]
