# 梯度

函数所有偏导数构成的向量就叫做梯度。

梯度是导数在多维空间的扩展。

导数告诉你函数在某一点变化的快慢（斜率）。
梯度告诉你函数在一个多维空间中，往哪个方向变化得最快。

![](Images/3.png)


梯度向量的方向即为函数值增长最快的方向。

模型就是通过不断地减小损失函数值的方式来进行学习的。让损失函数最小化，通常就要采用梯度下降的方式，即：每一次给模型的权重进行更新的时候，都要按照梯度的反方向进行。
为什么呢？因为梯度向量的方向即为函数值增长最快的方向，反方向则是减小最快的方向

![](Images/4.png)



![](Images/5.png)


# 链式法则

链式法则：“两个函数组合起来的复合函数，导数等于里面函数代入外函数值的导数，乘以里面函数之导数。”


![](Images/6.png)

# 反向传播

反向传播算法（Backpropagation）是目前训练神经网络最常用且最有效的算法。模型就是通过反向传播的方式来不断更新自身的参数，从而实现了“学习”知识的过程。

前向传播：数据从输入层经过隐藏层最后输出，其过程和之前讲过的前馈网络基本一致。

计算误差并传播：计算模型输出结果和真实结果之间的误差，并将这种误差通过某种方式反向传播，即从输出层向隐藏层传递并最后到达输入层。

迭代：在反向传播的过程中，根据误差不断地调整模型的参数值，并不断地迭代前面两个步骤，直到达到模型结束训练的条件。


![](Images/7.png)



![](Images/8.png)

# 代码

In [1]:
# 目标：L = (y - 10)^2，其中 y = (2x + 3)^2
# 用链式法则算 dL/dx，并和数值微分对比

import numpy as np

def forward(x):
    y = (2*x + 3)**2
    L = (y - 10)**2
    return L, y

def analytical_grad(x):
    # dL/dy = 2(y-10)
    y = (2*x + 3)**2
    dL_dy = 2*(y - 10)
    # dy/dx = 4(2x+3)
    dy_dx = 4*(2*x + 3)
    # 链式法则：dL/dx = dL/dy * dy/dx
    return dL_dy * dy_dx

def numerical_grad(x, eps=1e-6):   
    L1, _ = forward(x + eps)  #计算当x增加一点时，损失函数L的值。
    L2, _ = forward(x - eps)  #计算当x减少一点时，损失函数L的值。
    return (L1 - L2) / (2*eps) #用“中心差分公式”近似导数

x = 1.0
L, y = forward(x)
g_ana = analytical_grad(x)
g_num = numerical_grad(x)

print(f"x={x:.4f}, y={y:.4f}, L={L:.4f}")
print(f"解析梯度 dL/dx = {g_ana:.4f}")
print(f"数值梯度 dL/dx ≈ {g_num:.4f}")

#解析梯度（Analytical Gradient）：用数学公式（链式法则）精确算出来的。
#数值梯度（Numerical Gradient）：靠“试探”——让参数稍微动一下，看损失变多少。


x=1.0000, y=25.0000, L=225.0000
解析梯度 dL/dx = 600.0000
数值梯度 dL/dx ≈ 600.0000
