# 可选实验 - 导数
本实验将让您更直观地理解导数。它将向您展示一种简单的算术计算导数的方法。它还将向您介绍一个方便的 Python 库，允许您符号化地计算导数。

In [2]:
from sympy import symbols, diff

## 导数的非正式定义

导数的正式定义可能有点令人生畏，涉及极限和值"趋于零"。这个想法实际上要简单得多。 

函数的导数描述了当输入变量发生微小变化时，函数输出如何变化。

让我们以代价函数 $J(w)$ 为例。代价 $J$ 是输出，$w$ 是输入变量。  
让我们给"微小变化"一个名称 *epsilon* 或 $\epsilon$。我们使用这些希腊字母是因为在数学中传统上使用 *epsilon*($\epsilon$) 或 *delta* ($\Delta$) 来表示一个小的值。您可以将其视为代表 0.001 或其他一些小的值。  

$$
\begin{equation}
\text{如果 } w \uparrow \epsilon \text{ 导致 }J(w) \uparrow \text{了 }k \times \epsilon \text{，那么}  \\
\frac{\partial J(w)}{\partial w} = k \tag{1}
\end{equation}
$$

这只是说，如果您将函数 $J(w)$ 的输入改变一点点，输出改变 $k$ 倍的那一点点，那么 $J(w)$ 的导数等于 $k$。

让我们试试这个。让我们看看函数 $J(w) = w^2$ 在点 $w=3$ 和 $\epsilon = 0.001$ 处的导数

In [3]:
J = (3)**2
J_epsilon = (3 + 0.001)**2
k = (J_epsilon - J)/0.001    # difference divided by epsilon
print(f"J = {J}, J_epsilon = {J_epsilon}, dJ_dw ~= k = {k:0.6f} ")

J = 9, J_epsilon = 9.006001, dJ_dw ~= k = 6.001000 


我们将输入值增加了一点点（0.001），导致输出从 9 变为 9.006001，增加了输入增加的 6 倍。参考上面的 (1)，这表示 $k=6$，所以 $\frac{\partial J(w)}{\partial w} \approx 6$。如果您熟悉微积分，您知道，符号化地写出来，$\frac{\partial J(w)}{\partial w} = 2 w$。当 $w=3$ 时，这是 6。我们上面的计算不是正好 6，因为要完全正确，$\epsilon$ 需要是[无穷小](https://www.dictionary.com/browse/infinitesimally)或非常非常小。这就是为什么我们使用符号 $\approx$ 或 ~= 而不是 =。让我们看看如果使 $\epsilon$ 更小会发生什么。

In [4]:
J = (3)**2
J_epsilon = (3 + 0.000000001)**2
k = (J_epsilon - J)/0.000000001
print(f"J = {J}, J_epsilon = {J_epsilon}, dJ_dw ~= k = {k} ")

J = 9, J_epsilon = 9.000000006, dJ_dw ~= k = 6.000000496442226 


随着我们减小 $\epsilon$ 的大小，该值接近正好 6。请随意尝试进一步减小该值。

## 寻找符号导数
在反向传播中，了解简单函数在任何输入值处的导数很有用。换句话说，我们希望知道"符号"导数而不是"算术"导数。符号导数的一个例子是 $\frac{\partial J(w)}{\partial w} = 2 w$，这是上面 $J(w) = w^2$ 的导数。有了符号导数，您可以找到任何输入值 $w$ 处的导数值。  

如果您上过微积分课程，您熟悉数学家开发的许多[微分规则](https://en.wikipedia.org/wiki/Differentiation_rules#Power_laws,_polynomials,_quotients,_and_reciprocals)来求解给定表达式的导数。好吧，事实证明这个过程已经通过符号微分程序实现了自动化。在 python 中的一个例子是 [SymPy](https://www.sympy.org/en/index.html) 库。让我们看看如何使用它。

### $J = w^2$
定义 python 变量及其符号名称。

In [5]:
J, w = symbols('J, w')

定义并打印表达式。请注意 SymPy 生成一个 [latex](https://en.wikibooks.org/wiki/LaTeX/Mathematics) 字符串，该字符串生成一个可读性良好的方程。

In [6]:
J=w**2
J

w**2

使用 SymPy 的 `diff` 对 $J$ 的表达式关于 $w$ 求导。请注意结果与我们之前的示例匹配。

In [7]:
dJ_dw = diff(J,w)
dJ_dw

2*w

通过将数值"替换"为符号值，在几个点处计算导数。在第一个示例中，$w$ 被 $2$ 替换。

In [8]:
dJ_dw.subs([(w,2)])    # derivative at the point w = 2

4

In [9]:
dJ_dw.subs([(w,3)])    # derivative at the point w = 3

6

In [10]:
dJ_dw.subs([(w,-3)])    # derivative at the point w = -3

-6

## $J = 2w$

In [11]:
w, J = symbols('w, J')

In [12]:
J = 2 * w
J

2*w

In [13]:
dJ_dw = diff(J,w)
dJ_dw

2

In [14]:
dJ_dw.subs([(w,-3)])    # derivative at the point w = -3

2

将其与算术计算进行比较

In [15]:
J = 2*3
J_epsilon = 2*(3 + 0.001)
k = (J_epsilon - J)/0.001
print(f"J = {J}, J_epsilon = {J_epsilon}, dJ_dw ~= k = {k} ")

J = 6, J_epsilon = 6.002, dJ_dw ~= k = 1.9999999999997797 


对于函数 $J=2w$，很容易看出 $w$ 的任何变化都会导致输出 $J$ 发生 2 倍的变化，无论 $w$ 的起始值如何。我们的 NumPy 和算术结果证实了这一点。 

## $J = w^3$

In [16]:
J, w = symbols('J, w')

In [17]:
J=w**3
J

w**3

In [18]:
dJ_dw = diff(J,w)
dJ_dw

3*w**2

In [19]:
dJ_dw.subs([(w,2)])   # derivative at the point w=2

12

将其与算术计算进行比较

In [20]:
J = (2)**3
J_epsilon = (2+0.001)**3
k = (J_epsilon - J)/0.001
print(f"J = {J}, J_epsilon = {J_epsilon}, dJ_dw ~= k = {k} ")

J = 8, J_epsilon = 8.012006000999998, dJ_dw ~= k = 12.006000999997823 


## $J = \frac{1}{w}$

In [21]:
J, w = symbols('J, w')

In [22]:
J= 1/w
J

1/w

In [23]:
dJ_dw = diff(J,w)
dJ_dw

-1/w**2

In [24]:
dJ_dw.subs([(w,2)])

-1/4

将其与算术计算进行比较

In [25]:
J = 1/2
J_epsilon = 1/(2+0.001)
k = (J_epsilon - J)/0.001
print(f"J = {J}, J_epsilon = {J_epsilon}, dJ_dw ~= k = {k} ")

J = 0.5, J_epsilon = 0.49975012493753124, dJ_dw ~= k = -0.2498750624687629 


## $J = \frac{1}{w^2}$

In [26]:
J, w = symbols('J, w')

如果您有时间，请尝试在函数 $J = \frac{1}{w^2}$ 上重复上述步骤，并在 w=4 处计算

In [27]:
J, w = symbols('J, w')

In [28]:
J= 1/(w**2)
J

w**(-2)

In [29]:
dJ_dw = diff(J,w)
dJ_dw

-2/w**3

In [30]:
dJ_dw.subs([(w,4)])

-1/32

将其与算术计算进行比较

In [31]:
J = 1/4**2
J_epsilon = 1/(4+0.001)**2
k = (J_epsilon - J)/0.001
print(f"J = {J}, J_epsilon = {J_epsilon}, dJ_dw ~= k = {k} ")

J = 0.0625, J_epsilon = 0.06246876171484496, dJ_dw ~= k = -0.031238285155041345 


<details>
  <summary><font size="3" color="darkgreen"><b>点击查看提示</b></font></summary>
    
```python 
J= 1/w**2
dJ_dw = diff(J,w)
dJ_dw.subs([(w,4)])
```
  

</details>

    


## 恭喜！
如果您已经运行了上面的示例，您理解导数描述了函数输出的变化，这是函数输入发生微小变化的结果。您还可以在 python 中使用 *SymPy* 来查找函数的符号导数。