## 2.4 微积分

在2500年前，古希腊人把一个多边形分成三角形，并把它们的面积相加才找到计算多边形面积的方法。为了求出曲线形状的面积，古希腊人才用了逼近法。事实上，逼近法就是积分(integral calculus)的起源。2000多年后，微积分的另一支，微分(differential caculus)被发明出来。在微分学中最重要的应用就是优化问题，即考虑如何把事情做到最好。

在深度学习中，我们“训练”模型，不断更新它们，使它们在看到越来越多的数据时变得更好。通常情况下，变得更好意味着最小化一个损失函数(loss function)，即一个衡量“我们的模型有多糟糕”这个问题的分数。最终，我们真正关系的是生成一个模型，它能够在从未见过的数据上表现良好。但“训练”模型只能将模型与我们实际能看到的数据相拟合。因此，拟合模型的任务分解成两个关键问题：

- 优化(optimization)：用模型拟合观测数据的过程；
- 泛化(generalization)：数学原理和实践者的智慧，能够指导我们生成有效性超出用于训练的数据集本身的模型。

### 2.4.1 导数与微分
我们首先讨论导数的计算，这是几乎所有深度学习优化算法的关键步骤。在深度学习中，我们通常会选择对于模型参数可微的损失函数。

假设我们有一个函数$f: \mathbb R^n \rightarrow \mathbb R$，其输入和输出都是标量。如果$f$的导数存在，这个极限被定义为

$$
f'(x) = \lim_{h\rightarrow 0} \frac{f(x+h)-f(x)}{h}
$$

如果$f'(a)$存在，则称$f$在a处可微(differentiable)的。如果$f$在一个区间内的每个数上都是可微的，则此函数在此区间中是可微的。

为了更好地解释导数，让我们做一个实验。定义$u=f(x)=3x^2-4x$如下

In [3]:
%matplotlib inline
import numpy as np
from matplotlib_inline import backend_inline
from d2l import torch as d2l

def f(x):
    return 3 * x ** 2 - 4 * x

通过令$x=1$并让$h$接近0，那么导数接近2。

In [8]:
def numerical_lim(f, x, h):
    return (f(x+h) - f(x)) / h

h = 0.1
for i in range(5):
    print(f'h={h:.5f}, numerical limit={numerical_lim(f, 1, h):.5f}')
    h *= 0.1

h=0.10000, numerical limit=2.30000
h=0.01000, numerical limit=2.03000
h=0.00100, numerical limit=2.00300
h=0.00010, numerical limit=2.00030
h=0.00001, numerical limit=2.00003


让我们熟悉一下导数的几个等价符号。给定$y=f(x)$，其中$x$和$y$分别是函数$f$的自变量和因变量。以下表达式是等价的：

$$
f'(x) = y' = \frac{dy}{dx} = \frac{df}{dx} = \frac{d}{dx}f(x) = Df(x) = D_xf(x)
$$

其中符号$\frac{d}{dx}$和$D$是微分运算符，表示微分操作。