#### 数组是编程语言当中的概念，而张量和矩阵是数学当中的概念
+ 标量(scalar)：一个标量就是一个单独的数(整数或实数)，不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。
在Python中的定义为:
`x = 1`
+ 向量(vector)：一个向量表示一组有序排列的数，通过次序中的索引我们能够找到每个单独的数。向量中的每个元素就是一个标量，向量中的第i个元素用表示。在Python中的定义为：
`import numpy as np`
`行向量`
`a = np.array([1,2,3,4])`
+ 矩阵(matrix)：矩阵是一个二维数组，其中的每一个元素由两个索引来决定 ，矩阵通常用加粗斜体的大写字母表示。我们可以将矩阵看做是一个二维的数据表，矩阵的每一行表示一个对象，每一列表示一个特征。在Python中的定义为：
`import numpy as np`
`张量`
`a = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])`
+ 张量(tensor)：超过二维的数组，一般来说，一个数组中的元素分布在若干维坐标的规则网格中，被称为张量。如果一个张量是三维数组，那么我们就需要三个索引来决定元素的位置，张量通常用加粗的大写字母表示。机器学习当中的张量和数学当中的不太一样，机器学习中的张量一般就是指多维数组
`import numpy as np`
`张量`
`a = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])`

In [1]:
# 标量由只有一个元素的张量表示
import numpy as np
import torch
x = torch.tensor([3.0])
y = torch.tensor([2.0])
x + y, x * y, x / y, x**y

(tensor([5.]), tensor([6.]), tensor([1.5000]), tensor([9.]))

In [2]:
# 你可以将向量视为标量值组成的列表
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

In [6]:
# 可以通过张量的索引来访问任一元素
x[3]

tensor(3)

In [7]:
# 访问张量的长度
len(x)

4

In [8]:
# 只有一个轴的张量，形状只有一个元素
x.shape

torch.Size([4])

In [11]:
# 通过指定两个分量m和n来创建一个形状为mXn的矩阵
A = torch.arange(20).reshape(5, 4)
A, A.T

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11],
         [12, 13, 14, 15],
         [16, 17, 18, 19]]),
 tensor([[ 0,  4,  8, 12, 16],
         [ 1,  5,  9, 13, 17],
         [ 2,  6, 10, 14, 18],
         [ 3,  7, 11, 15, 19]]))

In [12]:
# 给定任何具有相同形状的任何两个向量，任何按元素二元运算的结果都将是相同形状的向量
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [13]:
# 两个矩阵的按元素乘法称为哈达玛积
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [14]:
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

In [24]:
# 指定求和汇总的关键维度
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [25]:
# A.sum()==A.sum(axis=(0, 1))
A.sum(axis=0), A.sum(axis=1), A.sum(), A.sum(axis=(0, 1))

(tensor([40, 45, 50, 55]),
 tensor([ 6, 22, 38, 54, 70]),
 tensor(190),
 tensor(190))

In [21]:
# 指定求和汇总的关键维度，对某个维度求和可以理解就是消除某个维度
A = torch.arange(40).reshape(2, 5, 4)
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([[20, 22, 24, 26],
         [28, 30, 32, 34],
         [36, 38, 40, 42],
         [44, 46, 48, 50],
         [52, 54, 56, 58]]),
 torch.Size([5, 4]))

In [22]:
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([[ 40,  45,  50,  55],
         [140, 145, 150, 155]]),
 torch.Size([2, 4]))

In [30]:
# 一个与求和相关的量是平均值
A = torch.arange(20, dtype=float).reshape(5, 4)
A, A.mean(), A.sum() / A.numel()

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]], dtype=torch.float64),
 tensor(9.5000, dtype=torch.float64),
 tensor(9.5000, dtype=torch.float64))

In [31]:
# 指定维度
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([ 8.,  9., 10., 11.], dtype=torch.float64),
 tensor([ 8.,  9., 10., 11.], dtype=torch.float64))

In [36]:
# 计算总和或均值时保持轴数不变
sum_A = A.sum(axis=1, keepdims=True)
sum_B = A.sum(axis=1)
sum_A, sum_B

(tensor([[ 6.],
         [22.],
         [38.],
         [54.],
         [70.]], dtype=torch.float64),
 tensor([ 6., 22., 38., 54., 70.], dtype=torch.float64))

## keepdims的作用：
> 如果不设置的话，A.sum(axis=1)就把A的维度由[5，4]变成了[5]
> 而设置的话就不会把那个维度给去掉，而是变成了1，即[5，1]

In [39]:
# 通过广播将A除以sum_A
A / sum_A

tensor([[[0.0000, 0.0222, 0.0400, 0.0545],
         [0.1000, 0.1111, 0.1200, 0.1273],
         [0.2000, 0.2000, 0.2000, 0.2000],
         [0.3000, 0.2889, 0.2800, 0.2727],
         [0.4000, 0.3778, 0.3600, 0.3455]],

        [[0.1429, 0.1448, 0.1467, 0.1484],
         [0.1714, 0.1724, 0.1733, 0.1742],
         [0.2000, 0.2000, 0.2000, 0.2000],
         [0.2286, 0.2276, 0.2267, 0.2258],
         [0.2571, 0.2552, 0.2533, 0.2516]]])

In [4]:
# 某个轴计算A元素的累计综合
import torch
A = torch.arange(20, dtype=float).reshape(5, 4)
A, A.cumsum(axis=0)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]], dtype=torch.float64),
 tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  6.,  8., 10.],
         [12., 15., 18., 21.],
         [24., 28., 32., 36.],
         [40., 45., 50., 55.]], dtype=torch.float64))

In [5]:
from torch import float32
# 点积是相同位置的按元素乘积的和
x = torch.tensor([0, 1, 2, 3], dtype=float32)
y = torch.ones(4, dtype=float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

In [6]:
# 我们可以通过执行按元素乘法，然后执行求和来表示两个向量的点击
torch.sum(x * y)

tensor(6.)

In [8]:
# 矩阵向量积
A = torch.arange(20).reshape(5, 4)
B = torch.tensor([1, 2, 3, 4])
A, A.shape, B, B.shape, torch.mv(A, B)

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11],
         [12, 13, 14, 15],
         [16, 17, 18, 19]]),
 torch.Size([5, 4]),
 tensor([1, 2, 3, 4]),
 torch.Size([4]),
 tensor([ 20,  60, 100, 140, 180]))

In [10]:
# 矩阵矩阵乘法
A = torch.arange(20, dtype=torch.float).reshape(5, 4)
B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

In [12]:
# L2范数是向量元素平方和的平方根
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

In [13]:
# L1范数，它表示为向量元素的绝对值之和
torch.abs(u).sum()

tensor(7.)

In [14]:
# 矩阵的F范数是矩阵元素的平方和的平方根(针对矩阵，而L2范数是针对向量）
torch.norm(torch.ones(4, 9))

tensor(6.)

![矩阵求导](./images/image1.jpg)

![例图](./images/image3.jpg)

#### 向量对标量求导时，列向量的结果还是列向量
![向量对标量求导](./images/image4.jpg)

![向量对向量求导](./images/image5.jpg)

![样例](./images/image6.jpg)

![汇总图](./images/image7.jpg)

### 自动求导
![向量链式法则](./images/image8.jpg)
![例子1](./images/image9.jpg)
![例子2](./images/image10.jpg)
### 自动求导计算一个函数在指定值上的导数
![自动求导](./images/image11.jpg)
![计算图](./images/image12.jpg)
![计算图](./images/image13.jpg)
![自动求导的两种模式](./images/image14.jpg)
![反向累积](./images/image15.jpg)
![反向累积](./images/image16.jpg)
![复杂度](./images/image17.jpg)

## 为什么深度学习当中使用反向传播而非前向传播？
+ 对于计算复杂度来说，正向传播和反向传播都是O(n)。
+ 但是内存复杂度来说，反向传播因为需要保留正向传播时所有的中间结果，所以需要O(n) ,这也是神经网络特别耗GPU资源（爆显存）的祸源。
+ 正向传播内存复杂度为O(1),但每计算一个变量的梯度都要扫一遍。
+ 反向传播从根节点向下扫，可以保证每个节点只扫一次（在计算一个变量梯度时不用管同层的其他变量）；正向传播从叶子节点向上扫，会导致上层节点可能会计算多次。
+ （正向中子节点比父节点先计算，因此也无法像反向那样把本节点的计算结果传给每一个子节点）

### 假设我们想对函数$y=2x^Tx$关于列向量$x$求导：

In [15]:
import torch
x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

### 在计算$y$关于$x$的梯度之前，我们需要一个地方来存储梯度：

In [16]:
x.requires_grad_(True)
x.grad # 默认是None

### 现在让我们计算$y$：

In [17]:
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

### 通过调用反向传播函数来自动计算$y$关于$x$每个分量的梯度：

In [18]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

In [19]:
# 在默认情况下，PyTorch会累积梯度，我们需要清楚之前的值
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

In [20]:
# 对非标量调用backward需要传入一个gradient参数，该参数指定微分函数
x.grad.zero_()
y = x * x
# 等价于y.backward(torch.ones(len(x)))
y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])

In [21]:
# 将某些计算移动到记录的计算图之外
x.grad.zero_()
y = x * x
u = y.detach()
z = u * x
z.sum().backward()
x.grad == u

tensor([True, True, True, True])

In [23]:
x.grad.zero_()
y.sum().backward()
x.grad == 2 * x

tensor([True, True, True, True])

In [24]:
# 即使构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到变量的梯度
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

a.grad == d / a

tensor(True)