## 2.3.1. 标量
如果你曾经在餐厅支付餐费，那么应该已经知道一些基本的线性代数，比如在数字间相加或相乘。 例如，北京的温度为（华氏度，除摄氏度外的另一种温度计量单位）。 严格来说，仅包含一个数值被称为标量（scalar）。 如果要将此华氏度值转换为更常用的摄氏度， 则可以计算表达式
，并将赋为。 在此等式中，每一项（、和）都是标量值。 符号和称为变量（variable），它们表示未知的标量值。

In [2]:
import torch

x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x * y, x / y, x**y # **表示乘方

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

## 2.3.2. 向量(Vector)
向量可以被视为标量值组成的列表。 这些标量值被称为向量的元素（element）或分量（component）。 当向量表示数据集中的样本时，它们的值具有一定的现实意义。 例如，如果我们正在训练一个模型来预测贷款违约风险，可能会将每个申请人与一个向量相关联， 其分量与其收入、工作年限、过往违约次数和其他因素相对应。 如果我们正在研究医院患者可能面临的心脏病发作风险，可能会用一个向量来表示每个患者， 其分量为最近的生命体征、胆固醇水平、每天运动时间等。 在数学表示法中，向量通常记为粗体、小写的符号 （例如，、和）。

人们通过`一维张量`表示向量。一般来说，张量可以具有任意长度，取决于机器的内存限制。

In [16]:
import torch
x = torch.arange(4)
x
x[3] # 通过索引访问向量的任一元素

tensor(3)

## 2.3.2.1. 长度、维度和形状¶
当用张量表示一个向量（只有一个轴,一维）时，我们也可以通过.shape属性访问向量的长度。 形状（shape）是一个元素组，列出了张量沿每个轴的长度（维数）。 对于只有一个轴的张量，形状只有一个元素。

In [9]:
x.shape

torch.Size([4])

请注意，维度（dimension）这个词在不同上下文时往往会有不同的含义，这经常会使人感到困惑。 为了清楚起见，我们在此明确一下：
* 向量或轴的维度被用来表示向量或轴的长度，即向量或轴的元素数量。
* 张量的维度用来表示张量具有的轴数。 在这个意义上，张量的某个轴的维数就是这个轴的长度。

In [17]:
len(x)

4

## 2.3.3. 矩阵(Matrix)
正如向量将标量从零阶推广到一阶，矩阵将向量从一阶推广到二阶。 矩阵，我们通常用粗体、大写字母来表示 （例如，、和）， 在代码中表示为具有两个轴的张量。

In [12]:
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [15]:
A = torch.arange(20).reshape(5, 4)
A.size()

torch.Size([5, 4])

## 2.3.4. 张量(Tensor)
就像向量是标量的推广，矩阵是向量的推广一样，我们可以构建具有更多轴的数据结构。 张量（本小节中的“张量”指代数对象）是描述具有任意数量轴的
维数组的通用方法。 例如，`标量是0阶张量`，`向量是一阶张量`，`矩阵是二阶张量`，`三阶张量在数学里没有名字`。 张量用特殊字体的大写字母表示（例如，、和）， 它们的索引机制（例如和）与矩阵类似。

In [6]:
X = torch.arange(48).reshape(4, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]],

        [[24, 25, 26, 27],
         [28, 29, 30, 31],
         [32, 33, 34, 35]],

        [[36, 37, 38, 39],
         [40, 41, 42, 43],
         [44, 45, 46, 47]]])

In [None]:
## 2.3.5. 张量算法的基本性质
标量、向量、矩阵和任意数量轴的张量（本小节中的“张量”指代数对象）有一些实用的属性。 例如，从按元素操作的定义中可以注意到，任何按元素的一元运算都不会改变其操作数的形状。 同样，给定具有相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量。 例如，将两个相同形状的矩阵相加，会在这两个矩阵上执行元素加法。

In [7]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # 通过分配新内存，将A的一个副本分配给B
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [None]:
两个矩阵的按元素乘法确实被称为Hadamard积。Hadamard积是两个矩阵的元素对应相乘得到的新矩阵。具体来说，如果有两个矩阵 A 和 B ，它们都是 m*n

In [8]:
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [None]:
将张量乘以或加上一个标量不会改变张量的形状，其中张量的每个元素都将与标量相加或相乘。

In [9]:
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

In [13]:
A.shape, A.sum()

(torch.Size([5, 4]), tensor(190))

In [None]:
默认情况下，调用求和函数会沿所有的轴降低张量的维度，使它变为一个标量。 我们还可以指定张量沿哪一个轴来通过求和降低维度。 以矩阵为例，为了通过求和所有行的元素来降维（轴0），可以在调用函数时指定axis=0。 由于输入矩阵沿0轴降维以生成输出向量，因此输入轴0的维数在输出形状中消失。

In [14]:
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40, 45, 50, 55]), torch.Size([4]))

In [None]:
指定axis=1将通过汇总所有列的元素降维（轴1）。因此，输入轴1的维数在输出形状中消失。

In [None]:
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

In [None]:
沿着行和列对矩阵求和，等价于对矩阵的所有元素进行求和。

In [15]:
A.sum(axis=[0, 1])  # 结果和A.sum()相同

tensor(190)

In [None]:
一个与求和相关的量是平均值（mean或average）。 我们通过将总和除以元素总数来计算平均值。 在代码中，我们可以调用函数来计算任意形状张量的平均值。

In [None]:
2.3.6.1. 非降维求和

但是，有时在调用函数来计算总和或均值时保持轴数不变会很有用。

In [17]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 6],
        [22],
        [38],
        [54],
        [70]])

In [None]:
由于sum_A在对每行进行求和后仍保持两个轴，我们可以通过广播将A除以sum_A。

In [20]:
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [None]:
如果我们想沿某个轴计算A元素的累积总和， 比如axis=0（按行计算），可以调用cumsum函数。 此函数不会沿任何轴降低输入张量的维度。

In [19]:
A.cumsum(axis=0)

tensor([[ 0,  1,  2,  3],
        [ 4,  6,  8, 10],
        [12, 15, 18, 21],
        [24, 28, 32, 36],
        [40, 45, 50, 55]])

In [None]:
2.3.7. 点积（Dot Product）
我们已经学习了按元素操作、求和及平均值。 另一个最基本的操作之一是点积。 给定两个向量
， 它们的点积（dot product） （或） 是相同位置的按元素乘积的和：
。

In [21]:
y = torch.ones(4, dtype = torch.float32)
x, y, torch.dot(x, y)

RuntimeError: dot : expected both vectors to have same dtype, but found Long and Float

In [None]:
注意，我们可以通过执行按元素乘法，然后进行求和来表示两个向量的点积：

In [22]:
torch.sum(x * y)

tensor(6.)

点积在很多场合都很有用。 例如，给定一组由向量表示的值， 和一组由表示的权重。 中的值根据权重的加权和， 可以表示为点积。 当权重为非负数且和为1（即
）时， 点积表示加权平均（weighted average）。 将两个向量规范化得到单位长度后，点积表示它们夹角的余弦。 本节后面的内容将正式介绍长度（length）的概念。

In [None]:
2.3.8. 矩阵-向量积

现在我们知道如何计算点积，可以开始理解矩阵-向量积（matrix-vector product）。 回顾分别在 (2.3.2)和 (2.3.1)中定义的矩阵
和向量。 让我们将矩阵用它的行向量表示：

In [24]:
A,x,A.shape, x.shape, torch.mv(A, x)

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11],
         [12, 13, 14, 15],
         [16, 17, 18, 19]]),
 tensor([0, 1, 2, 3]),
 torch.Size([5, 4]),
 torch.Size([4]),
 tensor([ 14,  38,  62,  86, 110]))