# 2.3 线性代数
## 2.3.1 标量
- 仅包含一个数值的叫标量（scalar）

In [1]:
import torch
x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x * y, x / y, x ** y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

## 2.3.2 向量
- 可以将向量视为标量值组成的列表
    - 将这些标量值称为向量的元素（element）或分量（component）
- 维度（dimension）这个词在不同上下文时往往会有不同的含义，这经常会使人感到困惑。
    - 向量或轴的维度被用来表示向量或轴的长度，即向量或轴的元素数量。
    - 张量的维度用来表示张量具有的轴数。 在这个意义上，张量的某个轴的维数就是这个轴的长度。

In [2]:
x=torch.arange(4)
x,x[3]  # (tensor([0, 1, 2, 3]), tensor(3))
len(x)  # 获取张量的长度，4
x.shape  # torch.Size([4])


torch.Size([4])

## 2.3.3 矩阵
- 尽管单个向量的默认方向是列向量，但在表示表格数据集的矩阵中， 将每个数据样本作为矩阵中的行向量更为常见。
    - 例如，沿着张量的最外轴，我们可以访问或遍历小批量的数据样本。


In [3]:
A=torch.arange(20).reshape(5,4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [4]:
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

## 2.3.4 张量
- 张量为我们提供了描述具有任意数量轴的n维数组的通用方法。
- 当我们开始处理图像时，张量将变得更加重要，图像以n维数组形式出现， 其中3个轴对应于高度、宽度，以及一个通道（channel）轴， 用于表示颜色通道（红色、绿色和蓝色）。



In [5]:
X=torch.arange(48).reshape(3,4,4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11],
         [12, 13, 14, 15]],

        [[16, 17, 18, 19],
         [20, 21, 22, 23],
         [24, 25, 26, 27],
         [28, 29, 30, 31]],

        [[32, 33, 34, 35],
         [36, 37, 38, 39],
         [40, 41, 42, 43],
         [44, 45, 46, 47]]])

## 2.3.5 张量算法的基本性质
- 任何按元素的一元运算都不会改变其操作数的形状


In [6]:
"""
给定具有相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量
"""
A=torch.arange(20,dtype=torch.float32).reshape(5,4)
B=A.clone()
A,A+B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [7]:
"""
两个矩阵的按元素乘法称为Hadamard积（Hadamard product）
"""
A*B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [8]:
"""
将张量乘以或加上一个标量不会改变张量的形状，其中张量的每个元素都将与标量相加或相乘。
"""
a=2
X=torch.arange(24).reshape(2,3,4)
a+X,(a*X).shape


(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

## 2.3.6 降维

In [9]:
x=torch.arange(4,dtype=torch.float32)  # 默认生成行向量，但可以reshape
x,x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

In [10]:
A=torch.arange(20).reshape(5,4)
A,A.shape,A.sum(),A.sum(axis=[0,1])  #沿着行和列对矩阵求和，等价于对矩阵的所有元素进行求和

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11],
         [12, 13, 14, 15],
         [16, 17, 18, 19]]),
 torch.Size([5, 4]),
 tensor(190),
 tensor(190))

In [11]:
"""
默认情况下，调用求和函数会沿所有的轴降低张量的维度，使它变为一个标量。
竖0横1
"""
A_sum_axis0=A.sum(axis=0)  # 按列求值
A_sum_axis0,A_sum_axis0.shape  # (tensor([40, 45, 50, 55]), torch.Size([4]))
A_sum_axis1=A.sum(axis=1)  # 按行求值
A_sum_axis1,A_sum_axis1.shape  # (tensor([ 6, 22, 38, 54, 70]), torch.Size([5]))


(tensor([ 6, 22, 38, 54, 70]), torch.Size([5]))

In [12]:
"""
计算任意形状张量的平均值
"""
A=torch.arange(12,dtype=torch.float32).reshape(3,4)
A.mean(),A.sum()/A.numel() # (tensor(5.5000), tensor(5.5000))
# 计算平均值的函数也可以沿指定轴降低张量的维度
A.mean(axis=0),A.sum(axis=0) / A.shape[0] # (tensor([4., 5., 6., 7.]), tensor([4., 5., 6., 7.]))

(tensor([4., 5., 6., 7.]), tensor([4., 5., 6., 7.]))

In [13]:
"""
非降维求和
- 有时在调用函数来计算总和或均值时保持轴数不变会很有用
"""
sum_A=A.sum(axis=1,keepdims=True) # 按行求和后仍保持两个轴（二维）
sum_B=A.sum(axis=1)
sum_A,sum_B

(tensor([[ 6.],
         [22.],
         [38.]]),
 tensor([ 6., 22., 38.]))

In [14]:
# 由于sum_A在对每行进行求和后仍保持两个轴，我们可以通过广播将A除以sum_A。
A/sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895]])

In [15]:
"""
如果我们想沿某个轴计算A元素的累积总和， 比如axis=0（按行计算），我们可以调用cumsum函数。 此函数不会沿任何轴降低输入张量的维度。
"""
A.cumsum(axis=1)

tensor([[ 0.,  1.,  3.,  6.],
        [ 4.,  9., 15., 22.],
        [ 8., 17., 27., 38.]])

## 2.3.7 点积（Dot Product）
- 相同位置的按元素乘积的和


In [16]:
x=torch.arange(4,dtype=torch.float32)
y=torch.ones(4,dtype=torch.float32)
x,y,torch.dot(x,y),torch.sum(x*y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.), tensor(6.))

## 2.3.8 矩阵-向量积

In [17]:
"""
在代码中使用张量表示矩阵-向量积，我们使用与点积相同的mv函数。 当我们为矩阵A和向量x调用torch.mv(A, x)时，会执行矩阵-向量积。 注意，A的列维数（沿轴1的长度）必须与x的维数（其长度）相同。
"""
A,x,A.shape,x.shape,torch.mv(A,x)


(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([0., 1., 2., 3.]),
 torch.Size([3, 4]),
 torch.Size([4]),
 tensor([14., 38., 62.]))

## 2.3.9. 矩阵-矩阵乘法
- torch.mm(): 只能进行矩阵乘法,也就是输入的两个tensor维度只能是(n×m)和(m×p)
- torch.bmm(): 是两个三维张量相乘, 两个tensor维度是(b×m×p) 和(b×n×p) , 第一维b代表batch_size
- torch.matmul(): 可以进行张量乘法, 输入可以是高维

In [18]:
B=torch.ones(4,3)
A,B,torch.mm(A,B)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]),
 tensor([[ 6.,  6.,  6.],
         [22., 22., 22.],
         [38., 38., 38.]]))

In [19]:
input = torch.randn(10, 3, 4)
mat2 = torch.randn(10, 4, 5)
res = torch.bmm(input, mat2)
res,res.size()

(tensor([[[ 1.2869e+00,  5.4340e-01, -6.4900e-01,  1.2655e+00,  1.1981e+00],
          [-3.1634e+00,  4.8054e-01, -1.2489e-01,  3.0501e+00, -2.9527e+00],
          [-1.6298e+00,  1.9307e-01, -3.1301e+00,  5.0450e+00, -3.8292e-01]],
 
         [[ 1.8945e+00, -4.7095e-02,  1.6081e+00,  7.1716e-01,  2.5216e-01],
          [ 1.0643e+00,  9.2610e-01, -1.4878e-01,  1.8059e+00,  1.9130e+00],
          [ 1.1179e+00, -7.0503e-02, -2.3722e+00,  1.0583e+00,  2.1801e+00]],
 
         [[-1.3917e-02,  1.6012e-01, -9.0822e-01, -1.8466e+00,  1.6212e+00],
          [ 5.6102e-01, -3.1688e+00, -2.1476e-01, -3.1322e-03,  1.2873e+00],
          [ 1.5051e+00, -2.2002e+00,  7.1345e-01,  2.5670e+00,  1.7332e+00]],
 
         [[-7.5528e-01,  6.0891e-01,  2.8982e-01,  1.0778e+00, -2.3907e+00],
          [ 1.0734e+00,  1.6837e+00, -1.8090e+00, -2.3877e-01, -1.2446e+00],
          [ 1.1582e+00, -1.6925e+00,  2.8930e+00,  1.8467e+00,  1.1211e+00]],
 
         [[ 2.5888e+00, -5.0152e+00,  2.6160e+00,  1.1441e+00,  

In [20]:
tensor1 = torch.randn(10, 3, 4)
tensor2 = torch.randn(4, 5)
res = torch.matmul(tensor1, tensor2)
res,res.size()

(tensor([[[-0.8106, -0.2337,  2.9683,  0.1881, -1.5804],
          [-2.2073,  1.6057,  0.8353, -1.4305, -0.8777],
          [-0.1955, -1.7692, -1.7137, -0.0165,  2.8448]],
 
         [[-0.0710, -0.2827,  1.4211,  0.4182, -0.5209],
          [-2.6890,  1.3873,  0.2829, -1.6331,  0.2025],
          [ 1.3819,  0.0702,  1.2778,  1.2875, -1.0235]],
 
         [[ 1.1067,  0.7503, -0.4365,  0.5425, -0.4199],
          [-0.2693, -1.3357,  1.6641,  0.5138,  0.0794],
          [-0.6061,  1.0902,  1.3000, -0.5112, -1.9469]],
 
         [[ 1.0677, -1.5071, -3.0443,  0.4310,  3.1445],
          [ 2.6681, -0.8588, -1.3872,  1.6036,  0.8767],
          [-1.2608, -1.7937,  0.0459, -0.4050,  1.7671]],
 
         [[-2.1911, -0.1293, -1.7103, -1.4113,  2.6390],
          [-0.2113,  0.2995,  2.9220,  0.3037, -2.4575],
          [-0.2887,  0.8255,  0.6270, -0.1782, -0.8921]],
 
         [[-1.3978, -0.2046, -0.1452, -0.6965,  1.0732],
          [-0.7633,  0.3200, -1.6520, -0.8019,  1.3471],
          [ 1.52

## 2.3.10. 范数(norm)
- 非正式地说，一个向量的范数告诉我们一个向量有多大。
- 在深度学习中，我们经常试图解决优化问题： 最大化分配给观测数据的概率; 最小化预测和真实观测之间的距离。 用向量表示物品（如单词、产品或新闻文章），以便最小化相似项目之间的距离，最大化不同项目之间的距离。 目标，或许是深度学习算法最重要的组成部分（除了数据），通常被表达为范数。

In [21]:
u=torch.tensor([3.0,-4.0])
torch.norm(u) # 计算向量的L2范数,即向量的长度

tensor(5.)

In [22]:
# 为了计算L1范数，我们将绝对值函数和按元素求和组合起来。
torch.abs(u).sum()

tensor(7.)

In [24]:
"""
可用于 利用低秩矩阵来近似单一数据矩阵。
用数学表示就是去找一个秩为k的矩阵B，使得矩阵B与原始数据矩阵A的差的F范数尽可能地小。
"""

# 矩阵A的Frobenius范数定义为矩阵A各项元素的平方的总和的开根
# 以下函数将计算矩阵的Frobenius范数

torch.norm(torch.ones((4,9)))



tensor(6.)