# Linear Algebra Review

## Scaler 标量, Vector 向量，Matrix 矩阵，Tensor 张量

### Scaler 标量

In [2]:
import torch

In [3]:
# Scaler
x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x - y, x * y, x / y, x ** y

(tensor(5.), tensor(1.), tensor(6.), tensor(1.5000), tensor(9.))

### Vector 向量

In [3]:
# Vector
x = torch.arange(4)
x, x[3]

(tensor([0, 1, 2, 3]), tensor(3))

大量文献认为列向量是向量的默认方向，所以 `x` 是
```
0
1
2
3
```

#### 向量的长度、维度和形状

向量的长度跟维度一样，表示包含了几个元素。

In [4]:
# 用 array 的 len() 函数访问
len(x)

4

In [5]:
# 用 PyTorch tensor 的 shape attribute 访问
x.shape

torch.Size([4])

### Matrix 矩阵

矩阵将向量从一维推广到二维。

In [7]:
# 创建一个5行4列的矩阵
A = torch.arange(20).reshape(5,4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

转置 (transpose) 一个矩阵
```
A[i][j] = A.T[j][i]
```

In [9]:
# 转置它为4行5列的矩阵
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

特殊矩阵：symmetric matrix
A = A.T

In [10]:
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B, B == B.T

(tensor([[1, 2, 3],
         [2, 0, 4],
         [3, 4, 5]]),
 tensor([[True, True, True],
         [True, True, True],
         [True, True, True]]))

### Tensor 张量

矩阵的推广， n维。

In [12]:
X = torch.arange(24).reshape(2,3,4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

## 运算

### 元素级运算

Element-wise calculation will not change the shape of a scaler/vector/matrix/tensor.

In [15]:
A = torch.arange(20, dtype=torch.float32). \
                reshape(5,4)
B = A.clone()
A, A+B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

Element-wise multiplication of two matrices is claeed Hadamard product (哈达马积) <math xmlns="http://www.w3.org/1998/Math/MathML">
  <mo>&#x2299;</mo>
</math>

\begin{split}\mathbf{A} \odot \mathbf{B} =
\begin{bmatrix}
    a_{11}  b_{11} & a_{12}  b_{12} & \dots  & a_{1n}  b_{1n} \\
    a_{21}  b_{21} & a_{22}  b_{22} & \dots  & a_{2n}  b_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    a_{m1}  b_{m1} & a_{m2}  b_{m2} & \dots  & a_{mn}  b_{mn}
\end{bmatrix}.\end{split}

In [17]:
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

当一个标量与一个张量进行运算，标量将于张量的每一个元素进行运算，运算结果将是一个与张量形状一致的张量。

In [18]:
a = 2
X = torch.arange(24). \
    reshape(2,3,4)
a + X, a * X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 tensor([[[ 0,  2,  4,  6],
          [ 8, 10, 12, 14],
          [16, 18, 20, 22]],
 
         [[24, 26, 28, 30],
          [32, 34, 36, 38],
          [40, 42, 44, 46]]]),
 torch.Size([2, 3, 4]))

### 求和跟平均值

对张量沿任意轴进行求和。

In [20]:
# sum a 1-d vector, the result is a scaler (0-d)
x = torch.arange(4, dtype=torch.float32)
x, x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

In [36]:
A = torch.ones(3,4,5)
print('A:\n', A)

# sum every axis
A_sum = A.sum()
print('A.sum():', A_sum, '\n', \
    'A.sum().shape:', A_sum.shape)

# sum along axis 0
A_sum_0 = A.sum(axis=0)
print('A.sum(axis=0):\n', A_sum_0,'\n', \
    'A.sum(axis=0).shape:', A_sum_0.shape)

# sum along two axes
A_sum_0_2 = A.sum(axis=[0,2])
print('A.sum(axis=[0,2]):\n', A_sum_0_2, '\n', \
    'A.sum(axis=[0,2]).shape:', A_sum_0_2.shape)

A:
 tensor([[[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]],

        [[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]],

        [[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]]])
A.sum(): tensor(60.) 
 A.sum().shape: torch.Size([])
A.sum(axis=0):
 tensor([[3., 3., 3., 3., 3.],
        [3., 3., 3., 3., 3.],
        [3., 3., 3., 3., 3.],
        [3., 3., 3., 3., 3.]]) 
 A.sum(axis=0).shape: torch.Size([4, 5])
A.sum(axis=[0,2]):
 tensor([15., 15., 15., 15.]) 
 A.sum(axis=[0,2]).shape: torch.Size([4])


求均值也可以沿轴降维。

In [42]:
A = torch.arange(20, dtype=torch.float32). \
    reshape(5,4)
# the mean of all elements
A_mean = A.mean()
print('mean:', A_mean, A.sum() / A.numel())

# the mean along 
A_mean_0 = A.mean(axis=0)
print('mean along axis 0:', A_mean_0, \
    A.sum(axis=0)/A.shape[0]) # shape has axes, too

mean: tensor(9.5000) tensor(9.5000)
mean along axis 0: tensor([ 8.,  9., 10., 11.]) tensor([ 8.,  9., 10., 11.])


非降维求和。

In [51]:
sum_A_1 = A.sum(axis=1)
sum_A_1_keepdim = A.sum(axis=1, keepdim=True)
sum_A_1, sum_A_1_keepdim

(tensor([ 6., 22., 38., 54., 70.]),
 tensor([[ 6.],
         [22.],
         [38.],
         [54.],
         [70.]]))

In [53]:
# 按某一个轴求每个元素位置的累积和，而保留每个维度
A, A.cumsum(axis=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  1.,  3.,  6.],
         [ 4.,  9., 15., 22.],
         [ 8., 17., 27., 38.],
         [12., 25., 39., 54.],
         [16., 33., 51., 70.]]))

### 乘法

#### 点积 dot product

两个向量的点积
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <msup>
    <mrow data-mjx-texclass="ORD">
      <mi mathvariant="bold">x</mi>
    </mrow>
    <mi mathvariant="normal">&#x22A4;</mi>
  </msup>
  <mrow data-mjx-texclass="ORD">
    <mi mathvariant="bold">y</mi>
  </mrow>
</math> 或
<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mo fence="false" stretchy="false">&#x27E8;</mo>
  <mrow data-mjx-texclass="ORD">
    <mi mathvariant="bold">x</mi>
  </mrow>
  <mo>,</mo>
  <mrow data-mjx-texclass="ORD">
    <mi mathvariant="bold">y</mi>
  </mrow>
  <mo fence="false" stretchy="false">&#x27E9;</mo>
</math> 是相同位置的按元素乘积的和。

向量点积可以表示一组值的加权和。例如，w 是一个权重向量（各个值都在0到1之间且和为1），则 \<x, w\> 表示向量 x 的加权和。

几何上，当两个向量规范化得到单位长度后，点积表示它们夹角的余弦。

In [9]:
x = torch.tensor([0., 1, 2, 3])
y = torch.tensor([4., 5, 6, 7])

print(x,y)

# dot product
print(torch.dot(x,y)) 

# is the same as sum of 
# element-wise products
print(x*y, torch.sum(x*y))

tensor([0., 1., 2., 3.]) tensor([4., 5., 6., 7.])
tensor(38.)
tensor([ 0.,  5., 12., 21.]) tensor(38.)


#### 矩阵-向量积 

m x n 矩阵 A 跟 n 维列向量 x 的积是一个长度为 m 的列向量 Ax，其每个元素为 A 的每一行向量跟 x 这个列向量的点积。我们可以用矩阵-向量乘法来转换向量的维度 （在这个例子中，从 n 维到 m 维）。

PyTorch中我们用 `torch.mv(matrix, vector)` 来求矩阵-向量积。

如果要求向量-矩阵积，可以用 `torch.matmul(vector, matrix)` 。不管用哪个，如果维度不能匹配，PyTorch 都会 raise a `RuntimeError` with the message `size mismatch`。

In [17]:
A = torch.arange(8, dtype=torch.float32).reshape(4,2)
x = torch.arange(2, dtype=torch.float32)
A, x, A*x,torch.mv(A, x)

(tensor([[0., 1.],
         [2., 3.],
         [4., 5.],
         [6., 7.]]),
 tensor([0., 1.]),
 tensor([[0., 1.],
         [0., 3.],
         [0., 5.],
         [0., 7.]]),
 tensor([1., 3., 5., 7.]))

#### 矩阵-矩阵乘法

m x k 矩阵 A 跟 k x n 矩阵 B 相乘得到一个 m x n 矩阵 C。C 的每个元素为相应的 A 的行向量跟 B 的列向量的点积。这也可以看做是执行 m 次矩阵-向量积。

Pytorch中我们用 `torch.mm(matrix1, matrix2)` 来计算矩阵-矩阵乘法。注意这跟 Hadamard 积（每个元素的乘积，PyTorch 中的 `A * B` ）不同。

In [19]:
B = torch.ones((2,3), dtype=torch.float32)
A, B, torch.mm(A, B)

(tensor([[0., 1.],
         [2., 3.],
         [4., 5.],
         [6., 7.]]),
 tensor([[1., 1., 1.],
         [1., 1., 1.]]),
 tensor([[ 1.,  1.,  1.],
         [ 5.,  5.,  5.],
         [ 9.,  9.,  9.],
         [13., 13., 13.]]))