In [1]:
import torch
import numpy as np

In [3]:
data = [[1, 2], [3, 4]]
x_data = torch.tensor(data)
print(x_data.shape)
x_data

torch.Size([2, 2])


tensor([[1, 2],
        [3, 4]])

In [4]:
x_ones = torch.ones_like(x_data)
print(f"Ones Tensor: \n {x_ones} \n")

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 



In [5]:
x_rand = torch.rand_like(x_data,dtype=torch.float)
print(f"Random Tensor: \n {x_rand} \n")

Random Tensor: 
 tensor([[0.0105, 0.7984],
        [0.9866, 0.3261]]) 



In [7]:
shape = (2,3)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor} \n")

Random Tensor: 
 tensor([[0.0799, 0.9788, 0.0095],
        [0.6659, 0.6016, 0.3410]]) 

Ones Tensor: 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0.],
        [0., 0., 0.]]) 



In [8]:
tensor = torch.rand(3,4)

print(f'Shape of tensor: {tensor.shape}')
print(f'Datatype of tensor: {tensor.dtype}')
print(f'Device tensor is stored on: {tensor.device}')

Shape of tensor: torch.Size([3, 4])
Datatype of tensor: torch.float32
Device tensor is stored on: cpu


In [9]:
if torch.cuda.is_available():
    tensor = tensor.to("cuda")

tensor = torch.ones(4,4)
print(f'First row: {tensor[0]}')
print(f'First column: {tensor[:,0]}')
print(f'Last column: {tensor[...,-1]}')
tensor[:,1] = 0
print(tensor)

First row: tensor([1., 1., 1., 1.])
First column: tensor([1., 1., 1., 1.])
Last column: tensor([1., 1., 1., 1.])
tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [12]:
t1 = torch.cat([tensor,tensor,tensor],dim=1)
t1

tensor([[1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.]])

In [14]:
y1 = tensor @ tensor.T
y2 = tensor.matmul(tensor.T)

y3 = torch.rand_like(y1)
torch.matmul(tensor,tensor.T,out=y3)
print(y1)
print(y2)
print(y3)

tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])
tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])
tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])


矩阵乘法并不意味着简单地将一个矩阵映射到另一个矩阵的形状上。矩阵乘法实际上是基于线性代数的定义，涉及到行和列之间的点乘计算。让我们详细讲解矩阵乘法的过程，特别是在本例中的计算方式。

### 矩阵乘法的基本规则

在矩阵乘法 \( A @ B \) 中，假设：
- \( A \) 是一个形状为 \( (m, n) \) 的矩阵
- \( B \) 是一个形状为 \( (n, p) \) 的矩阵

那么，矩阵乘法 \( A @ B \) 的结果将是一个形状为 \( (m, p) \) 的矩阵。

乘法的计算方式是：  
**第 \( i \) 行和第 \( j \) 列的元素**是通过将 \( A \) 的第 \( i \) 行与 \( B \) 的第 \( j \) 列进行“点积”得到的。

具体来说：

\[
C[i, j] = \sum_{k=1}^{n} A[i, k] \times B[k, j]
\]

其中，\( A[i, k] \) 是矩阵 \( A \) 中第 \( i \) 行，第 \( k \) 列的元素，\( B[k, j] \) 是矩阵 \( B \) 中第 \( k \) 行，第 \( j \) 列的元素，\( C[i, j] \) 是矩阵乘积 \( C = A @ B \) 中第 \( i \) 行，第 \( j \) 列的元素。

### 本例中的矩阵乘法

现在回到本例的代码：

```python
tensor = torch.tensor([[1., 0., 1., 1.],
                       [1., 0., 1., 1.],
                       [1., 0., 1., 1.],
                       [1., 0., 1., 1.]])
y1 = tensor @ tensor.T
```

在这个例子中，`tensor` 是一个 \( 4 \times 4 \) 的矩阵，内容如下：

\[
\text{tensor} = 
\begin{bmatrix}
1 & 0 & 1 & 1 \\
1 & 0 & 1 & 1 \\
1 & 0 & 1 & 1 \\
1 & 0 & 1 & 1
\end{bmatrix}
\]

我们进行的是 `tensor` 与其转置 `tensor.T` 的矩阵乘法。

`tensor.T` 的转置矩阵是：

\[
\text{tensor.T} = 
\begin{bmatrix}
1 & 1 & 1 & 1 \\
0 & 0 & 0 & 0 \\
1 & 1 & 1 & 1 \\
1 & 1 & 1 & 1
\end{bmatrix}
\]

矩阵乘法的计算过程如下：

#### 第 1 行第 1 列

计算 \( y1[1,1] \)：
- `tensor` 的第 1 行是 \( [1, 0, 1, 1] \)
- `tensor.T` 的第 1 列是 \( [1, 1, 1, 1] \)

点乘的计算为：

\[
y1[1, 1] = (1 \times 1) + (0 \times 1) + (1 \times 1) + (1 \times 1) = 3
\]

#### 第 1 行第 2 列

计算 \( y1[1,2] \)：
- `tensor` 的第 1 行是 \( [1, 0, 1, 1] \)
- `tensor.T` 的第 2 列是 \( [0, 0, 0, 0] \)

点乘的计算为：

\[
y1[1, 2] = (1 \times 0) + (0 \times 0) + (1 \times 0) + (1 \times 0) = 0
\]

但是在这里，`tensor` 的每一行都是一样的，所以和 `tensor.T` 中的列的计算会得到相同的值。由于 `tensor` 的每行都是一样的，最终所有元素的计算结果都一样，都是 3。

### 结果是一个对称矩阵

由于 `tensor` 的每一行都相同，`tensor.T` 的每一列也相同，因此矩阵乘法的结果将是一个对称矩阵，其每个元素都为 3。矩阵乘法的结果如下：

\[
y1 = 
\begin{bmatrix}
3 & 3 & 3 & 3 \\
3 & 3 & 3 & 3 \\
3 & 3 & 3 & 3 \\
3 & 3 & 3 & 3
\end{bmatrix}
\]

### 关键点总结：

- **矩阵乘法**：是行与列之间的点乘操作。
- 在本例中，`tensor` 的行和列都非常相似，导致了矩阵乘法结果的所有元素都相同。
- `tensor @ tensor.T` 和 `tensor.matmul(tensor.T)` 的计算结果是一样的，因为它们本质上执行的是同样的矩阵乘法。
- 本例的结果是一个 \( 4 \times 4 \) 的矩阵，每个元素都是 3，因为所有的行和列之间的点乘结果都相同。

所以，矩阵乘法的核心并不是形状映射，而是通过行列之间的点积计算出结果。

如果 \( X \) 是一个 \( 4 \times 4 \) 的矩阵，而 \( Y \) 是一个 \( 4 \times 2 \) 的矩阵，矩阵乘法 \( X @ Y \) 是有效的，并且我们可以进行乘法运算。

### 矩阵乘法的条件

矩阵乘法的条件是：  
**矩阵 \( A \) 和矩阵 \( B \) 相乘时，矩阵 \( A \) 的列数必须等于矩阵 \( B \) 的行数。**

在本例中：
- \( X \) 是 \( 4 \times 4 \) 矩阵（4 行 4 列）。
- \( Y \) 是 \( 4 \times 2 \) 矩阵（4 行 2 列）。

所以，矩阵乘法 \( X @ Y \) 是有效的，因为 \( X \) 的列数（4）等于 \( Y \) 的行数（4）。乘积矩阵 \( Z = X @ Y \) 的结果将会是一个 \( 4 \times 2 \) 的矩阵。

### 矩阵乘法的计算

假设：
- \( X \) 的形状为 \( 4 \times 4 \)
- \( Y \) 的形状为 \( 4 \times 2 \)

结果矩阵 \( Z \) 的形状将是 \( 4 \times 2 \)。

#### 计算 \( Z \) 中的每个元素

矩阵乘法的计算方式是行与列之间的点积。对于每个元素 \( Z[i, j] \)，我们需要计算 \( X \) 的第 \( i \) 行和 \( Y \) 的第 \( j \) 列的点积：

\[
Z[i, j] = \sum_{k=1}^{4} X[i, k] \times Y[k, j]
\]

也就是说，结果矩阵 \( Z \) 中的第 \( i \) 行第 \( j \) 列的元素是 \( X \) 的第 \( i \) 行与 \( Y \) 的第 \( j \) 列相对应元素的乘积之和。

### 例子

假设有以下矩阵 \( X \) 和 \( Y \)：

\[
X = 
\begin{bmatrix}
1 & 2 & 3 & 4 \\
5 & 6 & 7 & 8 \\
9 & 10 & 11 & 12 \\
13 & 14 & 15 & 16
\end{bmatrix}
\]

\[
Y = 
\begin{bmatrix}
1 & 2 \\
3 & 4 \\
5 & 6 \\
7 & 8
\end{bmatrix}
\]

#### 计算 \( Z = X @ Y \)

1. **第 1 行第 1 列的元素：**

   \[
   Z[1, 1] = (1 \times 1) + (2 \times 3) + (3 \times 5) + (4 \times 7) = 1 + 6 + 15 + 28 = 50
   \]

2. **第 1 行第 2 列的元素：**

   \[
   Z[1, 2] = (1 \times 2) + (2 \times 4) + (3 \times 6) + (4 \times 8) = 2 + 8 + 18 + 32 = 60
   \]

3. **第 2 行第 1 列的元素：**

   \[
   Z[2, 1] = (5 \times 1) + (6 \times 3) + (7 \times 5) + (8 \times 7) = 5 + 18 + 35 + 56 = 114
   \]

4. **第 2 行第 2 列的元素：**

   \[
   Z[2, 2] = (5 \times 2) + (6 \times 4) + (7 \times 6) + (8 \times 8) = 10 + 24 + 42 + 64 = 140
   \]

类似地，计算 \( Z[3, 1] \), \( Z[3, 2] \), \( Z[4, 1] \), 和 \( Z[4, 2] \)。

最终，矩阵 \( Z \) 会是：

\[
Z = 
\begin{bmatrix}
50 & 60 \\
114 & 140 \\
178 & 220 \\
242 & 300
\end{bmatrix}
\]

### 总结

- 矩阵 \( X \) 的形状是 \( 4 \times 4 \)，矩阵 \( Y \) 的形状是 \( 4 \times 2 \)，它们的乘积 \( Z = X @ Y \) 的形状是 \( 4 \times 2 \)。
- 计算时，乘积矩阵 \( Z \) 的每个元素是 \( X \) 的某一行与 \( Y \) 的某一列的点积。

In [16]:
z1 = tensor * tensor
z2 = tensor.mul(tensor)
z3 = torch.rand_like(tensor)
torch.mul(tensor,tensor,out=z3)
print(z1)
print(z2)
print(z3)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])
tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])
tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [18]:
# get numerical value of tensor by item()
agg = tensor.sum()
agg_item = agg.item()
print(agg,agg_item,type(agg_item))

tensor(12.) 12.0 <class 'float'>


In [19]:
print(f'{tensor} \n')
tensor.add_(5)
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor([[6., 5., 6., 6.],
        [6., 5., 6., 6.],
        [6., 5., 6., 6.],
        [6., 5., 6., 6.]])


In [21]:
t = torch.ones(5)
print(f't: {t}')
n = t.numpy()
print(f'n: {n}')

t: tensor([1., 1., 1., 1., 1.])
n: [1. 1. 1. 1. 1.]


In [22]:
t.add_(1) # in place operation
print(f't: {t}')
print(f'n: {n}')

t: tensor([2., 2., 2., 2., 2.])
n: [2. 2. 2. 2. 2.]


In [23]:
n = np.ones(5)
t = torch.from_numpy(n)
np.add(n, 1, out=n)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
n: [2. 2. 2. 2. 2.]
