In [1]:
import torch
import numpy as np

In [3]:
data = [[1, 2], [3, 4]]
x_data = torch.tensor(data)
print(x_data.shape)
x_data

torch.Size([2, 2])


tensor([[1, 2],
        [3, 4]])

In [4]:
x_ones = torch.ones_like(x_data)
print(f"Ones Tensor: \n {x_ones} \n")

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 



In [5]:
x_rand = torch.rand_like(x_data,dtype=torch.float)
print(f"Random Tensor: \n {x_rand} \n")

Random Tensor: 
 tensor([[0.0105, 0.7984],
        [0.9866, 0.3261]]) 



In [7]:
shape = (2,3)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor} \n")

Random Tensor: 
 tensor([[0.0799, 0.9788, 0.0095],
        [0.6659, 0.6016, 0.3410]]) 

Ones Tensor: 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0.],
        [0., 0., 0.]]) 



In [8]:
tensor = torch.rand(3,4)

print(f'Shape of tensor: {tensor.shape}')
print(f'Datatype of tensor: {tensor.dtype}')
print(f'Device tensor is stored on: {tensor.device}')

Shape of tensor: torch.Size([3, 4])
Datatype of tensor: torch.float32
Device tensor is stored on: cpu


In [9]:
if torch.cuda.is_available():
    tensor = tensor.to("cuda")

tensor = torch.ones(4,4)
print(f'First row: {tensor[0]}')
print(f'First column: {tensor[:,0]}')
print(f'Last column: {tensor[...,-1]}')
tensor[:,1] = 0
print(tensor)

First row: tensor([1., 1., 1., 1.])
First column: tensor([1., 1., 1., 1.])
Last column: tensor([1., 1., 1., 1.])
tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [12]:
t1 = torch.cat([tensor,tensor,tensor],dim=1)
t1

tensor([[1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.]])

In [14]:
y1 = tensor @ tensor.T
y2 = tensor.matmul(tensor.T)

y3 = torch.rand_like(y1)
torch.matmul(tensor,tensor.T,out=y3)
print(y1)
print(y2)
print(y3)

tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])
tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])
tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])


矩阵乘法并不意味着简单地将一个矩阵映射到另一个矩阵的形状上。矩阵乘法实际上是基于线性代数的定义，涉及到行和列之间的点乘计算。让我们详细讲解矩阵乘法的过程，特别是在本例中的计算方式。

### 矩阵乘法的基本规则

在矩阵乘法 \( A @ B \) 中，假设：
- \( A \) 是一个形状为 \( (m, n) \) 的矩阵
- \( B \) 是一个形状为 \( (n, p) \) 的矩阵

那么，矩阵乘法 \( A @ B \) 的结果将是一个形状为 \( (m, p) \) 的矩阵。

乘法的计算方式是：  
**第 \( i \) 行和第 \( j \) 列的元素**是通过将 \( A \) 的第 \( i \) 行与 \( B \) 的第 \( j \) 列进行“点积”得到的。

具体来说：

\[
C[i, j] = \sum_{k=1}^{n} A[i, k] \times B[k, j]
\]

其中，\( A[i, k] \) 是矩阵 \( A \) 中第 \( i \) 行，第 \( k \) 列的元素，\( B[k, j] \) 是矩阵 \( B \) 中第 \( k \) 行，第 \( j \) 列的元素，\( C[i, j] \) 是矩阵乘积 \( C = A @ B \) 中第 \( i \) 行，第 \( j \) 列的元素。

### 本例中的矩阵乘法

现在回到本例的代码：

```python
tensor = torch.tensor([[1., 0., 1., 1.],
                       [1., 0., 1., 1.],
                       [1., 0., 1., 1.],
                       [1., 0., 1., 1.]])
y1 = tensor @ tensor.T
```

在这个例子中，`tensor` 是一个 \( 4 \times 4 \) 的矩阵，内容如下：

\[
\text{tensor} = 
\begin{bmatrix}
1 & 0 & 1 & 1 \\
1 & 0 & 1 & 1 \\
1 & 0 & 1 & 1 \\
1 & 0 & 1 & 1
\end{bmatrix}
\]

我们进行的是 `tensor` 与其转置 `tensor.T` 的矩阵乘法。

`tensor.T` 的转置矩阵是：

\[
\text{tensor.T} = 
\begin{bmatrix}
1 & 1 & 1 & 1 \\
0 & 0 & 0 & 0 \\
1 & 1 & 1 & 1 \\
1 & 1 & 1 & 1
\end{bmatrix}
\]

矩阵乘法的计算过程如下：

#### 第 1 行第 1 列

计算 \( y1[1,1] \)：
- `tensor` 的第 1 行是 \( [1, 0, 1, 1] \)
- `tensor.T` 的第 1 列是 \( [1, 1, 1, 1] \)

点乘的计算为：

\[
y1[1, 1] = (1 \times 1) + (0 \times 1) + (1 \times 1) + (1 \times 1) = 3
\]

#### 第 1 行第 2 列

计算 \( y1[1,2] \)：
- `tensor` 的第 1 行是 \( [1, 0, 1, 1] \)
- `tensor.T` 的第 2 列是 \( [0, 0, 0, 0] \)

点乘的计算为：

\[
y1[1, 2] = (1 \times 0) + (0 \times 0) + (1 \times 0) + (1 \times 0) = 0
\]

但是在这里，`tensor` 的每一行都是一样的，所以和 `tensor.T` 中的列的计算会得到相同的值。由于 `tensor` 的每行都是一样的，最终所有元素的计算结果都一样，都是 3。

### 结果是一个对称矩阵

由于 `tensor` 的每一行都相同，`tensor.T` 的每一列也相同，因此矩阵乘法的结果将是一个对称矩阵，其每个元素都为 3。矩阵乘法的结果如下：

\[
y1 = 
\begin{bmatrix}
3 & 3 & 3 & 3 \\
3 & 3 & 3 & 3 \\
3 & 3 & 3 & 3 \\
3 & 3 & 3 & 3
\end{bmatrix}
\]

### 关键点总结：

- **矩阵乘法**：是行与列之间的点乘操作。
- 在本例中，`tensor` 的行和列都非常相似，导致了矩阵乘法结果的所有元素都相同。
- `tensor @ tensor.T` 和 `tensor.matmul(tensor.T)` 的计算结果是一样的，因为它们本质上执行的是同样的矩阵乘法。
- 本例的结果是一个 \( 4 \times 4 \) 的矩阵，每个元素都是 3，因为所有的行和列之间的点乘结果都相同。

所以，矩阵乘法的核心并不是形状映射，而是通过行列之间的点积计算出结果。

如果 \( X \) 是一个 \( 4 \times 4 \) 的矩阵，而 \( Y \) 是一个 \( 4 \times 2 \) 的矩阵，矩阵乘法 \( X @ Y \) 是有效的，并且我们可以进行乘法运算。

### 矩阵乘法的条件

矩阵乘法的条件是：  
**矩阵 \( A \) 和矩阵 \( B \) 相乘时，矩阵 \( A \) 的列数必须等于矩阵 \( B \) 的行数。**

在本例中：
- \( X \) 是 \( 4 \times 4 \) 矩阵（4 行 4 列）。
- \( Y \) 是 \( 4 \times 2 \) 矩阵（4 行 2 列）。

所以，矩阵乘法 \( X @ Y \) 是有效的，因为 \( X \) 的列数（4）等于 \( Y \) 的行数（4）。乘积矩阵 \( Z = X @ Y \) 的结果将会是一个 \( 4 \times 2 \) 的矩阵。

### 矩阵乘法的计算

假设：
- \( X \) 的形状为 \( 4 \times 4 \)
- \( Y \) 的形状为 \( 4 \times 2 \)

结果矩阵 \( Z \) 的形状将是 \( 4 \times 2 \)。

#### 计算 \( Z \) 中的每个元素

矩阵乘法的计算方式是行与列之间的点积。对于每个元素 \( Z[i, j] \)，我们需要计算 \( X \) 的第 \( i \) 行和 \( Y \) 的第 \( j \) 列的点积：

\[
Z[i, j] = \sum_{k=1}^{4} X[i, k] \times Y[k, j]
\]

也就是说，结果矩阵 \( Z \) 中的第 \( i \) 行第 \( j \) 列的元素是 \( X \) 的第 \( i \) 行与 \( Y \) 的第 \( j \) 列相对应元素的乘积之和。

### 例子

假设有以下矩阵 \( X \) 和 \( Y \)：

\[
X = 
\begin{bmatrix}
1 & 2 & 3 & 4 \\
5 & 6 & 7 & 8 \\
9 & 10 & 11 & 12 \\
13 & 14 & 15 & 16
\end{bmatrix}
\]

\[
Y = 
\begin{bmatrix}
1 & 2 \\
3 & 4 \\
5 & 6 \\
7 & 8
\end{bmatrix}
\]

#### 计算 \( Z = X @ Y \)

1. **第 1 行第 1 列的元素：**

   \[
   Z[1, 1] = (1 \times 1) + (2 \times 3) + (3 \times 5) + (4 \times 7) = 1 + 6 + 15 + 28 = 50
   \]

2. **第 1 行第 2 列的元素：**

   \[
   Z[1, 2] = (1 \times 2) + (2 \times 4) + (3 \times 6) + (4 \times 8) = 2 + 8 + 18 + 32 = 60
   \]

3. **第 2 行第 1 列的元素：**

   \[
   Z[2, 1] = (5 \times 1) + (6 \times 3) + (7 \times 5) + (8 \times 7) = 5 + 18 + 35 + 56 = 114
   \]

4. **第 2 行第 2 列的元素：**

   \[
   Z[2, 2] = (5 \times 2) + (6 \times 4) + (7 \times 6) + (8 \times 8) = 10 + 24 + 42 + 64 = 140
   \]

类似地，计算 \( Z[3, 1] \), \( Z[3, 2] \), \( Z[4, 1] \), 和 \( Z[4, 2] \)。

最终，矩阵 \( Z \) 会是：

\[
Z = 
\begin{bmatrix}
50 & 60 \\
114 & 140 \\
178 & 220 \\
242 & 300
\end{bmatrix}
\]

### 总结

- 矩阵 \( X \) 的形状是 \( 4 \times 4 \)，矩阵 \( Y \) 的形状是 \( 4 \times 2 \)，它们的乘积 \( Z = X @ Y \) 的形状是 \( 4 \times 2 \)。
- 计算时，乘积矩阵 \( Z \) 的每个元素是 \( X \) 的某一行与 \( Y \) 的某一列的点积。

In [4]:
z_rand = torch.rand(6,6)
print(z_rand)
z_copy = torch.rand_like(z_rand)
print(z_copy)

tensor([[0.1403, 0.6154, 0.8966, 0.6262, 0.3111, 0.6699],
        [0.7341, 0.7049, 0.6820, 0.1914, 0.8069, 0.6850],
        [0.2548, 0.5455, 0.2311, 0.9859, 0.1084, 0.7951],
        [0.2052, 0.6623, 0.6246, 0.7815, 0.9876, 0.5249],
        [0.3920, 0.5089, 0.2981, 0.6649, 0.0459, 0.2363],
        [0.8587, 0.9652, 0.9240, 0.0613, 0.4841, 0.7637]])
tensor([[0.5279, 0.6723, 0.6178, 0.2747, 0.1119, 0.2743],
        [0.1172, 0.1397, 0.0352, 0.0479, 0.5422, 0.4105],
        [0.9544, 0.1355, 0.0083, 0.2314, 0.3468, 0.3941],
        [0.5486, 0.5482, 0.1439, 0.6531, 0.8854, 0.3003],
        [0.6828, 0.1225, 0.7647, 0.6213, 0.8857, 0.7146],
        [0.3945, 0.4918, 0.9230, 0.1345, 0.2458, 0.1519]])


In [16]:
z1 = tensor * tensor
z2 = tensor.mul(tensor)
z3 = torch.rand_like(tensor)
torch.mul(tensor,tensor,out=z3)
print(z1)
print(z2)
print(z3)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])
tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])
tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [18]:
# get numerical value of tensor by item()
agg = tensor.sum()
agg_item = agg.item()
print(agg,agg_item,type(agg_item))

tensor(12.) 12.0 <class 'float'>


In [19]:
print(f'{tensor} \n')
tensor.add_(5)
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor([[6., 5., 6., 6.],
        [6., 5., 6., 6.],
        [6., 5., 6., 6.],
        [6., 5., 6., 6.]])


In [21]:
t = torch.ones(5)
print(f't: {t}')
n = t.numpy()
print(f'n: {n}')

t: tensor([1., 1., 1., 1., 1.])
n: [1. 1. 1. 1. 1.]


In [22]:
t.add_(1) # in place operation
print(f't: {t}')
print(f'n: {n}')

t: tensor([2., 2., 2., 2., 2.])
n: [2. 2. 2. 2. 2.]


In [23]:
n = np.ones(5)
t = torch.from_numpy(n)
np.add(n, 1, out=n)
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
n: [2. 2. 2. 2. 2.]


In [12]:
a = torch.ones(2,2,dtype=torch.int32)
b = torch.tensor([[1,2,3],[1,2,3]],dtype=torch.int32)
print(f"a shape: {a.shape}, b shape: {b.shape}")

a shape: torch.Size([2, 2]), b shape: torch.Size([2, 3])


In [14]:
a

tensor([[1, 1],
        [1, 1]], dtype=torch.int32)

In [15]:
b

tensor([[1, 2, 3],
        [1, 2, 3]], dtype=torch.int32)

In [13]:
a @ b

tensor([[2, 4, 6],
        [2, 4, 6]], dtype=torch.int32)

不完全是这样的，矩阵乘法的计算规则稍微复杂一些。我们来详细解释一下。

### **矩阵乘法本质：**
矩阵乘法的本质是**"行乘列"**，而不是**"元素逐个相乘"**。

#### **行乘列规则：**
- 如果有两个矩阵 \(A\) 和 \(B\)，其中：
  - \(A\) 的形状是 \((m, n)\)
  - \(B\) 的形状是 \((n, p)\)

- 矩阵乘法 \(C = A @ B\) 的结果矩阵 \(C\) 的形状是 \((m, p)\)。

- **第 \(i, j\) 个元素的计算公式为：**
  \[
  C_{ij} = \sum_{k=1}^{n} A_{ik} \times B_{kj}
  \]

---

### **结合你的例子：**
```python
import torch

a = torch.ones(2, 2, dtype=torch.int32)  # 2x2 矩阵
b = torch.tensor([[1, 2, 3], [1, 2, 3]], dtype=torch.int32)  # 2x3 矩阵

c = torch.matmul(a, b)  # 矩阵乘法
print(c)
```

#### **矩阵 \(A\) 和 \(B\)：**
\[
A = \begin{bmatrix} 1 & 1 \\ 1 & 1 \end{bmatrix}
\]

\[
B = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \end{bmatrix}
\]

---

#### **计算第一个元素 \(C_{00}\)：**
取 **A 的第 1 行** 和 **B 的第 1 列**：
\[
C_{00} = (1 \times 1) + (1 \times 1) = 2
\]

#### **计算第二个元素 \(C_{01}\)：**
取 **A 的第 1 行** 和 **B 的第 2 列**：
\[
C_{01} = (1 \times 2) + (1 \times 2) = 4
\]

#### **计算第三个元素 \(C_{02}\)：**
取 **A 的第 1 行** 和 **B 的第 3 列**：
\[
C_{02} = (1 \times 3) + (1 \times 3) = 6
\]

---

#### **第二行元素计算（同样的逻辑）：**
由于 \(A\) 的第二行和第一行相同，因此计算结果相同：
\[
C_{10} = (1 \times 1) + (1 \times 1) = 2
\]
\[
C_{11} = (1 \times 2) + (1 \times 2) = 4
\]
\[
C_{12} = (1 \times 3) + (1 \times 3) = 6
\]

---

#### **最终结果矩阵：**
\[
C = \begin{bmatrix} 2 & 4 & 6 \\ 2 & 4 & 6 \end{bmatrix}
\]

---

### **关键点：**
1. **行乘列**：并不是用 \(A\) 的每个元素去乘 \(B\) 的每一列，而是用 \(A\) 的**整行**去乘 \(B\) 的**整列**，对应元素相乘后**求和**。
2. **相乘顺序**：对于每个位置 \((i, j)\)，遍历 \(A\) 的第 \(i\) 行和 \(B\) 的第 \(j\) 列，对应元素乘积**求和**。

In [19]:
c = torch.tensor([[2,0],[0,2]],dtype=torch.int32)
c

tensor([[2, 0],
        [0, 2]], dtype=torch.int32)

In [28]:
a @ b

tensor([[2, 4, 6],
        [2, 4, 6]], dtype=torch.int32)

In [27]:
c @ b

tensor([[2, 4, 6],
        [2, 4, 6]], dtype=torch.int32)

In [29]:
a * c

tensor([[2, 0],
        [0, 2]], dtype=torch.int32)

In [30]:
d = torch.tensor([[1,0,0],[0,1,0]],dtype=torch.int32)
d

tensor([[1, 0, 0],
        [0, 1, 0]], dtype=torch.int32)

In [32]:
b

tensor([[1, 2, 3],
        [1, 2, 3]], dtype=torch.int32)

In [34]:
d @ b.T

tensor([[1, 1],
        [2, 2]], dtype=torch.int32)

In [35]:
torch.ones_like(b)

tensor([[1, 1, 1],
        [1, 1, 1]], dtype=torch.int32)

In [36]:
torch.rand_like(b)

RuntimeError: "check_uniform_bounds" not implemented for 'Int'

In [37]:
torch.dot(a,c)

RuntimeError: 1D tensors expected, but got 2D and 2D tensors

好的，我们来详细计算以下矩阵乘法：

### **1. 矩阵定义：**
```python
import torch

d = torch.tensor([[1, 0, 0], [0, 1, 0]], dtype=torch.int32)
b = torch.tensor([[1, 2, 3], [1, 2, 3]], dtype=torch.int32)

print(f"d shape: {d.shape}, b shape: {b.shape}")
```

输出：
```
d shape: torch.Size([2, 3]), b shape: torch.Size([2, 3])
```

#### **矩阵 d：** (2x3)
\[
d = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{bmatrix}
\]

#### **矩阵 b：** (2x3)
\[
b = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \end{bmatrix}
\]

---

### **2. 乘法规则：**
矩阵乘法要求：
- **d 的列数**（3）要等于 **b 的行数**（2）。  
- 因为不符合矩阵乘法规则，所以**直接计算 \(d \times b\) 会报错**。

**矩阵乘法的维度要求：**
\[
(m, n) \times (n, p) \implies (m, p)
\]
- 但是，这里 **\(d\) 是 \(2 \times 3\)**，**\(b\) 也是 \(2 \times 3\)**，它们**不符合矩阵乘法要求**。

---

### **3. 如何理解这个问题？**
矩阵乘法要求：
- **第一个矩阵的列数** = **第二个矩阵的行数**。  
- 由于 \(d\) 和 \(b\) 都是 \(2 \times 3\)，它们无法直接相乘。

---

### **4. 是否可以换乘法顺序？**
如果我们尝试计算 \(b \times d^T\)（即将 d 转置），则：
- \(d^T\) 的形状为 \(3 \times 2\)，因此：
\[
b \times d^T \implies (2 \times 3) \times (3 \times 2) \implies (2 \times 2)
\]

---

### **5. 计算 \(b \times d^T\)：**
\[
d^T = \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{bmatrix}
\]

\[
b \times d^T = \begin{bmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \end{bmatrix} \times \begin{bmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{bmatrix}
\]

#### **计算第一个元素 \(C_{00}\)：**
\[
C_{00} = (1 \times 1) + (2 \times 0) + (3 \times 0) = 1
\]

#### **计算第二个元素 \(C_{01}\)：**
\[
C_{01} = (1 \times 0) + (2 \times 1) + (3 \times 0) = 2
\]

#### **计算第三个元素 \(C_{10}\)：**
\[
C_{10} = (1 \times 1) + (2 \times 0) + (3 \times 0) = 1
\]

#### **计算第四个元素 \(C_{11}\)：**
\[
C_{11} = (1 \times 0) + (2 \times 1) + (3 \times 0) = 2
\]

#### **最终结果矩阵：**
\[
C = \begin{bmatrix} 1 & 2 \\ 1 & 2 \end{bmatrix}
\]

---

### **6. Python 验证：**
```python
d_t = d.T  # 转置矩阵 d
c = torch.matmul(b, d_t)  # 矩阵乘法
print("Matrix C:\n", c)
```

#### **输出：**
```
Matrix C:
 tensor([[1, 2],
         [1, 2]], dtype=torch.int32)
```

---

### **7. 解释：**
- **d 矩阵**在这里表现为一个**选择矩阵**，它**提取了 b 矩阵的第一列和第二列**，而忽略了第三列。  
- **变换意义：**  
  - **d** 矩阵相当于对 b 进行**维度压缩**，只提取特定方向上的分量。  
  - **换句话说：** \(d\) 就是一个**线性投影矩阵**，将 3 维向量压缩到 2 维。

---

### **8. 几何意义：**
- 假如 \(b\) 矩阵中的每一列代表一个**三维空间向量**，那么 \(d^T\) 相当于将这些向量**投影到二维平面**。  
- 结果矩阵 \(C\) 中的每个元素都是**输入向量在二维空间中的投影值**。

---

### **总结：**
- **矩阵乘法顺序很重要：** 在不能直接相乘的情况下，尝试**转置操作**。  
- **线性投影本质：** 这里，\(d\) 作为投影矩阵，提取了 \(b\) 中每个向量的特定维度。  
- **应用场景：** 这种投影在**降维、特征提取**和**线性变换**中非常常见。  

如果有进一步的问题，随时交流！😊

不，**点积**不仅仅可以用于两个一维向量（1D 向量），它还可以在更高维度的矩阵中使用，但其含义和计算方式有所不同。

### **一、点积的常见使用场景：**
1. **两个一维向量（1D 向量）之间：**  
   \[
   \mathbf{a} \cdot \mathbf{b} = \sum_i a_i \times b_i
   \]
   - 这是最经典的点积形式，也是我们通常所指的**点积**。

2. **矩阵的行和列（矩阵乘法的一个元素）：**  
   如果有两个矩阵 \(A\) 和 \(B\)，矩阵乘法 \(C = A \times B\) 的元素 \(C_{ij}\) 就是**A 的第 \(i\) 行与 B 的第 \(j\) 列的点积**：
   \[
   C_{ij} = \mathbf{a}_i \cdot \mathbf{b}_j
   \]

3. **批量向量点积（批处理）：**  
   当有多个向量对需要同时计算点积时，可以利用**广播机制**或**批量点积**操作。

---

### **二、点积在 PyTorch 中的应用：**

#### **1. 一维向量之间的点积：**
```python
import torch

a = torch.tensor([1, 2, 3], dtype=torch.float32)
b = torch.tensor([4, 5, 6], dtype=torch.float32)

# 点积
dot_product = torch.dot(a, b)
print(f"点积（1D向量）：{dot_product}")
```
**输出：**
```
点积（1D向量）：32.0
```
**解释：**
\[
1 \times 4 + 2 \times 5 + 3 \times 6 = 32
\]

---

#### **2. 矩阵之间的点积（矩阵乘法中的单元点积）：**
假设：
\[
A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}, \quad B = \begin{bmatrix} 5 & 6 \\ 7 & 8 \end{bmatrix}
\]
**矩阵乘法：**
\[
C = A \times B
\]
计算：
\[
C_{00} = (1 \times 5) + (2 \times 7) = 19
\]
\[
C_{01} = (1 \times 6) + (2 \times 8) = 22
\]

**代码：**
```python
A = torch.tensor([[1, 2], [3, 4]], dtype=torch.float32)
B = torch.tensor([[5, 6], [7, 8]], dtype=torch.float32)

# 矩阵乘法
C = torch.matmul(A, B)
print("矩阵乘法结果：\n", C)
```
**输出：**
```
矩阵乘法结果：
 tensor([[19., 22.],
         [43., 50.]])
```
**解释：**
- 每个元素 \(C_{ij}\) 是 \(A\) 第 \(i\) 行与 \(B\) 第 \(j\) 列的点积。

---

#### **3. 批量点积（3D Tensor点积）：**
假设我们有批量数据：
```python
a = torch.tensor([[1, 2, 3], [4, 5, 6]], dtype=torch.float32)  # 2x3
b = torch.tensor([[7, 8, 9], [10, 11, 12]], dtype=torch.float32)  # 2x3

# 批量点积
batch_dot_product = torch.bmm(a.unsqueeze(1), b.unsqueeze(2)).squeeze()
print(f"批量点积：{batch_dot_product}")
```
**输出：**
```
批量点积：tensor([ 50., 154.])
```
**解释：**
\[
(1 \times 7) + (2 \times 8) + (3 \times 9) = 50
\]
\[
(4 \times 10) + (5 \times 11) + (6 \times 12) = 154
\]

---

#### **4. 多维张量点积（内积）：**
当处理高维张量时，比如**3D 张量**（批量、特征、嵌入）：
```python
# 三维张量：批量大小为 2，特征为 3
x = torch.randn(2, 3, 4)  # (batch, feature, embedding)
y = torch.randn(2, 4, 3)  # (batch, embedding, feature)

# 批量点积
result = torch.matmul(x, y)  # (2, 3, 3)
print("批量矩阵乘法：\n", result.shape)
```
**输出：**
```
批量矩阵乘法：
 torch.Size([2, 3, 3])
```
**解释：**
- 每个批次中的**点积**是相应维度上进行的，类似于批量矩阵乘法。

---

### **三、点积与矩阵乘法的区别：**

| 点积                   | 矩阵乘法                               |
|-----------------------|-----------------------------------------|
| 只作用于**1D 向量**       | 作用于**2D 或更高维度矩阵**             |
| 结果是一个**标量**       | 结果是一个**矩阵**                     |
| 计算方式：**元素对应相乘求和** | 计算方式：**行与列的点积，逐元素求和** |

---

### **四、总结：**
1. **点积不局限于1D向量**，在矩阵计算中也会频繁出现，如**矩阵乘法中的单元计算**。  
2. **批量点积**可以通过**张量广播**和**批矩阵乘法（bmm）**来实现。  
3. **矩阵乘法与点积的关系：** 矩阵乘法的每个单元本质上是**行和列的点积**。  
4. **场景：** 从简单的**向量相似度计算**到复杂的**神经网络权重计算**，点积无处不在。  

如果还有什么困惑或者想了解更多实际应用，随时问我！😊

在 PyTorch 中，**两个矩阵直接相乘（使用 `*` 或 `torch.mul()`）**，表示的是**逐元素相乘（Element-wise Multiplication）**，而不是矩阵乘法或点积。

---

### **一、三种乘法的对比**

| 操作        | 计算符号          | 含义                       | 结果形状                          | 典型应用                  |
|------------|-----------------|----------------------------|----------------------------------|--------------------------|
| 点积        | `torch.dot()`    | 两个向量对应元素乘积求和     | 标量 (scalar)                     | 向量相似性、内积计算      |
| 矩阵乘法    | `@` 或 `torch.matmul()` | 矩阵的线性组合和投影        | \((m, p)\)，如果形状为 \((m, n)\) 和 \((n, p)\) | 线性变换、旋转、投影      |
| 元素乘法    | `*` 或 `torch.mul()`    | 元素对应位置相乘             | 相同形状                         | 哈达玛积（Hadamard Product）、逐元素操作 |

---

### **二、三种乘法的数学表达**

#### **1. 点积（Dot Product）:**
点积仅用于**两个相同长度的一维向量**：
\[
\mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n} a_i \times b_i
\]
**Python 示例：**
```python
import torch

a = torch.tensor([1, 2, 3], dtype=torch.float32)
b = torch.tensor([4, 5, 6], dtype=torch.float32)

dot_product = torch.dot(a, b)
print(f"点积: {dot_product}")
```
**输出：**
```
点积: 32.0
```
**计算：** \(1 \times 4 + 2 \times 5 + 3 \times 6 = 32\)

---

#### **2. 矩阵乘法（Matrix Multiplication）：**
用于**二维及以上矩阵**，需要满足形状匹配：  
\[
\mathbf{C} = \mathbf{A} @ \mathbf{B}
\]
\[
C_{ij} = \sum_{k=1}^{n} A_{ik} \times B_{kj}
\]
**Python 示例：**
```python
A = torch.tensor([[1, 2], [3, 4]], dtype=torch.float32)
B = torch.tensor([[5, 6], [7, 8]], dtype=torch.float32)

matrix_product = torch.matmul(A, B)
print("矩阵乘法结果:\n", matrix_product)
```
**输出：**
```
矩阵乘法结果:
 tensor([[19., 22.],
         [43., 50.]])
```
**计算：**  
\[
C_{00} = (1 \times 5) + (2 \times 7) = 19
\]  
\[
C_{01} = (1 \times 6) + (2 \times 8) = 22
\]  
\[
C_{10} = (3 \times 5) + (4 \times 7) = 43
\]  
\[
C_{11} = (3 \times 6) + (4 \times 8) = 50
\]

---

#### **3. 元素乘法（Element-wise Multiplication）：**
直接使用 `*` 或 `torch.mul()`，要求**两个矩阵形状相同**：
\[
\mathbf{C} = \mathbf{A} * \mathbf{B}
\]
**Python 示例：**
```python
elementwise_product = A * B
print("逐元素乘法结果:\n", elementwise_product)
```
**输出：**
```
逐元素乘法结果:
 tensor([[ 5., 12.],
         [21., 32.]])
```
**计算：**  
\[
C_{00} = 1 \times 5 = 5
\]  
\[
C_{01} = 2 \times 6 = 12
\]  
\[
C_{10} = 3 \times 7 = 21
\]  
\[
C_{11} = 4 \times 8 = 32
\]

---

### **三、元素乘法的应用场景**

1. **哈达玛积（Hadamard Product）：**  
   - 用于**逐元素权重化**或**掩膜操作**。  
   - 在**卷积神经网络（CNN）**中，逐元素乘法用于**门控机制**。  

2. **损失计算：**  
   - 在损失函数中，如**均方误差（MSE）**，逐元素求平方：  
     \[
     \text{MSE} = \frac{1}{n} \sum (y_{true} - y_{pred})^2
     \]

3. **特征交互：**  
   - 在**推荐系统**中，可以将两个特征向量逐元素相乘，得到**特征交互值**。  

4. **逐元素操作：**  
   - 在图神经网络（GNN）中，有时需要将节点特征进行逐元素加权（注意力机制）。  

---

### **四、点积、矩阵乘法、元素乘法的核心区别：**

| 特性                   | 点积                 | 矩阵乘法                    | 元素乘法                      |
|-----------------------|-----------------------|-----------------------------|-------------------------------|
| 输入要求               | 一维向量               | 二维或更高维矩阵             | 相同形状的矩阵或张量           |
| 输出形式               | 标量（scalar）          | 矩阵                        | 矩阵                          |
| 计算方式               | 对应元素相乘再求和       | 行与列相乘并累加              | 对应元素直接相乘               |
| 几何意义               | 两个向量的投影和夹角关系 | 线性变换或旋转                | 元素间逐个乘积，逐元素变换      |
| 典型应用               | 向量相似性、能量计算     | 线性变换、特征映射            | 权重加权、掩膜操作、逐元素计算 |

---

### **五、总结：**
1. **点积**适用于**向量相似性计算**，结果是一个**标量**，反映两个向量在相同方向上的投影。  
2. **矩阵乘法**用于**线性变换和空间映射**，是神经网络中计算**加权和**的核心操作。  
3. **逐元素乘法**是**按位计算**，对**相同形状的矩阵**逐元素操作，应用于**权重化、特征交互、哈达玛积**等。  
4. **计算成本：**  
   - 点积：\(O(n)\)  
   - 矩阵乘法：\(O(m \times n \times p)\)  
   - 元素乘法：\(O(m \times n)\)  

如果还有疑问或需要进一步示例，请随时联系我！😊

- matrix multiplication
- element-wise product

In [39]:
a.sum().item()

4

在数学和日常用语中，**"multiplication"** 和 **"product"** 都与“乘法”相关，但它们的含义和使用场景有所不同。以下是它们的区别：

---

### **1. Multiplication（乘法）**
- **词性：** 名词
- **含义：** 一种数学运算，表示通过将一个数与另一个数相乘来得到结果。
- **用法：** 多用于描述**运算过程**。
- **中文翻译：** 乘法、相乘

#### **示例：**
- **The multiplication of 3 and 4 is written as 3 × 4.**  
  （3 和 4 的乘法写作 3 × 4。）

- **Multiplication is one of the four basic operations in arithmetic.**  
  （乘法是算术的四种基本运算之一。）

---

### **2. Product（乘积）**
- **词性：** 名词
- **含义：** 乘法运算后的**结果**。
- **用法：** 多用于描述**运算结果**。
- **中文翻译：** 乘积

#### **示例：**
- **The product of 3 and 4 is 12.**  
  （3 和 4 的乘积是 12。）

- **Finding the product of two numbers involves multiplication.**  
  （求两个数的乘积涉及乘法运算。）

---

### **总结：**
| 区别        | Multiplication                 | Product            |
|------------|--------------------------------|---------------------|
| **含义**     | 运算过程，表示两个数相乘         | 运算结果，表示乘法的结果 |
| **词性**     | 名词（表示过程）                 | 名词（表示结果）       |
| **中文翻译** | 乘法、相乘                       | 乘积                 |
| **示例**     | The multiplication of 3 and 4. | The product of 3 and 4. |

---

### **一个比喻：**
- **Multiplication** 就像**烹饪过程**，表示把食材（数）混合在一起。  
- **Product** 就像**成品菜**，是烹饪完成后得到的结果。

---

在实际使用中，当描述**计算过程**时用 **"multiplication"**，当描述**结果**时用 **"product"**。如果还有疑问，随时联系我！