In [2]:
import torch
import torch.nn.functional as F

### broadcast

```
cos_sim = F.cosine_similarity(feats[:,None,:], feats[None,:,:], dim=-1)
```

假设 feats 的原始形状是 (N, D)，其中：
- N 是批次大小（在这里是 2 batch_size）
- D 是特征维度

通过添加 None（等同于 unsqueeze）操作：
- feats[:,None,:] 将形状从 (N, D) 变为 (N, 1, D)
- feats[None,:,:] 将形状从 (N, D) 变为 (1, N, D)

广播

当这两个张量进行运算时，PyTorch 的广播机制会将它们扩展为相同的形状：
- (N, 1, D) → (N, N, D)
- (1, N, D) → (N, N, D)

In [8]:
# 假设 feats 的形状是 (3, 2)，即 3 个样本，每个特征维度为 2
X = torch.tensor([
    [1, 2],  # 样本1
    [3, 4],  # 样本2
    [5, 6]   # 样本3
], dtype=torch.float32)


In [9]:
X.shape

torch.Size([3, 2])

In [10]:
cos_sim = F.cosine_similarity(X[:, None, :], X[None,:,:], dim=-1)
cos_sim

tensor([[1.0000, 0.9839, 0.9734],
        [0.9839, 1.0000, 0.9987],
        [0.9734, 0.9987, 1.0000]])

In [13]:
(1*3+2*4) / torch.norm(torch.tensor([1., 2.])) / torch.norm(torch.tensor([3., 4.]))

tensor(0.9839)

In [6]:
# feats[:,None,:] 的形状是 (3, 1, 2)：
[
    [[1, 2]],
    [[3, 4]],
    [[5, 6]]
]

# feats[None,:,:] 的形状是 (1, 3, 2)：
[
    [[1, 2],
     [3, 4],
     [5, 6]]
]

# 广播后，两个张量都变成 (3, 3, 2)：
# 第一个张量（垂直方向重复）：
[
    [[1, 2], 
     [1, 2], 
     [1, 2]],
    [[3, 4], 
     [3, 4], 
     [3, 4]],
    [[5, 6], 
     [5, 6], 
     [5, 6]]
]

# 第二个张量（水平方向重复）：
[
    [[1, 2], 
     [3, 4], 
     [5, 6]],
    [[1, 2], 
     [3, 4], 
     [5, 6]],
    [[1, 2], 
     [3, 4], 
     [5, 6]]
]

[[[1, 2], [3, 4], [5, 6]], [[1, 2], [3, 4], [5, 6]], [[1, 2], [3, 4], [5, 6]]]

In [14]:
input1 = torch.randn(100, 128)
input2 = torch.randn(100, 128)
output = F.cosine_similarity(input1, input2)
output.shape

torch.Size([100])