In [23]:
import torch
inputs = torch.randn(8, 256, 64)
att = torch.nn.MultiheadAttention(64, 2, 0.1)
outputs, weights = att(inputs, inputs, inputs)
outputs.shape, weights.shape

(torch.Size([8, 256, 64]), torch.Size([256, 8, 8]))

In [22]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# 假设的嵌入向量
text_embedding = torch.randn(256, 64)  # (batch_size, embed_size)
video_embedding = torch.randn(256, 64)  # (batch_size, embed_size)

# 调整嵌入向量以匹配 MultiheadAttention 输入
text_embedding = text_embedding.unsqueeze(0)  # (1, batch_size, embed_size)
video_embedding = video_embedding.unsqueeze(0)  # (1, batch_size, embed_size)

# 使用 MultiheadAttention
att = torch.nn.MultiheadAttention(64, 4, 0.1)
output, weights = att(text_embedding, video_embedding, video_embedding)
output.shape, weights.shape

(torch.Size([1, 256, 64]), torch.Size([256, 1, 1]))

In [25]:
import torch
import torch.nn as nn

# 假设文本和图像特征已经准备好，且它们的嵌入维度相同
text_features = torch.randn(10, 1, 64)  # 文本特征形状: (seq_len, batch, embed_dim)
image_features = torch.randn(20, 1, 64)  # 图像特征形状: (seq_len, batch, embed_dim)

# 将文本和图像特征沿着序列维度拼接
combined_features = torch.cat([text_features, image_features], dim=0)  # (seq_len_text + seq_len_image, batch, embed_dim)

# 初始化多头注意力机制
multihead_attn = nn.MultiheadAttention(embed_dim=64, num_heads=4)

# 应用多头注意力机制来学习模态间的交互
# 注意：在实际使用中，可能需要额外的mask或者padding操作来处理不同长度的序列
output, attn_weights = multihead_attn(combined_features, combined_features, combined_features)
output.shape, attn_weights.shape

(torch.Size([30, 1, 64]), torch.Size([1, 30, 30]))

In [35]:
import torch
import torch.nn as nn

# 假设文本和图像特征的形状都是(8, 256, 64)，意味着有8个序列（这里可以理解为8个不同的数据样本或者时间步），每个序列有256个元素，每个元素是一个64维的特征向量
text_features = torch.randn(8, 256, 64)
image_features = torch.randn(8, 256, 64)

# 初始化多头注意力机制
multihead_attn = nn.MultiheadAttention(64, 2, dropout=0.1)

# 使用文本作为查询（Query），图像作为键（Key）和值（Value）
outputs, weights = multihead_attn(query=text_features, key=image_features, value=image_features)

print(outputs.shape, weights.shape)


torch.Size([8, 256, 64]) torch.Size([256, 8, 8])


In [38]:
import torch
import torch.nn as nn

# 假设文本和图像特征的形状都是(8, 256, 64)，意味着有8个序列（这里可以理解为8个不同的数据样本或者时间步），每个序列有256个元素，每个元素是一个64维的特征向量
text_features = torch.randn(8, 256, 64)
image_features = torch.randn(8, 256, 64)
# 初始化多头注意力机制
multihead_attn = torch.nn.MultiheadAttention(embed_dim=64, num_heads=2, dropout=0.1)

# 文本注意图像（文本作为查询，图像作为键和值）
text_query_image, _ = multihead_attn(query=text_features, key=image_features, value=image_features)

# 或者图像注意文本（图像作为查询，文本作为键和值）
image_query_text, _ = multihead_attn(query=image_features, key=text_features, value=text_features)

In [39]:
import torch
import torch.nn as nn

# 假设的批次大小和特征维度
batch_size = 8
dim = 64

# 生成文本和图像特征
text_features = torch.randn(batch_size, dim)
image_features = torch.randn(batch_size, dim)

# 为了匹配MultiheadAttention的输入形状，我们需要增加一个维度来表示序列长度
# 新的形状将会是 (1, batch_size, dim)
text_features = text_features.unsqueeze(0)  # 增加序列长度维度
image_features = image_features.unsqueeze(0)  # 增加序列长度维度

# 初始化多头注意力机制
multihead_attn = torch.nn.MultiheadAttention(embed_dim=dim, num_heads=2, dropout=0.1)

# 实现交叉注意力机制
# 这里以文本特征为查询（Q），图像特征为键（K）和值（V）
outputs, weights = multihead_attn(query=text_features, key=image_features, value=image_features)

print(outputs.shape, weights.shape)


torch.Size([1, 8, 64]) torch.Size([8, 1, 1])
