In [None]:
import torch
from transformers import AutoModel

# 定义模型名称，可以是本地路径或Hugging Face模型ID
MODEL_NAME = "BAAI/BGE-VL-large"

# 加载预训练模型，必须设置trust_remote_code=True以运行远程代码
model = AutoModel.from_pretrained(MODEL_NAME, trust_remote_code=True)
# 设置模型处理器，用于处理输入的图像和文本
model.set_processor(MODEL_NAME)
# 将模型设置为评估模式，不计算梯度
model.eval()



In [None]:
from FlagEmbedding.inference.embedder.model_mapping import AUTO_EMBEDDER_MAPPING

with open("model_mapping.txt", "w") as f:
    for key in AUTO_EMBEDDER_MAPPING.keys():
        f.write(key + "\n")
# 通过模型名称获取模型类
list(AUTO_EMBEDDER_MAPPING.keys())


['bge-en-icl',
 'bge-multilingual-gemma2',
 'bge-m3',
 'bge-large-en-v1.5',
 'bge-base-en-v1.5',
 'bge-small-en-v1.5',
 'bge-large-zh-v1.5',
 'bge-base-zh-v1.5',
 'bge-small-zh-v1.5',
 'bge-large-en',
 'bge-base-en',
 'bge-small-en',
 'bge-large-zh',
 'bge-base-zh',
 'bge-small-zh',
 'e5-mistral-7b-instruct',
 'e5-large-v2',
 'e5-base-v2',
 'e5-small-v2',
 'multilingual-e5-large-instruct',
 'multilingual-e5-large',
 'multilingual-e5-base',
 'multilingual-e5-small',
 'e5-large',
 'e5-base',
 'e5-small',
 'gte-Qwen2-7B-instruct',
 'gte-Qwen2-1.5B-instruct',
 'gte-Qwen1.5-7B-instruct',
 'gte-multilingual-base',
 'gte-large-en-v1.5',
 'gte-base-en-v1.5',
 'gte-large',
 'gte-base',
 'gte-small',
 'gte-large-zh',
 'gte-base-zh',
 'gte-small-zh',
 'SFR-Embedding-2_R',
 'SFR-Embedding-Mistral',
 'Linq-Embed-Mistral',
 'bce-embedding-base_v1']

In [None]:

# 使用torch.no_grad()上下文管理器，在推理阶段禁用梯度计算以提高速度和减少内存使用
with torch.no_grad():
    # 编码查询，包含图像和文本描述
    query = model.encode(
        images = "cat.png", 
    )

    # 编码候选图像，不包含文本描述
    candidates = model.encode(
        images = ["cat.png", "dog.png"]
    )
    
    # 计算查询向量与候选向量之间的相似度分数（点积）
    scores = query @ candidates.T
# 打印相似度分数
print(scores)

tensor([[1.0000, 0.4867]])


In [None]:

# 使用torch.no_grad()上下文管理器，在推理阶段禁用梯度计算以提高速度和减少内存使用
with torch.no_grad():
    # 编码查询，包含图像和文本描述
    query = model.encode(
        images = "cat.png", 
        text = "将背景变暗，就像相机在夜间拍摄的照片一样"  # 中文文本描述
    )

    # 编码候选图像，不包含文本描述
    candidates = model.encode(
        images = ["cat.png", "dog.png"]
    )
    
    # 计算查询向量与候选向量之间的相似度分数（点积）
    scores = query @ candidates.T
# 打印相似度分数
print(scores)

tensor([[0.0644, 0.0356]])


In [None]:

# 使用torch.no_grad()上下文管理器，在推理阶段禁用梯度计算以提高速度和减少内存使用
with torch.no_grad():
    # 编码查询，包含图像和文本描述
    query = model.encode(
        images = "cat.png", 
        text = "图片里面是一只狗"  # 中文文本描述
    )

    # 编码候选图像，不包含文本描述
    candidates = model.encode(
        images = ["cat.png", "dog.png"]
    )
    
    # 计算查询向量与候选向量之间的相似度分数（点积）
    scores = query @ candidates.T
# 打印相似度分数
print(scores)

tensor([[0.0727, 0.0536]])


In [None]:

# 使用torch.no_grad()上下文管理器，在推理阶段禁用梯度计算以提高速度和减少内存使用
with torch.no_grad():
    # 编码查询，包含图像和文本描述
    query = model.encode(
        images = "cat.png", 
        text = "The image contains a dog"  # English text description
    )

    # 编码候选图像，不包含文本描述
    candidates = model.encode(
        images = ["cat.png", "dog.png"]
    )
    
    # 计算查询向量与候选向量之间的相似度分数（点积）
    scores = query @ candidates.T
# 打印相似度分数
print(scores)

tensor([[0.2093, 0.2747]])
