# 步骤 2.1: 特征提取模块设计

根据 `plan1.md` 的规划，本 Notebook 将设计并实现用于文本和图像的特征提取模块。我们将：

1.  **选择并加载预训练模型**：
    *   文本特征提取：使用 `bert-base-chinese`。
    *   图像特征提取：使用 `resnet50`。
2.  **封装特征提取器**：创建独立的类来处理文本和图像的特征提取。
3.  **加载示例数据**：使用 `DataLoader` 加载少量验证集数据。
4.  **执行特征提取**：在示例数据上运行特征提取器，并验证输出的维度。

## 1. 环境准备与库安装

首先，安装并导入所需的库。我们将使用 `transformers` 来加载 BERT 模型，`timm` 来加载 ResNet 模型，以及 `torch` 作为深度学习框架。

In [1]:
# !pip install transformers torch timm
# !pip install accelerate

In [2]:
import os
import sys
import torch
from transformers import BertTokenizer, BertModel
import timm
from PIL import Image
import numpy as np
from torchvision import transforms

# 设置 Hugging Face 和 timm 的缓存目录
cache_dir = "/mnt/d/HuggingFaceModels/"
os.environ['TORCH_HOME'] = cache_dir


# 禁用 transformers 冗余日志
os.environ["TOKENIZERS_PARALLELISM"] = "false"
os.environ["TRANSFORMERS_NO_ADVISORY_WARNINGS"] = "1"
os.environ['https_proxy'] = 'http://127.0.0.1:7890'
os.environ['http_proxy'] = 'http://127.0.0.1:7890'
os.environ['all_proxy'] = 'socks5://127.0.0.1:7890'
os.environ["WANDB_DISABLED"] = "true"


# 将 data_loader.py 的路径添加到系统路径中
module_path = os.path.abspath(os.path.join('.'))
if module_path not in sys.path:
    sys.path.append(module_path)

from data_loader import DataLoader

# 检查是否有可用的 GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

  import pynvml  # type: ignore[import]
  from .autonotebook import tqdm as notebook_tqdm


Using device: cuda


## 2. 文本特征提取模块

我们定义一个 `TextFeatureExtractor` 类，它使用 `bert-base-chinese` 模型来提取文本的嵌入向量。

In [3]:
class TextFeatureExtractor:
    def __init__(self, model_name='bert-base-chinese', device='cpu', cache_dir=None):
        self.tokenizer = BertTokenizer.from_pretrained(
            model_name, cache_dir=cache_dir, 
            local_files_only=True ## 如果是第一次加载，千万不要设置这个为True。
        )
        self.model = BertModel.from_pretrained(
            model_name, cache_dir=cache_dir, 
            local_files_only=True ## 如果是第一次加载，千万不要设置这个为True。
        ).to(device)
        self.device = device
        self.model.eval()  # 设置为评估模式
        print(f"文本模型 {model_name} 加载完成。")

    def extract_features(self, texts):
        """
        从一批文本中提取特征。
        
        Args:
            texts (list of str): 文本列表。
            
        Returns:
            torch.Tensor: 特征张量。
        """
        # 使用分词器对文本进行编码
        inputs = self.tokenizer(texts, return_tensors='pt', padding=True, truncation=True, max_length=128).to(self.device)
        
        # 在无梯度的上下文中进行前向传播
        with torch.no_grad():
            outputs = self.model(**inputs)
        
        # 我们使用 [CLS] token 的输出来代表整个句子的特征
        return outputs.last_hidden_state[:, 0, :]

# 初始化文本特征提取器
text_extractor = TextFeatureExtractor(device=device, cache_dir=cache_dir)

文本模型 bert-base-chinese 加载完成。


## 3. 图像特征提取模块

接下来，我们定义一个 `ImageFeatureExtractor` 类，它使用预训练的 `resnet50` 模型来提取图像的特征向量。

In [5]:
class ImageFeatureExtractor:
    def __init__(self, model_name='resnet50', device='cpu', cache_dir=None):
        # timm 会自动使用 TORCH_HOME 环境变量设置的缓存目录，此处 cache_dir 参数仅为保持接口统一
        # 当 pretrained=True 时，timm 会首先在 TORCH_HOME 中查找模型，如果找不到则会尝试下载。
        # 要实现类似 local_files_only=True 的效果，需要确保模型文件已存在于缓存目录中。
        self.model = timm.create_model(
            model_name, pretrained=True, num_classes=0,
            cache_dir=cache_dir, 
        ).to(device)
        self.device = device
        self.model.eval()  # 设置为评估模式
        print(f"图像模型 {model_name} 加载完成。")

        # 定义图像预处理转换
        self.transform = transforms.Compose([
            transforms.Resize((224, 224)),
            transforms.ToTensor(),
            transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
        ])

    def extract_features(self, images):
        """
        从一批图像中提取特征。
        
        Args:
            images (list of PIL.Image): PIL 图像列表。
            
        Returns:
            torch.Tensor: 特征张量。
        """
        # 将图像转换为张量并进行预处理
        image_tensors = torch.stack([self.transform(img) for img in images]).to(self.device)
        
        # 在无梯度的上下文中进行前向传播
        with torch.no_grad():
            features = self.model(image_tensors)
            
        return features

# 初始化图像特征提取器
image_extractor = ImageFeatureExtractor(device=device, cache_dir=cache_dir)

2025-11-04 21:08:59,783 - INFO - Loading pretrained weights from Hugging Face hub (timm/resnet50.a1_in1k)
2025-11-04 21:09:31,353 - INFO - [timm/resnet50.a1_in1k] Safe alternative available for 'pytorch_model.bin' (as 'model.safetensors'). Loading weights using safetensors.


图像模型 resnet50 加载完成。


## 4. 在示例数据上测试特征提取器

现在，我们加载一些示例数据，并使用我们刚刚定义的特征提取器来提取文本和图像的特征。

In [8]:
# 初始化 DataLoader
loader = DataLoader()

# 加载少量验证集数据作为示例
valid_queries_df = loader.load_queries(split='valid')
sample_queries = valid_queries_df.head(3)  # 取前3个查询作为示例

# 加载对应的图片
all_item_ids = []
for ids in sample_queries['item_ids']:
    all_item_ids.extend(ids)

# 使用 create_img_id_to_image_dict 加载特定ID的图片
# 注意：这里为了演示，我们加载所有验证集图片，然后筛选。在实际应用中，应优化为按需加载。
valid_images_dict = loader.create_img_id_to_image_dict(split='valid') # 限制样本量以节省时间

sample_images = []
sample_image_ids = []
for img_id in all_item_ids:
    if str(img_id) in valid_images_dict:
        sample_images.append(valid_images_dict[str(img_id)])
        sample_image_ids.append(str(img_id))

print(f"加载了 {len(sample_queries)} 条查询和 {len(sample_images)} 张图片作为示例。")

2025-11-04 21:16:19,254 - INFO - 初始化数据加载器，数据目录: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval
2025-11-04 21:16:19,258 - INFO - 加载valid查询数据: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval/MR_valid_queries.jsonl
加载valid查询数据: 5008it [00:00, 235810.71it/s]
2025-11-04 21:16:19,296 - INFO - 成功加载valid查询数据，共5008条
2025-11-04 21:16:19,305 - INFO - 批量加载valid图片数据: /mnt/d/forCoding_data/Tianchi_MUGE/originalData/Multimodal_Retrieval/MR_valid_imgs.tsv
加载valid图片数据:   3%|█▊                                                        | 913/29806 [00:00<00:12, 2335.97it/s]2025-11-04 21:16:22,394 - INFO - 已加载1000张图片到内存
加载valid图片数据:   6%|███▌                                                     | 1883/29806 [00:01<00:14, 1940.31it/s]2025-11-04 21:16:23,030 - INFO - 已加载2000张图片到内存
加载valid图片数据:   9%|█████▎                                                   | 2799/29806 [00:01<00:13, 2016.31it/s]2025-11-04 21:16:23,560 - INFO - 已加载3000张图片到内存
加载valid图片数据:  13%|███████▋    

加载了 3 条查询和 17 张图片作为示例。


In [13]:
sample_queries

Unnamed: 0,query_id,query_text,item_ids
0,248816,圣诞 抱枕,"[1006938, 561749, 936929, 286314, 141999, 183846]"
1,248859,德方焕颜美即露,"[665851, 157973, 576313, 102370, 104367, 950760]"
2,248871,荷叶边花瓶,"[160459, 666622, 637011, 783255, 178679]"


In [22]:
# 提取文本特征
if not sample_queries.empty:
    sample_texts = sample_queries['query_text'].tolist()
    text_features = text_extractor.extract_features(sample_texts)
    print(f"提取的文本特征维度: {text_features.shape}")

# 提取图像特征
if sample_images:
    # 确保所有图像都已正确加载
    valid_sample_images = [img for img in sample_images if img is not None]
    if valid_sample_images:
        image_features = image_extractor.extract_features(valid_sample_images)
        print(f"提取的图像特征维度: {image_features.shape}")
    else:
        print("没有有效的图像可供处理。")

提取的文本特征维度: torch.Size([3, 768])
提取的图像特征维度: torch.Size([17, 2048])


## 4.1 尝试用clip-vit来搞

In [44]:
from transformers import ChineseCLIPProcessor, ChineseCLIPModel
class ChineseCLIPFeatureExtractor:
    def __init__(self, model_name="OFA-Sys/chinese-clip-vit-base-patch16", device=None, cache_dir=None):
        if device is None:
            self.device = "cuda" if torch.cuda.is_available() else "cpu"
        else:
            self.device = device
        
        self.model = ChineseCLIPModel.from_pretrained(model_name, cache_dir=cache_dir, 
                                                      local_files_only=True
                                                     ).to(self.device)
        self.processor = ChineseCLIPProcessor.from_pretrained(model_name, cache_dir=cache_dir, 
                                                              local_files_only=True
                                                             )
        print(f"Model loaded on {self.device}")

    def extract_text_features(self, text_list):
        inputs = self.processor(text=text_list, return_tensors="pt", padding=True)
        inputs = {k: v.to(self.device) for k, v in inputs.items()}
        with torch.no_grad():
            text_features = self.model.get_text_features(**inputs)
        return text_features

    def extract_image_features(self, image_list):
        inputs = self.processor(images=image_list, return_tensors="pt")
        inputs = {k: v.to(self.device) for k, v in inputs.items()}
        with torch.no_grad():
            image_features = self.model.get_image_features(**inputs)
        return image_features

In [45]:
# 初始化特征提取器
feature_extractor = ChineseCLIPFeatureExtractor(cache_dir=cache_dir)

Model loaded on cuda


In [29]:
# 提取文本特征
if not sample_queries.empty:
    sample_texts = sample_queries['query_text'].tolist()
    text_features = feature_extractor.extract_text_features(sample_texts)
    print(f"提取的文本特征维度: {text_features.shape}")

# 提取图像特征
if sample_images:
    # 确保所有图像都已正确加载
    valid_sample_images = [img for img in sample_images if img is not None]
    if valid_sample_images:
        image_features = image_extractor.extract_image_features(valid_sample_images)
        print(f"提取的图像特征维度: {image_features.shape}")
    else:
        print("没有有效的图像可供处理。")

TypeError: linear(): argument 'input' (position 1) must be Tensor, not NoneType

## 5. 总结

在这个 Notebook 中，我们成功地：

1.  **构建了文本特征提取器**：使用 `bert-base-chinese` 模型，能够将文本查询转换为 768 维的特征向量。
2.  **构建了图像特征提取器**：使用 `resnet50` 模型，能够将图像转换为 2048 维的特征向量。
3.  **验证了特征提取流程**：在示例数据上成功运行了特征提取，并确认了输出张量的形状。

这些特征提取模块是构建基线检索模型的核心组件。下一步，我们将使用这些模块来构建一个完整的检索流程，并进行训练和评估。