# 检索器模块 (Retriever Module)

该模块实现了基于向量相似性的问答检索系统，包含以下功能：
1. 文本向量化 - 使用sentence-transformers将中文问题转换为向量
2. 索引构建 - 使用FAISS构建高效的向量索引
3. ID映射 - 建立索引ID到原始数据的映射关系
4. 检索接口 - 提供search(query, k)函数返回最相似的问题


In [1]:
# 导入必要的库
import json
import numpy as np
import torch
import faiss
from sentence_transformers import SentenceTransformer
from tqdm import tqdm
import os
import pickle

# 设置设备
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"使用设备: {device}")

# 设置文件路径
DATA_PATH = "../data/qa_clean_data.json"
VECTORS_PATH = "../retriever/qa_tensors.pt"
INDEX_PATH = "../retriever/qa_faiss_index.index"
ID_MAP_PATH = "../retriever/id_map.json"


使用设备: cpu


In [2]:
# 1. 数据加载和预处理
def load_qa_data(data_path):
    """加载QA数据集"""
    with open(data_path, 'r', encoding='utf-8') as f:
        data = json.load(f)
    print(f"加载了 {len(data)} 条QA数据")
    return data

# 加载数据
qa_data = load_qa_data(DATA_PATH)

# 提取所有问题文本
questions = [item['question'] for item in qa_data]
print(f"提取了 {len(questions)} 个问题")
print("前5个问题示例:")
for i, q in enumerate(questions[:5]):
    print(f"{i+1}. {q}")


加载了 221 条QA数据
提取了 221 个问题
前5个问题示例:
1. 墨尔本的公共交通系统包括哪些交通工具
2. 墨尔本交通指南
3. Myki卡使用指南
4. 公共交通是否有学生优惠如何申请
5. 公共交通票价指南


In [3]:
# 2. 文本向量化
def vectorize_questions(questions, model_name='paraphrase-multilingual-MiniLM-L12-v2'):
    """
    使用sentence-transformers将问题文本转换为向量
    选择支持中文的多语言模型
    """
    print(f"正在加载模型: {model_name}")
    model = SentenceTransformer(model_name, device=device)
    
    print("开始向量化问题...")
    # 批量编码，提高效率
    question_vectors = model.encode(
        questions,
        batch_size=32,
        show_progress_bar=True,
        convert_to_tensor=True,
        device=device
    )
    
    print(f"向量化完成！向量维度: {question_vectors.shape}")
    return question_vectors, model

# 执行向量化
question_vectors, encoder_model = vectorize_questions(questions)

# 保存向量张量
torch.save(question_vectors, VECTORS_PATH)
print(f"向量已保存到: {VECTORS_PATH}")


正在加载模型: paraphrase-multilingual-MiniLM-L12-v2
开始向量化问题...


Batches:   0%|          | 0/7 [00:00<?, ?it/s]

向量化完成！向量维度: torch.Size([221, 384])
向量已保存到: ../retriever/qa_tensors.pt


In [4]:
# 3. 构建FAISS索引
def build_faiss_index(vectors):
    """构建FAISS索引以实现高效向量检索"""
    # 转换为numpy数组（FAISS需要）
    if torch.is_tensor(vectors):
        vectors_np = vectors.cpu().numpy().astype('float32')
    else:
        vectors_np = np.array(vectors, dtype='float32')
    
    # 获取向量维度
    dimension = vectors_np.shape[1]
    print(f"构建FAISS索引，向量维度: {dimension}")
    
    # 创建索引（使用L2距离的平面索引）
    index = faiss.IndexFlatL2(dimension)
    
    # 添加向量到索引
    index.add(vectors_np)
    
    print(f"索引构建完成！包含 {index.ntotal} 个向量")
    return index

# 构建索引
faiss_index = build_faiss_index(question_vectors)

# 保存索引
faiss.write_index(faiss_index, INDEX_PATH)
print(f"FAISS索引已保存到: {INDEX_PATH}")


构建FAISS索引，向量维度: 384
索引构建完成！包含 221 个向量
FAISS索引已保存到: ../retriever/qa_faiss_index.index


In [5]:
qa_data

[{'id': '00001',
  'question': '墨尔本的公共交通系统包括哪些交通工具',
  'answer': '火车电车巴士出租车',
  'source': '维多利亚州政府',
  'link': 'httpsliveinmelbourne.vic.gov.auzh-cnlivegetting-aroundpublic-transport',
  'tags': ['交通'],
  'creator': 'mengyue',
  'created_at': '2025-03-25'},
 {'id': '00002',
  'question': '墨尔本交通指南',
  'answer': '通用交通自驾游旅游观光',
  'source': '澳大利亚旅游局',
  'link': 'httpswww.australia.cnzh-cnplacesmelbourne-and-surroundsgetting-around-melbourne.html',
  'tags': ['交通'],
  'creator': 'mengyue',
  'created_at': '2025-03-25'},
 {'id': '00003',
  'question': 'Myki卡使用指南',
  'answer': '充值购买上下车注册',
  'source': '维多利亚公共交通',
  'link': 'httpswww.ptv.vic.gov.auassetsPTV-default-sitefooterCustomer-serviceInformation-in-other-languagesPTV-myki-go-to-guide-20222022-Your-go-to-guide-to-myki-Chinese.pdf',
  'tags': ['交通'],
  'creator': 'mengyue',
  'created_at': '2025-03-25'},
 {'id': '00004',
  'question': '公共交通是否有学生优惠如何申请',
  'answer': '半价乘车优惠教程及要求',
  'source': '知乎',
  'link': 'httpszhuanlan.zhihu.comp583163

In [None]:
# 4. 创建ID映射
def create_id_mapping(qa_data):
    """创建索引ID到原始数据的映射"""
    id_mapping = {}
    
    for idx, item in enumerate(qa_data):
        # 使用字符串作为键，与JSON格式保持一致
        id_mapping[str(idx)] = {
            'original_id': item['id'],
            'question': item['question'],
            'answer': item['answer'],
            'link': item['link'],
            'tags': item['tags']
        }
    
    print(f"创建了 {len(id_mapping)} 个ID映射")
    return id_mapping

# 创建映射
id_mapping = create_id_mapping(qa_data)

# 保存映射
with open(ID_MAP_PATH, 'w', encoding='utf-8') as f:
    json.dump(id_mapping, f, ensure_ascii=False, indent=2)

print(f"ID映射已保存到: {ID_MAP_PATH}")

# 显示映射示例
print("\\n映射示例 (前3个):")
for i in range(min(3, len(id_mapping))):
    print(f"索引 {i}: {id_mapping[str(i)]['question']}")


创建了 221 个ID映射
ID映射已保存到: ../retriever/id_map.json
\n映射示例 (前3个):
索引 0: 墨尔本的公共交通系统包括哪些交通工具
索引 1: 墨尔本交通指南
索引 2: Myki卡使用指南


## 检索接口 (Search API)

实现基于向量相似性的问题检索功能


In [None]:
class QARetriever:
    """问答检索器类"""
    
    def __init__(self, model_name='paraphrase-multilingual-MiniLM-L12-v2'):
        self.model_name = model_name
        self.encoder = None
        self.index = None
        self.id_mapping = None
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
    def load_model(self):
        """加载编码模型"""
        print(f"加载编码模型: {self.model_name}")
        self.encoder = SentenceTransformer(self.model_name, device=self.device)
        
    def load_index(self, index_path):
        """加载FAISS索引"""
        print(f"加载FAISS索引: {index_path}")
        self.index = faiss.read_index(index_path)
        
    def load_id_mapping(self, mapping_path):
        """加载ID映射"""
        print(f"加载ID映射: {mapping_path}")
        with open(mapping_path, 'r', encoding='utf-8') as f:
            self.id_mapping = json.load(f)
    
    def search(self, query, k=5):
        """
        检索最相似的K个问题
        
        Args:
            query (str): 用户查询问题
            k (int): 返回结果数量，默认5个
            
        Returns:
            list: 包含相似问题信息的列表
        """
        if not all([self.encoder, self.index, self.id_mapping]):
            raise ValueError("请先加载模型、索引和ID映射!")
        
        # 1. 将查询编码为向量
        query_vector = self.encoder.encode([query], convert_to_tensor=True, device=self.device)
        query_vector_np = query_vector.cpu().numpy().astype('float32')
        
        # 2. 使用FAISS搜索最相似的向量
        distances, indices = self.index.search(query_vector_np, k)
        
        # 3. 根据索引获取完整信息
        results = []
        for i, (distance, idx) in enumerate(zip(distances[0], indices[0])):
            if str(idx) in self.id_mapping:
                item = self.id_mapping[str(idx)]
                result = {
                    'rank': i + 1,
                    'similarity_score': float(1 / (1 + distance)),  # 转换为相似度分数
                    'distance': float(distance),
                    'original_id': item['original_id'],
                    'question': item['question'],
                    'answer': item['answer'],
                    'link': item['link'],
                    'tags': item['tags']
                }
                results.append(result)
        
        return results
    
    def initialize(self, index_path, mapping_path):
        """初始化检索器"""
        self.load_model()
        self.load_index(index_path)
        self.load_id_mapping(mapping_path)
        print("检索器初始化完成!")

# 创建检索器实例
retriever = QARetriever()
retriever.initialize(INDEX_PATH, ID_MAP_PATH)


## 测试检索功能


In [None]:
# 测试检索功能
def test_search(retriever, test_queries):
    """测试检索功能"""
    for query in test_queries:
        print(f"\\n查询: '{query}'")
        print("-" * 50)
        
        results = retriever.search(query, k=3)
        
        for result in results:
            print(f"排名 {result['rank']}: 相似度 {result['similarity_score']:.4f}")
            print(f"问题: {result['question']}")
            print(f"答案: {result['answer']}")
            print(f"链接: {result['link']}")
            if result['tags']:
                print(f"标签: {', '.join(result['tags'])}")
            print()

# 定义测试查询
test_queries = [
    "如何申请签证",
    "签证需要准备什么材料",
    "签证申请流程",
    "签证费用",
    "签证有效期",
    "签证类型",
    "签证申请表",
]

# 执行测试
test_search(retriever, test_queries)


## 便捷的检索函数


In [None]:
# 创建便捷的全局搜索函数
def search(query, k=5):
    """
    便捷的搜索函数
    
    Args:
        query (str): 用户查询问题
        k (int): 返回结果数量，默认5个
        
    Returns:
        list: 包含相似问题信息的列表
    """
    return retriever.search(query, k)

# 使用示例
print("=== 检索器模块已就绪 ===")
print("使用方法:")
print("results = search('你的问题', k=5)")
print("\\n快速测试:")
results = search("如何买公交卡", k=2)
for result in results:
    print(f"- {result['question']} (相似度: {result['similarity_score']:.3f})")
