## 检索模块

### 初始化

In [34]:
import json
import os
import re
import pandas as pd
import numpy as np
from collections import defaultdict
from rapidfuzz import fuzz

from openai import OpenAI
from pinecone import Pinecone
from typing import List, Dict

OPENAI_API_KEY = "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"
PINECONE_API_KEY = "pcsk_5u46KS_Hx3E1L6rTJqeYJ7GmEmDEtpzT6juNNHBmVQTNEaoKr7uaH5tJHzjjdKcU3GaUZw"
INDEX_NAME = "xiyouji-embedding"

In [3]:
# 初始化
client = OpenAI(api_key=OPENAI_API_KEY)
pc = Pinecone(api_key=PINECONE_API_KEY)
index = pc.Index(INDEX_NAME)

In [4]:
# 加载本地all_paragraphs
with open("./data/all_paragraphs.json", "r", encoding="utf-8") as f:
    all_paragraphs = json.load(f)

print(f"成功加载段落数: {len(all_paragraphs)}")
print("示例：", all_paragraphs[0])

成功加载段落数: 3055
示例： {'id': 'xiyouji_1_0', 'chapter': '上卷 第一回\u3000灵根育孕源流出\u3000心性修持大道生', 'chapter_num': 1, 'text': '诗曰：\n混沌未分天地乱，茫茫渺渺无人见。\n自从盘古破鸿蒙，开辟从兹清浊辨。\n覆载群生仰至仁，发明万物皆成善。\n欲知造化会元功，须看西游释厄传。', 'length': 71, 'orig_index': 0}


### Semantic Retriever (向量检索)

In [5]:
def get_query_embedding(text: str, model="text-embedding-3-large") -> List[float]:
    response = client.embeddings.create(
        input=[text],
        model=model
    )
    return response.data[0].embedding

def semantic_retrieve(query: str, top_k: int = 5) -> List[Dict]:
    query_vector = get_query_embedding(query)
    result = index.query(vector=query_vector, top_k=top_k, include_metadata=True)
    return result.matches

In [11]:
def expand_query_semantically(prompt: str, num_variants: int = 4) -> List[str]:
    system_prompt = (
        "你是一个智能搜索助手。请根据用户提出的搜索问题，生成一些语义不同但含义相近的表达方式，"
        f"用于增强语义搜索召回。每个表达不要太长，直接列出 {num_variants} 个不同表达。"
    )

    user_prompt = f"原始问题：{prompt}\n请列出等价或近似问题："

    response = client.chat.completions.create(
        model="gpt-4o",  # 可换成 gpt-3.5-turbo 以节省调用
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_prompt}
        ],
        temperature=0.3
    )

    content = response.choices[0].message.content
    # 支持 GPT 输出：1. xxx 2. xxx 格式
    variants = [line.strip(" 1234567890.-、：") for line in content.strip().split("\n") if line.strip()]
    return variants[:num_variants]

In [12]:
def semantic_retrieve_multi_query(query_list: List[str], top_k_per_query: int = 5, final_top_k: int = 5) -> List[Dict]:
    results = []
    seen_ids = set()
    
    for q in query_list:
        q_vector = get_query_embedding(q)
        response = index.query(vector=q_vector, top_k=top_k_per_query, include_metadata=True)

        for match in response.matches:
            if match.id not in seen_ids:
                results.append({
                    "id": match.id,
                    "score": match.score,
                    "text": match.metadata["text"],
                    "chapter": match.metadata.get("chapter", ""),
                    "chapter_num": match.metadata.get("chapter_num", -1)
                })
                seen_ids.add(match.id)

    # 按 score 降序保留前 final_top_k 个
    results = sorted(results, key=lambda x: -x["score"])[:final_top_k]
    return results

In [16]:
def smart_semantic_retrieve(original_query: str, top_k: int = 5) -> List[Dict]:
    query_variants = expand_query_semantically(original_query)
    query_variants.insert(0, original_query)  # 把原始 query 放在最前面
    print("Query 扩展结果:")
    for i, q in enumerate(query_variants):
        print(f"{i+1}. {q}")
    print()
    return semantic_retrieve_multi_query(query_variants, top_k_per_query=top_k, final_top_k=top_k)

In [17]:
results = smart_semantic_retrieve("猪八戒一共顶撞过几次大师兄？", top_k=5)

for i, r in enumerate(results):
    print(f"Top {i+1} | Score: {r['score']:.4f}")
    print(f"{r['chapter']}")
    print(r['text'][:100] + "...\n")

Query 扩展结果:
1. 猪八戒一共顶撞过几次大师兄？
2. 猪八戒和大师兄发生过几次冲突？
3. 猪八戒曾几次顶撞孙悟空？
4. 猪八戒与大师兄有多少次争执？
5. 猪八戒和孙悟空之间有过几次矛盾？

Top 1 | Score: 0.6648
上卷 第三十一回　猪八戒义激猴王　孙行者智降妖怪
共登极乐世界，同来不二法门。经乃修行之总径，佛配自己之元神。兄和弟会成三契，妖与魔色应五行。剪除六门趣，即赴大雷音。却说那呆子被一窝猴子捉住了，扛抬扯拉，把一件直裰子揪破，口里劳劳叨叨的，自家念诵道：...

Top 2 | Score: 0.6626
上卷 第二十九回　脱难江流来国土　承恩八戒转山林
“胡缠！忘了物件，就敢打上门来？必有缘故！”急整束了披挂，绰了钢刀，走出来问道：“那和尚，我既饶了你师父，你怎么又敢来打上我门？”八戒道：“你这泼怪干得好事儿！”老魔道：“甚么事？”八戒道：“你把宝象...

Top 3 | Score: 0.6503
上卷 第四十回　婴儿戏化禅心乱　猿马刀归木母空
”八戒道：“我才自失口乱说了几句，其实也不该散。哥哥，没及奈何，还信沙弟之言，去寻那妖怪救师父去。”行者却回嗔作喜道：“兄弟们，还要来结同心，收拾了行李马匹，上山找寻怪物，搭救师父去。”三个人附葛扳藤...

Top 4 | Score: 0.6456
下卷 第八十三回　心猿识得丹头　姹女还归本性
“兄弟，师兄胡缠！才子在他肚里，轮起拳来，送他一个满肚红，扒开肚皮钻出来，却不了帐？怎么又从他口里出来，却与他争战，让他这等猖狂！”沙僧道：“正是，却也亏了师兄深洞中救出师父，返又与妖精厮战。且请师父...

Top 5 | Score: 0.6397
上卷 第二十二回　八戒大战流沙河　木叉奉法收悟净
玉皇即便怒生嗔，却令掌朝左辅相：卸冠脱甲摘官衔，将身推在杀场上。多亏赤脚大天仙，越班启奏将吾放。饶死回生不典刑，遭贬流沙东岸上。饱时困卧此山中，饿去翻波寻食饷。樵子逢吾命不存，渔翁见我身皆丧。来来往往...



### Keyword Matcher (关键词检索)

In [19]:
def keyword_match(query: str, top_k: int = 5) -> List[Dict]:
    results = []
    pattern = re.compile(query)

    for para in all_paragraphs:
        if pattern.search(para['text']):
            results.append(para)

    # 简单排序：按长度短的排前（可替换为 BM25 或手动打分）
    results = sorted(results, key=lambda x: len(x['text']))
    return results[:top_k]

In [29]:
# 使用GPT抽取关键词
def extract_keywords_gpt(question: str, max_keywords: int = 5) -> List[str]:
    system_prompt = (
        "你是一个关键词提取工具，请根据用户提出的问题提取关键词。关键词可以是人名、地点、动词、名词等，"
        f"用于帮助文本匹配。请只返回不超过 {max_keywords} 个关键词，直接用逗号分隔返回即可。"
    )

    user_prompt = f"问题：{question}\n提取关键词："

    response = client.chat.completions.create(
        model="gpt-4o",  # 可换 gpt-3.5-turbo
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_prompt}
        ],
        temperature=0.2
    )

    content = response.choices[0].message.content.strip()
    keywords = [kw.strip() for kw in content.split(",") if kw.strip()]
    return keywords[:max_keywords]

In [30]:
# 对每个关键词进行同义扩展
def expand_keywords_gpt(keywords: List[str], max_variants_per_word: int = 3) -> Dict[str, List[str]]:
    system_prompt = (
        f"你是一个中文同义词扩展工具。请为给定的关键词生成不超过 {max_variants_per_word} 个等价或近义表达，"
        "包括同义词、简称、俗称、常用错写等。格式为：关键词: 近义词1, 近义词2, 近义词3"
    )

    user_prompt = "关键词列表：\n" + "\n".join(keywords)

    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_prompt}
        ],
        temperature=0.3
    )

    # 解析响应
    content = response.choices[0].message.content.strip().split("\n")
    variant_map = {}
    for line in content:
        if ":" in line:
            key, variants = line.split(":", 1)
            variant_map[key.strip()] = [v.strip() for v in variants.split(",") if v.strip()]
    return variant_map

In [55]:
# 模糊匹配
def keyword_match_fuzzy(all_keywords: List[str], top_k: int = 10) -> List[Dict]:
    matches = []

    for para in all_paragraphs:
        scores = [fuzz.partial_ratio(kw, para["text"]) / 100 for kw in all_keywords]
        avg_score = sum(scores) / len(scores)  # 👈 使用所有关键词平均得分
        if avg_score > 0:
            matches.append({
                **para,
                "_keyword_score": avg_score,
                "_semantic_score": 0.0,
                "_source": "keyword"
            })

    matches.sort(key=lambda x: -x["_keyword_score"])
    return matches[:top_k]

In [56]:
# 整合函数
def keyword_retrieve_smart_fuzzy(query: str, top_k: int = 5) -> List[Dict]:
    keywords = extract_keywords_gpt(query)
    print(f"GPT抽取关键词: {keywords}")

    variant_map = expand_keywords_gpt(keywords)
    print("同义词扩展:")
    for k, v in variant_map.items():
        print(f"- {k}: {v}")

    all_keywords = list(set(keywords + sum(variant_map.values(), [])))  # 展平+去重
    print(f"匹配关键词总数: {len(all_keywords)}")

    return keyword_match_fuzzy(all_keywords, top_k=top_k)

In [57]:
results = keyword_retrieve_smart_fuzzy("猪八戒一共顶撞过几次大师兄？")

for i, r in enumerate(results):
    print(f"Top {i+1} | 长度: {r['length']}")
    print(f"{r['chapter']}")
    print(r['text'])
    print()

GPT抽取关键词: ['猪八戒', '顶撞', '大师兄']
同义词扩展:
- 猪八戒: ['猪悟能', '八戒', '猪刚鬣']
- 顶撞: ['顶嘴', '反驳', '抗辩']
- 大师兄: ['孙悟空', '行者', '齐天大圣']
匹配关键词总数: 12
Top 1 | 长度: 359
上卷 第四十三回　黑河妖孽擒僧去　西洋龙子捉鼍回
“他有一个长嘴的和尚，唤做个猪八戒，我也把他捉住了，要与唐和尚一同蒸吃。还有一个徒弟，唤做沙和尚，乃是一条黑汉子，晦气色脸，使一根宝杖，昨日在这门外与我讨师父，被我帅出河兵，一顿钢鞭，战得他败阵逃生，也不见怎的利害。”太子道：“原来是你不知！他还有一个大徒弟，是五百年前大闹天宫上方太乙金仙齐天大圣，如今保护唐僧往西天拜佛求经，是普陀岩大慈大悲观音菩萨劝善，与他改名，唤做孙悟空行者。你怎么没得做，撞出这件祸来？他又在我海内遇着你的差人，夺了请帖，径入水晶宫，拿捏我父子们，有结连妖邪，抢夺人口之罪。你快把唐僧、八戒送上河边，交还了孙大圣，凭着我与他陪礼，你还好得性命，若有半个不字，休想得全生居于此也！”那怪鼍闻此言，心中大怒道：“我与你嫡亲的姑表，你倒反护他人？听你所言，就教把唐僧送出，天地间那里有这等容易事也！

Top 2 | 长度: 367
下卷 第七十六回　心神居舍魔归性　木母同降怪体真
大圣却飞起来看处，那呆子四肢朝上，掘着嘴，半浮半沉，嘴里呼呼的，着然好笑，倒象八九月经霜落了子儿的一个大黑莲蓬。大圣见他那嘴脸，又恨他，又怜他，说道：“怎的好么？他也是龙华会上的一个人，但只恨他动不动分行李散火，又要撺掇师父念《紧箍咒》咒我。我前日曾闻得沙僧说，也攒了些私房，不知可有否，等我且吓他一吓看。”好大圣，飞近他耳边，假捏声音叫声：“猪悟能！猪悟能！”八戒慌了道：“晦气呀！我这悟能是观世音菩萨起的，自跟了唐僧，又呼做八戒，此间怎么有人知道我叫做悟能？”呆子忍不住问道：“是那个叫我的法名？”行者道：“是我。”呆子道：“你是那个？”行者道：“我是勾司人。”那呆子慌了道：“长官，你是那里来的？”行者道：“我是五阎王差来勾你的。”那呆子道：“长官，你且回去，上复五阎王，他与我师兄孙悟空交得甚好，教他让我一日儿，明日来勾罢。”

Top 3 | 长度: 490
上卷 第三十一回　猪八戒义激猴王　孙行者智降妖怪
“那汉子，我与你没甚相干，怎么

In [58]:
results[4]

{'id': 'xiyouji_20_15',
 'chapter': '上卷 第二十回\u3000黄风岭唐僧有难\u3000半山中八戒争先',
 'chapter_num': 20,
 'text': '次日天晓，行者去背马，八戒去整担，老王又教妈妈整治些点心汤水管待，三众方致谢告行。老者道：“此去倘路间有甚不虞，是必还来茅舍。”行者道：“老儿，莫说哈话。我们出家人，不走回头路。”遂此策马挑担西行。噫！这一去，果无好路朝西域，定有邪魔降大灾。三众前来，不上半日，果逢一座高山，说起来，十分险峻。三藏马到临崖，斜挑宝镫观看，果然那：高的是山，峻的是岭；陡的是崖，深的是壑；响的是泉，鲜的是花。那山高不高，顶上接青霄；这涧深不深，底中见地府。山前面，有骨都都白云，屹嶝嶝怪石，说不尽千丈万丈挟魂崖。崖后有弯弯曲曲藏龙洞，洞中有叮叮当当滴水岩。又见些丫丫叉叉带角鹿，泥泥痴痴看人獐；盘盘曲曲红鳞蟒，耍耍顽顽白面猿。至晚巴山寻穴虎，带晓翻波出水龙，登的洞门唿喇喇响。草里飞禽，扑轳轳起；林中走兽，掬律律行。猛然一阵狼虫过，吓得人心趷蹬蹬惊。正是那当倒洞当当倒洞，洞当当倒洞当山。青岱染成千丈玉，碧纱笼罩万堆烟。那师父缓促银骢，孙大圣停云慢步，猪悟能磨担徐行。正看那山，忽闻得一阵旋风大作，三藏在马上心惊道：“悟空，风起了！”行者道：“风却怕他怎的！此乃天家四时之气，有何惧哉！',
 'length': 484,
 'orig_index': 15,
 '_keyword_score': 0.5416666666666666,
 '_semantic_score': 0.0,
 '_source': 'keyword'}

### 综合两种方法
- 使用Rerank重排序
- 给semantic方法略高的权重

In [64]:
def combined_retrieve(query: str, top_k_base: int = 10, top_k_high: int = 50, weight_semantic: float = 1.0, weight_keyword: float = 0.8) -> List[Dict]:
    # 动态确定top k
    def determine_top_k(query: str) -> int:
        pattern_keywords = ["多少次", "几次", "列举", "所有", "有哪些", "每一回", "全部"]
        for kw in pattern_keywords:
            if kw in query:
                return top_k_high
        return top_k_base
    
    top_k = determine_top_k(query=query)
    print(top_k)
    
    # 从语义检索模块获取结果
    semantic_results = smart_semantic_retrieve(query, top_k=top_k * 2)
    for item in semantic_results:
        item["_semantic_score"] = item["score"]
        item["_keyword_score"] = 0.0  # 默认 0
        item["_source"] = "semantic"

    # 从关键词模糊匹配模块获取结果（已经带有 _keyword_score）
    keyword_results = keyword_retrieve_smart_fuzzy(query, top_k=top_k * 2)
    for item in keyword_results:
        item["_semantic_score"] = 0.0  # 模块默认 0
        item["_source"] = "keyword"

    # 合并（按 ID 去重 + 累加得分）
    combined_dict = {}

    def compute_final_score(sem_score, kw_score):
        return weight_semantic * sem_score + weight_keyword * kw_score

    for item in semantic_results + keyword_results:
        key = item["id"]
        if key not in combined_dict:
            combined_dict[key] = item
        else:
            # 合并两个模块命中的同一段落
            combined_dict[key]["_semantic_score"] += item.get("_semantic_score", 0.0)
            combined_dict[key]["_keyword_score"] += item.get("_keyword_score", 0.0)

    # 计算最终得分 + 排序
    combined_list = list(combined_dict.values())
    for item in combined_list:
        item["_final_score"] = compute_final_score(item["_semantic_score"], item["_keyword_score"])

    combined_list.sort(key=lambda x: -x["_final_score"])
    return combined_list[:top_k]

In [65]:
results = combined_retrieve("猪八戒一共顶撞过几次大师兄？", top_k_base=5, top_k_high=10)

for i, r in enumerate(results):
    print(f"Top {i+1} | Final Score: {r['_final_score']:.4f} | 来源: {r['_source']}")
    print(f"{r['chapter']}")
    print(r['text'][:100] + "...\n")

10
Query 扩展结果:
1. 猪八戒一共顶撞过几次大师兄？
2. 猪八戒和大师兄发生过多少次争执？
3. 猪八戒曾几次与大师兄顶嘴？
4. 猪八戒与大师兄有过多少次冲突？
5. 猪八戒总共和大师兄对抗过几次？

GPT抽取关键词: ['猪八戒', '顶撞', '大师兄']
同义词扩展:
- 猪八戒: ['猪悟能', '八戒', '猪刚鬣']
- 顶撞: ['顶嘴', '反驳', '抗辩']
- 大师兄: ['孙悟空', '行者', '齐天大圣']
匹配关键词总数: 12
Top 1 | Final Score: 0.6648 | 来源: semantic
上卷 第三十一回　猪八戒义激猴王　孙行者智降妖怪
共登极乐世界，同来不二法门。经乃修行之总径，佛配自己之元神。兄和弟会成三契，妖与魔色应五行。剪除六门趣，即赴大雷音。却说那呆子被一窝猴子捉住了，扛抬扯拉，把一件直裰子揪破，口里劳劳叨叨的，自家念诵道：...

Top 2 | Final Score: 0.6625 | 来源: semantic
上卷 第二十九回　脱难江流来国土　承恩八戒转山林
“胡缠！忘了物件，就敢打上门来？必有缘故！”急整束了披挂，绰了钢刀，走出来问道：“那和尚，我既饶了你师父，你怎么又敢来打上我门？”八戒道：“你这泼怪干得好事儿！”老魔道：“甚么事？”八戒道：“你把宝象...

Top 3 | Final Score: 0.6503 | 来源: semantic
上卷 第四十回　婴儿戏化禅心乱　猿马刀归木母空
”八戒道：“我才自失口乱说了几句，其实也不该散。哥哥，没及奈何，还信沙弟之言，去寻那妖怪救师父去。”行者却回嗔作喜道：“兄弟们，还要来结同心，收拾了行李马匹，上山找寻怪物，搭救师父去。”三个人附葛扳藤...

Top 4 | Final Score: 0.6456 | 来源: semantic
下卷 第八十三回　心猿识得丹头　姹女还归本性
“兄弟，师兄胡缠！才子在他肚里，轮起拳来，送他一个满肚红，扒开肚皮钻出来，却不了帐？怎么又从他口里出来，却与他争战，让他这等猖狂！”沙僧道：“正是，却也亏了师兄深洞中救出师父，返又与妖精厮战。且请师父...

Top 5 | Final Score: 0.6396 | 来源: semantic
上卷 第二十二回　八戒大战流沙河　木叉奉法收悟净
玉皇