## 回答生成

### 初始化

In [1]:
# 导入依赖和配置
import json
import os
import time
from typing import List, Dict

# 导入检索器模块
from retriever.combined_retriever import combined_retrieve, initialize as initialize_combined

# 初始化
OPENAI_API_KEY = "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"
PINECONE_API_KEY = "pcsk_5u46KS_Hx3E1L6rTJqeYJ7GmEmDEtpzT6juNNHBmVQTNEaoKr7uaH5tJHzjjdKcU3GaUZw"
PINECONE_INDEX_NAME = "xiyouji-embedding"
JSON_PATH = "./data/all_paragraphs.json"  # 段落数据文件路径

In [2]:
# 初始化检索器
print("初始化组合检索器...")
initialize_combined(
    openai_api_key=OPENAI_API_KEY,
    pinecone_api_key=PINECONE_API_KEY,
    pinecone_index_name=PINECONE_INDEX_NAME,
    json_path=JSON_PATH
)
print("初始化完成！")

初始化组合检索器...
初始化完成！


### Prompt生成

In [3]:
def build_prompt(query: str, max_context_chars: int = 50000) -> str:
    """
    构建用于 GPT 问答的 prompt，内部调用 combined_retrieve 获取段落。
    """
    retrieved = combined_retrieve(query)  # 使用默认参数完成检索
    context = ""
    total_length = 0
    for para in retrieved:
        block = f"[第 {para['chapter_num']} 回] {para['chapter']}\n{para['text'].strip()}\n\n"
        if total_length + len(block) > max_context_chars:
            break
        context += block
        total_length += len(block)

    prompt = (
        f"请根据以下《西游记》原文段落，回答用户的问题。\n"
        f"如果原文中提供了明确信息，请引用段落进行解释。\n"
        f"在引用时，请尽量列出与答案直接相关的原文段落片段内容（一到两句话）及对应章节。\n"
        f"如果信息不明确，请坦率说明无法确认，切勿编造。\n"
        f"---\n"
        f"{context}"
        f"---\n"
        f"用户问题：{query}\n"
        f"请用结构清晰、语言简洁的方式作答："
    )
    return prompt, retrieved

### 生成回答

In [4]:
def get_client(model_provider: str, api_key: str):
    if model_provider == "openai":
        from openai import OpenAI
        return OpenAI(api_key=api_key)
    elif model_provider == "anthropic":
        from anthropic import Anthropic
        return Anthropic(api_key=api_key)
    elif model_provider == "deepseek":
        from openai import OpenAI
        return OpenAI(api_key=api_key, base_url="https://api.deepseek.com")
    else:
        raise ValueError(f"不支持的模型提供方：{model_provider}")

In [5]:
def generate_answer(prompt: str,
                    model_provider: str = "openai",
                    model_name: str = "gpt-4o",
                    api_key: str = None) -> str:

    client = get_client(model_provider, api_key)

    if model_provider == "openai":
        response = client.chat.completions.create(
            model=model_name,
            messages=[
                {"role": "system", "content": "你是一个严谨的《西游记》分析助手"},
                {"role": "user", "content": prompt}
            ],
            temperature=0.3
        )
        answer = response.choices[0].message.content.strip()

    elif model_provider == "anthropic":
        response = client.messages.create(
            model=model_name,
            system="你是一个严谨的《西游记》分析助手",
            messages=[{"role": "user", "content": prompt}],
            temperature=0.3
        )
        answer = response.content[0].text.strip()

    elif model_provider == "deepseek":
        # 示例格式，可根据 DeepSeek SDK 实际写法修改
        response = client.chat.completions.create(
            model=model_name,
            messages=[
                {"role": "system", "content": "你是一个严谨的《西游记》分析助手"},
                {"role": "user", "content": prompt}
            ],
        )
        answer = response.choices[0].message.content.strip()

    # # 附加参考引用（如有）
    # if include_reference and retrieved:
    #     reference_text = "\n".join([
    #         f"[第 {p['chapter_num']} 回] {p['chapter']}\n{p['text'].strip()}"
    #         for p in retrieved[:3]
    #     ])
    #     answer += "\n\n🔖 参考原文：\n" + reference_text

    return answer

In [9]:
query = "有哪些诗词描述了天宫的景色？请列出所有原文及相应出处因后果"
prompt, retrieved_paragraphs = build_prompt(query)
answer = generate_answer(
    prompt=prompt,
    model_provider="openai",  # 或 "anthropic", "deepseek"
    model_name="gpt-4.5-preview",      # 或你配置的 claude-3.5、deepseek-chat 等
    api_key=OPENAI_API_KEY    # 使用对应平台的 API Key
)

print("📘 生成回答：\n")
print(answer)

使用 top_k=70
GPT抽取关键词: ['诗词，天宫，景色']
同义词扩展:
- 诗词: ['诗歌', '词章', '诗文']
- 天宫: ['天庭', '宫阙', '天上宫殿']
- 景色: ['风景', '景致', '景观']
匹配关键词总数: 10
📘 生成回答：

以下是原文中明确描写天宫景色的诗词及出处：

1. 第四回：
> “复道回廊，处处玲珑剔透；三檐四簇，层层龙凤翱翔。上面有个紫巍巍，明幌幌，圆丢丢，亮灼灼，大金葫芦顶；下面有天妃悬掌扇，玉女捧仙巾。恶狠狠，掌朝的天将；气昂昂，护驾的仙卿。正中间，琉璃盘内，放许多重重叠叠太乙丹；玛瑙瓶中，插几枝弯弯曲曲珊瑚树。正是天宫异物般般有，世上如他件件无。金阙银銮并紫府，琪花瑶草暨琼葩。朝王玉兔坛边过，参圣金乌着底飞。猴王有分来天境，不堕人间点污泥。”

  - 因果背景：描写孙悟空初次上天任职弼马温时所见天宫景象。

2. 第四回：
> “明霞幌幌映天光，碧雾蒙蒙遮斗口。这天上有三十三座天宫，乃遣云宫、毗沙宫、五明宫、太阳宫、花药宫、……一宫宫脊吞金稳兽；又有七十二重宝殿，乃朝会殿、凌虚殿、宝光殿、天王殿、灵官殿、……一殿殿柱列玉麒麟。寿星台上，有千千年不卸的名花；炼药炉边，有万万载常青的绣草。”

  - 因果背景：进一步描绘天宫的宏伟华美，孙悟空在天宫任职时所见。

3. 第七回：
> “八景鸾舆，九光宝盖；声奏玄歌妙乐，咏哦无量神章；散宝花，喷真香。”

  - 因果背景：如来佛祖降伏孙悟空后，玉帝设宴感谢如来，描绘天宫宴会盛况。

4. 第七回：
> “碧藕金丹奉释迦，如来万寿若恒沙。清平永乐三乘锦，康泰长生九品花。无相门中真法王，色空天上是仙家。乾坤大地皆称祖，丈六金身福寿赊。”

  - 因果背景：寿星向如来献礼，描写天宫祥瑞之景。

5. 第九回：
> “烟笼凤阙，香蔼龙楼。光摇丹扆动，云拂翠华流。君臣相契同尧舜，礼乐威严近汉周。侍臣灯，宫女扇，双双映彩；孔雀屏，麒麟殿，处处光浮。山呼万岁，华祝千秋。”

  - 因果背景：描绘唐太宗梦见泾河龙王求救前，宫廷（象征天宫）盛景。

6. 第二十六回：
> “珠树玲珑照紫烟，瀛洲宫阙接诸天。青山绿水琪花艳，玉液锟鋘铁石坚。五色碧鸡啼海日，千年丹凤吸朱烟。世人罔究壶中景，象外春光亿万年。”

  - 因果背景：孙悟空为救人参果树，前往瀛洲仙境求

In [11]:
answer = generate_answer(
    prompt=prompt,
    model_provider="openai",  # 或 "anthropic", "deepseek"
    model_name="gpt-4o",      # 或你配置的 claude-3.5、deepseek-chat 等
    api_key=OPENAI_API_KEY    # 使用对应平台的 API Key
)

print("📘 生成回答：\n")
print(answer)

📘 生成回答：

在《西游记》中，有多处诗词描绘了天宫的景色。以下是相关的原文及出处：

1. **第七回**：
   - 诗曰：  
     混元体正合先天，万劫千番只自然。渺渺无为浑太乙，如如不动号初玄。  
     炉中久炼非铅汞，物外长生是本仙。变化无穷还变化，三皈五戒总休言。  
     一点灵光彻太虚，那条拄杖亦如之：或长或短随人用，横竖横排任卷舒。  
     猿猴道体假人心，心即猿猴意思深。大圣齐天非假论，官封弼马岂知音？  
     马猿合作心和意，紧缚拴牢莫外寻。万相归真从一理，如来同契住双林。

2. **第四回**：
   - 复道回廊，处处玲珑剔透；三檐四簇，层层龙凤翱翔。上面有个紫巍巍，明幌幌，圆丢丢，亮灼灼，大金葫芦顶；下面有天妃悬掌扇，玉女捧仙巾。  
   - 明霞幌幌映天光，碧雾蒙蒙遮斗口。这天上有三十三座天宫，乃遣云宫、毗沙宫、五明宫、太阳宫、花药宫、……一宫宫脊吞金稳兽；又有七十二重宝殿，乃朝会殿、凌虚殿、宝光殿、天王殿、灵官殿、……一殿殿柱列玉麒麟。

这些诗词和描写生动地展现了天宫的壮丽景象和神秘氛围。
