# RAG数据库构建

### 环境初始化

In [1]:
import pandas as pd
import numpy as np
import re
from tqdm import tqdm
from typing import List, Dict

from pinecone import Pinecone, ServerlessSpec
from openai import OpenAI

OPENAI_API_KEY = "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"
PINECONE_API_KEY = "pcsk_5u46KS_Hx3E1L6rTJqeYJ7GmEmDEtpzT6juNNHBmVQTNEaoKr7uaH5tJHzjjdKcU3GaUZw"

In [2]:
# 初始化 OpenAI
client = OpenAI(api_key=OPENAI_API_KEY)

# 初始化 Pinecone
pc = Pinecone(api_key=PINECONE_API_KEY)

In [None]:
# 创建一个新的index
index_name = "xiyouji-embedding"
dimension = 3072 # text-embedding-3-large 输出维度

if index_name not in pc.list_indexes().names():
    pc.create_index(
        name=index_name,
        dimension=dimension, 
        metric="cosine",
        spec=ServerlessSpec(
            cloud="aws",
            region="us-east-1"  # 根据你控制台默认配置填写（通常是 us-east-1）
        )
    )
# else:
#     # 如果 index 已存在，则清空其中所有向量
#     print(f"🧹 清空已有 index：{index_name}")
#     index = pc.Index(index_name)
#     index.delete(delete_all=True)
#     print("✅ Index 已清空完成")

index = pc.Index(index_name)

🧹 清空已有 index：xiyouji-embedding
✅ Index 已清空完成


### 加载西游记文本

In [4]:
# 读取文本文件
with open('./data/西游记_UTF-8.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 查看文本的前500字以确保加载成功
print(text[:100])

　　[西游记 / 吴承恩（明） 著 ]

　　书籍介绍:
　　《西游记》以丰富瑰奇的想象描写了师徒四众在迢遥的西方途上和穷山恶水冒险斗争的历程，并将所经历的千难万险形象化为妖魔鬼怪所设置的八十一难，以


### 切分全文

##### 切分章节

In [5]:
# 通用正则表达式，考虑更广泛的空白与换行符匹配
chapters = re.split(r'\s*([上下]卷\s*第[一二三四五六七八九十百零]+回.*)', text)

# 清除可能存在的空串，并合并标题和正文
chapters = [chapters[i].strip() + "\n" + chapters[i+1].strip()
            for i in range(1, len(chapters)-1, 2)]

# 检查结果
print(f"共计切分出 {len(chapters)} 个章节。\n")

共计切分出 100 个章节。



##### 章节内按段落进一步切分

In [23]:
def split_into_paragraphs(chapter_text):
    paragraphs = [para.strip() for para in chapter_text.split('\n') if para.strip()]
    return paragraphs

# 示例切分第一章
example_paragraphs = split_into_paragraphs(chapters[0])
print(f"第一章有{len(example_paragraphs)}个段落")
example_paragraphs[:5]  # 查看前几个段落

第一章有62个段落


['上卷 第一回\u3000灵根育孕源流出\u3000心性修持大道生',
 '诗曰：',
 '混沌未分天地乱，茫茫渺渺无人见。',
 '自从盘古破鸿蒙，开辟从兹清浊辨。',
 '覆载群生仰至仁，发明万物皆成善。']

##### 处理诗词短段落并合并

In [48]:
def merge_short_paragraphs(paragraphs, threshold=50):
    merged_paragraphs = []
    buffer = ""

    for para in paragraphs:
        if len(para) < threshold:
            if merged_paragraphs:
                # 存在上一个段落，合并到上一个段落，并在前后加入换行符
                buffer += ("\n" if buffer else "") + para
            else:
                # 不存在上一个段落（第一个段落就很短），直接单独加入
                merged_paragraphs.append(para)
        else:
            if buffer:
                # 存在buffer，合并到前一个段落时带上换行符
                merged_paragraphs[-1] += "\n" + buffer
                buffer = ""
            merged_paragraphs.append(para)

    # 处理最后一个buffer（如果有）
    if buffer and merged_paragraphs:
        merged_paragraphs[-1] += "\n" + buffer

    return merged_paragraphs

# 示例合并第一章短段落
merged_example_paragraphs = merge_short_paragraphs(example_paragraphs)
print(f"合并后第一章有{len(merged_example_paragraphs)}个段落")
merged_example_paragraphs[:5]  # 查看合并后的段落

合并后第一章有31个段落


['上卷 第一回\u3000灵根育孕源流出\u3000心性修持大道生\n诗曰：\n混沌未分天地乱，茫茫渺渺无人见。\n自从盘古破鸿蒙，开辟从兹清浊辨。\n覆载群生仰至仁，发明万物皆成善。\n欲知造化会元功，须看西游释厄传。',
 '盖闻天地之数，有十二万九千六百岁为一元。将一元分为十二会，乃子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥之十二支也。每会该一万八百岁。且就一日而论：子时得阳气，而丑则鸡鸣；寅不通光，而卯则日出；辰时食后，而巳则挨排；日午天中，而未则西蹉；申时晡而日落酉；戌黄昏而人定亥。譬于大数，若到戌会之终，则天地昏蒙而万物否矣。再去五千四百岁，交亥会之初，则当黑暗，而两间人物俱无矣，故曰混沌。又五千四百岁，亥会将终，贞下起元，近子之会，而复逐渐开明。邵康节曰：“冬至子之半，天心无改移。一阳初动处，万物未生时。”到此，天始有根。再五千四百岁，正当子会，轻清上腾，有日，有月，有星，有辰。日、月、星、辰，谓之四象。故曰，天开于子。又经五千四百岁，子会将终，近丑之会，而逐渐坚实。易曰：“大哉乾元！至哉坤元！万物资生，乃顺承天。”至此，地始凝结。再五千四百岁，正当丑会，重浊下凝，有水，有火，有山，有石，有土。水、火、山、石、土谓之五形。故曰，地辟于丑。又经五千四百岁，丑会终而寅会之初，发生万物。历曰：“天气下降，地气上升；天地交合，群物皆生。”至此，天清地爽，阴阳交合。再五千四百岁，正当寅会，生人，生兽，生禽，正谓天地人，三才定位。故曰，人生于寅。',
 '感盘古开辟，三皇治世，五帝定伦，世界之间，遂分为四大部洲：曰东胜神洲，曰西牛贺洲，曰南赡部洲，曰北俱芦洲。这部书单表东胜神洲。海外有一国土，名曰傲来国。国近大海，海中有一座山，唤为花果山。此山乃十洲之祖脉，三岛之来龙，自开清浊而立，鸿蒙判后而成。真个好山！有词赋为证。赋曰：',
 '势镇汪洋，威宁瑶海。势镇汪洋，潮涌银山鱼入穴；威宁瑶海，波翻雪浪蜃离渊。木火方隅高积上，东海之处耸崇巅。丹崖怪石，削壁奇峰。丹崖上，彩凤双鸣；削壁前，麒麟独卧。峰头时听锦鸡鸣，石窟每观龙出入。林中有寿鹿仙狐，树上有灵禽玄鹤。瑶草奇花不谢，青松翠柏长春。仙桃常结果，修竹每留云。一条涧壑藤萝密，四面原堤草色新。正是百川会处擎天柱，万劫无移大地根。那座山，正当顶上，有一块仙石。其石有三丈六尺五寸高，有二丈四尺围圆。三丈六尺五寸高，按周

##### 进一步切分过长的段落

In [52]:
def truncate_long_paragraphs(paragraphs, max_chars=500):
    result = []
    for para in paragraphs:
        if len(para) <= max_chars:
            result.append(para)
        else:
            # 句读切分（保留句尾）
            sentences = re.split(r'(?<=[。！？])', para)
            buffer = ""
            for sent in sentences:
                if len(buffer) + len(sent) > max_chars:
                    result.append(buffer.strip())
                    buffer = sent
                else:
                    buffer += sent
            if buffer:
                result.append(buffer.strip())
    return result

##### （方法二）滑动窗口分段，段落之间部分重叠

In [6]:
# 滑动窗口分段 + 避免句子断裂
def sliding_window_split(text: str, window_size: int = 300, stride: int = 250) -> List[str]:
    paragraphs = []
    start = 0
    text = re.sub(r'\s+', '', text)  # 去除所有空白符（保持更纯净）

    while start < len(text):
        end = min(start + window_size, len(text))

        # 如果不是结尾段落，尝试在句号等之后截断
        if end < len(text):
            sub_text = text[start:end]
            match = max(sub_text.rfind(p) for p in "。！？")
            if match != -1 and match > 0.5 * window_size:
                end = start + match + 1

        para = text[start:end]
        if para.strip():
            paragraphs.append(para)

        start += stride  # 下一个窗口（有重叠）

    return paragraphs

##### 构筑所有段落

In [60]:
# 收集全部段落（使用结构化 ID + 章节编号）
all_paragraphs = []

for chapter_num, chapter_text in enumerate(chapters):
    lines = chapter_text.split('\n', 1)
    chapter_title = lines[0].strip()
    chapter_body = lines[1] if len(lines) > 1 else ""

    raw_paragraphs = split_into_paragraphs(chapter_body)
    merged_paragraphs = merge_short_paragraphs(raw_paragraphs)
    truncated_paragraphs = truncate_long_paragraphs(merged_paragraphs, max_chars=500)

    for j, para in enumerate(truncated_paragraphs):
        all_paragraphs.append({
            "id": f"xiyouji_{chapter_num+1}_{j}",  # 更具结构和可读性的 ID
            "chapter": chapter_title,
            "chapter_num": chapter_num+1,          # 添加章节编号 metadata
            "text": para,
            "length": len(para),
            "orig_index": j
        })

print(f"总段落数：{len(all_paragraphs)}")
print(f"示例 ID：{all_paragraphs[0]['id']}")
print(f"示例章节编号：{all_paragraphs[0]['chapter_num']}")

总段落数：3055
示例 ID：xiyouji_1_0
示例章节编号：1


##### 构筑所有段落（方法二）

In [7]:
# 收集全部段落（使用结构化 ID + 章节编号）
all_paragraphs = []

for chapter_num, chapter_text in enumerate(chapters):
    lines = chapter_text.split('\n', 1)
    chapter_title = lines[0].strip()
    chapter_body = lines[1] if len(lines) > 1 else ""

    truncated_paragraphs = sliding_window_split(chapter_body, window_size=300, stride=250)

    for j, para in enumerate(truncated_paragraphs):
        all_paragraphs.append({
            "id": f"xiyouji_{chapter_num+1}_{j}",  # 更具结构和可读性的 ID
            "chapter": chapter_title,
            "chapter_num": chapter_num+1,          # 添加章节编号 metadata
            "text": para,
            "length": len(para),
            "orig_index": j
        })

print(f"总段落数：{len(all_paragraphs)}")
print(f"示例 ID：{all_paragraphs[0]['id']}")
print(f"示例章节编号：{all_paragraphs[0]['chapter_num']}")

总段落数：2900
示例 ID：xiyouji_1_0
示例章节编号：1


In [8]:
# # 找出长度最长的 5 个段落
# longest_paragraphs = sorted(all_paragraphs, key=lambda x: len(x['text']), reverse=True)[:5]

# 打印段落长度和信息
for i, para in enumerate(all_paragraphs[:5], 1):
    print(f"🔹 Top {i}")
    print(f"长度: {len(para['text'])} 字")
    print(f"章节: {para['chapter']}")
    print(f"内容开头: {para['text'][:60]}...\n")

🔹 Top 1
长度: 288 字
章节: 上卷 第一回　灵根育孕源流出　心性修持大道生
内容开头: 诗曰：混沌未分天地乱，茫茫渺渺无人见。自从盘古破鸿蒙，开辟从兹清浊辨。覆载群生仰至仁，发明万物皆成善。欲知造化会元功，须...

🔹 Top 2
长度: 298 字
章节: 上卷 第一回　灵根育孕源流出　心性修持大道生
内容开头: 俱无矣，故曰混沌。又五千四百岁，亥会将终，贞下起元，近子之会，而复逐渐开明。邵康节曰：“冬至子之半，天心无改移。一阳初动...

🔹 Top 3
长度: 287 字
章节: 上卷 第一回　灵根育孕源流出　心性修持大道生
内容开头: 寅会之初，发生万物。历曰：“天气下降，地气上升；天地交合，群物皆生。”至此，天清地爽，阴阳交合。再五千四百岁，正当寅会，...

🔹 Top 4
长度: 297 字
章节: 上卷 第一回　灵根育孕源流出　心性修持大道生
内容开头: 瑶海，波翻雪浪蜃离渊。木火方隅高积上，东海之处耸崇巅。丹崖怪石，削壁奇峰。丹崖上，彩凤双鸣；削壁前，麒麟独卧。峰头时听锦...

🔹 Top 5
长度: 285 字
章节: 上卷 第一回　灵根育孕源流出　心性修持大道生
内容开头: 来，每受天真地秀，日精月华，感之既久，遂有灵通之意。内育仙胞，一日迸裂，产一石卵，似圆球样大。因见风，化作一个石猴，五官...



#### 使用OpenAI Embedding API

In [13]:
def get_embedding(text, model="text-embedding-3-large"):
    response = client.embeddings.create(
        input=[text],
        model=model
    )
    return response.data[0].embedding

# 测试：生成第一个段落的embedding
example_embedding = get_embedding(all_paragraphs[0]['text'])
print(len(example_embedding))  # 查看embedding维度

3072


In [14]:
# 批量处理
def get_embeddings(texts, model="text-embedding-3-large"):
    response = client.embeddings.create(
        input=texts,
        model=model
    )
    return [e.embedding for e in response.data]

#### 存储向量到Pinecone数据库

In [15]:
# 批量上传到 Pinecone（含章节编号）
batch_size = 50

for i in tqdm(range(0, len(all_paragraphs), batch_size)):
    batch = all_paragraphs[i:i + batch_size]
    texts = [item['text'] for item in batch]
    ids = [item['id'] for item in batch]
    
    metas = [
        {
            "chapter": item['chapter'],
            "chapter_num": item['chapter_num'], 
            "text": item['text'],
            "length": item['length'],
            "orig_index": item['orig_index']
        }
        for item in batch
    ]
    
    embeddings = get_embeddings(texts)

    vectors = [
        {
            "id": ids[j],
            "values": embeddings[j],
            "metadata": metas[j]
        }
        for j in range(len(ids))
    ]

    index.upsert(vectors)

100%|██████████| 58/58 [02:43<00:00,  2.81s/it]


### 存储切分段落至本地json文件

In [16]:
import json

with open("./data/all_paragraphs.json", "w", encoding="utf-8") as f:
    json.dump(all_paragraphs, f, ensure_ascii=False, indent=2)