# RAG 检索调试笔记本

这个笔记本用于调试和测试 RAG 系统的各个组件。

In [2]:
# 安装缺失的依赖（仅在 notebook 中执行一次）
%pip install python-dotenv

# 导入必要的库
import sys
import os

# 获取当前工作目录并设置项目路径
current_dir = os.getcwd()
# 如果当前目录是notebooks，则项目根目录是上级目录
if current_dir.endswith('notebooks'):
    project_root = os.path.dirname(current_dir)
else:
    # 否则假设当前目录就是项目根目录
    project_root = current_dir

src_path = os.path.join(project_root, 'src')

# 添加src目录到Python路径
if src_path not in sys.path:
    sys.path.insert(0, src_path)

from dotenv import load_dotenv
load_dotenv()

print(f"✅ 环境加载完成，当前目录: {current_dir}")
print(f"✅ 项目根目录: {project_root}")
print(f"✅ src路径: {src_path}")

You should consider upgrading via the '/Users/luyao/xufei/rag-demo/venv/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.
✅ 环境加载完成，当前目录: /Users/luyao/xufei/rag-demo/notebooks
✅ 项目根目录: /Users/luyao/xufei/rag-demo
✅ src路径: /Users/luyao/xufei/rag-demo/src


## 1. 文档加载测试

In [3]:
# TODO: 测试文档加载器
import setup_path
import os
# 直接从pdf_loader模块导入PDFLoader
from src.loaders.pdf_loader import PDFLoader

# 使用绝对路径指向数据文件
data_path = os.path.join(project_root, 'data', '员工手册.pdf')
print(f"数据文件路径: {data_path}")
loader = PDFLoader(data_path)
docs = loader.load()
print(f"加载了{len(docs)}页")
print(f"第一页前200字符：{docs[0].page_content[:200]}")
print(f"Metadata：{docs[0].metadata}")

数据文件路径: /Users/luyao/xufei/rag-demo/data/员工手册.pdf
加载了7页
第一页前200字符：员工手册
公司简介
欢迎加入我们的团队！本手册旨在帮助您更好地了解公司的规章制度、工作规范以及各项福利待遇。我
们致力于营造一个积极、专业、和谐的工作环境，希望每位员工都能在这里实现自我价值，共同成长。
第一章 员工基本规范
一、职业道德与行为准则
1. 诚信正直
恪守职业道德，诚实守信，不得欺骗公司和同事
保守商业机密，不泄露公司敏感信息
不得利用职务之便谋取私利
2. 爱岗敬业
认真履行岗位职
Metadata：{'source': '/Users/luyao/xufei/rag-demo/data/员工手册.pdf', 'page': 1}


## 2. 文本分割测试

In [None]:
# TODO: 测试文本分割器
from splitters import RecursiveTextSplitter

# splitter = RecursiveTextSplitter(chunk_size=1000, chunk_overlap=200)
# chunks = splitter.split(documents)
# print(f"分割成 {len(chunks)} 个块")

## 3. 向量化测试

In [None]:
# TODO: 测试嵌入模型
from embeddings import OpenAIEmbeddings

# embeddings = OpenAIEmbeddings()
# texts = [chunk.page_content for chunk in chunks[:5]]
# vectors = embeddings.embed_documents(texts)
# print(f"生成了 {len(vectors)} 个向量，维度: {len(vectors[0])}")

## 4. 向量数据库测试

In [None]:
# TODO: 测试向量存储
from vectorstore import ChromaVectorStore

# vectorstore = ChromaVectorStore()
# vectorstore.add_documents(chunks, vectors)
# print("✅ 文档已存入向量数据库")

## 5. 检索测试

In [None]:
# TODO: 测试检索功能
# query = "你的测试查询"
# query_embedding = embeddings.embed_query(query)
# results = vectorstore.similarity_search(query_embedding, k=3)

# for i, doc in enumerate(results, 1):
#     print(f"\n--- 结果 {i} ---")
#     print(doc.page_content[:500])

## 6. 完整 RAG 流程测试

In [None]:
# TODO: 测试完整的 RAG 链
# from chains import RetrievalQAChain

# chain = RetrievalQAChain(retriever=vectorstore, llm=llm)
# result = chain.run("你的问题")
# print(result)