基于 LightRAG + LangChain + Streamlit 构建的企业知识库问答系统, 采用知识图增强检索架构,支持中文 PDF 解析、扫描件 OCR、知识图谱构建和智能对话。
- 图增强检索(LightRAG):结合知识图谱和向量检索,实现实体关系推理和多跳问答,支持复杂推理
- 中文 RAG 全流程:PDF 解析 → 智能分块 → 向量化 → 多策略检索 → LLM 生成
- 扫描件 OCR 支持:自动检测扫描页,RapidOCR 降级识别,中英文混合友好
- 混合检索策略:向量检索 + 图谱检索 + 全文检索三重保障,召回率更高
- 结构化入库:自动识别文档类型、章节标题追踪、元数据前缀注入提升检索精度
- 表格提取:pdfplumber 表格结构化保留,解决说明书参数表丢失问题
| 组件 | 选型 |
|---|---|
| RAG 框架 | LightRAG(图增强检索) |
| LLM | DeepSeek Chat(兼容 OpenAI 协议) |
| Embedding | BAAI/bge-small-zh-v1.5(中文专用) |
| 知识存储 | 向量数据库 + 图数据库 + 全文索引 |
| PDF 解析 | pdfplumber + RapidOCR |
| 应用框架 | LangChain + Streamlit |
用户提问
↓
LLM 查询理解与改写
↓
┌─────────────┴─────────────┐
↓ ↓
实体识别 & 关系抽取 关键词提取
↓ ↓
┌────┴────┐ ┌───┴───┐
↓ ↓ ↓ ↓
图谱检索 向量检索 全文检索 过滤排序
└────┬────┘ └───┬───┘
└─────────────┬─────────────┘
↓
多源结果融合 & 重排序
↓
相关度评分 + 上下文扩展
↓
拼装 Context → LLM 生成回答
↓
引用来源 + 置信度标注
├── app.py # Streamlit 主应用 + RAG 检索 + 对话管理
├── create_db.py # 向量库构建(PDF解析/OCR/分块/知识图谱构建)
├── agent.py # Agent调用
├── requirements.txt # Python 依赖
└── data/ # 企业文档目录(需自行准备)