Skip to content

junjie-code/Corp_RAG_Agent

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

企业智能助手

基于 LightRAG + LangChain + Streamlit 构建的企业知识库问答系统, 采用知识图增强检索架构,支持中文 PDF 解析、扫描件 OCR、知识图谱构建和智能对话。

项目亮点

  • 图增强检索(LightRAG):结合知识图谱和向量检索,实现实体关系推理和多跳问答,支持复杂推理
  • 中文 RAG 全流程:PDF 解析 → 智能分块 → 向量化 → 多策略检索 → LLM 生成
  • 扫描件 OCR 支持:自动检测扫描页,RapidOCR 降级识别,中英文混合友好
  • 混合检索策略:向量检索 + 图谱检索 + 全文检索三重保障,召回率更高
  • 结构化入库:自动识别文档类型、章节标题追踪、元数据前缀注入提升检索精度
  • 表格提取:pdfplumber 表格结构化保留,解决说明书参数表丢失问题

技术栈

组件 选型
RAG 框架 LightRAG(图增强检索)
LLM DeepSeek Chat(兼容 OpenAI 协议)
Embedding BAAI/bge-small-zh-v1.5(中文专用)
知识存储 向量数据库 + 图数据库 + 全文索引
PDF 解析 pdfplumber + RapidOCR
应用框架 LangChain + Streamlit

架构图

                    用户提问
                       ↓
              LLM 查询理解与改写
                       ↓
         ┌─────────────┴─────────────┐
         ↓                           ↓
   实体识别 & 关系抽取          关键词提取
         ↓                           ↓
    ┌────┴────┐                 ┌───┴───┐
    ↓         ↓                 ↓       ↓
 图谱检索  向量检索           全文检索  过滤排序
    └────┬────┘                 └───┬───┘
         └─────────────┬─────────────┘
                       ↓
           多源结果融合 & 重排序
                       ↓
         相关度评分 + 上下文扩展
                       ↓
           拼装 Context → LLM 生成回答
                       ↓
              引用来源 + 置信度标注

项目结构

├── app.py              # Streamlit 主应用 + RAG 检索 + 对话管理
├── create_db.py        # 向量库构建(PDF解析/OCR/分块/知识图谱构建)
├── agent.py            # Agent调用
├── requirements.txt    # Python 依赖
└── data/               # 企业文档目录(需自行准备)

About

Enterprise internal AI assistant with integrated RAG and AI Agent capabilities

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages