利用 Ollama 在无GPU环境下部署并调用qwen2.5:1.5b及嵌入模型snowflake-arctic-embed,基于 LangChain 框架,实现了PDF/TXT加载、文本智能分块(chunk_size=500, overlap=50),并利用 Chroma 向量数据库存储文档语义向量。通过自定义Prompt模板约束模型仅依据检索内容作答,显著降低幻觉;调整检索策略(Top-K=3)以平衡召回率与上下文窗口限制。针对特定领域文档(如历史文献),通过对比不同分块大小(100/200/300)和温度参数(0.2/0.5),将关键问题的答案准确率提升约15%(基于本人评测)。
1.1:优化了文档加载速度,增加增量更新功能