Skip to content

feat(AI): RAG MVP Part 1 - 数据处理 #40

@Crokily

Description

@Crokily

技术选型

RAG框架:LlamaIndex - 比Langchain更专注于RAG,所以更适合我们项目
向量数据库:Pinecone - Serverless 向量数据库,有免费套餐,适合 MVP 阶段
Rerank: Cohere - 免费
Embedding: Gemini Embedding - 目前没有设备,只能先用免费的线上模型

开发步骤
开发一个 把 docs下所有文章分块并向量化存进 Pinecone 的 Python 脚本。
分块策略先用全文处理,因为目前文章不多,且mvp先简单出发, 以搭框架为主。后面再采用更好的分块策略。

Metadata

Metadata

Assignees

Labels

Projects

Status

No status

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions