## 项目需求分析

### 1. 客户需求
- 快速完成概念验证(PoC)
- 通过图形界面快速完成演示
- 本地私有数据
- 对比不同模型和成本，决定如何部署

### 2. LlamaIndex的优势和问题

#### 2.1 LlamaIndex 的优势
- 丰富的工具 [llamahub](https://llamahub.ai/)
- 完善的文档和教程 [docs](https://docs.llamaindex.ai/en/stable/)

#### 2.2 LlamaIndex 的问题
- 缺乏图形界面，操作不够直观
- 默认RAG实现存在多个问题点，需要手工优化


### 解决思路

1. 为了实现用户需求，先增加前端再打补丁
2. 直接从开源项目中借鉴

#### 思考1 用官方的Demo


[putting it all together](https://docs.llamaindex.ai/en/stable/understanding/putting_it_all_together/apps/)

问题：
Flask Backend + React Frontend



In [None]:
@app.route("/query", methods=["GET"])
def query_index():
    pass

@app.route("/uploadFile", methods=["POST"])
def upload_file():
    pass
    
@app.route("/getDocuments", methods=["GET"])
def get_documents():
    pass


if __name__ == "__main__":
    initialize_index()

    # ... ...

    server = manager.get_server()

    print("server started...")
    server.serve_forever()


结论：
1. 框架：
2. 成本：
3. 性能：


#### 思考2 
- 全栈 Python 
- 方便替换模型 兼容 OpenAI API 的国内大模型
- 演示直观

[百炼本地知识库方案](https://help.aliyun.com/zh/model-studio/use-cases/build-rag-application-based-on-local-retrieval?spm=a2c4g.11186623.help-menu-2400256.d_2_3.2490b0a82sTD22)

解决方案： FastAPI + Gradio + Llamaindex + qwen-plus


In [None]:
def get_chat_block():
    pass

def get_upload_block():
    pass

def get_knowledge_base_block():
    pass


app = FastAPI()
@app.get("/", response_class=HTMLResponse)
def read_main():
    html_content = main_html
    return HTMLResponse(content=html_content)


app = gr.mount_gradio_app(app, get_chat_block(), path="/chat")
app = gr.mount_gradio_app(app, get_upload_block(), path="/upload_data")
app = gr.mount_gradio_app(app, get_knowledge_base_block(), path="/create_knowledge_base")

### 3. 增加法律数据集测试，并阅读代码

[📚法律数据](https://github.com/pengxiao-song/awesome-chinese-legal-resources)

### 4. 尝试本地模型

#### 4.1 增加 LLMs 网关( LLMs GateWay)，尝试 chat 模型，便于比较合测试

1. Qwen plus
2. qwen 2.5 - 7b
3. DeepSeek V3

#### 4.2 尝试本地 embedding 模型

最著名的几个中文embedding模型：

1. GTE 通义实验室
2. BGE是由北京智源人工智能研究院提出的新的embedding模型。 源码地址：https://github.com/FlagOpen/FlagEmbedding
3. BCE 网易有道的 BCEmbedding 模型的GitHub官网 https://github.com/netease-youdao/BCEmbedding
4. M3E 是 Moka Massive Mixed Embedding 的缩写 ，此模型由 MokaAI 训练，开源和评测，训练脚本使用 uniem ，评测 BenchMark 使用 MTEB-zh

### 5. 小结

1. 本地 embedding 模型不影响召回效率， CPU 性能足够，建议采用
2. 本地 (chat)大模型对内容的理解非常有限，实际工作中可以采用 LLMs Gateway 切换，RAG环境建议采用在线的模型
3. FastAPI + Gradio + Llamaindex + qwen-plus 全栈 Python 可以实现较好的 PoC 基本需要，但是在 RAG 整个过程都需要打补丁