# 小助手

## 简介
本课程作业旨在让学员熟悉 LangChain 开发大模型应用 的完整流程，能够针对不同数据类型（结构化 / 半结构化 / 非结构化）构建一个智能问答或分析助手。

学员可以自由选择感兴趣的数据集（金融、医疗、法律、教育、电商、旅游等领域均可），并围绕该数据集完成数据处理、向量化、检索增强（RAG）和应用集成。

目标是让大家在真实场景中完成一个从数据到应用的闭环项目。

## 学习目标
- 熟悉 LangChain 架构 与核心模块（LLM、VectorStore、Retriever、Chain、Agent 等）。
**LLM（Large Language Model，大语言模型）**：负责文本生成和推理。<br>
**VectorStore（向量数据库）**：存储文本的向量表示，用于相似度检索。<br>
**Retriever（检索器）**：从向量数据库中检索相关内容。<br>
**Chain（链式调用）**：将多个模块组合执行的流程。<br>
**Agent（智能体）**：可调用多个工具并基于上下文自主决策。<br>
- 掌握 RAG 技术 在不同数据类型下的应用方法。
- 完成一个可运行的小助手 Demo（例如：合同问答助手、论文摘要助手、财务分析助手、旅游问答助手）。

## 作业安排

- **1.选择数据集**
  
a.可以使用公开数据集（如金融、法律、医疗等领域的 PDF/TXT/CSV 数据）。<br>

b.也可以准备自选的数据（课程材料、学术论文、产品文档等）。<br>

- **2.数据处理流程**

a.PDF 转 TXT（若是 PDF/Doc 文件，需转换为文本，并保留表格结构）。<br>

b.数据切分（按基础信息 / 指标数据 / 综合信息划分）。<br>

c.数据清洗与计算（如公式计算、增长率、均值排名）。<br>

- **3.存入向量数据库**
  
a.使用 Chroma 或其他向量库。<br>

b.建表并存储，支持 Embedding 检索。<br>

- **4.问答流程**
  
a.输入问题 → Prompt 构造 → 数据库查询 → 答案生成。<br>

- **5.应用搭建**

a.将 大模型对象（LLM）、向量数据库对象（VectorStore）、Memory（记忆模块，用于保存上下文对话历史） 集成到同一个 Chain（执行链）。<br>

b.可扩展调用工具（计算器、外部 API 等）。<br>

可参考数据集示例
- 金融：ChatGLM 金融数据集
- 医疗：医学论文/病例报告
- 教育：课程大纲、教材
- 法律：司法判决书、合同文本
- 电商：商品评价数据

**建议选择与自己职业或兴趣相关的数据集，更容易做出有特色的小助手。**

### 搭建步骤（参考）
- 1.使用 unstructured.partition_pdf（unstructured 库的 PDF 内容解析方法） 提取数据元素。
- 2.配置 API（应用程序接口）、Embedding Model（向量化模型，例如本地yinka模型）。
- 3.划分数据 → 存入 向量数据库（VectorStore）。
- 4.定义 Retriever（检索器） 并集成到 Chain（执行链） 中。
- 5.测试问答流程，并支持追问。                                                                  

### 提交要求

- 代码文件（完整可运行，包含环境依赖说明）。
- 技术报告（简述数据集选择、处理方法、系统架构、功能演示）。
- 最终完成一个Demo 小助手（可本地运行，完成问答/检索任务）。

### 提交方式：

https://candidate.aidexianzhaopinguan.com/exam/59f1c49ff2704e37b1680faee4b275ac
- 点击提交链接，进入到AI面试系统，限时60分钟提交，作业中如需提交代码文件和报告等，请同学们**提前**做好作业压缩成.zip文件；
- .zip文件可以通过AI面试系统附件方式上传；
- 登录界面中需填入你的真实姓名和与登录小鹅通一致的手机号，方便老师统一批改；
- 提交好作业后，告诉一下你的班班老师，我们方便快速为你批改。

### 结语

本作业是 A3 阶段的实战项目，旨在帮助学员 体验完整的 RAG 应用构建 流程，并鼓励大家结合兴趣或职业场景，做出有差异化的智能小助手。
