🚀 重新定义小红书数据采集与自动化
全量抓取 • 无水印下载 • AI 智能养号
“目前最稳、最全的 Python 小红书自动化解决方案”
⚠️ 本项目仅供学习研究,严禁用于商业用途
⚠️ 免责声明本项目仅供 个人学习、学术研究 使用。
- 严禁用于任何商业用途。
- 严禁用于非法抓取、大规模攻击目标网站。
- 使用本工具产生的一切法律后果由使用者自行承担。
- 本项目不提供源代码,仅提供编译后的可执行文件供研究学习。
yuHai 是一个专为学习 Web 自动化 和 数据采集 技术而设计的实验性平台。它针对 小红书 (Xiaohongshu) 平台进行了深度适配,来实现复杂的数据获取与交互任务。
通过本项目,您可以学习和体验:
- 如何实现稳定的小红书笔记与评论采集。
- 如何构建基于 Agent 的智能浏览行为。
- 如何设计 RESTful API 来管理自动化任务。
-
📕 小红书数据全方位采集
- 笔记采集:支持关键词搜索、个人主页笔记批量采集。
- 评论采集:高效获取笔记下的用户评论数据。
- 详情解析:自动解析笔记的图文、视频资源及元数据。
-
🤖 智能自动化 Agent
- 内置 智能浏览 Agent,模拟真实用户行为,自动翻页、浏览。
- 支持自定义停止条件(如采集数量、运行时间、失败次数)。
-
📊 数据管理与可视化
- 数据导出:支持将采集到的笔记、评论数据一键导出为 Excel (.xlsx) 格式,方便进行深度分析。
- 可视化仪表盘:提供实时大屏,展示采集趋势、笔记分类分布等关键指标。
- 支持多租户数据隔离,方便不同学习小组或场景独立管理数据。
-
🔌 强大的 API 接口
- 提供完整的 RESTful API,支持通过 HTTP 请求完全控制系统。
- 内置 Swagger UI 文档,方便调试与测试。
本项目基于实际代码实现,以下功能均经过验证可用:
| 模块 | 功能特性 | 说明 |
|---|---|---|
| 🔐 账号管理 | 自动登录检测 | 自动识别浏览器当前登录账号,无需手动输入账号密码 |
| Cookie 自动维护 | 自动提取与验证 Cookie,失效自动提示 | |
| 权益信息同步 | 登录时自动同步粉丝数、获赞数、收藏数等核心指标 | |
| 多账号隔离 | 不同账号数据自动隔离,支持多账号切换管理 | |
| 🕷️ 数据采集 | 被动监听采集 | 浏览网页时自动捕获并保存笔记、评论、用户信息 (Network Listener) |
| 笔记详情获取 | 深度解析笔记内容,包括无水印图片/视频下载 | |
| 评论批量采集 | 支持单篇笔记下的全量评论获取与入库 | |
| ✍️ 创作者服务 | 自动化发布 | 支持通过 API 自动发布图文、视频笔记到创作者平台 |
| 自动克隆笔记 | 一键采集目标笔记,自动去水印并重新发布 (支持跨账号) | |
| 图片水印去重 | 对原始图片/视频进行去水印及像素级去重处理 (防平台查重) | |
| 🤖 AI 智能体 | 智能养号 Agent | "Account Nurturer" 模式:自动浏览、点赞、收藏,模拟真人活跃 |
| 深度浏览 Agent | "Deep Browser" 模式:基于兴趣关键词的自动翻页与探索 | |
| 📊 数据看板 | 实时大屏 | 包含数据概览、发布热力图、趋势分析、词云图 |
💡 提示
- 登录检测:程序启动时会自动接管浏览器,若检测到已登录状态,会自动录入系统。
- 被动采集:无需刻意运行任务,只要在通过本系统打开的浏览器中浏览,数据即会自动入库。
- 免登录采集:支持不登录状态下持续进行数据获取。
请前往 Releases 页面下载适合您操作系统的最新版本压缩包。
- 浏览器:确保您的电脑上安装了 Google Chrome。
- 网络:确保您的网络环境可以正常访问小红书网页版。
解压下载的压缩包,在终端(命令行)中运行以下命令启动服务:
Windows:
.\yuHai.exe startLinux / macOS:
./yuHai.bin start启动成功后,控制台将显示如下信息:
INFO: Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
本项目采用标准 RESTful API 设计,启动服务后,您可以直接访问内置的交互式文档。
- Swagger UI (推荐): http://127.0.0.1:8000/docs
- ReDoc: http://127.0.0.1:8000/redoc
以下示例假设服务运行在本地 http://127.0.0.1:8000。
程序启动后会自动打开浏览器。您只需在此浏览器中浏览小红书页面,系统会自动监听并采集数据入库。
查看浏览器状态:
curl -X 'GET' \
'http://127.0.0.1:8000/api/v1/browser/status' \
-H 'accept: application/json'分页查询系统中已采集到的笔记数据。
curl -X 'GET' \
'http://127.0.0.1:8000/api/v1/note/list?page=1&per_page=10' \
-H 'accept: application/json'Q: 程序启动后浏览器没有反应? A: 请检查是否已安装 Chrome 浏览器,且没有被其他自动化工具占用。
Q: 采集数据为空? A: 请检查网络连接是否正常,或尝试手动打开浏览器验证是否触发了验证码。
- Email: yuhai2553@gmail.com
- GitHub Issues: https://github.com/xin-Easy/yuhai/issues
本项目所有数据归属于原平台,本工具仅作为浏览器自动化技术的学习验证,不提供任何数据存储与分发服务。