🌊 yuHai - 小红书数据采集与自动化平台

🚀 重新定义小红书数据采集与自动化

全量抓取 • 无水印下载 • AI 智能养号

“目前最稳、最全的 Python 小红书自动化解决方案”

⚠️ 本项目仅供学习研究，严禁用于商业用途

⚠️ 免责声明

本项目仅供 个人学习、学术研究 使用。

严禁用于任何商业用途。

严禁用于非法抓取、大规模攻击目标网站。

使用本工具产生的一切法律后果由使用者自行承担。

本项目不提供源代码，仅提供编译后的可执行文件供研究学习。

📖 项目简介

yuHai 是一个专为学习 Web 自动化 和 数据采集 技术而设计的实验性平台。它针对 小红书 (Xiaohongshu) 平台进行了深度适配，来实现复杂的数据获取与交互任务。

通过本项目，您可以学习和体验：

如何实现稳定的小红书笔记与评论采集。
如何构建基于 Agent 的智能浏览行为。
如何设计 RESTful API 来管理自动化任务。

✨ 核心功能

📕 小红书数据全方位采集
- 笔记采集：支持关键词搜索、个人主页笔记批量采集。
- 评论采集：高效获取笔记下的用户评论数据。
- 详情解析：自动解析笔记的图文、视频资源及元数据。
🤖 智能自动化 Agent
- 内置 智能浏览 Agent，模拟真实用户行为，自动翻页、浏览。
- 支持自定义停止条件（如采集数量、运行时间、失败次数）。
📊 数据管理与可视化
- 数据导出：支持将采集到的笔记、评论数据一键导出为 Excel (.xlsx) 格式，方便进行深度分析。
- 可视化仪表盘：提供实时大屏，展示采集趋势、笔记分类分布等关键指标。
- 支持多租户数据隔离，方便不同学习小组或场景独立管理数据。
🔌 强大的 API 接口
- 提供完整的 RESTful API，支持通过 HTTP 请求完全控制系统。
- 内置 Swagger UI 文档，方便调试与测试。

✅ 已实现功能清单

本项目基于实际代码实现，以下功能均经过验证可用：

模块	功能特性	说明
🔐 账号管理	自动登录检测	自动识别浏览器当前登录账号，无需手动输入账号密码
	Cookie 自动维护	自动提取与验证 Cookie，失效自动提示
	权益信息同步	登录时自动同步粉丝数、获赞数、收藏数等核心指标
	多账号隔离	不同账号数据自动隔离，支持多账号切换管理
🕷️ 数据采集	被动监听采集	浏览网页时自动捕获并保存笔记、评论、用户信息 (Network Listener)
	笔记详情获取	深度解析笔记内容，包括无水印图片/视频下载
	评论批量采集	支持单篇笔记下的全量评论获取与入库
✍️ 创作者服务	自动化发布	支持通过 API 自动发布图文、视频笔记到创作者平台
	自动克隆笔记	一键采集目标笔记，自动去水印并重新发布 (支持跨账号)
	图片水印去重	对原始图片/视频进行去水印及像素级去重处理 (防平台查重)
🤖 AI 智能体	智能养号 Agent	"Account Nurturer" 模式：自动浏览、点赞、收藏，模拟真人活跃
	深度浏览 Agent	"Deep Browser" 模式：基于兴趣关键词的自动翻页与探索
📊 数据看板	实时大屏	包含数据概览、发布热力图、趋势分析、词云图

💡 提示

登录检测：程序启动时会自动接管浏览器，若检测到已登录状态，会自动录入系统。

被动采集：无需刻意运行任务，只要在通过本系统打开的浏览器中浏览，数据即会自动入库。

免登录采集：支持不登录状态下持续进行数据获取。

🚀 快速开始

1. 下载与安装

请前往 Releases 页面下载适合您操作系统的最新版本压缩包。

2. 环境准备

浏览器：确保您的电脑上安装了 Google Chrome。
网络：确保您的网络环境可以正常访问小红书网页版。

3. 运行程序

解压下载的压缩包，在终端（命令行）中运行以下命令启动服务：

Windows:

.\yuHai.exe start

Linux / macOS:

./yuHai.bin start

启动成功后，控制台将显示如下信息：

INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)

📚 API 使用指南

本项目采用标准 RESTful API 设计，启动服务后，您可以直接访问内置的交互式文档。

Swagger UI (推荐): http://127.0.0.1:8000/docs
ReDoc: http://127.0.0.1:8000/redoc

常用 API 示例

以下示例假设服务运行在本地 http://127.0.0.1:8000。

1. 被动采集 (无需调用 API)

程序启动后会自动打开浏览器。您只需在此浏览器中浏览小红书页面，系统会自动监听并采集数据入库。

查看浏览器状态：

curl -X 'GET' \
  'http://127.0.0.1:8000/api/v1/browser/status' \
  -H 'accept: application/json'

2. 查询已采集数据

分页查询系统中已采集到的笔记数据。

curl -X 'GET' \
  'http://127.0.0.1:8000/api/v1/note/list?page=1&per_page=10' \
  -H 'accept: application/json'

❓ 常见问题

Q: 程序启动后浏览器没有反应？ A: 请检查是否已安装 Chrome 浏览器，且没有被其他自动化工具占用。

Q: 采集数据为空？ A: 请检查网络连接是否正常，或尝试手动打开浏览器验证是否触发了验证码。

📧 联系方式

Email: yuhai2553@gmail.com
GitHub Issues: https://github.com/xin-Easy/yuhai/issues

⚠️ 版权说明

本项目所有数据归属于原平台，本工具仅作为浏览器自动化技术的学习验证，不提供任何数据存储与分发服务。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
docs		docs
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🌊 yuHai - 小红书数据采集与自动化平台

📖 项目简介

✨ 核心功能

✅ 已实现功能清单

🚀 快速开始

1. 下载与安装

2. 环境准备

3. 运行程序

📚 API 使用指南

常用 API 示例

1. 被动采集 (无需调用 API)

2. 查询已采集数据

❓ 常见问题

📧 联系方式

⚠️ 版权说明

About

Uh oh!

Releases 2

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

🌊 yuHai - 小红书数据采集与自动化平台

📖 项目简介

✨ 核心功能

✅ 已实现功能清单

🚀 快速开始

1. 下载与安装

2. 环境准备

3. 运行程序

📚 API 使用指南

常用 API 示例

1. 被动采集 (无需调用 API)

2. 查询已采集数据

❓ 常见问题

📧 联系方式

⚠️ 版权说明

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 2

Packages 0

Uh oh!

Contributors

Uh oh!

Packages