Skip to content

xin-Easy/yuHai

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

🌊 yuHai - 小红书数据采集与自动化平台

🚀 重新定义小红书数据采集与自动化

全量抓取无水印下载AI 智能养号

“目前最稳、最全的 Python 小红书自动化解决方案”

⚠️ 本项目仅供学习研究,严禁用于商业用途

Release Platform UI License

文档 | 功能特性 | API 指南 | 问题反馈


⚠️ 免责声明

本项目仅供 个人学习、学术研究 使用。

  • 严禁用于任何商业用途
  • 严禁用于非法抓取、大规模攻击目标网站
  • 使用本工具产生的一切法律后果由使用者自行承担。
  • 本项目不提供源代码,仅提供编译后的可执行文件供研究学习。

📖 项目简介

yuHai 是一个专为学习 Web 自动化数据采集 技术而设计的实验性平台。它针对 小红书 (Xiaohongshu) 平台进行了深度适配,来实现复杂的数据获取与交互任务。

通过本项目,您可以学习和体验:

  • 如何实现稳定的小红书笔记与评论采集。
  • 如何构建基于 Agent 的智能浏览行为。
  • 如何设计 RESTful API 来管理自动化任务。

✨ 核心功能

  1. 📕 小红书数据全方位采集

    • 笔记采集:支持关键词搜索、个人主页笔记批量采集。
    • 评论采集:高效获取笔记下的用户评论数据。
    • 详情解析:自动解析笔记的图文、视频资源及元数据。
  2. 🤖 智能自动化 Agent

    • 内置 智能浏览 Agent,模拟真实用户行为,自动翻页、浏览。
    • 支持自定义停止条件(如采集数量、运行时间、失败次数)。
  3. 📊 数据管理与可视化

    • 数据导出:支持将采集到的笔记、评论数据一键导出为 Excel (.xlsx) 格式,方便进行深度分析。
    • 可视化仪表盘:提供实时大屏,展示采集趋势、笔记分类分布等关键指标。
    • 支持多租户数据隔离,方便不同学习小组或场景独立管理数据。
  4. 🔌 强大的 API 接口

    • 提供完整的 RESTful API,支持通过 HTTP 请求完全控制系统。
    • 内置 Swagger UI 文档,方便调试与测试。

✅ 已实现功能清单

本项目基于实际代码实现,以下功能均经过验证可用:

模块 功能特性 说明
🔐 账号管理 自动登录检测 自动识别浏览器当前登录账号,无需手动输入账号密码
Cookie 自动维护 自动提取与验证 Cookie,失效自动提示
权益信息同步 登录时自动同步粉丝数、获赞数、收藏数等核心指标
多账号隔离 不同账号数据自动隔离,支持多账号切换管理
🕷️ 数据采集 被动监听采集 浏览网页时自动捕获并保存笔记、评论、用户信息 (Network Listener)
笔记详情获取 深度解析笔记内容,包括无水印图片/视频下载
评论批量采集 支持单篇笔记下的全量评论获取与入库
✍️ 创作者服务 自动化发布 支持通过 API 自动发布图文、视频笔记到创作者平台
自动克隆笔记 一键采集目标笔记,自动去水印并重新发布 (支持跨账号)
图片水印去重 对原始图片/视频进行去水印及像素级去重处理 (防平台查重)
🤖 AI 智能体 智能养号 Agent "Account Nurturer" 模式:自动浏览、点赞、收藏,模拟真人活跃
深度浏览 Agent "Deep Browser" 模式:基于兴趣关键词的自动翻页与探索
📊 数据看板 实时大屏 包含数据概览、发布热力图、趋势分析、词云图

💡 提示

  • 登录检测:程序启动时会自动接管浏览器,若检测到已登录状态,会自动录入系统。
  • 被动采集:无需刻意运行任务,只要在通过本系统打开的浏览器中浏览,数据即会自动入库。
  • 免登录采集:支持不登录状态下持续进行数据获取。

🚀 快速开始

1. 下载与安装

请前往 Releases 页面下载适合您操作系统的最新版本压缩包。

2. 环境准备

  • 浏览器:确保您的电脑上安装了 Google Chrome
  • 网络:确保您的网络环境可以正常访问小红书网页版。

3. 运行程序

解压下载的压缩包,在终端(命令行)中运行以下命令启动服务:

Windows:

.\yuHai.exe start

Linux / macOS:

./yuHai.bin start

启动成功后,控制台将显示如下信息:

INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)

📚 API 使用指南

本项目采用标准 RESTful API 设计,启动服务后,您可以直接访问内置的交互式文档。

常用 API 示例

以下示例假设服务运行在本地 http://127.0.0.1:8000

1. 被动采集 (无需调用 API)

程序启动后会自动打开浏览器。您只需在此浏览器中浏览小红书页面,系统会自动监听并采集数据入库。

查看浏览器状态:

curl -X 'GET' \
  'http://127.0.0.1:8000/api/v1/browser/status' \
  -H 'accept: application/json'

2. 查询已采集数据

分页查询系统中已采集到的笔记数据。

curl -X 'GET' \
  'http://127.0.0.1:8000/api/v1/note/list?page=1&per_page=10' \
  -H 'accept: application/json'

❓ 常见问题

Q: 程序启动后浏览器没有反应? A: 请检查是否已安装 Chrome 浏览器,且没有被其他自动化工具占用。

Q: 采集数据为空? A: 请检查网络连接是否正常,或尝试手动打开浏览器验证是否触发了验证码。


📧 联系方式


⚠️ 版权说明

本项目所有数据归属于原平台,本工具仅作为浏览器自动化技术的学习验证,不提供任何数据存储与分发服务。

About

🌊 YuHai : 小红书数据采集与自动化平台。🚀 集成 笔记/评论全量采集 、 被动监听 、 无水印下载 、 AI 智能养号 、 自动发布 、 多账号矩阵管理 及 可视化大屏 于一体。内置 RESTful API。The Ultimate Xiaohongshu (RedNote) Automation & Scraping Solution.

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors