Skip to content

leeee-999/xhs-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

小红书帖子收集

这个文件夹用来把小红书种草帖整理成旅行可用资料。

文件结构

  • links.json:待整理的小红书链接清单。以后新增帖子就往这里加。
  • posts/:每篇帖子一个子文件夹,保存截图、可读文本、元数据和手动笔记。
  • scripts/archive-xhs.mjs:半自动归档脚本。

使用方式

在当前旅行文件夹运行:

& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\archive-xhs.mjs'

如果页面要求登录或一直加载,运行带界面的模式:

& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\archive-xhs.mjs' --headed

打开浏览器后手动登录/等待页面加载,脚本会尽量保存页面截图和可见文字。不要用它绕过验证码、登录限制或批量高频抓取;这里只做个人旅行资料归档。

常见情况

  • 安全限制 / IP存在风险 / 300012:这是小红书网页端的风控,脚本不能也不应该绕过。请用手机打开帖子后截图,或复制正文给我,我可以继续整理。
  • visible-text.txt 很短:说明正文没有被网页端加载出来,看 screenshot.png 判断是否需要手动补。
  • 图片没有抓到:小红书图片经常被动态脚本保护,建议直接把手机截图放进对应帖子文件夹。

MediaCrawler 方案

我已经把 NanmiCoder/MediaCrawler 克隆到 _tools/MediaCrawler,并配置为只抓这条小红书笔记详情:

69bcb7660000000022029344

它需要用你自己的浏览器登录态。运行:

.\xhs收集\scripts\run-mediacrawler-xhs.ps1

脚本会打开一个独立 Chrome/Edge 资料目录。请在浏览器里登录小红书,确认能正常打开帖子,再回到终端按 Enter。

采集成功后,把 MediaCrawler 输出导入帖子文件夹:

& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\import-mediacrawler-output.mjs'

导入后看:

  • posts/01/mediacrawler-note.json
  • posts/01/manual-notes.md
  • posts/01/summary.md

每篇帖子整理建议

采集后重点看每个帖子文件夹里的:

  • screenshot.png:页面截图
  • visible-text.txt:页面可见文字
  • manual-notes.md:如果正文抓不到,把截图里或手机里看到的店名粘到这里
  • summary.md:最后整理成“店名 / 区域 / 适合做什么 / 放进哪一天”

About

爬取xhs图片,评论,文字,存储在独立文件夹中

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors