这个文件夹用来把小红书种草帖整理成旅行可用资料。
links.json:待整理的小红书链接清单。以后新增帖子就往这里加。posts/:每篇帖子一个子文件夹,保存截图、可读文本、元数据和手动笔记。scripts/archive-xhs.mjs:半自动归档脚本。
在当前旅行文件夹运行:
& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\archive-xhs.mjs'如果页面要求登录或一直加载,运行带界面的模式:
& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\archive-xhs.mjs' --headed打开浏览器后手动登录/等待页面加载,脚本会尽量保存页面截图和可见文字。不要用它绕过验证码、登录限制或批量高频抓取;这里只做个人旅行资料归档。
安全限制 / IP存在风险 / 300012:这是小红书网页端的风控,脚本不能也不应该绕过。请用手机打开帖子后截图,或复制正文给我,我可以继续整理。visible-text.txt很短:说明正文没有被网页端加载出来,看screenshot.png判断是否需要手动补。- 图片没有抓到:小红书图片经常被动态脚本保护,建议直接把手机截图放进对应帖子文件夹。
我已经把 NanmiCoder/MediaCrawler 克隆到 _tools/MediaCrawler,并配置为只抓这条小红书笔记详情:
69bcb7660000000022029344
它需要用你自己的浏览器登录态。运行:
.\xhs收集\scripts\run-mediacrawler-xhs.ps1脚本会打开一个独立 Chrome/Edge 资料目录。请在浏览器里登录小红书,确认能正常打开帖子,再回到终端按 Enter。
采集成功后,把 MediaCrawler 输出导入帖子文件夹:
& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\import-mediacrawler-output.mjs'导入后看:
posts/01/mediacrawler-note.jsonposts/01/manual-notes.mdposts/01/summary.md
采集后重点看每个帖子文件夹里的:
screenshot.png:页面截图visible-text.txt:页面可见文字manual-notes.md:如果正文抓不到,把截图里或手机里看到的店名粘到这里summary.md:最后整理成“店名 / 区域 / 适合做什么 / 放进哪一天”