小红书帖子收集

这个文件夹用来把小红书种草帖整理成旅行可用资料。

文件结构

links.json：待整理的小红书链接清单。以后新增帖子就往这里加。
posts/：每篇帖子一个子文件夹，保存截图、可读文本、元数据和手动笔记。
scripts/archive-xhs.mjs：半自动归档脚本。

使用方式

在当前旅行文件夹运行：

& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\archive-xhs.mjs'

如果页面要求登录或一直加载，运行带界面的模式：

& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\archive-xhs.mjs' --headed

打开浏览器后手动登录/等待页面加载，脚本会尽量保存页面截图和可见文字。不要用它绕过验证码、登录限制或批量高频抓取；这里只做个人旅行资料归档。

常见情况

安全限制 / IP存在风险 / 300012：这是小红书网页端的风控，脚本不能也不应该绕过。请用手机打开帖子后截图，或复制正文给我，我可以继续整理。
visible-text.txt 很短：说明正文没有被网页端加载出来，看 screenshot.png 判断是否需要手动补。
图片没有抓到：小红书图片经常被动态脚本保护，建议直接把手机截图放进对应帖子文件夹。

MediaCrawler 方案

我已经把 NanmiCoder/MediaCrawler 克隆到 _tools/MediaCrawler，并配置为只抓这条小红书笔记详情：

69bcb7660000000022029344

它需要用你自己的浏览器登录态。运行：

.\xhs收集\scripts\run-mediacrawler-xhs.ps1

脚本会打开一个独立 Chrome/Edge 资料目录。请在浏览器里登录小红书，确认能正常打开帖子，再回到终端按 Enter。

采集成功后，把 MediaCrawler 输出导入帖子文件夹：

& 'C:\Users\li\.cache\codex-runtimes\codex-primary-runtime\dependencies\node\bin\node.exe' '.\xhs收集\scripts\import-mediacrawler-output.mjs'

导入后看：

posts/01/mediacrawler-note.json
posts/01/manual-notes.md
posts/01/summary.md

每篇帖子整理建议

采集后重点看每个帖子文件夹里的：

screenshot.png：页面截图
visible-text.txt：页面可见文字
manual-notes.md：如果正文抓不到，把截图里或手机里看到的店名粘到这里
summary.md：最后整理成“店名 / 区域 / 适合做什么 / 放进哪一天”

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
scripts		scripts
README.md		README.md
links.json		links.json
整理总表.md		整理总表.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

小红书帖子收集

文件结构

使用方式

常见情况

MediaCrawler 方案

每篇帖子整理建议

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

小红书帖子收集

文件结构

使用方式

常见情况

MediaCrawler 方案

每篇帖子整理建议

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages