这是一个用于爬取小红书数据的Python爬虫程序,具有图形用户界面。
- 支持小红书账号登录
- 支持关键词搜索和数据爬取
- 自动提取评论中的关键词和地点信息
- 数据保存功能
- 图形用户界面
- 支持爬取进度显示
- 支持停止爬取
pip install -r requirements.txt- 运行程序:
python xhs_spider.py- 在图形界面中:
- 输入小红书账号和密码进行登录
- 输入要搜索的URL和关键词
- 点击"开始爬取"按钮开始爬取
- 可以随时点击"停止爬取"按钮停止爬取
- 爬取完成后可以点击"保存数据"按钮保存数据
爬取的数据将保存在xhs_data目录下,包括:
- 关键词统计(JSON格式)
- 地点对统计(JSON格式)
- 帖子URL列表(文本格式)
- 请遵守小红书的使用条款和爬虫协议
- 建议使用代理IP进行爬取,避免被封IP
- 爬取速度不要太快,建议设置适当的延迟
- 需要确保网络连接正常
- 初始版本发布
- 支持基本的爬取功能
- 添加图形用户界面
- 支持数据保存