Skip to content

HAOLI999/xhsSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 

Repository files navigation

小红书爬虫

这是一个用于爬取小红书数据的Python爬虫程序,具有图形用户界面。

功能特点

  • 支持小红书账号登录
  • 支持关键词搜索和数据爬取
  • 自动提取评论中的关键词和地点信息
  • 数据保存功能
  • 图形用户界面
  • 支持爬取进度显示
  • 支持停止爬取

安装依赖

pip install -r requirements.txt

使用方法

  1. 运行程序:
python xhs_spider.py
  1. 在图形界面中:
    • 输入小红书账号和密码进行登录
    • 输入要搜索的URL和关键词
    • 点击"开始爬取"按钮开始爬取
    • 可以随时点击"停止爬取"按钮停止爬取
    • 爬取完成后可以点击"保存数据"按钮保存数据

数据保存

爬取的数据将保存在xhs_data目录下,包括:

  • 关键词统计(JSON格式)
  • 地点对统计(JSON格式)
  • 帖子URL列表(文本格式)

注意事项

  1. 请遵守小红书的使用条款和爬虫协议
  2. 建议使用代理IP进行爬取,避免被封IP
  3. 爬取速度不要太快,建议设置适当的延迟
  4. 需要确保网络连接正常

更新日志

v1.0.0

  • 初始版本发布
  • 支持基本的爬取功能
  • 添加图形用户界面
  • 支持数据保存

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages