Skip to content

CharlesLiu7/Weibo-SuperTopic-Album-Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Weibo Album SuperTopic Crawler

pythonMIT license

新浪微博超级话题相册爬虫。包含缩略图和大图

Usage

  1. 安装

    git clone https://github.com/CharlesLiu7/Weibo-SuperTopic-Album-Crawler
    cd Weibo-SuperTopic-Album-Crawler
    virtualenv env --python=python3
    source ./env/bin/activate
    pip install -r requirements.txt
    mv settings.sample.py settings.py
  2. 设置settings.py

    • STORE_PATH 下载目录
    • SLEEPTIME 每次请求数据的间隔,默认为0秒
    • COOKIES 任意用户微博的cookies,推荐包含以下字段 SCF, SSOLoginState, SUB, SUHB指南
    • MAX_PAGE 相册翻页的最大页数,默认设置为10000,表示全部爬取
    • TARGETS 目标超级话题的微博主页urls
  3. 运行

    python main.py

  4. 注意: 有时候会解析失败,代码提供了断点保存功能在 .pkl.gz 文件中;程序因为抓取翻页结果失败退出后,可以直接重新运行以继续:

    python main.py

    每次开始一个新的话题爬取之前请执行清除checkpoints

    rm -rf checkpoints

感谢 Acknowledgement

感谢 Lodour/Weibo-Album-Crawler 提供的API和良好的代码结构,以及在 Issue 12 中提出的良好建议。

License

MIT License

About

微博超级话题相册爬虫 SuperTopic-Album-Crawler

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages