Skip to content
This repository has been archived by the owner on Oct 25, 2018. It is now read-only.

gwy15/Spiders

Repository files navigation

说明

这个仓库是我平时写的一些爬虫或者自动下载器之类的。 全部项目基于 python 3.6.0+ 写成并运行,不保证其他版本能正常运行。

bilibili_ass_danmu_getter

根据 av 号或者正版番组的番组号,下载 b 站的弹幕并转化为 ass 格式,方便直接用播放器播放。

  • xml 转 ass 部分的代码使用了 danmu2ass 的代码。
  • 目前支持单P 一般视频、多P 一般视频,单集正版番组,多集正版番组下载。
  • 更改了原 xml 转 ass 的弹幕位置算法和显示效果,看起来更舒服。

NetMusic

调用网易云音乐的一些 api,目前可以实现的是搜索和歌词。

steam

调用 steam 的 api,查询软件/游戏的售价/打折情况。

  • 使用 MySQL 储存数据。
  • 使用多线程。
  • 可视化进度条

zhuangbi.info

爬取 zhuangbi.info 的表情包

  • 储存图片使用其标题,结合 everything 斗图好帮手。
  • 使用多线程。
  • 可视化进度条

ZhihuDaily

目前只实现了爬取标题,以后会添加一点内容。

weiboAlbum

针对一个用户的相册进行爬取。目前只能爬取 24 张图片,待完善。

需要说明的是,为了避免登陆验证,用户需要在 weiboAlbum 的目录下建立一个config.json,保存用户的 headers,一般只需要 Cookie 和 User-Agent 就可以了。

例如

{
    "headers" : {
        "Cookie":"I'm Cookie",
        "User-Agent":"I'm User-Agent"
    }
}

这样。

Pixiv

爬取 Pixiv 图片

  • 搜索关键字(建议加上 1000users入り 之类的tag)
  • 爬取某一个画师
  • 单张插画
  • 多张集合
  • 暂不支持动画

用法:

py ./main.py [-d]
    -d: 开启 debug

需要主意的是,需要在目录下建立config.json,形式如下

{
    "headers":{
        "Cookie":"Copy your cookie here",
        "Host":"www.pixiv.net",
        "User-Agent":"your UA"
    }
}

没有过多增加鲁棒性,所以有时候会有服务器断开连接的情况。重新跑一次(不会重复下载存在的文件)一般能解决问题。

Releases

No releases published

Packages

No packages published

Languages