Skip to content
百度mp3全站爬虫
Branch: master
Clone or download
Latest commit 345ea4d Apr 28, 2013
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
bdmms 完成 Apr 28, 2013
.gitignore 去除日志文件 Apr 28, 2013
302count.txt 去除日志文件 Apr 28, 2013
README.md 添加说明文件 Apr 28, 2013
clear_stats.py 完成 Apr 28, 2013
dog.py 完成 Apr 28, 2013
scrapy.cfg init commit Apr 25, 2013

README.md

百度音乐爬虫

通过:

$ python dog.py

启动爬虫,没有设置时间间隔,所以会被百度k掉[经测试即使设置时间间隔为10秒也会被百度k掉], 大概30分钟会被k一次,一次k大概20分钟,所以dog.py实现了在被k的时候[百度会302到输入验证码],会 自动停止抓取,10分钟后自动尝试启动爬虫,如果还是302那么再继续停止10分钟,一般过 一会解禁了就可以抓取了。

使用redis支持断点续传。

You can’t perform that action at this time.