GitHub

MM131妹子图片批量下载爬虫py脚本

爬取网站:MM131

爬了2000套妹子图集　将近10万张，共8.5个G （图为我的腾讯云cos存储

最开始爬取的时候是对页面解析得到链接再进行请求，后来发现了站点的url规律： id/num

然后发现对req header伪装一下UA和Referer 就可以直接就可以对图片进行请求, 再配合上多进程,协程和线程池进行并发爬取,效率大幅提升!

1.安装依赖(Python3):

pip install -r requirements.txt

~~运行脚本,爬虫有两个版本~~
windows建议运行多线程版本: thread_mm131.py
~~linux/os x 运行多进程+协程版本: aio_mm131.py 或前者皆可~~

直接 python main.py 将自动选择合适版本运行

来不及解释了，快上车！!

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
images		images
README.md		README.md
aio_mm131.py		aio_mm131.py
main.py		main.py
requirements.txt		requirements.txt
set_mm131_header.py		set_mm131_header.py
thread_mm131.py		thread_mm131.py