背景简介

一朋友需要下载网页中大量图片，但是一个个点击下载太麻烦，问如何自动将所有图片下载到本地。一开始想使用python爬虫框架scrapy来做这件事，但是会触发网站反爬机制，比较难解决。后来决定使用selenium自动化测试框架来做这件事情，通过自动化测试框架打开页面，就像人操作浏览器打开是一样的，不会轻易的触发反爬机制。于是我就开始做这个项目。

爬取网页图片包含以下几个方面

基于python3的selenium页面解析工具集
docker一键式部署解决依赖
django常驻进程脚本开发
rabbitmq异步任务消费

快速使用

本地安装
- git
- docker
- docker-compose

克隆项目

$ git clone git@github.com:baifei2014/crawl.git

拷贝并命名配置文件

$ cd crawl
$ cp env.sample .env
$ docker-compose up

这时，如果生产者已经准备好，发送消息时，就能执行自动下载图片任务了

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
imagecrawl		imagecrawl
rouse		rouse
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
db.sqlite3		db.sqlite3
docker-compose.yml		docker-compose.yml
env.sample		env.sample
manage.py		manage.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

背景简介

快速使用

License

About

Releases

Packages

Languages

baifei2014/crawl

Folders and files

Latest commit

History

Repository files navigation

背景简介

快速使用

License

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages