项目介绍

运行环境： python3 + Mysql + django + scrapy + redis
项目文件： aynu: 存放scrapy爬虫文件.aynu/aynu/spiders/a51job.py为爬取51job的爬虫，xici为爬取西刺代理的爬虫 aynu_job: 存放django相关文件 sql：存放项目相关的mysql数据表
功能简介
1. 使用scrapy框架对51job就行全站爬取，并将爬取来的数据存入mysql数据库，
2. 爬取西刺代理只把有效的代理存入数据库中，运行aynu/utils目录下的filter_proxy_thread.py 对数据库中已有的代理进行有效性判断，删除其中无效的代理
3. 为了反反爬虫机制使用了fake_useragent随机UserAgent,并使用从西刺代理爬下来的代理

运行项目

git clone https://github.com/ngauerh/aynu.git

创建并激活虚拟环境

创建虚拟环境

virtualenv env

激活虚拟环境

# windows
env\Scripts\activate
# linux
source env/bin/activate

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
aynu		aynu
aynu_job		aynu_job
sql		sql
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt