自动爬取知乎用户的Scrapy爬虫:
- 采用scrapy-redis分布式爬虫框架
- 采用代理池避免IP被封禁而导致爬取失败的问题
代理池实现采用「ProxyPool」配置修改方式请自行参考
- Python 3.6+
- Redis
- Mongodb
- pymongo
- Scrapy
- scrapy_redis
- requests
- environs
- Flask
- attrs
- retrying
- aiohttp
- loguru
- pyquery
- supervisor
- redis
修改scrapy.cfg
url = http://URL:PORT/ # 服务器URL:Scrapyd端口
修改settings.py
REDIS_URL = "redis://URL:PORT" # 服务器URL:Redis端口
settings.py
START_USER = XXX # 知乎url-token
cd ProxyPool
python run.py
cd zhihuuser
scrapy crawl zhihu
结果默认保存在本地Mongodb数据库下
- 此项目仅限用学习研究,不得用于任何非法商业活动