长期维护,欢迎issue,帮助完善代码
现有新旧两个版本,新版本要求高但是免费,旧版本要求不高,但是要使用付费代理(约1 rmb
/小时)
- 可爬取热帖和全部,在
main_class.get_data()
中设置url
- 使用免费代理,亲测可以完成爬取任务
- 仅爬取帖子
title
时,速度极快 -
redis
异步多线程获取完整贴子内容
前置条件是安转并启动了redis
,mongo
,并将redis
密码设置为123456,后续会添加这部分的操作说明
-
安转代理池模块,再次感谢作者
git submodule update --init
-
建议使用虚拟环境,并安装依赖
pip install -r requirements.txt
-
启动代理池
新开两个终端,第一个运行
cd .\proxy_pool\ python proxyPool.py schedule
第二个运行
cd .\proxy_pool\ python proxyPool.py server
-
启动
FullTextCrawler
新开终端,运行
python -m full_text_Crawler
-
启动主程序
在
main_class.py
中设置好参数,新开终端,运行python -m main_class
爬取成功的数据会在,MongoDB.guba
中,如有问题,请 issue