####代理池的模块及其作用
-
爬虫模块: 采集代理IP
-
校验模块:对爬虫采集的代理ip做存储前的校验入库操作
-
数据库模块:实现对代理IP的增删改查操作,使用MongoDB来存储代理IP
-
代理池检测模块: 定时的对代理池中代理进行检测, 保证代理池中代理的可用性.
-
代理IP服务接口: 提供高可用的代理IP给爬虫使用 代理池的其他模块
-
数据模型: dbmodle.py:用于封装代理IP相关信息, 比如ip,端口号, 响应速度, 协议类型, 匿名类型,分数等.
-
程序启动入口: main.py,统一的启动入口
-
日志模块: 用于记录日志信息
-
http模块: 用于获取随机User-Agent的请求头
-
配置文件: settings.py
##所需要的库
-
Flask:提供代理ip服务
-
mongodb:存储
-
gevent:协程池
-
schedule:定时任务