Skip to content

R2h1/ProxyPool

Repository files navigation

ProxyPool

####代理池的模块及其作用

  1. 爬虫模块: 采集代理IP

  2. 校验模块:对爬虫采集的代理ip做存储前的校验入库操作

  3. 数据库模块:实现对代理IP的增删改查操作,使用MongoDB来存储代理IP

  4. 代理池检测模块: 定时的对代理池中代理进行检测, 保证代理池中代理的可用性.

  5. 代理IP服务接口: 提供高可用的代理IP给爬虫使用 代理池的其他模块

  6. 数据模型: dbmodle.py:用于封装代理IP相关信息, 比如ip,端口号, 响应速度, 协议类型, 匿名类型,分数等.

  7. 程序启动入口: main.py,统一的启动入口

  8. 日志模块: 用于记录日志信息

  9. http模块: 用于获取随机User-Agent的请求头

  10. 配置文件: settings.py

##所需要的库

  1. Flask:提供代理ip服务

  2. mongodb:存储

  3. gevent:协程池

  4. schedule:定时任务

About

构建代理ip池

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages