我们在上一节了解了利用代理可以解决目标网站封 IP 的问题。 在网上有大量公开的免费代理，或
者我们也可以购买付费的代理 IP ，但是代理不论是免费的还是忖费的，都不能保证都是可用的，因为
可能此 IP 被其他人使用来爬取同样的目标站点而被封禁，或者代理服务器突然发生故障或网络繁忙。
一旦我们选用了一个不可用的代理，这势必会影响爬虫的工作效率。

所以，我们需要提前做筛选，将不可用的代理剔除掉，保留可用代理。 接下来我们就搭建一个高
效易用的代理池。

# 1 . 准备工作
首先需要成功安装 Red is 数据库井启动服务，另外还需要安装 aiohttp 、 requests 、 redis-py 、 pyquery 、
Flask 库，可以参考第 l 章的安装说明 。

# 2 . 代理池的目标
我们需要做到下面的几个目标，来实现易用高效的代理池 。
基本模块分为 4 块：存储模块、获取模块、检测模块、接口模块。

**存储模块**： 负责存储抓取下来的代理。 首先要保证代理不重复 ， 要标识代理的可用情况，还
要动态实时处理每个代理，所以一种比较高效和方便的存储方式就是使用 Redis 的 Sorted
Set ，即有序集合 。

**获取模块**： 需要定时在各大代理网站抓取代理 。 代理可以是免费公开代理也可以是付费代
理，代理的形式都是 IP 加端口，此模块尽量从不同来源获取，尽量抓取高匿代理，抓取成功
之后将可用代理保存到数据库中 。

**检测模块**： 需要定时检测数据库中的代理。 这里需要设置一个检测链接，最好是爬取哪个网
站就检测哪个网站，这样更加有针对性，如果要做一个通用型的代理，那可以设置百度等链
接来检测 。 另外，我们需要标识每一个代理的状态，如设置分数标识， 100 分代表可用，分
数越少代表越不可用 。 检测一次，如果代理可用，我们可以将分数标识立即设置为 100 满
分，也可以在原基础上加 l 分；如果代理不可用，可以将分数标识减 l 分，当分数戚到一定阔
值后，代理就直接从数据库移除 。 通过这样的标识分数，我们就可以辨别代理的可用情况，
选用的时候会更有针对性 。

**接口模块**： 需要用 API 来提供对外服务的接口 。 其实我们可以直接连接数据库采取对应的数
据，但是这样就需要知道数据库的连接信息，并且要配置连接，而比较安全和方便的方式就
是提供一个 Web API 接口，我们通过访问接口即可拿到可用代理。 另外，由于可用代理可能
有多个，那么我们可以设置一个随机返回某个可用代理的接口，这样就能保证每个可用代理
都可以取到，实现负载均衡。

# 3. 代理池的架构
根据上文的描述，代理池的架构如图 9-1 所示 。

![image.png](attachment:image.png)

代理池分为 4 个模块 ： 存储模块、获取模块、检测模块、接口模块。

存储模块使用 Redis 的有序集合，用来做代理的去重和状态标识，同时它也是中心模块和基
础模块，将其他模块串联起来 。

获取模块定时从代理网站获取代理，将获取的代理传递给存储模块，并保存到数据库 。

检测模块定时通过存储模块获取所有代理，并对代理进行检测，根据不同的检测结果对代理
设置不同的标识。

接口模块通过 WebAPI提供服务接口，接口通过连接数据库并通过 Web形式返回可用的代理。

# 4 . 代理池的实现
接下来，我们用代码分别实现这 4 个模块 。

# 存储模块
这里我们使用 Redis 的有序集合，集合的每一个元素都是不重复的，对于代理池来说，集合的元
素就变成了一个个代理，也就是 IP 加端口的形式，如 60.207.237.111 :8888 ，这样的一个代理就是集合
的一个元素 。 另外，有序集合的每一个元素都有一个分数字段，分数是可以重复的，可以是浮点数类
型 ，也可以是整数类型 。 该集合会根据每一个元素的分数对集合进行排序，数值小的排在前面，数值
大的排在后面，这样就可以实现集合元素的排序了 。

对于代理池来说，这个分数可以作为判断一个代理是否可用的标志， 100 为最高分，代表最可用 ，
0 为最低分，代表最不可用 。 如果要获取可用代理，可以从代理池中随机获取分数最高的代理，注意
是随机，这样可以保证每个可用代理都会被调用到 。

分数是我们判断代理稳定性的重要标准，设置分数规则如下所示 。

- 分数 100 为可用，检测器会定时循环检测每个代理可用情况，一旦检测到有可用的代理就立即置
为 100，检测到不可用就将分数减 l ，分数减至 0后代理移除。

- 新获取的代理的分数为 10 ，如果测试可行，分数立即置为 100 ，不可行则分数减 1 ，分数减至
0后代理移除 。

这只是一种解决方案，当然可能还有更合理的方案 。 之所以设置此方案有如下几个原因 。

- 在检测到代理可用时 ，分数立 即置为 100 ，这样可以保证所有可用代理有更大的机会被获取 自．
到 。 你可能会问，为什么不将分数加 l 而是直接设为最高 100 呢？设想一下，有的代理是从各 ·田
大免费公开代理网站获取的，常常一个代理并没有那么稳定，平均 5 次请求可能有两次成
功， 3 次失败，如果按照这种方式来设置分数，那么这个代理几乎不可能达到一个高的分
数，也就是说即便它有时是可用的，但是筛选的分数最高，那这样的代理几乎不可能被取
到 。 如果想追求代理稳定性，可以用上述方法，这种方法可确保分数最高的代理一定是最稳
定可用的 。 所以，这里我们采取“可用即设置 10。”的方法，确保只要可用的代理都可以被获
取到 。

- 在检测到代理不可用时，分数减 1 ，分数减至 0后，代理移除 。 这样一个有效代理如果要被移
除需要失败 100 次，也就是说当一个可用代理如果尝试了 100 次都失败了，就一直减分直到移
除， 一旦成功就重新置回 100 。 尝试机会越多，则这个代理拯救回来的机会越多，这样就不
容易将曾经的一个可用代理丢弃，因为代理不可用的原因很可能是网络繁忙或者其他人用此
代理请求太过频繁，所以在这里将分数为 100 。

- 新获取的代理的分数设置为 10 ，代理如果不可用，分数就减 l ，分数减到 0 ，代理就移除，如
果代理可用，分数就置为 100 。 由于很多代理是从免费网站获取的，所以新获取的代理元效
的比例非常高，可能不足 10%。 所以在这里我们将分数设置为 10 ，检测的机会没有可用代理
的 100 次那么多，这也可以适当减少开销 。

上述代理分数的设置思路不一定是最优思路，但据个人实测，它的实用性还是比较强的 。
现在我们需要定义一个类来操作数据库的有序集合，定义一些方法来实现分数的设置 、 代理的获
取等 。 代码实现如下所示 ：

In [2]:
max_score = 100
min_score = 0
initial_score = 10
redis_host = 'localhost'
redis_port = 6379
redis_password = None
redis_key = 'proxies'

import redis
from random import choice

class RedisClient(object):
    def __init__(self,host=redis_host,port=redis_port,password=redis_password):
        """
        初始化
        ：param host: Redis 地址
        ：param port：Redis 端口
        ：param password：Redis 密码
        """
        self.db = redis.StrictRedis(host=host,port=port,password=password,decode_responses=True)
        
    def add(self,proxy,score=initial_score):
        """
        添加代理，设置分数为最高
        ：param proxy：代理
        ：param score：分数
        ：return：添加结果
        """
        if not self.db.zscore(redis_key,proxy):
            return self.db.zadd(redis_key,score,proxy)
        
    def random(self):
        """
        随机获取有效代理，首先尝试获取最高分数代理，如果最高分数不存在，则按照排名获取，否则异常
        ：return：随机代理
        """
        result = self.db.zrangebyscore(redis_key,max_score,max_score)
        if lent(result):
            return choice(result)
        else:
            result = self.db.zrevrange(redis_key,0,100)
            if len(result):
                return choice(result)
            else:
                raise PoolEmptyError
    
    def decrease(self,proxy):
        """
        代理值减一分，分数小于最小值，则代理删除
        ：param proxy：代理
        ：return：修改后的代理分数
        """
        score = self.db.zscore(redis_key,proxy)
        if score and score > min_score:
            print('代理',proxy,'当前分数',score,'减1')
            return self.db.zincrby(redis_key,proxy,-1)
        else:
            print('代理',proxy,'当前分数',score,'移除')
            return self.db.zrem(redis_key,proxy)
    
    def exists(self,proxy):
        """
        判断是否存在
        ：param proxy：代理
        ：return：是否存在
        """
        return not self.db.zscore(redis_key,proxy) == None
    
    def max(self,proxy):
        """
        将代理设置为max_score
        ：param proxy：代理
        ：return：设置结果
        """
        print('代理',proxy,'可用，设置为',max_score)
        return self.db.zadd(redis_key,max_score,proxy)
    
    def count(self):
        """
        获取数量
        ：return：数量
        """
        return self.db.zcard(redis_key)
    
    def all(self):
        """
        获取全部代理
        ：return：全部代理列表
        """
        return self.db.zrangebyscore(redis_key,min_score,max_score)

首先我们定义了一些常量 ，如 MAX SCORE 、 MIN SCORE 、 INITIAL SCORE 分别代表最大分数、最小分数 、 初始分数。 REDIS HOST 、 REDIS PORT 、 REDIS PASSWORD 分别代表了 Redis 的连接信息，即地址 、端口 、 密码 。 REDIS KEY 是有序集合的键名，我们可以通过它来获取代理存储所使用的有序集合 。

接下来定义了一个 RedisClient 类，这个类可以用来操作 Redis 的有序集合，其中定义了一些方
法来对集合中的元素进行处理，它的主要功能如下所示 。

- ＿init一（）方法是初始化的方法，其参数是 Redis 的连接信息， 默认的连接信息已经定义为常茧，在一in it一（）方法中初始化了一个 StrictRedis 的类，建立 Redis 连接。

- add （）方法向数据库添加代理并设置分数，默认的分数是 INITIAL SCORE ，也就是 10 ，返回结果是添加的结果。

- random（）方法是随机获取代理的方法，首先获取 1 （）（） 分的代理，然后随机选择一个返回 。 如果不存在 1（）（）分的代理，则此方法按照排名来获取，选取前 100 名，然后随机选择一个返回，否则抛出异常。

- decrease（）方法是在代理检测无效的时候设置分数减 l 的方法，代理传入后，此方法将代理的分数减 l ， 如果分数达到最低值，那么代理就删除。

- exists （）方法可判断代理是否存在集合中 。

- max （）方法将代理的分数设置为问AX_SCORE ，即 100 ，也就是当代理有效时的设置 。

- count （）方法返回当前集合的元素个数 。
- all （）方法返回所有的代理列表，以供检测使用 。