## Downloader Middlewares（下载器中间件）
   
- 下载器中间件引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、跟换请求头等来达到反反爬虫的目的。要写下载器中间件，可以在下载器中实现两个方法：
    - process_request(self,request,spider)：这个方法是在请求发送前会执行；
    - process_response(self,request,response,spider)：这个方法是数据下载到引擎之前执行。

### process_request(self,request,spider)
这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。
  1. 参数：
    - request：发送请求的request对象。
    - spider：发送请求的spider对象。
  2. 返回值：
    - 返回None：如果返回None，Scrapy将继续处理该request，执行其他中间件中的相应方法，直到合适的下载器处理函数被调用。
    - 返回Response对象：Scrapy将不会调用任何其他的process_request方法，将直接返回这个response对象。已经激活的中间件process_response()方法则会在每个response返回时调用。
    - 返回Request对象：不再使用之前的request对象去下载数据，而是根据现在返回的request对象返回数据。
    - 如果这个方法中抛出了异常，则会调用process_exception方法。

### process_response(self,request,response,spider)
这个是下载器下载的数据到引擎中间会执行的方法。
  1. 参数：
      - request：request对象。
      - response：被处理的response对象。
      - spider：spider对象。
  2. 返回值：
      - 返回Response对象：会将这个新的response对象传给其他中间件，最终传给爬虫。
      - 返回Request对象：下载器连接切断，返回的request会重新被下载器调度下载。
      - 如果抛出一个异常，那么调用request的errback方法，如果没有指定这个方法，那么会抛出一个异常。

- 中间件(DownloaderMiddlewares)
    - 中间件是处于引擎和下载器中间的一层组件
    - 可以有很多个，被按顺序加载执行
    - 作用是对发出的请求和返回的结果进行预处理
    - 在middlewares文件中
    - 需要在settings中设置以便生效
    - 一般一个中间件完成一项功能
    - 必须实现以下一个或者多个方法
        - process_request(self, request, spider)
            - 在request通过的时候被调用
            - 必须返回None或Response或Request或raise IgnoreRequest
            - None: scrapy将继续处理该request
            - Request： scrapy会停止调用process_request并冲洗调度返回的reqeust
            - Response： scrapy不会调用其他的process_request或者process_exception，直接讲该response作为结果返回 同时会调用process_response函数
        - process_response(self, request, response, spider)
            - 跟process_request大同小异
            - 每次返回结果的时候会自动调用
            - 可以有多个，按顺序调用

## 随机请求头中间件：
爬虫在频繁访问一个页面的时候，这个请求头如果一直保持一致，那么容易被服务器发现，从而禁止掉这个请求头的访问。因此我们要在访问这个页面之前随机的更改请求头，这样才可以避免爬虫被抓。   
随机更改请求头，可以在下载器中间件中实现。在请求发送给服务器之前，随机的选择一个请求头。这样可以避免总使用一个请求了。   
   
示例代码如下：

In [None]:
class UserAgenDownloadMiddleware(object):
    USER_AGENTS = {
        'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36',
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',
        'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10'
    }
    def process_request(self,request,spider):
        user_agent = random.choice(self.USER_AGENTS)    # 从USER_AGENTS列表中随机选择一个User-Agent
        request.headers['User-Agent'] = user_agent

## ip代理池中间件
   
### 购买代理：
在以下代理商购买代理：
1. 芝麻代理：http://www.zhimaruanjian.com/
2. 太阳代理：http://www.taiyangruanjian.com/
3. 快代理：https://www.kuaidaili.com/
4. 讯代理：http://www.xdaili.cn/
5. 蚂蚁代理：http://www.mayidaili.com/
等等

### 使用ip代理池：
示例代码如下：

In [None]:
# ip代理池中间件
################# 开放代理写法 #################
class IPProxyDownloadMiddleware(object):
    PROXIES = ["163.125.115.189:8118", "118.122.114.236:9000", "117.90.252.146:9000", "123.101.207.205:9999", "211.159.171.58:80", "49.86.180.212:9999"]

    def process_request(self, request, spider):
        proxy = random.choice(self.PROXIES)
        print("被选中的代理：%s" % proxy)
#         request.meta['proxy'] = proxy
        request.meta['proxy'] = "http://" + proxy

################# 带用户名和密码的私享代理用法（需要设置请求头） #################
class IPProxyDownloadMiddleware(object):
    def process_request(self, request, spider):
        proxy = "121.199.6.124:16816"
        user_password = "970138074:rcdj35ur"
        request.meta['proxy'] = proxy
        # bytes
        b64_user_password = base64.b64encode(user_password.encode('utf-8'))
        request.headers['Proxy-Authorization'] = 'Basic ' + b64_user_password.decode('utf-8')