---

title: Python3 网络爬虫开发实战
date:  2018.7.19
categories:  Books
tags:  Books
keywords:  Books

---
[ Python3 网络爬虫开发实战](https://germey.gitbooks.io/python3webspider/content/)


# 基本库的使用

学习爬虫，最初的操作便是来模拟浏览器向服务器发出一个请求，那么我们需要从哪个地方做起呢？请求需要我们自己来构造吗？我们需要关心请求这个数据结构的实现吗？我们需要了解 HTTP、TCP、IP 层的网络传输通信吗？我们需要知道服务器的响应和应答原理吗？

可能你不知道无从下手，不用担心，Python 的强大之处就是提供了功能齐全的类库来帮助我们完成这些请求，**最基础的 HTTP 库有 Urllib、Httplib2、Requests、Treq 等。**

拿 Urllib 这个库来说，有了它，我们只需要关心请求的链接是什么，需要传的参数是什么以及可选的请求头设置就好了，不用深入到底层去了解它到底是怎样来传输和通信的。有了它，两行代码就可以完成一个请求和响应的处理过程，得到网页内容，是不是感觉方便极了？
接下来，就让我们从最基础的部分开始了解这些库的使用方法吧。


## 使用Urllib

在 Python2 版本中，有 Urllib 和 Urlib2 两个库可以用来实现Request的发送。而在 Python3 中，已经不存在 Urllib2 这个库了，统一为 Urllib，[官方文档链接](https://docs.python.org/3/library/urllib.html)

我们首先了解一下 Urllib 库，**它是 Python 内置的 HTTP 请求库**，也就是说我们不需要额外安装即可使用，它包含四个模块：

- 第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。
- 第二个 error 模块即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。
- 第三个 parse 模块是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等等的方法。
- 第四个模块是 robotparser，主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少。

在这里重点对前三个模块进行下讲解。

### 发送请求

#### urlopen()

urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理authenticaton（授权验证），redirections（重定向)，cookies（浏览器Cookies）以及其它内容。

我们来感受一下它的强大之处，以 Python 官网为例，我们来把这个网页抓下来：

In [2]:
import urllib.request

response = urllib.request.urlopen('https://www.python.org')
print(type(response))
print(response.read().decode('utf-8'))

<class 'http.client.HTTPResponse'>
<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">

    <meta name="application-name" content="Python.org">
    <meta name="msapplication-tooltip" content="The official home of the Python Programming Language">
    <meta name="apple-mobile-web-app-title" content="Python.org">
    <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    

Response 的类型 `<class 'http.client.HTTPResponse'>` 

一个 HTTPResposne 类型的对象，它主要包含
- read()、readinto()、getheader(name)、getheaders()、fileno() 等方法
- msg、version、status、reason、debuglevel、closed 等属性


例如调用 read() 方法可以得到返回的网页内容，调用 status 属性就可以得到返回结果的状态码，如 200 代表请求成功，404 代表网页未找到等。

三个输出分别输出了响应的状态码，响应的头信息，以及通过调用 getheader() 方法并传递一个参数 Server 获取了 headers 中的 Server 值，结果是 nginx，意思就是服务器是 nginx 搭建的。

In [18]:
import urllib.request

response = urllib.request.urlopen('https://www.python.org')
#response = urllib.request.urlopen('https://jamie33.github.io/')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

200
[('Server', 'nginx'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'DENY'), ('Via', '1.1 vegur'), ('Content-Length', '49298'), ('Accept-Ranges', 'bytes'), ('Date', 'Thu, 28 Feb 2019 03:37:54 GMT'), ('Via', '1.1 varnish'), ('Age', '1782'), ('Connection', 'close'), ('X-Served-By', 'cache-hnd18738-HND'), ('X-Cache', 'HIT'), ('X-Cache-Hits', '5952'), ('X-Timer', 'S1551325074.445545,VS0,VE0'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains')]
nginx


利用以上最基本的 urlopen() 方法，我们可以完成最基本的简单网页的 GET 请求抓取。

如果我们想给链接传递一些参数该怎么实现呢？我们首先看一下 urlopen() 函数的API：

`urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)` 

可以发现除了第一个参数可以传递 URL 之外，我们还可以传递其它的内容，比如 data（附加数据）、timeout（超时时间）等等。

下面我们详细说明下这几个参数的用法。

##### data 参数

data 参数是可选的，如果要添加 data，它要是**字节流编码格式的内容，即 bytes 类型**，通过 bytes() 方法可以进行转化，另外如果传递了这个 data 参数，它的请求方式就不再是 GET 方式请求，而是 POST。

请求方式，请求方式常见的有两种类型，GET 和 POST。

- GET

我们在浏览器中直接输入一个 URL 并回车，这便发起了一个 GET 请求，请求的参数会直接包含到 URL 里，例如百度搜索 Python，这就是一个 GET 请求，链接为：https://www.baidu.com/s?wd=Python，URL 中包含了请求的参数信息，这里参数 wd 就是要搜寻的关键字。

- POST

POST 请求大多为表单提交发起，如一个登录表单，输入用户名密码，点击登录按钮，这通常会发起一个 POST 请求，其数据通常以 Form Data 即表单的形式传输，不会体现在 URL 中。

GET 和 POST 请求方法有如下区别：

- GET 方式请求中参数是包含在 URL 里面的，数据可以在 URL 中看到，而 POST 请求的 URL 不会包含这些数据，数据都是通过表单的形式传输，会包含在 Request Body 中。
- GET 方式请求提交的数据最多只有 1024 字节，而 POST 方式没有限制。

In [8]:
import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({'word':'hello'}), encoding='utf-8')
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

b'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "word": "hello"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Content-Length": "10", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.6"\n  }, \n  "json": null, \n  "origin": "183.14.135.77, 183.14.135.77", \n  "url": "https://httpbin.org/post"\n}\n'


在这里我们传递了一个参数 word，值是 hello。它需要被转码成bytes（字节流）类型。其中转字节流采用了 bytes() 方法，第一个参数需要是 str（字符串）类型，需要用 urllib.parse 模块里的 urlencode() 方法来将参数字典转化为字符串。第二个参数指定编码格式，在这里指定为 utf8。

- bytes() 方法:转码成bytes（字节流）类型
- urllib.parse.urlencode() 方法: 将参数字典转化为字符串, 第二个参数指定编码格式

在这里请求的站点是 httpbin.org，它可以提供 HTTP 请求测试，本次我们请求的 URL 为：http://httpbin.org/post 这个链接可以用来测试 POST 请求，它可以输出 Request 的一些信息，其中就包含我们传递的 data 参数。

我们传递的参数出现在了 form 字段中，这表明是模拟了表单提交的方式，以 POST 方式传输数据。

##### timeout 参数

timeout 参数可以设置超时时间，单位为秒，意思就是如果请求超出了设置的这个时间还没有得到响应，就会抛出异常，如果不指定，就会使用全局默认时间。它支持 HTTP、HTTPS、FTP 请求。

In [11]:
import urllib.request

response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
print(response.read())

URLError: <urlopen error timed out>

在这里我们设置了超时时间是 0.1 秒，程序 0.1 秒过后服务器依然没有响应，于是抛出了 `URLError: <urlopen error timed out>` 异常，它属于 urllib.error 模块，错误原因是超时。

因此我们可以通过设置这个超时时间来控制一个网页如果长时间未响应就跳过它的抓取，利用 try except 语句就可以实现这样的操作，代码如下：

In [14]:
import urllib.request
import urllib.error
import socket

try:
    response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')

TIME OUT


在这里我们请求了 http://httpbin.org/get 这个测试链接，设置了超时时间是 0.1 秒，然后捕获了 URLError 这个异常，然后判断异常原因是 socket.timeout 类型，意思就是超时异常，就得出它确实是因为超时而报错，打印输出了 TIME OUT。常理来说，0.1 秒内基本不可能得到服务器响应，因此输出了 TIME OUT 的提示。这样，我们可以通过设置 timeout 这个参数来实现超时处理，有时还是很有用的。

##### 其他参数

context 参数，它必须是 ssl.SSLContext 类型，用来指定 SSL 设置。

cafile 和 capath 两个参数是指定 CA 证书和它的路径，这个在请求 HTTPS 链接时会有用。

cadefault 参数现在已经弃用了，默认为 False。

以上讲解了 urlopen() 方法的用法，通过这个最基本的函数可以完成简单的请求和网页抓取，如需更加详细了解，可以参见[官方文档](https://docs.python.org/3/library/urllib.request.html)

#### Request

由上我们知道利用 urlopen() 方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求，如果请求中需要加入 Headers 等信息，我们就可以利用更强大的 Request 类来构建一个请求。

In [16]:
import urllib.request

request = urllib.request.Request('https://python.org')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">

    <meta name="application-name" content="Python.org">
    <meta name="msapplication-tooltip" content="The official home of the Python Programming Language">
    <meta name="apple-mobile-web-app-title" content="Python.org">
    <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta name="HandheldFriendly" conte

可以发现，我们依然是用 urlopen() 方法来发送这个请求，只不过这次 urlopen() 方法的参数不再是一个 URL，而是一个 Request 类型的对象，通过构造这个这个数据结构，一方面我们可以将请求独立成一个对象，另一方面可配置参数更加丰富和灵活。

Request 都可以通过怎样的参数来构造，它的构造方法如下：

`class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)`

- 第一个 url 参数是请求 URL，这个是必传参数，其他的都是可选参数。
- 第二个 data 参数如果要传必须传 bytes（字节流）类型的，如果是一个字典，可以先用 urllib.parse 模块里的 urlencode() 编码。
- 第三个 headers 参数是一个字典，这个就是 Request Headers 了，你可以在构造 Request 时通过 headers 参数直接构造，也可以通过调用 Request 实例的 add_header() 方法来添加。

添加 Request Headers 最常用的用法就是通过修改 User-Agent 来伪装浏览器，**默认的 User-Agent 是 Python-urllib**，我们可以通过修改它来伪装浏览器，比如要伪装火狐浏览器，你可以把它设置为：

`Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11`

- 第四个 origin_req_host 参数指的是请求方的 host 名称或者 IP 地址。
- 第五个 unverifiable 参数指的是这个请求是否是无法验证的，默认是False。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个 HTML 文档中的图片，但是我们没有自动抓取图像的权限，这时 unverifiable 的值就是 True。
- 第六个 method 参数是一个字符串，它用来指示请求使用的方法，比如GET，POST，PUT等等。

In [29]:
from urllib import request,parse

response = urllib.request.urlopen('http://httpbin.org/get')
print(response.read())

print('------------Default "User-Agent": "Python-urllib/3.6"-------------')

url = 'http://httpbin.org/post'
headers = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
    'Host':'httpbin.org'
}
dict = {
    'name':'Jamie'
}
data = bytes(parse.urlencode(dict),encoding='utf-8')
req = request.Request(url=url,data=data,headers=headers,method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

b'{\n  "args": {}, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.6"\n  }, \n  "origin": "183.14.135.77, 183.14.135.77", \n  "url": "https://httpbin.org/get"\n}\n'
------------Default "User-Agent": "Python-urllib/3.6"-------------
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "Jamie"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "10", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"
  }, 
  "json": null, 
  "origin": "183.14.135.77, 183.14.135.77", 
  "url": "https://httpbin.org/post"
}



headers 也可以用 add_header() 方法来添加

##### 模拟iPhone 6去请求豆瓣首页

这样豆瓣会返回适合iPhone的移动版网页

In [31]:
from urllib import request,parse

url = 'http://www.douban.com/'
req = request.Request(url=url)
req.add_header('User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25')
response = request.urlopen(req)
print(response.read().decode('utf-8'))




<!DOCTYPE html>
<html itemscope itemtype="http://schema.org/WebPage" class="ua-safari ua-mobile ">
    <head>
        <meta charset="UTF-8">
        <title>豆瓣(手机版)</title>
        <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />
        <meta name="viewport" content="width=device-width, height=device-height, user-scalable=no, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0">
        <meta name="format-detection" content="telephone=no">
        <link rel="canonical" href="
http://m.douban.com/">
        <link href="https://img3.doubanio.com/f/talion/2c9146da13cbc37b03c4468afecdfaf935c9cf32/css/card/base.css" rel="stylesheet">
        
    <meta name="description" content="读书、看电影、涨知识、学穿搭...，加入兴趣小组，获得达人们的高质量生活经验，找到有相同爱好的小伙伴。">
    <meta name="keywords" content="豆瓣,手机豆瓣,豆瓣手机版,豆瓣电影,豆瓣读书,豆瓣同城">
    
    

    <!-- Schema.org markup for Google+ -->
    <meta itemprop="name" content="豆瓣">
    <meta itemprop="description" content="读书、看电影、

### 高级用法

有没有发现，在上面的过程中，我们虽然可以构造 Request，但是一些更高级的操作，比如 Cookies 处理，代理设置等操作我们该怎么办？接下来就需要更强大的工具 Handler 登场了。

简而言之我们可以把它理解为各种处理器，有专门处理登录验证的，有处理 Cookies 的，有处理代理设置的，利用它们我们几乎可以做到任何 HTTP 请求中所有的事情。

首先介绍下 urllib.request 模块里的 BaseHandler类，它是所有其他 Handler 的父类，它提供了最基本的 Handler 的方法，例如 default_open()、protocol_request() 方法等。

接下来就有各种 Handler 子类继承这个 BaseHandler 类，举例几个如下：

- HTTPDefaultErrorHandler 用于处理 HTTP 响应错误，错误都会抛出 HTTPError 类型的异常。
- HTTPRedirectHandler 用于处理重定向。
- HTTPCookieProcessor 用于处理 Cookies。
- ProxyHandler 用于设置代理，默认代理为空。
- HTTPPasswordMgr 用于管理密码，它维护了用户名密码的表。
- HTTPBasicAuthHandler 用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题。

另外还有其他的 Handler 类，在这不一一列举了，详情可以参考[官方文档](https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler)

它们怎么来使用，不用着急，下面会有实例为你演示。

另外一个比较重要的类就是 OpenerDirector，我们可以称之为 Opener，我们之前用过 urlopen() 这个方法，实际上它就是 Urllib为我们提供的一个 Opener。
那么为什么要引入 Opener 呢？因为我们需要实现更高级的功能，之前我们使用的 Request、urlopen() 相当于类库为你封装好了极其常用的请求方法，利用它们两个我们就可以完成基本的请求，但是现在不一样了，我们需要实现更高级的功能，所以我们需要深入一层进行配置，使用更底层的实例来完成我们的操作。
所以，在这里我们就用到了比调用 urlopen() 的对象的更普遍的对象，也就是 Opener。

Opener 可以使用 open() 方法，返回的类型和 urlopen() 如出一辙。那么它和 Handler 有什么关系？简而言之，就是利用 Handler 来构建 Opener。

下面我们用几个实例来感受一下他们的用法：

**认证**

有些网站在打开时它就弹出了一个框，直接提示你输入用户名和密码，认证成功之后才能查看页面，如图 3-2 所示：

![needauth](https://germey.gitbooks.io/python3webspider/content/assets/3-2.jpg)

那么我们如果要请求这样的页面怎么办呢？ 借助于 HTTPBasicAuthHandler 就可以完成，代码如下：

In [None]:
from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
from urllib.error import URLError

username = 'username'
password = 'password'
url = 'http://localhost:5000/'

p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None, url, username, password)
auth_handler = HTTPBasicAuthHandler(p)
opener = build_opener(auth_handler)

try:
    result = opener.open(url)
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

在这里，首先实例化了一个 HTTPBasicAuthHandler 对象，参数是 HTTPPasswordMgrWithDefaultRealm 对象，它利用 add_password() 添加进去用户名和密码，这样我们就建立了一个处理认证的 Handler。

接下来利用 build_opener() 方法来利用这个 Handler 构建一个 Opener，那么这个 Opener 在发送请求的时候就相当于已经认证成功了。

接下来利用 Opener 的 open() 方法打开链接，就可以完成认证了，在这里获取到的结果就是认证后的页面源码内容。

**代理**

添加代理

### 分析Robots协议

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析

#### Robots协议

Robots 协议也被称作爬虫协议、机器人协议，它的全名叫做网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。它通常是一个叫做 robots.txt 的文本文件，放在网站的根目录下。

当搜索爬虫访问一个站点时，它首先会检查下这个站点根目录下是否存在 robots.txt 文件，如果存在，搜索爬虫会根据其中定义的爬取范围来爬取。如果没有找到这个文件，那么搜索爬虫便会访问所有可直接访问的页面。

下面我们看一个 robots.txt 的样例：

```
User-agent: *
Disallow: /
Allow: /public/
```

以上的两行实现了对所有搜索爬虫只允许爬取 public目录的作用。

如上简单的两行，保存成 robots.txt 文件，放在网站的根目录下，和网站的入口文件放在一起。比如 index.php、index.html、index.jsp 等等。

那么上面的 User-agent 就描述了搜索爬虫的名称，在这里将值设置为 *，则代表该协议对任何的爬取爬虫有效。比如我们可以设置：

`User-agent: Baiduspider`

这就代表我们设置的规则对百度爬虫是有效的。如果有多条 User-agent 记录，则就会有多个爬虫会受到爬取限制，但至少需要指定一条。
Disallow 指定了不允许抓取的目录，比如上述例子中设置为/则代表不允许抓取所有页面。

Allow 一般和 Disallow 一起使用，一般不会单独使用，用来排除某些限制，现在我们设置为 /public/ ，起到的作用是所有页面不允许抓取，但是 public 目录是可以抓取的。

**禁止所有爬虫访问任何目录**
```
User-agent: * 
Disallow: /
```

**允许所有爬虫访问任何目录**
```
User-agent: *
Disallow:
```
或者直接把 robots.txt 文件留空也是可以的。

**禁止所有爬虫访问网站某些目录**
```
User-agent: *
Disallow: /private/
Disallow: /tmp/
```
**只允许某一个爬虫访问**
```
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
```
以上是 robots.txt 的一些常见写法。

#### 爬虫名称

大家可能会疑惑，爬虫名是哪儿来的？为什么就叫这个名？其实它是有固定名字的了，比如百度的就叫做 BaiduSpider，下面的表格列出了一些常见的搜索爬虫的名称及对应的网站：

|爬虫名称|名称|网站|
|-|-|-|
|BaiduSpider|百度| www.baidu.com |
|Googlebot|谷歌	|	www.google.com |
|360Spider|360搜索	| www.so.com |
|YodaoBot|有道	| www.youdao.com |
|ia_archiver|Alexa| www.alexa.cn |
|Scooter|altavista| www.altavista.com |

#### robotparser

了解了什么是 Robots 协议之后，我们就可以使用 robotparser 模块来解析 robots.txt 了。

robotparser 模块提供了一个类，叫做 RobotFileParser。它可以根据某网站的 robots.txt 文件来判断一个爬取爬虫是否有权限来爬取这个网页。
使用非常简单，首先看一下它的声明

`urllib.robotparser.RobotFileParser(url='')`

使用这个类的时候非常简单，只需要在构造方法里传入 robots.txt的链接即可。当然也可以声明时不传入，默认为空，再使用 set_url() 方法设置一下也可以。

有常用的几个方法分别介绍一下：

- set_url()，用来设置 robots.txt 文件的链接。如果已经在创建 RobotFileParser 对象时传入了链接，那就不需要再使用这个方法设置了。
- read()，读取 robots.txt 文件并进行分析，注意这个函数是执行一个读取和分析操作，如果不调用这个方法，接下来的判断都会为 False，所以一定记得调用这个方法，这个方法不会返回任何内容，但是执行了读取操作。
- parse()，用来解析 robots.txt 文件，传入的参数是 robots.txt 某些行的内容，它会按照 robots.txt 的语法规则来分析这些内容。
- can_fetch()，方法传入两个参数，第一个是 User-agent，第二个是要抓取的 URL，返回的内容是该搜索引擎是否可以抓取这个 URL，返回结果是 True 或 False。
- mtime()，返回的是上次抓取和分析 robots.txt 的时间，这个对于长时间分析和抓取的搜索爬虫是很有必要的，你可能需要定期检查来抓取最新的 robots.txt。
- modified()，同样的对于长时间分析和抓取的搜索爬虫很有帮助，将当前时间设置为上次抓取和分析 robots.txt 的时间。

In [53]:
from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('https://www.jianshu.com/robots.txt')
rp.read()
user_agent = 'Googlebot'
print(rp.can_fetch(user_agent,'https://www.jianshu.com/p/b67554025d7d'))
print(rp.can_fetch(user_agent,'https://www.jianshu.com/search?q=python&page=1&type=collections'))

False
False


以简书为例，我们首先创建 RobotFileParser 对象，然后通过 set_url() 方法来设置了 robots.txt 的链接。当然不用这个方法的话，可以在声明时直接用如下方法设置：

`rp = RobotFileParser('https://www.jianshu.com/robots.txt')` 

下一步利用了 can_fetch() 方法来判断了网页是否可以被抓取。

同样也可以使用 parser() 方法执行读取和分析。
用一个实例感受一下：

在使用urlopen的时候经常出现HTTP Error 403: Forbidden的问题.这个问题是因为服务器在收到这个请求的时候并不知道发送请求的浏览器,系统的硬件信息.为了解决这个方案,只需要我们手动添加即可

In [54]:
from urllib.robotparser import RobotFileParser
from urllib.request import urlopen

#headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
headers = {'User-Agent':'Googlebot'}
req = urllib.request.Request(url='http://www.jianshu.com/robots.txt', headers=headers)
rp = RobotFileParser()
rp.parse(urlopen(req).read().decode('utf-8').split('\n'))
print(rp.can_fetch('*', 'https://www.jianshu.com/p/b67554025d7d'))
print(rp.can_fetch('*', "https://www.jianshu.com/search?q=python&page=1&type=collections"))

True
False


# 使用 requests

## 实例引入 百度

In [2]:
import requests

url = 'https://baidu.com'
r = requests.get(url)
print(r)
print(type(r))
print(r.status_code)
print(type(r.text))
print(r.text)
print(r.cookies)

<Response [200]>
<class 'requests.models.Response'>
200
<class 'str'>
<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255

## Get 请求 附加额外参数 json()方法

In [19]:
import requests

url  = 'https://httpbin.org/get'
data = {
    'name':'Jamie',
    'age':18
}
r = requests.get(url,params=data)
print(r.text)
print(r)
print(r.json()) #json()方法将返回结果是json格式的字符串转化为字典
print(type(r.json()))

{"args":{"age":"18","name":"Jamie"},"headers":{"Accept":"*/*","Accept-Encoding":"gzip, deflate","Connection":"close","Host":"httpbin.org","User-Agent":"python-requests/2.18.4"},"origin":"103.88.46.40","url":"https://httpbin.org/get?name=Jamie&age=18"}

<Response [200]>
{'args': {'age': '18', 'name': 'Jamie'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Connection': 'close', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.18.4'}, 'origin': '103.88.46.40', 'url': 'https://httpbin.org/get?name=Jamie&age=18'}
<class 'dict'>


## 抓取网页 知乎

In [15]:
import requests
import re

url = 'https://www.zhihu.com/explore'
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
r = requests.get(url,headers=headers)
pattern = re.compile(r'explore-feed.*?question_link.*?>(.*?)</a>',re.S) #re.S(DOTALL): 点任意匹配模式，改变’.’的行为,即可以匹配换行 
titles = re.findall(pattern,r.text)
print(titles)

['\n对《极限挑战》第五季有哪些期待？\n', '\n《哆啦A梦》中哪些人物出场时间短暂却让你印象深刻？\n', '\n如何看待李袁杰在参加《明日之子》淘汰后在自己抖音发布翻唱华晨宇的《烟火里的尘埃》和吴青峰的《小情歌》？\n', '\n你在从警期间遇到了哪些灵异事件？\n', '\n郑号锡是一个什么样的人？\n', '\n有哪些「将语文能力发挥得淋漓尽致」的例子？\n', '\n如何看待FGO的日本英灵越出越多这一现象？\n', '\n易烊千玺在《这就是街舞》有圈粉吗?有没有此入坑的新粉?\n', '\n华晨宇对粉丝很好吗？\n', '\n可不可以写一篇夸red velvet五人全员的文？\n']


## 抓取二进制数据 github

图片，音频，视频这些文件本质上都是由二进制码组成，由于有特定的保存格式和对应的解析方式，我们才可以看到这些形形色色的多媒体。所以要抓取他们，就要拿到他们的二进制码

In [17]:
import requests

url = 'https://github.com/favicon.ico'
r = requests.get(url)
print(r.text)
print(r.content) #结果前带了一个b,代表这是btyes类型的数据

with open('favicon.ico','wb') as f:
    f.write(r.content)

         (  &          (  N  (                                                    v�        �i                            ���              ���                    ��               ����            ��,\�"        4�����    0�   ����8        @�����-����;                        :�������O                                L������                                      ������                                        ������!                                ������4                                @���8���          
                  ���8    ���6   �����   t7���           ������������                  ���

前者出现了乱码，后者结果前带了一个b,代表这是btyes类型的数据。由于图片是二进制数据，所以前者在打印时转化为str类型，也就是图片直接转化字符串，当然会乱码。

### .content 和 .text 的用法区别

requests对象的get和post方法都会返回一个Response对象，这个对象里面存的是服务器返回的所有信息，包括响应头，响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。

.content中间存的是字节码 .text存的是.content编码后的字符串

一般来说 .text直接用比较方便 返回的是字符串 但是有时候会解析不正常导致

返回的是一堆乱码这时用.content.decode('utf-8')就可以使其显示正常。

总的来说.text是现成的字符串，.content还要编码，但是.text不是所有时候显示都正常，这是就需要用.content进行手动编码。

也就是说你如果想要提取文本就用text

但是如果你想要提取图片、文件，就要用到content

## Post 请求

In [24]:
import requests

url = 'http://httpbin.org/post'
data = {'name':'Jamie','age':'18'}
r = requests.post(url, data=data)
print(r.text)

{"args":{},"data":"","files":{},"form":{"age":"18","name":"Jamie"},"headers":{"Accept":"*/*","Accept-Encoding":"gzip, deflate","Connection":"close","Content-Length":"17","Content-Type":"application/x-www-form-urlencoded","Host":"httpbin.org","User-Agent":"python-requests/2.18.4"},"json":null,"origin":"103.88.46.40","url":"http://httpbin.org/post"}



结果中 form 部分就是提交的数据

## 文件上传

import requests

url = 'http://httpbin.org/post'
files = {'file':open('favicon.ico','rb')}
r = requests.post(url,files=files)
print(r.text)

结果中包含files这个字段，而form字段是空的，这证明文件上传部分会单独有一个files字段标识

## Cookies

In [3]:
import requests

r = requests.get('https://baidu.com')
print(r.cookies)
print(r.cookies.items())
for key,value in r.cookies.items():
    print(key,'--------',value)

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
[('BDORZ', '27315')]
BDORZ -------- 27315


首先调用cookies属性即可成功得Cookies,发现它是RequestCookieJar类型。然后用items()方法将其转化成元祖组成的列表，遍历输出每一个Cookie的名称和值，实现Cookie的遍历解析

## Cookies 维持登陆状态 知乎

In [4]:
import requests

headers = {
    'Cookie':'',
    'Host':'www.zhihu.com',
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
url = 'https://zhihu.com'
r = requests.get(url,headers=headers)
print(r.text)

<!doctype html>
<html lang="zh" data-hairline="true" data-theme="light"><head><meta charSet="utf-8"/><title data-react-helmet="true">知乎 - 发现更大的世界</title><meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1"/><meta name="renderer" content="webkit"/><meta name="force-rendering" content="webkit"/><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/><meta name="google-site-verification" content="FTeR0c8arOPKh8c5DYh_9uu98_zJbaWw53J-Sch9MTg"/><link rel="shortcut icon" type="image/x-icon" href="https://static.zhihu.com/static/favicon.ico"/><link rel="search" type="application/opensearchdescription+xml" href="https://static.zhihu.com/static/search.xml" title="知乎"/><link rel="dns-prefetch" href="//static.zhimg.com"/><link rel="dns-prefetch" href="//pic1.zhimg.com"/><link rel="dns-prefetch" href="//pic2.zhimg.com"/><link rel="dns-prefetch" href="//pic3.zhimg.com"/><link rel="dns-prefetch" href="//pic4.zhimg.com"/><link href="https://static.zhihu.com/heifetz

## 会话维持 Session对象

如果不想每次设置cookies，但维持同一个会话，可以用 Session 对象，利用它，我们可以方便地维护一个会话，而且不用担心cookies的问题，它会帮我自动处理好

In [6]:
import requests

requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
print(r.text)

{"cookies":{}}



请求一个测试网址http://httpbin.org/cookies/set/number/123456789 请求这个网址时可以设置一个cookie,名词叫做number,内容时123456789，随后又请求了 http://httpbin.org/cookies ，此网站可以获取当前地 Cookies。 结果是当然不行

In [7]:
import requests

s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

{"cookies":{"number":"123456789"}}



利用Seesion,可以做到模拟同一个会话而不用担心Cookies的问题。它通常用于模拟登陆成功之后再进行下一步的操作。

## SSL证书验证  12306

requests 还提供了证书验证的功能，当发送HTTP请求的时候，它会检查 SSL 证书，我们可以使用 verify 参数控制是否检查此证书。 其实如果不加 verify 参数的话，默认是 True, 会自动验证。

打开 12306 浏览器会显示‘您的链接不是私密链接’，这是因为12306的CA证书是中国铁道部自行签发的，而这个证书是不被CA机构信任的，所以这里证书验证就会出错，但是实际上它的数据传输依然是经给SSL加密。如果要爬取这样的站点，就需要设置忽略证书的选项。

In [8]:
import requests

r = requests.get('https://www.12306.cn')
print(r.status_code)

SSLError: HTTPSConnectionPool(host='www.12306.cn', port=443): Max retries exceeded with url: / (Caused by SSLError(CertificateError("hostname 'www.12306.cn' doesn't match either of 'webssl.chinanetcenter.com', 'i.l.inmobicdn.net', '*.fn-mart.com', 'www.1zhe.com', '*.pinganfang.com', '*.anhouse.com', 'dl.jphbpk.gxpan.cn', 'dl.givingtales.gxpan.cn', 'dl.toyblast.gxpan.cn', 'dl.sds.gxpan.cn', 'download.ctrip.com', 'mh.tiancity.com', 'app.4399.cn', 'i.4399.cn', 'm.4399.cn', 'a.4399.cn', 'cdn.hxjyios.iwan4399.com', 'ios.hxjy.iwan4399.com', 'gjzx.gjzq.com.cn', 'f.3000test.com', 'tj.img4399.com', '*.zhe800.com', '*.qiyipic.com', '*.vxinyou.com', '*.gdjh.vxinyou.com', '*.3000.com', 'pay.game2.cn', 'static1.j.cn', 'static2.j.cn', 'static3.j.cn', 'static4.j.cn', 'video1.j.cn', 'video2.j.cn', 'video3.j.cn', 'online.j.cn', 'playback.live.j.cn', 'audio1.guang.j.cn', 'audio2.guang.j.cn', 'audio3.guang.j.cn', 'img1.guang.j.cn', 'img2.guang.j.cn', 'img3.guang.j.cn', 'img4.guang.j.cn', 'img5.guang.j.cn', 'img6.guang.j.cn', '*.4399youpai.com', 'w.tancdn.com', '*.3000api.com', 'static11.j.cn', '*.kuyinyun.com', '*.kuyin123.com', '*.diyring.cc', '3000test.com', '*.3000test.com', 'www.3387.com', 'bbs.4399.cn', '*.cankaoxiaoxi.com', '*.service.kugou.com', 'test.macauslot.com', 'testm.macauslot.com', 'testtran.macauslot.com', 'xiuxiu.huodong.meitu.com', '*.meitu.com', '*.meitudata.com', '*.wheetalk.com', '*.shanliaoapp.com', 'xiuxiu.web.meitu.com', 'api.account.meitu.com', 'open.web.meitu.com', 'id.api.meitu.com', 'api.makeup.meitu.com', 'im.live.meipai.com', '*.meipai.com', 'm.macauslot.com', 'www.macauslot.com', 'web.macauslot.com', 'translation.macauslot.com', 'img1.homekoocdn.com', 'cdn.homekoocdn.com', 'cdn1.homekoocdn.com', 'cdn2.homekoocdn.com', 'cdn3.homekoocdn.com', 'cdn4.homekoocdn.com', 'img.homekoocdn.com', 'img2.homekoocdn.com', 'img3.homekoocdn.com', 'img4.homekoocdn.com', '*.macauslot.com', '*.samsungapps.com', 'auto.tancdn.com', '*.winbo.top', 'static.bst.meitu.com', 'api.xiuxiu.meitu.com', 'api.photo.meituyun.com', 'h5.selfiecity.meitu.com', 'api.selfiecity.meitu.com', 'h5.beautymaster.meiyan.com', 'api.beautymaster.meiyan.com', 'www.yawenb.com', 'm.yawenb.com', 'www.biqugg.com', 'www.dawenxue.net', 'cpg.meitubase.com', 'www.qushuba.com', 'www.ranwena.com', 'www.u8xsw.com', '*.4399sy.com', 'ms.awqsaged.cn', 'fanxing2.kugou.com', 'fanxing.kugou.com', 'sso.56.com', 'upload.qf.56.com', 'sso.qianfan.tv', 'cdn.danmu.56.com', 'www-ppd.hermes.cn', 'www-uat.hermes.cn', 'www-ts2.hermes.cn', 'www-tst.hermes.cn', '*.syyx.com', 'img.wgeqr.cn', 'img.wgewa.cn', 'img.09mk.cn', 'img.85nh.cn', '*.zhuoquapp.com', 'img.dtmpekda8.cn', 'img.etmpekda6.cn', '*.5054399.com', '*.aiwan4399.com', 'user.beevideo.bestv.com.cn', '*.3839.com', '*.actdelivery.net'",),))

如果请求一个HTTPS站点，但是证书验证错误，如何避免，很简单，把verify参数设置为False即可

In [9]:
import requests

r = requests.get('https://www.12306.cn', verify = False)
print(r.status_code)

200




200是请求成功的状态码。但是这里报了一个警告，它建议我们给它指定证书。我们可以通过忽略警告的方式来屏蔽这个警告,或者通过捕获警告到日志的方式忽略警告。

In [10]:
#忽略警告
import requests
from requests.packages import urllib3

urllib3.disable_warnings()
r = requests.get('https://www.12306.cn', verify = False)
print(r.status_code)

200


In [11]:
#捕获警告
import requests
import logging

logging.captureWarnings(True)
r = requests.get('https://www.12306.cn', verify = False)
print(r.status_code)

200


当然，也可以指定一个本地证书用作客户端证书，这可以是单个文件（包含密钥和证书）或一个包含两个文件路径的元组

下面为演示实例，我们需要又crt和key文件，并且指定它们的路径。注意本地私有证书的key必须是解密状态，加密状态的key是不支持的。

In [12]:
import requests

r = requests.get('https://www.12306.cn', cert=('/path/server.crt','/path/key'))
print(r.status_code)

## 正则爬猫眼电影

注意：这里不要在Elements 选项卡中直接查看源码，因为那里的源码可能经过JavaScript操作而与原始请求不同，而是需要从Network选项卡部分查看原始请求得到的源码

In [27]:
import requests,re,json,time

def get_one_page(url):
    
    headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
    }

    
    response = requests.get(url,headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return None
    


def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>',re.S)
    items = re.findall(pattern,html)
    #print(items)

    for item in items:
        yield({
            'rank': item[0],
            'image': item[1],
            'title': item[2].strip(),
            'actor': item[3].strip()[3:] if len(item[3])>3 else '',
            'time': item[4].strip()[5:] if len(item[4])>5 else '',
            'score': item[5].strip()+item[6].strip()
        })
                    

def write_to_file(content):
    with open('maoyanTop100.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

        

def main(offset):
    url = 'http://maoyan.com/board/4?offset={}'.format(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_to_file(item)
    
if __name__ == '__main__':    
    for i in range(10):
        offset=i*10
        main(offset)
        time.sleep(1)


写入文件，同JSON库的dumps()方法实现字典的序列化，并指定ensure_ascii参数为False,这样可以保证输出结果是中文形式而不是Unicode编码

# 解析库的使用

## Xpath

Xpath 全称 XML Path Language,即 XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档，但是它同样适用于 HTML 文档的搜索。


**常用规则**

nodename	选取此节点的所有子节点

/	        从当前节点选取直接子节点

// 	        从当前节点选取子孙节点

.	        选取当前节点

..	        选取当前节点的父节点

@	        选取属性


首先导入了 LXML 库的 etree 模块，调用 HTML 类进行初始化，这样我们就成功构造了一个 XPath 解析对象，在这里注意到 HTML 文本中的最后一个 li 节点是没有闭合的，但是 etree 模块可以对 HTML 文本进行自动修正。

在这里我们调用 tostring() 方法即可输出修正后的 HTML 代码，但是结果是 bytes 类型，在这里我们利用 decode() 方法转成 str 类型

我们可以看到经过处理之后 li 节点标签被补全，并且还自动添加了 body、html 节点。

In [1]:
#解析字符串

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result)
print('---------------------------bytes 转化成 str-------------------------')
print(result.decode('utf-8'))

b'<html><body><div>\n    <ul>\n         <li class="item-0"><a href="link1.html">first item</a></li>\n         <li class="item-1"><a href="link2.html">second item</a></li>\n         <li class="item-inactive"><a href="link3.html">third item</a></li>\n         <li class="item-1"><a href="link4.html">fourth item</a></li>\n         <li class="item-0"><a href="link5.html">fifth item</a>\n     </li></ul>\n </div>\n</body></html>'
---------------------------bytes 转化成 str-------------------------
<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div>
</body></html>


直接读取文本文件解析，除了补全外，结果稍有不同，多了一个DOCTYPE的声明，不过对解析无任何影响

In [1]:
#解析文件

from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div></body></html>


### 所有节点

一般会用 // 开头的 XPath 规则来选取所有符合要求的节点

在这里使用 * 代表匹配所有节点，也就是整个 HTML 文本中的所有节点都会被获取，可以看到返回形式是一个列表，每个元素是 Element 类型，其后跟了节点的名称，如 html、body、div、ul、li、a 等等，所有的节点都包含在列表中了。

要选取所有 li 节点可以使用 //，然后直接加上节点的名称即可

In [4]:
from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//*')
print(result)
print('-'*50)
li = html.xpath('//li')
print(li)

[<Element html at 0x42d5148>, <Element body at 0x6785b20>, <Element div at 0x6785a08>, <Element ul at 0x6785b48>, <Element li at 0x6785b70>, <Element a at 0x6785b98>, <Element li at 0x6785bc0>, <Element a at 0x6785be8>, <Element li at 0x6785c10>, <Element a at 0x6785c38>, <Element li at 0x6785c60>, <Element a at 0x6785c88>, <Element li at 0x6785cb0>, <Element a at 0x6785cd8>]
--------------------------------------------------
[<Element li at 0x6785b70>, <Element li at 0x6785bc0>, <Element li at 0x6785c10>, <Element li at 0x6785c60>, <Element li at 0x6785cb0>]


### 子节点

通过 / 或 // 即可查找元素的子节点或子孙节点，加入我们现在想选择 li 节点所有直接 a 子节点

通过追加一个 /a 即选择了所有 li 节点的所有直接 a 子节点，因为 //li 是选中所有li节点， /a 是选中li节点的所有直接子节点 a，二者组合在一起即获取了所有li节点的所有直接 a 子节点。

In [5]:
from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li/a')
print(result)
print('-'*50)
result = html.xpath('//ul/a')
print(result)
print('-'*50)
result = html.xpath('//ul//a')
print(result)

[<Element a at 0x58c98f0>, <Element a at 0x6785f08>, <Element a at 0x6785e40>, <Element a at 0x6785ee0>, <Element a at 0x6785eb8>]
--------------------------------------------------
[]
--------------------------------------------------
[<Element a at 0x58c98f0>, <Element a at 0x6785f08>, <Element a at 0x6785e40>, <Element a at 0x6785ee0>, <Element a at 0x6785eb8>]


如果我们用 //ul/a 就无法获取任何结果了，因为 / 是获取直接子节点，而在 ul 节点下没有直接的 a 子节点，只有 li 节点，所以无法获取任何匹配结果，但是我们可以用 //ul//a 获取ul节点下的a子孙节点 

要注意 / 和 // 的区别，/ 是获取直接子节点，// 是获取子孙节点。

### 父节点

可以用 .. 或者 parent::* 来获取父节点

现在首先选中 href 是 link4.html 的 a 节点，然后再获取其父节点，然后再获取其 class 属性

In [6]:
from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)
print('-'*50)
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

['item-1']
--------------------------------------------------
['item-1']


### 属性匹配 

在选取的时候我们还可以用 **```节点[@属性='属性值']```** 进行属性过滤，比如在这里如果我们要选取 class 为 item-1 的 li 节点

In [25]:
from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-1"]')
print(result)

[<Element li at 0x110815048>, <Element li at 0x112b58608>]


### 文本获取 

用 XPath 中的 text() 方法可以获取节点中的文本，我们接下来尝试获取一下上文 li 节点中的文本

In [13]:
from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]/text()')
print(result)

['\n     ']


结果并没有获取到任何文本，而是只获取到了一个换行符，这是为什么呢？

选中的是这两个节点：

```
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</li>
```

因为 XPath 中 text() 前面是 /，而此 / 的含义是选取直接子节点，即 li节点内部的信息，结果就是 li 节点的尾标签和 a 节点的尾标签之间的换行符。如果li节点内有信息，则选取到该信息。

In [3]:
from lxml import etree

text = '''
<li class="item-0"><a href="link1.html">first item</a>inside li outside a</li>
<li class="item-0"><a href="link5.html">fifth item</a>inside li outside a</li>
'''

html = etree.HTML(text)
result = html.xpath('//li[@class="item-0"]/text()')
print(result)

['inside li outside a', 'inside li outside a']


因此，如果我们想获取 li 节点内部的文本就有两种方式

一种是选取到 a 节点再获取文本，即获取a节点内部的信息

另一种就是使用 //，选取所有子孙节点的文本，即li节点内部的信息和a节点内部的信息

In [12]:
from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())

print('1 选取到 a 节点再获取文本:')
result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)
result = html.xpath('//li[@class="item-0"]//text()')
print('2 使用 //:')
print(result)

1 选取到 a 节点再获取文本:
['first item', 'fifth item']
2 使用 //:
['first item', 'fifth item', '\n     ']


### 属性获取

用 text() 可以获取节点内部文本，那么节点属性该怎样获取呢？ **```节点/@属性名```** ，例如我们想获取所有 li 节点下所有 a 节点的 href 属性

In [14]:
from lxml import etree

html = etree.parse('./test.html',etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)
result = html.xpath('//li/@class')
print(result)

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']


在这里我们通过 @href 即可获取节点的 href 属性，注意此处和属性匹配的方法不同，属性匹配是中括号加属性名和值来限定某个属性，如 ```[@href="link1.html"]```，而此处的 @href 指的是获取节点的某个属性，二者需要做好区分。

### 属性多值匹配

某些节点的某个属性可能有多个值

在这里 HTML 文本中的 li 节点的 class 属性有两个值 li 和 li-first，但是此时如果选取一个属性就无法匹配了。

属性多值匹配的2种方法：把属性的多个值全部写全或者contains()方法，第一个参数传入@+属性名称，第二个参数传入属性值，这样只要此属性包含所传入的属性值就可以完成匹配了。

In [8]:
from lxml import etree

text = '''
<li class="li li-first"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[@class="li"]/a/text()')
print(result)
print('-'*15,'属性值全部写全','-'*15)
result = html.xpath('//li[@class="li li-first"]/a/text()')
print(result)
print('-'*15,'节点[contains(@属性名，"属性值")]','-'*15)
result = html.xpath('//li[contains(@class,"li")]/a/text()')
print(result)

[]
--------------- 属性值全部写全 ---------------
['first item']
--------------- 节点[contains(@属性名，"属性值")] ---------------
['first item']


### 多属性匹配

可能还遇到一种情况，可能需要根据多个属性才能确定一个节点，这是就需要同时匹配多个属性才可以，那么这里可以使用运算符 and 来连接

属性匹配  **``` 节点[@属性='属性值']```**

属性多值匹配  **```节点[contains(@属性名，"属性值")] ```**

and 运算符连接两个条件，两个条件都被中括号包围

In [22]:
from lxml import etree

text='''
<li class="li li-first" name="item"><a href="link.html">first item</a></li>
'''

html = etree.HTML(text)
result = html.xpath('//li[contains(@class,"li") and @name="item"]/a/text()')
print(result)

['first item']


### 按序选择

在选择的时候可能某些属性同时匹配了多个节点，但是我们只想要其中的某个节点，如第二个节点，或者最后一个节点，这时该怎么办呢？

利用中括号传入索引的方法获取特定次序的节点

XPath 中提供了 100 多个函数，更多用法参考 http://www.w3school.com.cn/xpath/xpath_functions.asp。

In [3]:
from lxml import etree

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''

html = etree.HTML(text)
# 选取了第一个 li 节点
result = html.xpath('//li[1]/a/text()')
print(result)
# 选取了最后一个 li 节点
result = html.xpath('//li[last()]/a/text()')
print(result)
# 选取了位置小于 3 的 li 节点，也就是位置序号为 1 和 2 的节点
result = html.xpath('//li[position()<3]/a/text()')
print(result)
# 选取了倒数第三个 li 节点
result = html.xpath('//li[last()-2]/a/text()')
print(result)

['first item']
['fifth item']
['first item', 'second item']
['third item']


### 节点轴选择

XPath 提供了很多节点轴选择方法，英文叫做 XPath Axes，包括获取子元素、兄弟元素、父元素、祖先元素等等

以上是XPath轴的简单用法，更多的轴的使用可以参考：http://www.w3school.com.cn/xpath/xpath_axes.asp。

In [9]:
from lxml import etree

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html"><span>first item</span></a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''

html = etree.HTML(text)
print('-'*15,'ancestor 轴','-'*15)
#  ancestor 轴, 获取所有祖先节点， *表示匹配所有节点
result = html.xpath('//li[1]/ancestor::*')
print(result)
# 结果就只有 div 这个祖先节点
result = html.xpath('//li[1]/ancestor::div')
print(result)
print('-'*15,'attribute 轴','-'*15)
# attribute 轴，获取所有属性值,  *代表获取节点的所有属性
result = html.xpath('//li[1]/attribute::*')
print(result)
print('-'*15,'child 轴','-'*15)
# child 轴, 获取所有直接子节点
result = html.xpath('//li[1]/child::*')
print(result)
# 限定条件选取 href 属性为 link1.html 的 a 节点
result = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result)
print('-'*15,'descendant 轴','-'*15)
# descendant 轴，获取所有子孙节点
result = html.xpath('//li[1]/descendant::span')
print(result)
print('-'*15,'following 轴','-'*15)
# following 轴, 获取当前节点之后的所有节点
result = html.xpath('//li[1]/following::*')
print(result)
# 使用的是 * 匹配，但又加了索引选择，所以只获取了第二个后续节点。
result = html.xpath('//li[1]/following::*[2]')
print(result)
#  following-sibling 轴, 获取当前节点之后的所有同级节点
print('-'*15,'following-sibling 轴','-'*15)
result = html.xpath('//li[1]/following-sibling::*')
print(result)

--------------- ancestor 轴 ---------------
[<Element html at 0x6792198>, <Element body at 0x67921e8>, <Element div at 0x6792210>, <Element ul at 0x67926c0>]
[<Element div at 0x6792210>]
--------------- attribute 轴 ---------------
['item-0']
--------------- child 轴 ---------------
[<Element a at 0x6792738>]
[<Element a at 0x6792738>]
--------------- descendant 轴 ---------------
[<Element span at 0x6792760>]
--------------- following 轴 ---------------
[<Element li at 0x67927d8>, <Element a at 0x6792800>, <Element li at 0x6792828>, <Element a at 0x6792850>, <Element li at 0x6792878>, <Element a at 0x67924e0>, <Element li at 0x6792508>, <Element a at 0x6792530>]
[<Element a at 0x6792800>]
--------------- following-sibling 轴 ---------------
[<Element li at 0x6792850>, <Element li at 0x6792878>, <Element li at 0x67924e0>, <Element li at 0x6792508>]


## BeautifulSoup

简单来说，BeautifulSoup 就是 Python 的一个 HTML 或 XML 的解析库，我们可以用它来方便地从网页中提取数据

### 解析器

BeautifulSoup 在解析的时候实际上是依赖于解析器的，它除了支持 Python 标准库中的 HTML 解析器，还支持一些第三方的解析器比如 LXML，下面我们对 BeautifulSoup 支持的解析器及它们的一些优缺点做一个简单的对比。

|解析器|使用方法|优势|劣势|
|---|---|---|----|
|Python标准库|BeautifulSoup(markup, "html.parser")|Python的内置标准库、执行速度适中 、文档容错能力强|Python 2.7.3 or 3.2.2)前的版本中文容错能力差|
|LXML HTML 解析器|BeautifulSoup(markup, "lxml")|速度快、文档容错能力强|需要安装C语言库|
|LXML XML 解析器|BeautifulSoup(markup, "xml")|速度快、唯一支持XML的解析器|需要安装C语言库|
|html5lib|BeautifulSoup(markup, "html5lib")|最好的容错性、以浏览器的方式解析文档、生成 HTML5 格式的文档|速度慢、不依赖外部扩展|

所以通过以上对比可以看出，LXML 这个解析器有解析 HTML 和 XML 的功能，而且速度快，容错能力强，所以推荐使用这个解析器来进行解析。

使用 LXML 这个解析器，在初始化 BeautifulSoup 的时候我们可以把第二个参数改为 lxml 即可，如下

In [31]:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>', 'lxml')
print(soup.p.string)

Hello


### 基本使用

首先用一个实例来感受一下 BeautifulSoup 的基本使用

prettify() 方法可以把要解析的字符串以标准的缩进格式输出

注意到输出结果里面包含了 body 和 html 节点，也就是说对于不标准的 HTML 字符串 BeautifulSoup 可以自动更正格式，这一步实际上不是由 prettify() 方法做的，这个更正实际上在初始化 BeautifulSoup 时就完成了。

soup.title.string ，这个实际上是输出了 HTML 中 title 节点的文本内容。所以 soup.title 就可以选择出 HTML 中的 title 节点，再调用 string 属性就可以得到里面的文本了

In [4]:
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')
print(soup.prettify())
print(soup.title.string)

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title" name="dromouse">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    <!-- Elsie -->
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>
The Dormouse's story


### 节点选择器

首先打印输出了 title 节点的选择结果，输出结果正是 title 节点加里面的文字内容。接下来输出了它的类型，是 bs4.element.Tag 类型，这是 BeautifulSoup 中的一个重要的数据结构，经过选择器选择之后，选择结果都是这种 Tag 类型，它具有一些属性比如 string 属性，调用 Tag 的 string 属性，就可以得到节点的文本内容了

#### 选择元素

In [35]:
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'lxml')
print(soup.title)
print(type(soup.title))
print(soup.title.string)
print(soup.title.name)
print(soup.p.attrs)
print(soup.p.attrs['name'])
print(soup.p['name'])
print(soup.p['class'])

<title>The Dormouse's story</title>
<class 'bs4.element.Tag'>
The Dormouse's story
title
{'class': ['title'], 'name': 'dromouse'}
dromouse


#### 提取信息



##### 获取名称

name 属性来获取节点的名称

`print(soup.title.name)`
结果
`title`

##### 获取属性

attrs 属性获取节点元素或者直接节点元素后面加中括号，传入属性名就可以达到属性值了

第一种方法`attrs['name'] `

`print(soup.p.attrs)
print(soup.p.attrs['name'])`

结果

`{'class': ['title'], 'name': 'dromouse'}
dromouse`

第二种方法`节点['属性名']`


`print(soup.p['name'])
print(soup.p['class'])`

结果

`dromouse
['title']`

##### 获取内容

string 属性获取节点元素包含的文本内容

`print(soup.p.string)`

结果

`The Dormouse's story`

注意一下这里选择到的 p 节点是第一个 p 节点，获取的文本也就是第一个 p 节点里面的文本

#### 嵌套选择

每个返回结果是 bs4.element.Tag 类型，它同样可以继续调用节点进行下一步的选择，比如我们获取了 head 节点元素，我们可以继续调用 head 来选取其内部的 head 节点元素。

In [4]:
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')
print(soup.head.title)
print(type(soup.head.title))
print(soup.head.title.string)

<title>The Dormouse's story</title>
<class 'bs4.element.Tag'>
The Dormouse's story


#### 关联选择 

在做选择的时候有时候不能做到一步就可以选择到想要的节点元素，有时候在选择的时候需要先选中某一个节点元素，然后以它为基准再选择它的子节点、父节点、兄弟节点等等

##### 子节点和子孙节点

contents 属性得到的是直接子节点的列表

children 属性得到的是直接子节点的生成器

descendants 属性得到的是子孙节点的生成器

##### 父节点和祖先节点

parent 属性得到的是父节点  bs4.element.Tag类型

parents 属性得到的是祖先节点的生成器

##### 兄弟节点

next_sibling 和 previous_sibling 分别可以获取节点的下一个和上一个兄弟元素

next_siblings 和 previous_siblings 则分别返回所有前面和后面的兄弟节点的生成器

In [20]:
html = """
<html>
    <head>
        <title>The Dormouse's story</title>
    </head>
    <body>
        <p class="story">
            Once upon a time there were three little sisters; and their names were
            <a href="http://example.com/elsie" class="sister" id="link1">
                <span>Elsie</span>
            </a>
            Hello
            <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> 
            and
            <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>
            and they lived at the bottom of a well.
        </p>
        <p class="story">...</p>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')
print('='*15,'子节点 contents','='*15)
print(soup.p.contents)
print('='*15,'子节点 children','='*15)
print(soup.p.children)
for i,child in enumerate(soup.p.children):
    print(i,child)
print('='*15,'子孙节点 descendants','='*15)    
print(soup.p.descendants)
for i,child in enumerate(soup.p.descendants):
    print(i,child)
print('='*15,'父节点 parent','='*15)   
print(soup.p.parent)
print(type(soup.p.parent))
print('='*15,'祖先节点 parents','='*15)    
print(type(soup.p.parents))
for i,child in enumerate(soup.p.parents):
    print(i,child)
print('='*15,'下一个兄弟节点 next_sibling','='*15)   
print(soup.a.next_sibling)
print('='*15,'上一个兄弟节点 previous_sibling','='*15)   
print(soup.a.previous_sibling)
print('='*15,'后面兄弟节点 next_siblings','='*15)   
print(list(soup.a.next_siblings))
print('='*15,'前面兄弟节点 previous_siblings','='*15)   
print(list(soup.a.previous_siblings))

['\n            Once upon a time there were three little sisters; and their names were\n            ', <a class="sister" href="http://example.com/elsie" id="link1">
<span>Elsie</span>
</a>, '\n            Hello\n            ', <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, ' \n            and\n            ', <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>, '\n            and they lived at the bottom of a well.\n        ']
<list_iterator object at 0x072C4050>
0 
            Once upon a time there were three little sisters; and their names were
            
1 <a class="sister" href="http://example.com/elsie" id="link1">
<span>Elsie</span>
</a>
2 
            Hello
            
3 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
4  
            and
            
5 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
6 
            and they lived at the bottom of a well.
        
<generator object des

### 方法选择器

前面我们所讲的选择方法都是通过属性来选择元素的，这种选择方法非常快，但是如果要进行比较复杂的选择的话则会比较繁琐，不够灵活。所以 BeautifulSoup 还为我们提供了一些查询的方法，比如 find_all()、find() 等方法，我们可以调用方法然后传入相应等参数就可以灵活地进行查询了。

#### find_all()

查询所有符合条件的元素，可以给它传入一些属性或文本来得到符合条件的元素

`find_all(name , attrs , recursive , text , **kwargs)`

返回结果是列表类型，每个元素依然都是 bs4.element.Tag 类型,因为都是 Tag 类型，所以我们依然可以进行嵌套查询

**name **参数值为字符串  ` find_all(name='ul')`
  
**attrs **参数的类型是字典类型  ` find_all(attrs={'id': 'list-1'})`

对于一些常用的属性比如 id、class 等，我们可以不用 attrs 来传递，比如我们要查询 id 为 list-1 的节点，我们可以直接传入 id 这个参数


`find_all(id='list-1')`

`find_all(class_='element')`

而对于 class 来说，由于 class 在 python 里是一个关键字，所以在这里后面需要加一个下划线，class_='element'

**text **参数可以用来匹配节点的文本，传入的形式可以是字符串，可以是正则表达式对象

In [32]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html,'lxml')
print('='*15,'节点名 name','='*15)   
print(soup.find_all(name='ul'))
print(type(soup.find_all(name='ul')[0]))
for ul in soup.find_all(name='ul'):
    for li in ul.find_all(name='li'):
        print(li.string)

print('='*15,'属性 attrs','='*15)   
print(soup.find_all(attrs={'id':'list-1'}))
print(soup.find_all(attrs={'class':'element'}))
print(soup.find_all(id='list-1'))
print(soup.find_all(class_='element'))

print('='*15,'文本 text','='*15)  
print(soup.find_all(text=re.compile('Foo')))

[<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>, <ul class="list list-small" id="list-2">
<li class="element">Foo</li>
<li class="element">Bar</li>
</ul>]
<class 'bs4.element.Tag'>
Foo
Bar
Jay
Foo
Bar
[<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>]
[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>, <li class="element">Foo</li>, <li class="element">Bar</li>]
[<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>]
[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>, <li class="element">Foo</li>, <li class="element">Bar</li>]
['Foo', 'Foo']


#### find()

返回的是单个元素，也就是第一个匹配的元素，类型依然是 Tag 类型。而 find_all() 返回的是所有匹配的元素组成的列表。

In [39]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')
print(soup.find(name='ul'))
print(type(soup.find(name='ul')))
print(soup.find(attrs={'id':'list-1'}))
print(soup.find(attrs={'class':'element'}))
print(soup.find(id='list-1'))
print(soup.find(class_='element'))

<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>
<class 'bs4.element.Tag'>
<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>
<li class="element">Foo</li>
<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>
<li class="element">Foo</li>


**find_parents() find_parent()**

find_parents() 返回所有祖先节点，find_parent() 返回直接父节点。

**find_next_siblings() find_next_sibling()**

find_next_siblings() 返回后面所有兄弟节点，find_next_sibling() 返回后面第一个兄弟节点。

**find_previous_siblings() find_previous_sibling()**

find_previous_siblings() 返回前面所有兄弟节点，find_previous_sibling() 返回前面第一个兄弟节点。

**find_all_next() find_next()**

find_all_next() 返回节点后所有符合条件的节点, find_next() 返回第一个符合条件的节点。

**find_all_previous() 和 find_previous()**

find_all_previous() 返回节点后所有符合条件的节点, find_previous() 返回第一个符合条件的节点

### CSS 选择器

使用 CSS 选择器，只需要调用 select() 方法，传入相应的 CSS 选择器即可

返回结果为列表，元素类型是Tag类型

#### 嵌套选择

select() 方法同样支持嵌套选择，例如我们先选择所有 ul 节点，再遍历每个 ul 节点选择其 li 节点

#### 获取属性

节点类型是 Tag 类型，所以获取属性还是可以用原来的方法获取

第一种方法`attrs['name'] `

第二种方法`节点['属性名']`


#### 获取文本

获取文本当然也可以用前面所讲的 string 属性，还有一个方法那就是 get_text()，同样可以获取文本值。

In [49]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'lxml')
print(soup.select('.panel .panel-heading'))
print(soup.select('ul li'))
print(soup.select('#list-2 .element'))
print(type(soup.select('ul')[0]))

print('='*15,'嵌套选择','='*15)
for ul in soup.select('ul'):
    print(ul.select('li'))
    
print('='*15,'获取属性','='*15)
for ul in soup.select('ul'):
    print(ul.attrs['id'])
    print(ul['id'])
    
print('='*15,'获取文本','='*15)
for li in soup.select('li'):
    print(li.get_text())
    print(li.string)

[<div class="panel-heading">
<h4>Hello</h4>
</div>]
[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>, <li class="element">Foo</li>, <li class="element">Bar</li>]
[<li class="element">Foo</li>, <li class="element">Bar</li>]
<class 'bs4.element.Tag'>
[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]
[<li class="element">Foo</li>, <li class="element">Bar</li>]
list-1
list-1
list-2
list-2
Foo
Foo
Bar
Bar
Jay
Jay
Foo
Foo
Bar
Bar


## PyQuery

如果你对 Web 有所涉及，如果你比较喜欢用 CSS 选择器，如果你对 jQuery 有所了解，那么这里有一个更适合你的解析库—— PyQuery。

### 初始化

像 BeautifulSoup 一样，PyQuery 初始化的时候也需要传入 HTML 数据源来初始化一个操作对象，它的初始化方式有多种，比如直接传入字符串，传入 URL，传文件名。

In [54]:
html = '''
<div>
    <ul>
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>
'''

from pyquery import PyQuery as pq

print('='*15,'字符串初始化','='*15)
doc = pq(html)
print(doc('li'))
print('='*15,'URL初始化','='*15)
doc = pq(url='https://jamie33.github.io/')
print(doc('title'))
print('='*10,'等同于','='*10)
import requests
doc = pq(requests.get('https://jamie33.github.io/').text)
print(doc('title'))
print('='*15,'文件初始化','='*15)
doc = pq(filename='test.html')
print(doc('li'))

<li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     
<title>Jamie's Blog | Talk is cheap, show me the code.</title>

  
  
<title>Jamie's Blog | Talk is cheap, show me the code.</title>

  
  
<li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li>


### 基本CSS选择器

In [55]:
html = '''
<div id="container">
    <ul class="list">
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>
'''

from pyquery import PyQuery as pq

doc = pq(html)
print(doc('#container .list li'))
print(type(doc('#container .list li')))

<li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     
<class 'pyquery.pyquery.PyQuery'>


### 查找节点

#### 子节点和子孙节点

传入的参数是 CSS 选择器，返回类型是 PyQuery 类型

find() 方法查找范围是节点的所有子孙节点

children() 方法查找范围是子节点

parent() 方法来获取某个节点的父节点

siblings() 方法获取兄弟节点

In [5]:
html = '''
<div class="wrap">
    <div id="container">
        <ul class="list">
             <li class="item-0">first item</li>
             <li class="item-1"><li href="link2.html">second item</li></li>
             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         </ul>
     </div>
 </div>
'''

from pyquery import PyQuery as pq

doc = pq(html)
items = doc('.list')

print('='*15,'子孙节点 find()','='*15)
lis = items.find('li')
print(lis)
print(type(lis))

print('='*15,'子节点 children()','='*15)
lis = items.children()
print(lis)
print(type(lis))

print('='*10,'符合条件的子节点 children()','='*10)
lis = items.children('.active')
print(lis)
print(type(lis))

print('='*15,'直接父节点 parent()','='*15)
lis = items.parent()
print(lis)
print(type(lis))

print('='*15,'祖先节点 parents()','='*15)
lis = items.parents()
print(lis)
print(type(lis))

print('='*10,'符合条件的祖先节点','='*10)
lis = items.parents('.wrap')
print(lis)
print(type(lis))

print('='*15,'兄弟节点 siblings()','='*15)
item = doc('.list .item-0.active') # 类名多值
print(item.siblings())

print('='*10,'符合条件的子节点 children()','='*10)
print(item.siblings('.active'))


<li class="item-0">first item</li>
             <li class="item-1"><li href="link2.html">second item</li></li>
             <li href="link2.html">second item</li><li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         
<class 'pyquery.pyquery.PyQuery'>
<li class="item-0">first item</li>
             <li class="item-1"><li href="link2.html">second item</li></li>
             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         
<class 'pyquery.pyquery.PyQuery'>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active">

### 遍历

PyQuery 的选择结果可能是多个节点，可能是单个节点，类型都是 PyQuery 类型，并没有返回像 BeautifulSoup 一样的列表。

对于单个节点来说，我们可以直接打印输出，也可直接转成字符串：

对于多个节点的结果，我们就需要遍历来获取了，例如这里我们把每一个 li 节点进行遍历，需要调用 items() 方法,该方法会得到一个生成器，遍历一下，就可以逐个得到 li 节点对象了，它的类型也是 PyQuery 类型，所以每个 li 节点还可以调用前面所说的方法进行选择，比如继续查询子节点，寻找某个祖先节点等等，非常灵活。

In [9]:
html = '''
<div class="wrap">
    <div id="container">
        <ul class="list">
             <li class="item-0">first item</li>
             <li class="item-1"><li href="link2.html">second item</li></li>
             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         </ul>
     </div>
 </div>
'''

from pyquery import PyQuery as pq

doc = pq(html)
print('='*15,'单个节点','='*15)
item = doc('.item-0.active')
print(item)
print(type(item))
print('='*15,'多个节点','='*15)
item = doc('li').items()
print(type(item))
for li in item:
    print(li,type(li))

<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             
<class 'pyquery.pyquery.PyQuery'>
<class 'generator'>
<li class="item-0">first item</li>
              <class 'pyquery.pyquery.PyQuery'>
<li class="item-1"><li href="link2.html">second item</li></li>
              <class 'pyquery.pyquery.PyQuery'>
<li href="link2.html">second item</li> <class 'pyquery.pyquery.PyQuery'>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
              <class 'pyquery.pyquery.PyQuery'>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
              <class 'pyquery.pyquery.PyQuery'>
<li class="item-0"><a href="link5.html">fifth item</a></li>
          <class 'pyquery.pyquery.PyQuery'>


### 获取信息 

提取到节点之后，我们的最终目的当然是提取节点所包含的信息了，比较重要的信息有两类，

**一是获取属性**

attr() 方法或者 attr属性

**二是获取文本** 

**text() 方法**忽略掉节点内部包含的所有 HTML，只返回纯文字内容。

当有多节点时，text() 方法不需要遍历就可以获取，它是将所有节点取文本之后合并成一个字符串。text() 则返回了所有的 li 节点内部纯文本，中间用一个空格分割开，实际上是一个字符串。

**html() 方法**获取节点内部的 HTML 文本

当有多节点时，**html() 方法只返回第一个节点内部 HTML 文本**，如果要获取每个节点的内部 HTML 文本，则需要遍历每个节点

这里的多节点指的是 PyQuery 的选择是多个节点，但是它的类型是一个 PyQuery 类型，并没有返回像 BeautifulSoup 一样的列表。对于多个节点的结果，我们就需要遍历来获取了。

而不是指包含多个嵌套元素

In [12]:
 html = """
 <div class="wrap">
    <div id="container">
        <ul class="list">
             <li class="item-0">first item</li>
             <li class="item-1"><a href="link2.html">second item</a></li>
             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         </ul>
     </div>
 </div>
 """
    
from pyquery import PyQuery as pq
doc = pq(html)

print('='*15,'单节点获取属性','='*15)
a = doc('.item-0.active a')
print(a,type(a))
print(a.attr('href'))
print(a.attr.href)

print('='*15,'多节点获取属性','='*15)
a = doc('a')
for item in a.items():
    print(item.attr('href'))


print('='*15,'单节点获取文本','='*15)
doc = pq(html)
a = doc('.item-0.active a')
print(a)
print('-'*15,'单节点获取文本 text()','-'*15)
print(a.text())

print('-'*15,'单节点内嵌套多节点获取文本 text()','-'*15)
print(doc('.list').text())

print('-'*15,'单节点获取文本 html()','-'*15)
print(a.html())



print('='*15,'多节点获取文本','='*15)
li = doc('li')
print(li)
print('-'*15,'多节点获取文本 text()','-'*15)
print(li.text())
print('-'*15,'多节点获取文本 html()','-'*15)
print(li.html())

print('='*15,'区别','='*15)

print('选取 .container 节点，获取文本为空')
container = doc('.container')
print('-'*15,'text()','-'*15)
print(container.text())
print('-'*15,'html()','-'*15)
print(container.html())

print('选取 .list 节点')
class_list = doc('.list')
print('-'*15,'text()','-'*15)
print(class_list.text())
print('-'*15,'html()','-'*15)
print(class_list.html())

<a href="link3.html"><span class="bold">third item</span></a> <class 'pyquery.pyquery.PyQuery'>
link3.html
link3.html
link2.html
link3.html
link4.html
link5.html
<a href="link3.html"><span class="bold">third item</span></a>
--------------- 单节点获取文本 text() ---------------
third item
--------------- 单节点内嵌套多节点获取文本 text() ---------------
first item
second item
third item
fourth item
fifth item
--------------- 单节点获取文本 html() ---------------
<span class="bold">third item</span>
<li class="item-0">first item</li>
            <li class="item-1"><a href="link2.html">second item</a></li>
            <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
            <li class="item-1 active"><a href="link4.html">fourth item</a></li>
            <li class="item-0"><a href="link5.html">fifth item</a></li>
        
--------------- 多节点获取文本 text() ---------------
first item second item third item fourth item fifth item
--------------- 多节点获取文本 html() ---------------

###  text()  获取子节点的文本

text(value=<NoDefault>, **kwargs)

Get or set the text representation of sub nodes.

1. Get the text value

2. Get the text value, without squashing newlines

3. Set the text value

以下为单节点

In [10]:
from pyquery import PyQuery as pq


print('---------html单行 注意输出格式：无空格挤在一起----------')
test = "<div>node<span>toto</span><span>tata</span></div>"
doc = pq (test)
print(doc.text())

print('---------html多行 注意输出格式：有空格----------')
test = '''
<div>
    node
    <span>toto</span>
    <span>tata</span>
</div>
'''
doc = pq (test)
print(doc.text())

print('---------html多行 注意输出格式：带换行----------')
print(doc.text(squash_space=False))


---------html单行 注意输出格式：无空格挤在一起----------
nodetototata
---------html多行 注意输出格式：有空格----------
node toto tata
---------html多行 注意输出格式：带换行----------

    node
    toto
    tata



### 节点操作

提供了一系列方法来对节点进行动态修改操作，比如为某个节点添加一个 class，移除某个节点等等，这些操作有时候会为提取信息带来极大的便利。

由于节点操作的方法太多，下面举几个典型的例子来说明它的用法。

addClass()、removeClass() 这些方法可以动态地改变节点的 class 属性。

attr()方法对属性进行操作，第一个参数为属性名，第二个参数为属性值； 如果只传入第一个参数的属性名，则获取这个属性值；如果传入第二个参数，则修改属性值。

text()、html() 方法如果不传参数，则获取节点内纯文本和HTML文本。如果传入参数，则进行赋值。

remove() 方法就是移除，有时会为信息的提取带来非常大的便利。remove() 方法可以删除某些冗余内容，来方便我们的提取。


另外其实还有很多节点操作的方法，比如 append()、empty()、prepend() 等方法，他们和 jQuery 的用法是完全一致的，详细的用法可以参考官方文档：

http://pyquery.readthedocs.io/en/latest/api.html


In [48]:
html = '''
<div class="wrap">
    <div id="container">
        <ul class="list">
             <li class="item-0">first item</li>
             <li class="item-1"><a href="link2.html">second item</a></li>
             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         </ul>
     </div>
 </div>
'''

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')


print('-'*15,'addClass()、removeClass()','-'*15)
print(li)
li.removeClass('active')
print(li)
li.addClass('active')
print(li)

print('-'*15,'attr()、text()、html()','-'*15)

print(li)
li.attr('name','link')
print(li)
li.text('changed item')
print(li)
li.html('<span>changed item</span>')
print(li)

print('-'*15,'remove()','-'*15)

html = '''
<div class="wrap">
    Hello, World
    <p>This is a paragraph.</p>
 </div>
'''

doc =pq(html)
wrap = doc('.wrap')
print(wrap.text())
print('现在想提取 Hello, World 这个字符串，而不要 p 节点内部的字符串，这个怎样来提取？')
wrap.find('p').remove()
print(wrap.text())

--------------- addClass()、removeClass() ---------------
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             
<li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li>
             
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             
--------------- attr()、text()、html() ---------------
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             
<li class="item-0 active" name="link"><a href="link3.html"><span class="bold">third item</span></a></li>
             
<li class="item-0 active" name="link">changed item</li>
             
<li class="item-0 active" name="link"><span>changed item</span></li>
--------------- remove() ---------------
Hello, World
This is a paragraph.
现在想提取 Hello, World 这个字符串，而不要 p 节点内部的字符串，这个怎样来提取？
Hello, World


### 伪类选择器

CSS 选择器之所以强大，还有一个很重要的原因就是它支持多种多样的伪类选择器。例如选择第一个节点、最后一个节点、奇偶数节点、包含某一文本的节点等等

In [25]:
from pyquery import PyQuery as pq

html = '''
<div class="wrap">
    <div id="container">
        <ul class="list">
             <li class="item-0">first item</li>
             <li class="item-1"><a href="link2.html">second item</a></li>
             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         </ul>
     </div>
 </div>
'''

doc = pq(html)

print('-'*15,'选择第一个 li 节点','-'*15)
li = doc('li:first-child')
print(li)

print('-'*15,'最后一个 li 节点','-'*15)
li = doc('li:last-child')
print(li)

print('-'*15,'第二个 li 节点','-'*15)
li = doc('li:nth-child(2)')
print(li)

print('-'*15,'第三个 li 之后的 li 节点','-'*15)
li = doc('li:gt(2)')
print(li)

print('-'*15,'偶数位置的 li 节点','-'*15)
li = doc('li:nth-child(2n)')
print(li)

print('-'*15,'包含 second 文本的 li 节点','-'*15)
li = doc('li:contains(second)')
print(li)

--------------- 选择第一个 li 节点 ---------------
<li class="item-0">first item</li>
             
--------------- 最后一个 li 节点 ---------------
<li class="item-0"><a href="link5.html">fifth item</a></li>
         
--------------- 第二个 li 节点 ---------------
<li class="item-1"><a href="link2.html">second item</a></li>
             
--------------- 第三个 li 之后的 li 节点 ---------------
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         
--------------- 偶数位置的 li 节点 ---------------
<li class="item-1"><a href="link2.html">second item</a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             
--------------- 包含 second 文本的 li 节点 ---------------
<li class="item-1"><a href="link2.html">second item</a></li>
             


# 数据存储

用解析器解析出数据之后，接下来的一步就是对数据进行存储了，保存的形式可以多种多样，最简单的形式可以直接保存为文本文件，如 TXT、Json、CSV 等等，另外还可以保存到数据库中，如关系型数据库 MySQL，非关系型数据库 MongoDB、Redis 等等。那么本章我们就来统一了解一下数据的保存方式。

## 文件存储

文件存储形式可以是多种多样的，比如可以保存成 TXT 纯文本形式，也可以保存为 Json 格式、CSV 格式等，本节我们来了解下文本文件的存储方式。

### TXT文本存储

将数据保存到 TXT 文本的操作非常简单，而且 TXT 文本几乎兼容任何平台，但是有个缺点就是不利于检索，所以如果对检索和数据结构要求不高，追求方便第一的话，可以采用 TXT 文本存储，本节我们来看下利用 Python 保存 TXT 文本文件的方法。

案例为保存知乎发现页面的热门问题部分，将其问题和答案统一保存成文本形式。

In [5]:
import requests
from pyquery import PyQuery as pq

def zhihu(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
    }

    html = requests.get(url,headers=headers).text
    doc = pq(html)
    items = doc('.explore-feed.feed-item').items()
    for item in items:
        question = item.find('h2').text()
        author = item.find('.author-link-line').text()
        answer = pq(item.find('.content').html()).text() 
        with open('zhihu_explore.txt','a',encoding='utf-8') as f:
            f.write('\n'.join([question,author,answer]))
            f.write('\n'+'='*50+'\n')
    print('The end')
        
url = 'https://zhihu.com/explore'
zhihu(url)

The end


`answer = pq(item.find('.content').html()).text() `

item.find('.content') 是包含html格式字符串的<class 'pyquery.pyquery.PyQuery'>类型

先用 html()获取节点内部的 HTML 文本，即字符串类型

再用 pq() 转化成 <class 'pyquery.pyquery.PyQuery'>类型，最后用text()方法导出文本

#### 文件打开方式

关于文件打开方式，其实还有另外的几种，在此列举如下：

r，以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。

rb，以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。

r+，打开一个文件用于读写。文件指针将会放在文件的开头。

rb+，以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。

w，打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

wb ，以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

w+， 打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

wb+，以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

a，打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。 ab 以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

a+，打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。

ab+，以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

## JSON文件存储

### 对象和数组

在 JavaScript 语言中，一切都是对象。因此，任何支持的类型都可以通过 Json 来表示，例如字符串、数字、对象、数组等。但是对象和数组是比较特殊且常用的两种类型。

- 对象，对象在 JavaScript 中是使用花括号 {} 包裹起来的内容，数据结构为 {key1：value1, key2：value2, ...} 的键值对结构。在面向对象的语言中，key 为对象的属性，value 为对应的值。键名可以使用整数和字符串来表示。值的类型可以是任意类型。

- 数组，数组在 JavaScript 中是方括号 [] 包裹起来的内容，数据结构为 ["java", "javascript", "vb", ...] 的索引结构。在 JavaScript 中，数组是一种比较特殊的数据类型，它也可以像对象那样使用键值对，但还是索引使用得多。同样，值的类型可以是任意类型。

所以一个 Json 对象可以写为如下形式：

`
[{
    "name": "Bob",
    "gender": "male",
    "birthday": "1992-10-18"
}, {
     "name": "Selina",
    "gender": "female",
    "birthday": "1995-10-18"
}]
`

由中括号包围的就相当于列表类型，列表的每个元素可以是任意类型，在示例中它是字典类型，由大括号包围。

Json 可以由以上两种形式自由组合而成，可以无限次嵌套，结构清晰，是数据交换的极佳方式。

### 读取Json

Python 为我们提供了简单易用的 json 库来供我们实现 Json 文件的读写操作

**loads() 方法 ** 将 Json 文本字符串转为 Json 对象

**dumps()方法** 将 Json 对象转为文本字符串。

例如在这里有一段 Json 形式的字符串，它是 str 类型，我们用 Python 将可其转换为可操作的数据结构，如列表或字典。

In [6]:
import json

str = '''
[{
    "name": "Bob",
    "gender": "male",
    "birthday": "1992-10-18"
}, {
    "name": "Selina",
    "gender": "female",
    "birthday": "1995-10-18"
}]
'''

print(type(str))
data = json.loads(str)
print(data)
print(type(data))

<class 'str'>
[{'name': 'Bob', 'gender': 'male', 'birthday': '1992-10-18'}, {'name': 'Selina', 'gender': 'female', 'birthday': '1995-10-18'}]
<class 'list'>


在这里我们使用了 loads() 方法将字符串转为 Json 对象，由于最外层是中括号，所以最终的类型是列表类型。

这样一来我们就可以用索引来取到对应的内容了，例如我们想取第一个元素里的 name 属性，就可以使用如下方式获取：

In [7]:
print(data[0]['name'])
print(data[0].get('name'))

Bob
Bob


通过中括号加 0 索引我们可以拿到第一个字典元素，然后再调用其键名即可得到相应的键值。

在获取键值的时候有两种方式，一种是**中括号加键名**，另一种是 **get() 方法传入键名**。

推荐使用 get() 方法来获取内容，这样如果键名不存在的话不会报错，会返回None。另外 get() 方法还可以传入第二个参数即默认值，我们用一个示例感受一下：

In [12]:
print(data[0].get('age'))
print(data[0].get('age',25))
print(data[0]['age'])

None
25


KeyError: 'age'

值得注意的是 **Json 的数据需要用双引号来包围，不能使用单引号**。例如若使用如下形式表示则会出现错误：

In [14]:
import json

str = '''
[{
    'name': 'Bob',
    'gender': 'male',
    'birthday': '1992-10-18'
}]
'''

data = json.loads(str)

JSONDecodeError: Expecting property name enclosed in double quotes: line 3 column 5 (char 8)

在这里会出现 Json 解析错误的提示，是因为在这里数据用了单括号来包围，请千万注意 Json 字符串的表示需要用双引号，否则 loads() 方法会解析失败。


假设在这里有一个data.json 文本文件，其内容是刚才我们所定义的 Json 字符串。

我们可以先将文本文件内容读出，然后再利用 loads() 方法转化。

```
import json

with open('data.json','r') as file:
    content = file.read()
    data = json.loads(content)
    print(data)
```

### 输出Json

调用 dumps() 方法来将 Json 对象转化为字符串

想保存 Json 的格式，可以再加一个参数 indent，代表缩进字符个数。

想保存 Json 中包含中文字符，中文字符会变成 Unicode 字符，为了写入和输出中文，除了 encoding='utf-8',我们还需要指定参数 ensure_ascii 为 False，另外规定文件输出的编码。

In [27]:
import json

data = [{
    'name': 'Bob',
    'gender': 'male',
    'birthday': '1992-10-18'
}]

print('----------写入 data.json 文件------------')

with open('data.json','w') as file:
    file.write(json.dumps(data))
    print('Writing Done!')

print('----------打开 data.json 文件------------')
with open('data.json','r') as file:
    content = file.read()
    data = json.loads(content)
    print(data)
    

print('----------写入带格式 data.json 文件------------')

with open('data_format.json','w') as file:
    file.write(json.dumps(data,indent=2))
    print('Writing Done!')


'''
带格式写入结果如下

[
  {
    "name": "Bob",
    "gender": "male",
    "birthday": "1992-10-18"
  }
]

'''    
    
    
print('----------写入带中文的 data.json 文件------------')

data_ch = [{
    'name': '王伟',
    'gender': '男',
    'birthday': '1992-10-18'
}]

with open('data_ch.json','w') as file:
    file.write(json.dumps(data_ch,indent=2))
    print('Writing Done!')
    

'''
带中文写入结果如下

[
  {
    "name": "\u738b\u4f1f",
    "gender": "\u7537",
    "birthday": "1992-10-18"
  }
]
'''

print('中文字符都变成了 Unicode 字符')


print('----------写入带中文的 data.json 文件------------')

with open('data_ch_ascii.json','w',encoding='utf-8') as file:
    file.write(json.dumps(data_ch,indent=2,ensure_ascii=False))
    print('Writing Done!')

----------写入 data.json 文件------------
Writing Done!
----------打开 data.json 文件------------
[{'name': 'Bob', 'gender': 'male', 'birthday': '1992-10-18'}]
----------写入带格式 data.json 文件------------
Writing Done!
----------写入带中文的 data.json 文件------------
Writing Done!
中文字符都变成了 Unicode 字符
----------写入带中文的 data.json 文件------------
Writing Done!


### CSV文件存储

CSV，全称叫做 Comma-Separated Values，中文可以叫做逗号分隔值或字符分隔值，其文件以纯文本形式存储表格数据。该文件是一个字符序列，可以由任意数目的记录组成，记录间以某种换行符分隔，每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符，不过所有记录都有完全相同的字段序列，相当于一个结构化表的纯文本形式，它相比 Excel 文件更加简介，XLS 文本是电子表格，它包含了文本、数值、公式和格式等内容，而 CSV 中不包含这些内容，就是特定字符分隔的纯文本，结构简单清晰。

#### writerow() 方法 单行写入

首先打开了一个 data.csv 文件，然后指定了打开的模式为 w，即写入，获得文件句柄，随后调用 csv 库的 writer() 方法初始化一个写入对象，传入该句柄，然后调用 **writerow()** 方法传入每行的数据即可完成写入。

In [8]:
import csv

with open('data.csv','w') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id','name','age'])
    writer.writerow(['10001','Mike',20])
    writer.writerow(['10002','Bob',22])
    writer.writerow(['10003','Jordan',21])
print('Writing Done!')

Writing Done!


上述结果每行之间都会产生空行，解决方法：在open()内增加一个参数newline='' 即可

In [13]:
import csv

with open('data_nonewline.csv','w',newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id','name','age'])
    writer.writerow(['10001','Mike',20])
    writer.writerow(['10002','Bob',22])
    writer.writerow(['10003','Jordan',21])
print('Writing Done!')

Writing Done!


直接文本形式打开的话内容如下：

`
id,name,age
10001,Mike,20
10002,Bob,22
10003,Jordan,21
`

可以看到写入的文本默认是以逗号分隔的，如果我们想修改列与列之间的分隔符可以传入 delimiter 参数

In [10]:
import csv

with open('data_delimiter.csv', 'w',newline='') as csvfile:
    writer = csv.writer(csvfile, delimiter=' ')
    writer.writerow(['id', 'name', 'age'])
    writer.writerow(['10001', 'Mike', 20])
    writer.writerow(['10002', 'Bob', 22])
    writer.writerow(['10003', 'Jordan', 21])
print('Writing Done!')

Writing Done!


这里在初始化写入对象的时候传入 delimiter 为空格，这样输出的结果的每一列就是以空格分隔的了，内容如下：

`
id name age
10001 Mike 20
10002 Bob 22
10003 Jordan 21
`

#### **writerows()** 方法多行写入
此时参数就需要为二维列表

In [11]:
import csv

with open('data_lines.csv', 'w',newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['id', 'name', 'age'])
    writer.writerows([['10001', 'Mike', 20], ['10002', 'Bob', 22], ['10003', 'Jordan', 21]])
print('Writing Done!')

Writing Done!


#### 字典写入

fieldnames 定义字段列表

DictWriter 初始化一个字典写入对象

writeheader() 方法写入头信息

writerow() 方法传入相应字典即可

In [12]:
import csv

with open('data_dict.csv', 'w',newline='') as csvfile:
    fieldnames = ['id', 'name', 'age']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'id': '10001', 'name': 'Mike', 'age': 20})
    writer.writerow({'id': '10002', 'name': 'Bob', 'age': 22})
    writer.writerow({'id': '10003', 'name': 'Jordan', 'age': 21})
print('Writing Done!')

Writing Done!


#### 中文写入 encoding='utf-8'

想追加写入的话可以修改文件的打开模式，如将 open() 函数的第二个参数改成 a 就可以变成追加写入

写入中文内容的话可能会遇到字符编码的问题，此时我们需要给 open() 参数指定一个编码格式，比如这里再写入一行包含中文的数据

In [14]:
import csv

with open('data_nonewline.csv', 'a', encoding='utf-8',newline='') as csvfile:
    fieldnames = ['id', 'name', 'age']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writerow({'id': '10005', 'name': '王伟', 'age': 22})
print('Writing Done!')

Writing Done!


#### 读取

In [18]:
import csv

with open('data_nonewline.csv', 'r', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(row)

['id', 'name', 'age']
['10001', 'Mike', '20']
['10002', 'Bob', '22']
['10003', 'Jordan', '21']
['10005', '王伟', '22']


里我们构造的是 Reader 对象，通过遍历输出了每行的内容，每一行都是一个列表形式，注意在这里如果 CSV 文件中包含中文的话需要指定文件编码。


#### Pandas read_csv() 方法 读取CSV
如果我们接触过 Pandas 的话，可以利用 read_csv() 方法将数据从 CSV 中读取出来。在做数据分析的时候此种方法用的比较多，也是一种比较方便的读取 CSV 文件的方法。

In [19]:
import pandas  as pd

df = pd.read_csv('data_nonewline.csv')
print(df)

      id    name  age
0  10001    Mike   20
1  10002     Bob   22
2  10003  Jordan   21
3  10005      王伟   22


### 关系型数据库存储

在 Python2 中，连接 MySQL 的库大多是使用 MySQLDB，但是此库官方并不支持 Python3，所以在这里推荐使用的库是 PyMySQL。

本节来讲解一下 PyMySQL 操作 MySQL 数据库的方法。

#### PyMySQL 连接数据库 创建数据库

In [11]:
import pymysql

# 用pymysql的 connect() 方法连接mysql对象，传入参数 host,user,password,port
db = pymysql.connect(host='localhost',user='root', password='1234567890', port=3306)
# 用 cursor() 方法获得Mysql操作游标
cursor = db.cursor()
# 利用游标执行 SQL 语句
cursor.execute('SELECT VERSION()')
# fetchone() 方法获得第一条数据 
data = cursor.fetchone()
print('Database version:', data)

# 利用游标执行 SQL 语句，删除数据库 spiders
cursor.execute("DROP DATABASE spiders")

# 利用游标执行 SQL 语句，创建数据库 spiders,默认编码为 utf-8
cursor.execute("CREATE DATABASE spiders DEFAULT CHARACTER SET UTF8MB4")
# 关闭数据库连接
db.close()

Database version: ('8.0.12',)


通过 PyMySQL 的 connect() 方法声明了一个 MySQL 连接对象，需要传入 MySQL 运行的 host 即 IP，此处由于 MySQL 在本地运行，所以传入的是 localhost，如果 MySQL 在远程运行，则传入其公网 IP 地址，然后后续的参数 user 即用户名，password 即密码，port 即端口默认 3306。

连接成功之后，我们需要再调用 cursor() 方法获得 MySQL 的操作游标，利用游标来执行 SQL 语句，例如在这里我们执行了两句 SQL，用 execute() 方法执行相应的 SQL 语句即可，第一句 SQL 是获得 MySQL 当前版本，然后调用fetchone() 方法来获得第一条数据，也就得到了版本号，另外我们还执行了创建数据库的操作，数据库名称叫做 spiders，默认编码为 utf-8，由于该语句不是查询语句，所以直接执行后我们就成功创建了一个数据库 spiders，接着我们再利用这个数据库进行后续的操作。

#### 创建表 

一般来说上面的创建数据库操作我们只需要执行一次就好了，当然我们也可以手动来创建数据库，以后我们的操作都是在此数据库上操作的，所以后文介绍的 MySQL 连接会直接指定当前数据库 spiders，所有操作都是在 spiders 数据库内执行的。

所以这里MySQL的连接就需要额外指定一个参数 db。

然后接下来我们新创建一个数据表，执行创建表的 SQL 语句即可，创建一个用户表 students，在这里指定三个字段，结构如下：

| 字段名 | 含义 | 类型 |
| ------ | ------ | ------ |
| id | 学号 | varchar |
| name | 姓名 | varchar |
| age | 年龄 | int |


In [12]:
import pymysql

# 打开数据库连接
db = pymysql.connect(host='localhost', user='root', password='1234567890', port=3306, db='spiders')
# 使用 cursor()方法创建一个游标对象 cursor
cursor = db.cursor()
# 创建表的SQL语句 如果表不存在则创建
sql = 'CREATE TABLE IF NOT EXISTS students (id VARCHAR(255) NOT NULL, name VARCHAR(255) NOT NULL, age INT NOT NULL, PRIMARY KEY (id))'
# 使用 execute()执行SQL 
cursor.execute(sql)
print('table students has been created')
# 关闭数据库连接
db.close()

table students has been created


#### 插入数据

我们将数据解析出来后的下一步就是向数据库中插入数据了，例如在这里我们爬取了一个的学生信息，学号为 20120001，名字为 Bob，年龄为 20，那么如何将该条数据插入数据库呢，实例代码如下：

In [13]:
import pymysql

id = '20120001'
user = 'Bob'
age = 20

# 打开数据库连接
db = pymysql.connect(host='localhost', user='root', password='1234567890', port=3306, db='spiders')
# 使用cursor()方法获取操作游标 
cursor = db.cursor()
# SQL 插入语句
sql = 'INSERT INTO students(id, name, age) values(%s, %s, %s)'
try:
     # 执行sql语句
    cursor.execute(sql, (id, user, age))
    # 真正将语句提交到数据库执行
    db.commit()
    print('已执行')
except:
    # 如果发生错误则回滚
    print('发生错误')
    db.rollback()
    
# 关闭数据库连接
db.close()

已执行


在这里我们首先构造了一个 SQL 语句，其 Value 值我们没有用字符串拼接的方式来构造，如：

`sql = 'INSERT INTO students(id, name, age) values(' + id + ', ' + name + ', ' + age + ')'`

这样的写法繁琐而且不直观，所以我们选择直接用格式化符 %s 来实现，有几个 Value 写几个 %s，我们只需要在 execute() 方法的第一个参数传入该 SQL 语句，Value 值用统一的元组传过来就好了。

这样的写法有既可以避免字符串拼接的麻烦，又可以避免引号冲突的问题。

之后值得注意的是，需要执行 db 对象的 **commit() 方法**才可实现数据插入，这个方法才是真正将语句提交到数据库执行的方法，对于**数据插入、更新、删除操作**都需要调用该方法才能生效。

接下来我们加了一层异常处理，如果执行失败，则调用**rollback() 执行数据回滚**，相当于什么都没有发生过一样。

在这里就涉及一个事务的问题，事务机制可以确保数据的一致性，也就是这件事要么发生了，要么没有发生，比如插入一条数据，不会存在插入一半的情况，要么全部插入，要么整个一条都不插入，这就是事务的原子性，另外事务还有另外三个属性，一致性、隔离性、持久性，通常成为 ACID 特性。

归纳如下：

| 属性 | 解释 | 
| - | - |
| 原子性（atomicity）| 一个事务是一个不可分割的工作单位，事务中包括的诸操作要么都做，要么都不做。| 
| 一致性（consistency）| 事务必须是使数据库从一个一致性状态变到另一个一致性状态。一致性与原子性是密切相关的。|
| 隔离性（isolation）| 一个事务的执行不能被其他事务干扰。即一个事务内部的操作及使用的数据对并发的其他事务是隔离的，并发执行的各个事务之间不能互相干扰。| 
| 持久性（durability）| 持续性也称永久性（permanence），指一个事务一旦提交，它对数据库中数据的改变就应该是永久性的。接下来的其他操作或故障不应该对其有任何影响。| 

插入、更新、删除操作都是对数据库进行更改的操作，更改操作都必须为一个事务，所以对于这些操作的标准写法就是：

```
try:
    cursor.execute(sql)
    db.commit()
except:
    db.rollback()
```  
    
这样我们便可以保证数据的一致性，在这里的 commit() 和 rollback() 方法就是为事务的实现提供了支持。


#### 动态插入数据

在上面我们了解了数据插入的操作，是通过构造一个 SQL 语句来实现的，但是很明显，这里有一个及其不方便的地方，比如又加了一个性别 gender，假如突然增加了一个字段，那么我们构造的 SQL 语句就需要改成：

`INSERT INTO students(id, name, age, gender) values(%s, %s, %s, %s)`

相应的元组参数则需要改成：

`(id, name, age, gender)`

这显然不是我们想要的，在很多情况下，我们要达到的效果是插入方法无需改动，做成一个通用方法，只需要传入一个动态变化的字典给就好了。比如我们构造这样一个字典：

```
{
    'id': '20120001',
    'name': 'Bob',
    'age': 20
}
```

然后 SQL 语句会根据字典动态构造，元组也动态构造，这样才能实现通用的插入方法。所以在这里我们需要将插入方法改写一下：

In [16]:
import pymysql

data = {
    'id': '20120033',
    'name': 'Bob',
    'age': 28
}

# 打开数据库连接
db = pymysql.connect(host='localhost', user='root', password='1234567890', port=3306, db='spiders')
# 使用cursor()方法获取操作游标 
cursor = db.cursor()
# SQL 插入语句
table = 'students'
keys = ','.join(data.keys())
values = tuple(data.values())

sql = 'INSERT INTO {table}({keys}) values{values}'.format(table=table,keys=keys,values=values)

try:
     # 执行sql语句
    if cursor.execute(sql):
        print('Successful')
        # 提交到数据库执行
        db.commit()
except:
    # 如果发生错误则回滚
    print('Failed')
    db.rollback()
    
# 关闭数据库连接
db.close()

Successful


In [14]:
#分解

data = {
    'id': '20120033',
    'name': 'Bob',
    'age': 28
}

table = 'students'
keys = ','.join(data.keys())
values = ','.join('%'*len(data))
# values = tuple(data.values())

sql = 'INSERT INTO {table}({keys}) values({values})'.format(table=table,keys=keys,values=values)
print(sql)

INSERT INTO students(id,name,age) values(%,%,%)


In [15]:
#分解

data = {
    'id': '20120033',
    'name': 'Bob',
    'age': 28
}

table = 'students'
keys = ','.join(data.keys())
values = tuple(data.values())

sql1 = 'INSERT INTO {table}({keys}) values{values}'.format(table=table,keys=keys,values=values)
print(sql1)

INSERT INTO students(id,name,age) values('20120033', 'Bob', 28)


在这里我们传入的数据是字典的形式，定义为 data 变量，表名也定义成变量 table。接下来我们就需要构造一个动态的 SQL 语句了。

首先我们需要构造插入的字段，id、name 和 age，在这里只需要将data的键名拿过来，然后用逗号分隔即可。所以 ', '.join(data.keys()) 的结果就是 id, name, age，然后我们需要构造多个 %s 当作占位符，有几个字段构造几个，比如在这里有两个字段，就需要构造 %s, %s, %s ，所以在这里首先定义了长度为 1 的数组 ['%s'] ，然后用乘法将其扩充为 ['%s', '%s', '%s']，再调用 join() 方法，最终变成 %s, %s, %s。所以我们再利用字符串的 format() 方法将表名，字段名，占位符构造出来，最终sql语句就被动态构造成了：

`INSERT INTO students(id, name, age) VALUES (%s, %s, %s)`

最后再 execute() 方法的第一个参数传入 sql 变量，第二个参数传入 data 的键值构造的元组，就可以成功插入数据了。

如此以来，我们便实现了传入一个字典来插入数据的方法，不需要再去修改 SQL 语句和插入操作了。

#### 更新数据

数据更新操作实际上也是执行 SQL 语句，最简单的方式就是构造一个 SQL 语句然后执行：

In [19]:
import pymysql


# 打开数据库连接
db = pymysql.connect(host='localhost', user='root', password='1234567890', port=3306, db='spiders')
# 使用cursor()方法获取操作游标 
cursor = db.cursor()

sql = 'UPDATE students SET age = %s WHERE name = %s'
try:
    cursor.execute(sql, (25, 'Bob'))
    print('Successful')
    db.commit()
except:
    print('Failed')
    db.rollback()
db.close()

Successful


如果要做简单的数据更新的话，使用此方法是完全可以的。

#### 动态更新、插入数据 

但是在实际数据抓取过程中，在大部分情况下是需要插入数据的，但是我们关心的是会不会出现重复数据，如果出现了重复数据，我们更希望的做法一般是更新数据而不是重复保存一次，另外就是像上文所说的动态构造 SQL 的问题，所以在这里我们在这里重新实现一种可以做到去重的做法，如果重复则更新数据，如果数据不存在则插入数据，另外支持灵活的字典传值。

In [28]:
import pymysql


# 打开数据库连接
db = pymysql.connect(host='localhost', user='root', password='1234567890', port=3306, db='spiders')
# 使用cursor()方法获取操作游标 
cursor = db.cursor()

data = {
    'id': '20120001',
    'name': 'Bob',
    'age': 21
}

table = 'students'
keys = ', '.join(data.keys())
values = ', '.join(['%s'] * len(data))

sql = 'INSERT INTO {table}({keys}) VALUES ({values}) ON DUPLICATE KEY UPDATE'.format(table=table, keys=keys, values=values)
update = ','.join([" {key} = %s".format(key=key) for key in data])
sql += update
try:
    if cursor.execute(sql, tuple(data.values())*2):
        print('Successful')
        db.commit()
except:
    print('Failed')
    db.rollback()
db.close()

Successful


在这里构造的 SQL 语句其实是插入语句，但是在后面加了**ON DUPLICATE KEY UPDATE**，这个的意思是如果主键已经存在了，那就执行更新操作，比如在这里我们传入的数据 id 仍然为 20120001，但是年龄有所变化，由 20 变成了 21，但在这条数据不会被插入，而是将 id 为 20120001 的数据更新。

In [27]:
# 分解

data = {
    'id':'2012001',
    'name':'Bob',
    'age':21,
    'gender':'F',
}


table = 'students'
keys = ','.join(data.keys())
values = tuple(data.values())

sql = 'INSERT INTO {table}({keys}) VALUES {values} ON DUPLICATE KEY UPDATE'.format(table=table, keys=keys, values=values)
update = ','.join([' {} = %s'.format(key) for key in data])
sql += update
print(sql)

INSERT INTO students(id,name,age,gender) VALUES ('2012001', 'Bob', 21, 'F') ON DUPLICATE KEY UPDATE id = %s, name = %s, age = %s, gender = %s


相比上面介绍的插入操作的 SQL，后面多了一部分内容，那就是更新的字段，ON DUPLICATE KEY UPDATE 使得主键已存在的数据进行更新，后面跟的是更新的字段内容。所以这里就变成了 6 个 %s。所以在后面的 execute() 方法的第二个参数元组就需要乘以 2 变成原来的 2 倍。

如此一来，我们就可以实现主键不存在便插入数据，存在则更新数据的功能了。

#### 删除数据

删除操作相对简单，使用 DELETE 语句即可，需要指定要删除的目标表名和删除条件，而且仍然需要使用 db 的 commit() 方法才能生效，实例如下：

In [None]:
table = 'students'
condition = 'age > 20'

sql = 'DELETE FROM {table} WHERE {condition}'.format(table=table, condition=condition)
try:
    cursor.execute(sql)
    db.commit()
except:
    db.rollback()
db.close()

在这里我们指定了表的名称，删除条件。因为删除条件可能会有多种多样，运算符比如有大于、小于、等于、LIKE等等，条件连接符比如有 AND、OR 等等，所以不再继续构造复杂的判断条件，在这里直接将条件当作字符串来传递，以实现删除操作。

#### 查询数据

说完插入、修改、删除等操作，还剩下非常重要的一个操作，那就是查询。

在这里查询用到 SELECT 语句，我们先用一个实例来感受一下：

In [30]:
import pymysql


# 打开数据库连接
db = pymysql.connect(host='localhost', user='root', password='1234567890', port=3306, db='spiders')
# 使用cursor()方法获取操作游标 
cursor = db.cursor()

sql = "SELECT * FROM students WHERE age >= 20"

try:
    cursor.execute(sql)
    print('Count:', cursor.rowcount)
    one = cursor.fetchone()
    print('One:',one)
    results = cursor.fetchall()
    print('Results:', results)
    print('Reuslts Type:',type(results))
    for row in results:
        print(row)
except:
    print('Error')

Count: 2
One: ('20120001', 'Bob', 21)
Results: (('20120033', 'Bob', 25),)
Reuslts Type: <class 'tuple'>
('20120033', 'Bob', 25)


注意在这里不再需要 db 的 commit() 方法

**fetchone() 方法**，这个方法可以获取结果的第一条数据，返回结果是元组形式，元组的元素顺序跟字段一一对应，也就是第一个元素就是第一个字段 id，第二个元素就是第二个字段 name，以此类推。

**fetchall() 方法**，它可以得到结果的所有数据，然后将其结果和类型打印出来，它是二重元组，每个元素都是一条记录。我们将其遍历输出，将其逐个输出出来。

但是这里注意到一个问题，显示的是2条数据，fetall() 方法不是获取所有数据吗？为什么只有1条？

这是因为它的内部实现是有一个**偏移指针**来指向查询结果的，最开始偏移指针指向第一条数据，取一次之后，指针偏移到下一条数据，这样再取的话就会取到下一条数据了。所以我们最初调用了一次 fetchone() 方法，这样结果的偏移指针就指向了下一条数据，fetchall() 方法返回的是偏移指针指向的数据一直到结束的所有数据，所以 fetchall() 方法获取的结果就只剩 3 个了，所以在这里要理解偏移指针的概念。

所以我们还可以用 **while 循环加 fetchone() 的方法**来获取所有数据，而不是用 fetchall() 全部一起获取出来，fetchall() 会将结果以元组形式全部返回，如果数据量很大，那么占用的开销会非常高。所以推荐使用如下的方法来逐条取数据：

这样每循环一次，指针就会偏移一条数据，随用随取，简单高效。

In [31]:
import pymysql


# 打开数据库连接
db = pymysql.connect(host='localhost', user='root', password='1234567890', port=3306, db='spiders')
# 使用cursor()方法获取操作游标 
cursor = db.cursor()

sql = "SELECT * FROM students WHERE age >= 20"
try:
    cursor.execute(sql)
    print('Count:',cursor.rowcount)
    row = cursor.fetchone()
    while row:
        print('Row:', row)
        row = cursor.fetchone()
except:
    print('Error')

Count: 2
Row: ('20120001', 'Bob', 21)
Row: ('20120033', 'Bob', 25)


### 非关系型数据库存储

NoSQL，全称 Not Only SQL，意为不仅仅是 SQL，泛指非关系型的数据库。NoSQL 是基于键值对的，而且不需要经过 SQL 层的解析，数据之间没有耦合性，性能非常高。

非关系型数据库又可以细分如下：

- 键值存储数据库，代表有 Redis, Voldemort, Oracle BDB 等。
- 列存储数据库，代表有 Cassandra, HBase, Riak 等。
- 文档型数据库，代表有 CouchDB, MongoDB 等。
- 图形数据库，代表有 Neo4J, InfoGrid, Infinite Graph等。

对于爬虫的数据存储来说，一条数据可能存在某些字段提取失败而缺失的情况，而且数据可能随时调整，另外数据之间能还存在嵌套关系。如果我们使用了关系型数据库存储，一是需要提前建表，二是如果存在数据嵌套关系的话需要进行序列化操作才可以存储，比较不方便。如果用了非关系数据库就可以避免一些麻烦，简单高效。

本节我们主要介绍一下 MongoDB 和 Redis 的数据存储操作。

**MongoDB 存储**


#### PyMongo 连接MongoDB

连接 MongoDB 我们需要使用 PyMongo 库里面的 MongoClient，一般来说传入 MongoDB 的 IP 及端口即可，第一个参数为地址 host，第二个参数为端口 port，端口如果不传默认是 27017。

In [33]:
import pymongo

client = pymongo.MongoClient(host='localhost', port=27017)

这样我们就可以创建一个 MongoDB 的连接对象了。

另外 MongoClient 的第一个参数 host 还可以直接传MongoDB 的连接字符串，以 mongodb 开头，例如：

`client = MongoClient('mongodb://localhost:27017/')`

可以达到同样的连接效果。

####  指定数据库

MongoDB 中还分为一个个数据库，我们接下来的一步就是指定要操作哪个数据库，在这里我以 test 数据库为例进行说明，所以下一步我们需要在程序中指定要使用的数据库。

In [34]:
db = client.test

调用 client 的 test 属性即可返回 test 数据库，当然也可以这样来指定：

`db = client['test']`

两种方式是等价的。

#### 指定集合

MongoDB 的每个数据库又包含了许多集合 Collection，也就类似与关系型数据库中的表，下一步我们需要指定要操作的集合，在这里我们指定一个集合名称为 students，学生集合，还是和指定数据库类似，指定集合也有两种方式：

In [35]:
collection = db.students

`collection = db['students']`

这样我们便声明了一个 Collection 对象。

####  插入数据

**insert() 方法**

接下来我们便可以进行数据插入了，对于 students 这个Collection，我们新建一条学生数据，以字典的形式表示

在这里我们指定了学生的学号、姓名、年龄和性别，然后接下来直接调用 collection 的 insert() 方法即可插入数据，代码如下：

在 MongoDB 中，每条数据其实都有一个 _id 属性来唯一标识，如果没有显式指明 _id，MongoDB 会自动产生一个 ObjectId 类型的 _id 属性。insert() 方法会在执行后返回的 _id 值。

In [39]:
student = {
    'id': '20170101',
    'name': 'Jordan',
    'age': 20,
    'gender': 'male'
}

result = collection.insert(student)
print(result)

5c3d532c231ae31c98fafa5c


  


同时插入多条数据，只需要以列表形式传递即可

In [40]:
student1 = {
    'id': '20170101',
    'name': 'Jordan',
    'age': 20,
    'gender': 'male'
}

student2 = {
    'id': '20170202',
    'name': 'Mike',
    'age': 21,
    'gender': 'male'
}

result = collection.insert([student1, student2])
print(result)

[ObjectId('5c3d537f231ae31c98fafa5d'), ObjectId('5c3d537f231ae31c98fafa5e')]


  from ipykernel import kernelapp as app


**insert_one() 和 insert_many() 方法**

实际上在 PyMongo 3.X 版本中，insert() 方法官方已经不推荐使用了，当然继续使用也没有什么问题，官方推荐使用 **insert_one() 和 insert_many() 方法**将插入单条和多条记录分开。

In [41]:
student = {
    'id': '20170101',
    'name': 'Jordan',
    'age': 20,
    'gender': 'male'
}

result = collection.insert_one(student)
print(result)
print(result.inserted_id)

<pymongo.results.InsertOneResult object at 0x00FBF3A0>
5c3d53bd231ae31c98fafa5f


返回结果和 insert() 方法不同，这次返回的是InsertOneResult 对象，我们可以调用其 inserted_id 属性获取 _id。
对于 insert_many() 方法，我们可以将数据以列表形式传递即可

In [42]:
student1 = {
    'id': '20170101',
    'name': 'Jordan',
    'age': 20,
    'gender': 'male'
}

student2 = {
    'id': '20170202',
    'name': 'Mike',
    'age': 21,
    'gender': 'male'
}

result = collection.insert_many([student1, student2])
print(result)
print(result.inserted_ids)

<pymongo.results.InsertManyResult object at 0x00FBFD50>
[ObjectId('5c3d53c1231ae31c98fafa60'), ObjectId('5c3d53c1231ae31c98fafa61')]


insert_many() 方法返回的类型是 InsertManyResult，调用inserted_ids 属性可以获取插入数据的 _id 列表。

#### 查询

**find_one() 或 find() 方法**

插入数据后我们可以利用 find_one() 或 find() 方法进行查询，find_one() 查询得到是单个结果，find() 则返回一个生成器对象。

In [43]:
result = collection.find_one({'name':'Mike'})
print(type(result))
print(result)

<class 'dict'>
{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}


可以发现它多了一个 _id 属性，这就是 MongoDB 在插入的过程中自动添加的。

我们也可以直接根据 ObjectId 来查询，这里需要使用 bson 库里面的 ObjectId。

In [44]:
from bson.objectid import ObjectId

result = collection.find_one({'_id': ObjectId('5c3d537f231ae31c98fafa5e')})
print(result)

{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}


其查询结果依然是字典类型。当然如果查询结果不存在则会返回 None。

对于多条数据的查询，我们可以使用 find() 方法，例如在这里查找年龄为 21 的数据，示例如下：

In [47]:
results = collection.find({'age':21})
print(results)
for result in results:
    print(result)

<pymongo.cursor.Cursor object at 0x01251590>
{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa61'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}


返回结果是 Cursor 类型，相当于一个生成器，我们需要遍历取到所有的结果，每一个结果都是字典类型。
如果要查询年龄大于 20 的数据，则写法如下：

在这里查询的条件键值已经不是单纯的数字了，而是一个字典，其键名为比较符号 $gt，意思是大于，键值为 20，这样便可以查询出所有年龄大于 20 的数据。
在这里将比较符号归纳如下表：

| 符号 | 含义 | 示例 | 记忆 |
| - | - | - | - |
| \$lt | 小于 | { 'age': { '\$lt': 20 \} \} |  litte than |
| \$gt | 大于 | { 'age': { '\$gt': 20 \} \} | large than |
| \$lte | 小于等于 | { 'age': { '\$lte': 20 \} \} | litte than equal to|
| \$gte | 大于等于 | { 'age': { '\$gte': 20 \} \} | large than equal to |
| \$ne | 不等于 | { 'age': { '\$ne': 20 \} \} | not equal to |
| \$in | 在范围内 | { 'age': { '\$in': 20 \} \} | in |
| \$nin | 不在范围内 | { 'age': { '\$nin': 20 \} \} | not in |

另外还可以进行正则匹配查询，例如查询名字以 M 开头的学生数据，示例如下：

In [48]:
results = collection.find({'name': {'$regex': '^M.*'}})
for result in results:
    print(result)

{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa61'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}


在这里将一些功能符号再归类如下：

| 符号 | 含义 | 示例 | 示例含义 |
| - | - | - | - |
| \$regex | 匹配正则 | {'name': {'\$regex': '^M.*'}} |  name 以 M开头 |
| \$exists | 属性是否存在 | {'name': {'\$exists': True}} |  name 属性存在 |
| \$type | 类型判断 | {'age': {'\$type': 'int'}} |  age 的类型为 int |
| \$mod | 数字模操作 | {'age': {'\$mod': [5, 0]}} |  年龄模 5 余 0 |
| \$text | 文本查询 | {'\$text': {'$search': 'Mike'\}\} |  text 类型的属性中包含 Mike 字符串 |
| \$where | 高级条件查询 | {'\$where': 'obj.fans_count == obj.follows_count'} |  自身粉丝数等于关注数 |


这些操作的更详细用法在可以在 MongoDB 官方文档找到： https://docs.mongodb.com/manual/reference/operator/query/

#### 计数

**count() 方法**

要统计查询结果有多少条数据，可以调用 count() 方法，如统计所有数据条数,或者统计符合某个条件的数据

结果是一个数值，即符合条件的数据条数。

In [49]:
countall = collection.find().count()
print(countall)

countsome = collection.find({'age':20}).count()
print(countsome)

8
6


  """Entry point for launching an IPython kernel.
  after removing the cwd from sys.path.


#### 排序

**sort() 方法**

可以调用 sort() 方法，传入排序的字段及升降序标志即可

- pymongo.ASCENDING 升序
- pymongo.DESCENDING  降序

In [53]:
results = collection.find().sort('name', pymongo.ASCENDING)
print([result['name'] for result in results])

['Jordan', 'Jordan', 'Jordan', 'Jordan', 'Jordan', 'Jordan', 'Mike', 'Mike']


#### 偏移

**skip() 方法**

在某些情况下我们可能想只取某几个元素，在这里可以利用skip() 方法偏移几个位置，比如偏移 2，就忽略前 2 个元素，得到第三个及以后的元素。

In [54]:
results = collection.find().sort('name',pymongo.ASCENDING).skip(2)
print([result['name'] for result in results])

['Jordan', 'Jordan', 'Jordan', 'Jordan', 'Mike', 'Mike']


**limit() 方法**

另外还可以用 limit() 方法指定要取的结果个数，示例如下：

In [55]:
results = collection.find().sort('name',pymongo.ASCENDING).skip(2).limit(2)
print([result['name'] for result in results])

['Jordan', 'Jordan']


如果不加 limit() 原本会返回6个结果，加了限制之后，会截取 2 个结果返回。

值得注意的是，在数据库数量非常庞大的时候，如千万、亿级别，最好不要使用大的偏移量来查询数据，很可能会导致内存溢出，可以使用类似如下操作来进行查询：

这时记录好上次查询的 _id。

In [62]:
# 查询全部内容
results = collection.find()
for result in results:
    print(result)

# 用 _id 查询
print('--------------')

from bson.objectid import ObjectId
current = collection.find({'_id': {'$gt': ObjectId('5c3d537f231ae31c98fafa5e')}})
for c in current:
    print(c)

{'_id': ObjectId('5c3d52fd231ae31c98fafa5a'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d5321231ae31c98fafa5b'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d532c231ae31c98fafa5c'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d537f231ae31c98fafa5d'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}
{'_id': ObjectId('5c3d53bd231ae31c98fafa5f'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa60'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa61'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}
--------------
{'_id': ObjectId('5c3d53bd231ae31c98fafa5f'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender'

#### 更新

**update() 方法**

对于数据更新可以使用 update() 方法，指定更新的条件和更新后的数据即可

在这里我们将 id 为 20170202 的数据的name进行更新，首先指定查询条件，然后将数据查询出来，修改年龄，之后调用 update() 方法将原条件和修改后的数据传入，即可完成数据的更新。

In [66]:
condition  = {'id': '20170202'}
student = collection.find_one(condition)
student['name'] = 'Kevin'
result = collection.update(condition,student)
print(result)

print(collection.find_one(condition))

{'n': 1, 'nModified': 0, 'ok': 1.0, 'updatedExisting': True}
{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Kevin', 'age': 21, 'gender': 'male'}


  after removing the cwd from sys.path.


返回结果是字典形式，ok 即代表执行成功，nModified 代表影响的数据条数。

**$set 操作符**

另外我们也可以使用 $set 操作符对数据进行更新

`result = collection.update(condition, {'$set': student})`

这样可以只更新 student 字典内存在的字段，如果其原先还有其他字段则不会更新，也不会删除。而如果不用 $set 的话则会把之前的数据全部用 student 字典替换，如果原本存在其他的字段则会被删除。

** update_one() 方法和 update_many() 方法**

另外 update() 方法其实也是官方不推荐使用的方法，在这里也分了 update_one() 方法和 update_many() 方法，用法更加严格，第二个参数需要使用 $ 类型操作符作为字典的键名。


update_one() 方法，第二个参数不能再直接传入修改后的字典，而是需要使用 {'$set': student\} 这样的形式，其返回结果是 UpdateResult 类型.

**matched_count 属性 ** 获得匹配的数据条数

**modified_count 属性** 获得影响的数据条数


In [69]:
condition = {'name':'Kevin'}
student = collection.find_one(condition)
student['age'] = 26
result = collection.update_one(condition,{'$set':student})
print(result)
print(result.matched_count,result.modified_count)

<pymongo.results.UpdateResult object at 0x01352E18>
1 1


**$inc 操作符**

给一个字段增加指定值

在这里我们指定查询条件为年龄大于 20，然后更新条件为 {'$inc': {'age': 1}}，也就是年龄加 1，执行之后会将第一条符合条件的数据年龄加 1。

In [72]:
condition = {'age': {'$gt': 20}}

results = collection.find(condition)
for result in results:
    print(result)

print('-------更新前-------')

result = collection.update_one(condition, {'$inc': {'age': 1}})
print(result)
print(result.matched_count, result.modified_count)

print('-------更新后-------')

results = collection.find(condition)
for result in results:
    print(result)

{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Kevin', 'age': 28, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa61'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}
-------更新前-------
<pymongo.results.UpdateResult object at 0x05DAAC60>
1 1
-------更新后-------
{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Kevin', 'age': 29, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa61'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}


可以看到匹配条数为 1 条，影响条数也为 1 条。

如果调用 update_many() 方法，则会将所有符合条件的数据都更新

#### update_many() 

这时候匹配条数就不再为 1 条了,可以看到这时所有匹配到的数据都会被更新。

In [74]:
condition = {'age': {'$gt': 20}}

results = collection.find(condition)
for result in results:
    print(result)

print('-------更新前-------')

result = collection.update_many(condition, {'$inc': {'age': 1}})
print(result)
print(result.matched_count, result.modified_count)

print('-------更新后-------')

results = collection.find(condition)
for result in results:
    print(result)

{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Kevin', 'age': 30, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa61'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}
-------更新前-------
<pymongo.results.UpdateResult object at 0x01352E18>
2 2
-------更新后-------
{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Kevin', 'age': 31, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa61'), 'id': '20170202', 'name': 'Mike', 'age': 22, 'gender': 'male'}


#### 删除

**remove() 方法**

删除操作比较简单，直接调用 remove() 方法指定删除的条件即可，符合条件的所有数据均会被删除

In [76]:
# 查询全部内容
results = collection.find()
for result in results:
    print(result)

print('-------删除前-------')

result = collection.remove({'name':'Kevin'})
print(result)

{'_id': ObjectId('5c3d52fd231ae31c98fafa5a'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d5321231ae31c98fafa5b'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d532c231ae31c98fafa5c'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d537f231ae31c98fafa5d'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d537f231ae31c98fafa5e'), 'id': '20170202', 'name': 'Kevin', 'age': 31, 'gender': 'male'}
{'_id': ObjectId('5c3d53bd231ae31c98fafa5f'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa60'), 'id': '20170101', 'name': 'Jordan', 'age': 20, 'gender': 'male'}
{'_id': ObjectId('5c3d53c1231ae31c98fafa61'), 'id': '20170202', 'name': 'Mike', 'age': 22, 'gender': 'male'}
-------删除前-------
{'n': 1, 'ok': 1.0}


  


**delete_one() 和 delete_many() 方法**

另外依然存在两个新的推荐方法，delete_one() 和 delete_many() 方法

delete_one() 即删除第一条符合条件的数据

delete_many() 即删除所有符合条件的数据

返回结果是 DeleteResult 类型，可以调用 deleted_count 属性获取删除的数据条数。

In [79]:
result = collection.delete_one({'name': 'Mike'})
print(result)
print(result.deleted_count)

result = collection.delete_many({'name': 'Jordan'})
print(result.deleted_count)

<pymongo.results.DeleteResult object at 0x05DAAC88>
1
0


另外 PyMongo 还提供了一些组合方法，如find_one_and_delete()、find_one_and_replace()、find_one_and_update()，就是查找后删除、替换、更新操作，用法与上述方法基本一致。

另外还可以对索引进行操作，如 create_index()、create_indexes()、drop_index() 等。

详细用法可以参见官方文档：http://api.mongodb.com/python/current/api/pymongo/collection.html。

另外还有对数据库、集合本身以及其他的一些操作，在这不再一一讲解，可以参见官方文档：http://api.mongodb.com/python/current/api/pymongo/。

**Redis 存储**

Redis 是一个基于内存的高效的**键值型非关系型数据库**，存取效率极高，而且支持多种存储数据结构，使用也非常简单，在本节我们介绍一下 Python 的 Redis 操作，主要介绍 **RedisPy** 这个库的用法。


**Redis、StrictRedis**

RedisPy 库提供两个类 Redis 和 StrictRedis 用于实现Redis 的命令操作。
StrictRedis 实现了绝大部分官方的命令，参数也一一对应，比如 set() 方法就对应 Redis 命令的 set 方法。而Redis 是 StrictRedis 的子类，它的主要功能是用于向后兼容旧版本库里的几个方法，为了做兼容，将方法做了改写，比如 lrem() 方法就将 value 和 num 参数的位置互换，和Redis 命令行的命令参数不一致。

官方推荐使用 StrictRedis，所以本节我们也用 StrictRedis类的相关方法作演示

In [1]:
import redis

redis.VERSION

(2, 10, 6)

**连接Redis**

当前在本地我已经安装了 Redis 并运行在 127.0.0.1:6379 端口 。
那么可以用如下示例连接 Redis 并测试：

在这里我们传入了 Redis 的地址，运行端口，使用的数据库，密码信息。在默认不传的情况下，这四个参数分别为 localhost、6379、0、None。现在我们声明了一个StrictRedis 对象，然后接下来调用了 set() 方法，设置一个键值对，然后在将其获取打印。

设置了密码，但是未成功

In [6]:
from redis import StrictRedis

#redis = StrictRedis(host='localhost', port=6379, db=1,password='Test12345678')
redis = StrictRedis(host='localhost', port=6379, db=1)
redis.set('name','Jamie')
print(redis.get('name'))
redis.exists('name')

b'Jamie'


True

这样就说明我们连接成功，并可以执行 set()、get() 操作了。
当然我们还可以使用**ConnectionPool** 来连接，示例如下：(未理解)

In [5]:
from redis import StrictRedis, ConnectionPool

pool = ConnectionPool(host='localhost',port=6379,db=1)
redis = StrictRedis(connection_pool=pool)

这样的连接效果是一样的，观察源码可以发现 StrictRedis内其实就是用 host、port 等参数又构造了一个 ConnectionPool，所以我们直接将 ConnectionPool 当参数传给 StrictRedis 也是一样的。

另外 ConnectionPool 还支持通过 URL 来构建，URL 的格式支持如下三种：

```
redis://[:password]@host:port/db
rediss://[:password]@host:port/db
unix://[:password]@/path/to/socket.sock?db=db
```

这三种 URL 分别表示创建 Redis TCP 连接、Redis TCP+SSL 连接、Redis Unix Socket 连接，我们只需要构造上面任意一种连接 URL 即可，其中 password 部分如果有则可以写，没有可以省略，下面我们再用URL连接演示一下：

```
url = 'redis://:foobared@localhost:6379/0'
pool = ConnectionPool.from_url(url)
redis = StrictRedis(connection_pool=pool)
```

在这里我们使用了第一种连接字符串进行连接，我们首先声明了一个 Redis 连接字符串，然后调用 from_url() 方法创建一个 ConnectionPool，然后将其传给 StrictRedis 即可完成连接，所以使用 URL 的连接方式还是比较方便的。

[Python标准库系列之Redis模块](http://python.jobbole.com/87305/)

**键(Key)操作（键的一些判断和操作方法）**

| 方法 | 作用 | 参数说明 | 示例 | 示例说明 | 示例结果 |
| - | - | - | - | - | - |
| exists(name) | 判断一个key是否存在 | name: key名 |  `redis.exists('name')` | 是否存在name这个key | True |
| delete(name) | 删除一个key | name: key名 |  `redis.delete('name')` | 删除name这个key | 1 |
| type(name) | 判断key类型 | name: key名 |  `redis.type('name')` | 判断name这个key类型 | b'string' |
| keys(pattern) | 获取所有符合规则的key | pattern: 匹配规则 |   `redis.keys('n*')` | 获取所有以n开头的key | [b'name'] |
| randomkey() | 获取随机的一个key |   |  `randomkey()` | 获取随机的一个key | b'name' |
| rename(src, dst) | 将key重命名 | src: 原key名 dst: 新key名 |  `redis.rename('name', 'nickname')` | 将name重命名为nickname | True |
| dbsize() | 获取当前数据库中key的数目 |   |  `dbsize()` | 获取当前数据库中key的数目 | 100 |
| expire(name, time) | 设定key的过期时间，单位秒 | name: key名 time: 秒数 |  `redis.expire('name', 2)` | 将name这key的过期时间设置2秒 | True |
| ttl(name) | 获取key的过期时间，单位秒，-1为永久不过期 | name: key名 |  `redis.ttl('name')` | 获取name这key的过期时间 | -1 |
| move(name, db)| 	将key移动到其他数据库 | name: key名 db: 数据库代号 |  `move('name', 2)` | 将name移动到2号数据库 | True |
| flushdb() | 删除当前选择数据库中的所有key |   |  `flushdb()` | 删除当前选择数据库中的所有key | True |
| flushall()| 删除所有数据库中的所有key |   |  `flushall()` | 删除所有数据库中的所有key	 | True |


**集合(Set)操作**

Redis 还提供了集合存储，集合中的元素都是不重复的。


| 方法 | 作用 | 参数说明 | 示例 | 示例说明 | 示例结果 |
| - | - | - | - | - | - |
| sadd(name,*values) | 向键为 name 的集合中添加元素 | name: 键名；values: 值，可为多个 |  `redis.sadd('tags','Book','Tea','Coffee')` | 向键为 tags 的集合中添加Book,Tea,Coffee 这3个内容 | 3，即插入的数据个数 |
| srem(name,*values)| 向键为 name 的集合中删除元素 | name: 键名；values: 值，可为多个 |  `redis.srem('tags','Book')` | 从键为 tags 的集合中删除Book | 1，即删除的数据个数 |
| spop(name) | 随机返回并删除键为 name 的集合中的一个元素 | name: 键名 |  `redis.spop('tags')` | 从键为 tags 的集合中随机删除并返回该元素 | b'Tea' |
| smove(src, dst, value) | 从 src 对应的集合中移除 元素并将其添加到 dst 对应的集合中 | src:源集合；dst:目标集合；value:元素值 |   `redis.smove('tags','tags2','Coffee')` | 从键为tags的集合中删除元素Coffee并将其添加到键为 tags2 的集合 | True |
| scard(name) | 返回键为 name的集合的元素个数 | name:键名  |  `redis.scard('tags')` | 获取键为 tags 的集合中的元素个数 | 3 |
| sismember(name, value) | 测试 member 是否是键为 name 的集合的元素 | name: 键名 |  `redis.sismember('tags', 'Book')` | 判断Book是否是键为 tags 的集合元素 | True |
| sinter(keys,*args) |返回所有给定键的集合的交集 | keys:键列表  |  `redis.sinter[('tags','tags2')]` | 返回键为 tags 的集合和键为 tags2的集合的交集 | {b'Coffee'} |
| sinterstore(dest, keys, *args) | 求交集并将交集保存到dest的集合 | dest:结果集合 keys:key列表 |  `redis.sinterstore('inttag', ['tags', 'tags2'])` | 求key为tags的set和key为tags2的set的交集并保存为inttag | 1 |
| sunion(keys, *args) | 返回所有给定key的set的并集 | keys: key列表 |  `redis.sunion(['tags', 'tags2'])` | 返回key为tags的set和key为tags2的set的并集 | {b'Coffee', b'Book', b'Pen'} |
| sunionstore(dest, keys, *args)| 求并集并将并集保存到dest的集合 | dest:结果集合 keys:key列表 |  `redis.sunionstore('inttag', ['tags', 'tags2'])` | 求key为tags的set和key为tags2的set的并集并保存为inttag | 3 |
| sdiff(keys, *args) | 返回所有给定key的set的差集| keys: key列表  |  `redis.sdiff(['tags', 'tags2'])` | 返回key为tags的set和key为tags2的set的差集 | {b'Book', b'Pen'} |
| sdiffstore(dest, keys, *args) | 求差集并将差集保存到dest的集合 | dest:结果集合 keys:key列表  |  `redis.sdiffstore('inttag', ['tags', 'tags2'])` | 求key为tags的set和key为tags2的set的差集并保存为intta| 3 |
| smembers(name) | 返回key为name的set的所有元素 | name: key名  |  `redis.smembers('tags')` | 返回key为tags的set的所有元素| {b'Pen', b'Book', b'Coffee'} |
| srandmember(name) | 随机返回key为name的set的一个元素，但不删除元素 | name: key值  |  `redis.srandmember('tags')` | 	随机返回key为tags的set的一个元素| - |


**有序集合(Sorted Set)操作**

有序集合比集合多一个分数字段，利用它可以对集合中的数据进行排序


| 方法 | 作用 | 参数说明 | 示例 | 示例说明 | 示例结果 |
| - | - | - | - | - | - |
| zadd(name, args, *kwargs) | 向键为 name 的集合中添加元素 | name: 键名；values: 值，可为多个 |  `redis.sadd('tags','Book','Tea','Coffee')` | 向键为 tags 的集合中添加Book,Tea,Coffee 这3个内容 | 3，即插入的数据个数 |
| srem(name,*values)| 向键为 name 的集合中删除元素 | name: 键名；values: 值，可为多个 |  `redis.srem('tags','Book')` | 从键为 tags 的集合中删除Book | 1，即删除的数据个数 |
| zincrby(name, value, amount=1) | 如果在key为name的zset中已经存在元素value，则该元素的score增加amount，否则向该集合中添加该元素，其score的值为amount | name: key名 value: 元素 amount: 增长的score值 |  `redis.zincrby('grade', 'Bob', -2)` | key为grade的zset中Bob的score减2 | 98.0，即修改后的值 |
| zrank(name, value) | 返回key为name的zset中元素的排名（按score从小到大排序）即下标 | name: key名 value: 元素值 |   `redis.zrank('grade', 'Amy')` | 得到key为grade的zset中Amy的排名 | 1 |
| zrevrank(name, value) | 返回key为name的zset中元素的倒数排名（按score从大到小排序）即下标 | name: key名 value: 元素值 |  `redis.zrevrank('grade', 'Amy')` | 得到key为grade的zset中Amy的倒数排名 | 2 |
| zrevrange(name, start, end, withscores=False) | 返回key为name的zset（按score从大到小排序）中的index从start到end的所有元素 | name: key值 start: 开始索引 end: 结束索引 withscores: 是否带score |  `redis.zrevrange('grade', 0, 3)` | 返回key为grade的zset前四名元素 | [b'Bob', b'Mike', b'Amy', b'James'] |
| zrangebyscore(name, min, max, start=None, num=None, withscores=False) | 返回key为name的zset中score在给定区间的元素	 |name:key名 min: 最低score max:最高score start: 起始索引 num: 个数 withscores: 是否带score |  `redis.zrangebyscore('grade', 80, 95)` | 返回key为grade的zset中score在80和95之间的元素 | [b'Amy', b'James'] |
| zcount(name, min, max)| 返回key为name的zset中score在给定区间的数量 | name:key名 min: 最低score max: 最高score |  `redis.zcount('grade', 80, 95)` | 返回key为grade的zset中score在80到95的元素个数 | 2 |
| zcard(name) | 返回key为name的zset的元素个数 | name: key名 |  `redis.zcard('grade')` | 获取key为grade的zset中元素个数 | 3 |
| zremrangebyrank(name, min, max) | 删除key为name的zset中排名在给定区间的元素 | name:key名 min: 最低位次 max: 最高位次 |  `redis.zremrangebyrank('grade', 0, 0)` | 删除key为grade的zset中排名第一的元素 | 1，即删除的元素个数 |
| zremrangebyscore(name, min, max) | 删除key为name的zset中score在给定区间的元素 | name:key名 min: 最低score max:最高score	 |  `redis.zremrangebyscore('grade', 80, 90)` | 删除score在80到90之间的元素 | 1，即删除的元素个数 |
| zscore(name, value)| 返回key为name的zset中value元素的分数 | name: key名 value: 元素 |  `redis.zscore('proxies', 'proxy')` | 返回key为proxies的zset中proxyd 的分数| 98 |

# Ajax数据爬取

有时候我们在用 Requests 抓取页面的时候，得到的结果可能和在浏览器中看到的是不一样的，在浏览器中可以看到正常显示的页面数据，但是使用 Requests 得到的结果并没有，这其中的原因是 Requests 获取的都是原始的 HTML 文档，而浏览器中的页面则是页面又经过 JavaScript 处理数据后生成的结果，这些数据的来源有多种，可能是通过 Ajax 加载的，可能是包含在了 HTML 文档中的，也可能是经过 JavaScript 经过特定算法计算后生成的。

对于第一种情况，数据的加载是一种异步加载方式，原始的页面最初不会包含某些数据，原始页面加载完后会会再向服务器请求某个接口获取数据，然后数据再被处理才呈现到网页上，这其实就是发送了一个 Ajax 请求。

照 Web 发展的趋势来看，这种形式的页面越来越多，网页原始 HTML 文档不会包含任何数据，数据都是通过 Ajax 来统一加载然后再呈现出来，这样在 Web 开发上可以做到前后端分离，而且降低服务器直接渲染页面带来的压力。

所以如果我们遇到这样的页面，如果我们再利用 Requests 等库来抓取原始页面是无法获取到有效数据的，这时我们需要做的就是分析网页的后台向接口发送的 Ajax 请求，如果我们可以用 Requests 来模拟 Ajax 请求，那就可以成功抓取了。

## 什么是Ajax

Ajax，全称为 Asynchronous JavaScript and XML，即异步的 JavaScript 和 XML。

Ajax 不是一门编程语言，而是利用 JavaScript 在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。

对于传统的网页，如果想更新其内容，那么必须要刷新整个页面，但有了 Ajax，我们便可以实现在页面不被全部刷新的情况下更新其内容。在这个过程中，页面实际是在后台与服务器进行了数据交互，获取到数据之后，再利用 JavaScript 改变网页，这样网页内容就会更新了。

# 验证码的识别

## 图形验证码的识别

In [4]:
import tesserocr
from PIL import Image

image = Image.open('captcha.png')
result = tesserocr.image_to_text(image)
print(result)


dufobui



识别和实际结果有偏差，这是因为验证码内的多余线条干扰了图片的识别。对于这种情况，我们还需要做一下额外的处理，如转灰度、二值化等操作

Image对象convert()方法

参数传入L，即可将图片转化为灰度图像

参数传入1，即可将图片进行二值化处理

In [None]:
import tesserocr
from PIL import Image

image = Image.open('CheckCode1.jpg')

image = image.convert('L')
image.show()

image = image.convert('1')
image.show()

还可以指定二值化的阀值，上面方法采用的是默认阀值127。不过我们不能直接转化原图，要将原图转化为灰度图像，然后再指定二值化阀值

In [3]:
import tesserocr
from PIL import Image

image = Image.open('captcha.png')
image = image.convert('L')
threshold = 127
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table,'1')
#image.show()

result = tesserocr.image_to_text(image)
print(result)

dufobui



# 代理的使用

## requests

### http 代理

In [1]:
import requests

proxy = '127.0.0.1:1080'
proxies = {
    'http':'http://'+proxy,
    'https':'https://'+proxy
}

try:
    response = requests.get('http://httpbin.org/get',proxies=proxies)
    print(response.text)
except requests.exceptions.ConnectionError as e:
    print('Error',e.args)

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.18.4"
  }, 
  "origin": "104.245.13.42", 
  "url": "http://httpbin.org/get"
}



"origin": "104.245.13.42" 这个就是代理的IP

如果代理需要认证，在代理前面加上用户名和密码即可

`proxy = 'username:password@127.0.0.1:1080'`


### SOCKS5 代理

需要安装模块 requests[socks] 命令如下

`pip3 install requests[socks]`

In [12]:
import requests 

proxy = '127.0.0.1:1080'
proxies = {
    'http':'socks5://'+proxy,
    'https':'socks5://'+proxy,
}
try:
    response = requests.get('http://httpbin.org/get',proxies=proxies)
    print(response.text)
except requests.exceptions.ConnectionError as e:
    print('Error',e.args)

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.18.4"
  }, 
  "origin": "104.245.13.42", 
  "url": "http://httpbin.org/get"
}



## Selenium

Selenium 也可以设置代理，包括两种方式：一种有界面浏览器，以Chrome为例；另一种是无界面浏览器，以PhantomJS为例

### Chrome

In [13]:
from selenium import webdriver

proxy = '127.0.0.1:1080'
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://'+proxy)
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.get('http://httpbin.org/get')

浏览器打开后显示

```
{
  "args": {}, 
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", 
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "zh-CN,zh;q=0.9", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "Upgrade-Insecure-Requests": "1", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
  }, 
  "origin": "104.245.13.42", 
  "url": "http://httpbin.org/get"
}
```

### PhantomJS

In [14]:
from selenium import webdriver

service_args = [
    '--proxy=127.0.0.1:1080',
    '--proxy-type=http'
]
browser = webdriver.PhantomJS(service_args=service_args)
browser.get('http://httpbin.org/get')
print(browser.page_source)



<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">{
  "args": {}, 
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", 
    "Accept-Encoding": "gzip, deflate", 
    "Accept-Language": "zh-CN,en,*", 
    "Connection": "close", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.1 Safari/538.1"
  }, 
  "origin": "104.245.13.42", 
  "url": "http://httpbin.org/get"
}
</pre></body></html>


# 代理池的维护

我们知道利用代理可以解决目标网络封IP的问题，网上有免费和付费的代理IP，但是都不保证可用。因为可能此IP被其他人使用来爬取同样的目标站点而被封，或者代理服务器突然发生故障或网络繁忙。一旦我们选用了一个不可用的代理，这势必要影响爬虫的工作效率。所以需要提前筛选，将不可用的代理剔除掉，保留可用代理。接下来我们来搭建一个高效易用的代理池。

## 代理池的目标

做到下面的几个目标，来实现易用高效的代理池。

基本模块分为4块：存储模块，获取模块，检测模块，接口模块。

- 存储模块：负责存储抓取下来的代理。首先要保证代理不重复，要标识代理的可用情况，还要动态实时处理每个代理，所以一种比较高效和方便的存储方式驾驶使用 Redis 的 Sorted Set, 即有序集合。

- 获取模块：需要定时在各大代理网站抓取代理。代理的形式都是IP加端口，此模块尽量从不同来源获取，尽量抓取高匿代理，抓取成功之后将可用代理保存到数据库中

- 检测模块：需要定时检测数据库中的代理。这里需要设置一个检测链接，最好是爬取哪个网站就检测哪个网站，这样更加有针对性，如果要做一个通用型的代理，可以设置百度等链接来检测。另外，我们需要标识每一个代理的状态，如设置分数标识，100分代表可用，分数越少代表越不可用。检测一次，如果代理可用，我们可以将分数标识立即设置为100满分，也可在原基础上加1分；如果代理不可用，可以将分数标识减1分，当分数减到一定阀值后，代理就直接从数据库移除。通过这样的标识分数，我们就快成辨别代理的可用情况，选用的时候会更有针对性。

- 接口模块：需要用API来提供对外服务的接口。其实我们可以直接链接数据库来取对应的数据，但是这样就需要知道数据库的链接信息，并且要配置连接，而比较安全和方便的方式就是提供一个 Web API 接口，我们通过访问接口即可拿到可用代理。另外，由于可用代理可能有多个，那么我们可以设置一个随机返回某个可用代理的接口，这样就能保证每个可用代理都可以取到，实现负载均衡。

![agent_pool](agent_pool.png)

## 代理池的实现
### 存储模块

这里使用 Redis 有序集合，集合的每一个元素都不重复，对于代理池来说，集合的元素就变成了一个个代理，也就是 IP 加端口的形式，如 60.207.237.111:8888，这样一个代理就是集合的一个元素。另外，有序集合的每一个元素都有一个分数字段，分数可以重复，可以是浮点数，也可以是整数。该集合后根据每一个元素的分数对集合进行排序，数值小的排在前面，数值大的排在后面，这样就可以实现集合元素的排序了。

**有序集合(Sorted Set)操作**

有序集合比集合多一个分数字段，利用它可以对集合中的数据进行排序


| 方法 | 作用 | 参数说明 | 示例 | 示例说明 | 示例结果 |
| - | - | - | - | - | - |
| zadd(name, args, *kwargs) | 向键为 name 的集合中添加元素 | name: 键名；values: 值，可为多个 |  `redis.sadd('tags','Book','Tea','Coffee')` | 向键为 tags 的集合中添加Book,Tea,Coffee 这3个内容 | 3，即插入的数据个数 |
| srem(name,*values)| 向键为 name 的集合中删除元素 | name: 键名；values: 值，可为多个 |  `redis.srem('tags','Book')` | 从键为 tags 的集合中删除Book | 1，即删除的数据个数 |
| zincrby(name, value, amount=1) | 如果在key为name的zset中已经存在元素value，则该元素的score增加amount，否则向该集合中添加该元素，其score的值为amount | name: key名 value: 元素 amount: 增长的score值 |  `redis.zincrby('grade', 'Bob', -2)` | key为grade的zset中Bob的score减2 | 98.0，即修改后的值 |
| zrank(name, value) | 返回key为name的zset中元素的排名（按score从小到大排序）即下标 | name: key名 value: 元素值 |   `redis.zrank('grade', 'Amy')` | 得到key为grade的zset中Amy的排名 | 1 |
| zrevrank(name, value) | 返回key为name的zset中元素的倒数排名（按score从大到小排序）即下标 | name: key名 value: 元素值 |  `redis.zrevrank('grade', 'Amy')` | 得到key为grade的zset中Amy的倒数排名 | 2 |
| zrevrange(name, start, end, withscores=False) | 返回key为name的zset（按score从大到小排序）中的index从start到end的所有元素 | name: key值 start: 开始索引 end: 结束索引 withscores: 是否带score |  `redis.zrevrange('grade', 0, 3)` | 返回key为grade的zset前四名元素 | [b'Bob', b'Mike', b'Amy', b'James'] |
| zrangebyscore(name, min, max, start=None, num=None, withscores=False) | 返回key为name的zset中score在给定区间的元素	 |name:key名 min: 最低score max:最高score start: 起始索引 num: 个数 withscores: 是否带score |  `redis.zrangebyscore('grade', 80, 95)` | 返回key为grade的zset中score在80和95之间的元素 | [b'Amy', b'James'] |
| zcount(name, min, max)| 返回key为name的zset中score在给定区间的数量 | name:key名 min: 最低score max: 最高score |  `redis.zcount('grade', 80, 95)` | 返回key为grade的zset中score在80到95的元素个数 | 2 |
| zcard(name) | 返回key为name的zset的元素个数 | name: key名 |  `redis.zcard('grade')` | 获取key为grade的zset中元素个数 | 3 |
| zremrangebyrank(name, min, max) | 删除key为name的zset中排名在给定区间的元素 | name:key名 min: 最低位次 max: 最高位次 |  `redis.zremrangebyrank('grade', 0, 0)` | 删除key为grade的zset中排名第一的元素 | 1，即删除的元素个数 |
| zremrangebyscore(name, min, max) | 删除key为name的zset中score在给定区间的元素 | name:key名 min: 最低score max:最高score	 |  `redis.zremrangebyscore('grade', 80, 90)` | 删除score在80到90之间的元素 | 1，即删除的元素个数 |
| zscore(name, value)| 返回key为name的zset中value元素的分数 | name: key名 value: 元素 |  `redis.zscore('proxies', 'proxy')` | 返回key为proxies的zset中proxyd 的分数| 98 |

对于代理池来说，这个分数可以作为判断一个代理是否可用的标志，100为最高分，代表最可用，0为最低分，代表不可用。如果要获取可用代理，可用从代理池中随机获取分数最高的代理，注意是随机，这样可以保证每个可用代理都会被调用到。

分数是判断代理稳定性的重要标准，设置分数规则如下：

- 分数100为可用，检测器会定时循环检测每个代理可用情况，一旦检测到有可用的代理就立即置为100，检测到不可用就将分数减1，分数减至0后代理移除。
- 新获取的代理的分数为10，如果测试可行，分数立即置为100，不可行则分数减1，分数减至0后，代理移除。

这只是一种解决方案，当可能还有更合理的方案。之所以设置此方案有如下几个原因。

- 在检测到代理可用时，分数立即置为100， 这样可以保证所有可用代理有更大的机会被获取到。你可能会问，为什么不将分数加1而是直接设为最高100呢？设想一下，有的代理是从各大免费公开代理网站获取的，常常一个代理并没有那么稳定，平均5次请求可能有2次成功，3次失败，如果按照这种方式来设置分数，那么这个代理几乎不可能达到一个高的分数。如果想追求代理稳定性，可以用上述方法，这种方法可确保分数最高的代理一定是最稳定可用的。所以，这里我们采取“可用即设置100”的方法，确保只要可用的代理都可以被获取到。

- 在检测到代理不可用时，分数减1，分数减至0后，代理移除。这样一个有效代理如果要被移除需要失败100次，也就是说当一个可用代理如果尝试了100次都失败了，就是一直减分直到移除，一旦成功就重新置回100。尝试机会越多，则这个代理拯救回来的机会越多，这样就不容易将曾经的一个可用代理丢弃，因为代理不可用的原因很可能是网络繁忙或者其他人用此代理请求太过频繁，所以这里将分数设为100。

- 新获取的代理的分数设置为10，如果测试可行，分数立即置为100，不可行则分数减1，分数减至0后，代理移除。由于很多代理是从免费网站获取的，所以新获取的代理无效的比例非常高，可能不足10%，所以这里设置为10，检测的机会没有可用代理的100次那么多，这也可以适当减少开销。

上述代理分数的设置思路不一定是最优的，但它的实用性比较强。

In [1]:
Max_score = 100
Min_score = 0
Initial_score = 10
Redis_host = 'localhost'
Redis_port = 6379
Redis_password = None
Redis_key = 'proxies'
Redis_db = 1

import redis
from random import choice

"""
定义一个类来操作数据库的有序集合，定义一些方法来实现分数的设置，代理的获取等。

"""

class RedisClient(object):
    
    def __init__(self,host=Redis_host,port=Redis_port,db=Redis_db,password=Redis_password):
        """
        初始化
        :param host: Redis 地址
        :param port: Redis 端口
        :param password: Redis 密码
        """
        self.db = redis.StrictRedis(host=host,port=port,db=db,password=password) # 声明了一个StrictRedis 对象
        
    def add(self,proxy,score=Initial_score):
        """
        如果代理不存在，添加代理，设置分数为最高
        :param proxy: 代理
        :param score: 分数
        :return 添加结果
        zscore(name, value) 返回key为name的zset中value元素的分数 
        zadd(name, args, *kwargs) 向key为name的zset中添加元素member，score用于排序。如果该元素存在，则更新其顺序
        """
        if not self.db.zscore(Redis_key,proxy):  
            return self.db.zadd(Redis_key,score,proxy) 
            
    def random(self):
        """
         随机获取有效代理，首先尝试获取最高分数代理，如果最高分数不存在，则按照排名获取，否者异常
         :return 随机代理
         zrangebyscore(name, min, max, start=None, num=None, withscores=False) 返回key为name的zset中score在给定区间的元素
         zrevrange(name, start, end, withscores=False) 返回key为name的zset（按score从大到小排序）中的index从start到end的所有元素
        """
        result = self.db.zrangebyscore(Redis_key,Max_score,Max_score)
        if len(result):
            return choice(result)
        else:
            result = self.db.zrevrange(Redis_key,0,100)
            if len(result):
                return choice(result)
            else:
                raise PoolEmptyError
    
    def decrease(self,proxy):
        """
        代理值减一分，分数小于最小值，则代理删除
        :param proxy: 代理
        :return: 修改后的代理分数
        zscore(name, value) 返回key为name的zset中value元素的分数 
        zincrby(name, value, amount=1) 如果在key为name的zset中已经存在元素value，则该元素的score增加amount，否则向该集合中添加该元素，其score的值为amount
        zrem(name, *values)  删除key为name的zset中的元素
        """
        score = self.db.zscore(Redis_key,proxy)
        if score and score > Min_score:
            print('代理{}当前分数{}减1'.format(proxy,score))
            return self.db.zincrby(Redis_key,score,-1)
        else:
            print('代理{}当前分数{}移除'.format(proxy,score))
            return self.db.zrem(Redis_key,proxy)
    
    def exists(self,proxy):
        """
        判断是否存在
        :param proxy: 代理
        :return: 是否存在
        zscore(name, value) 返回key为name的zset中value元素的分数
        zadd(name, args, *kwargs) 向key为name的zset中添加元素member，score用于排序。如果该元素存在，则更新其顺序
        """
        return not self.db.zscore(Redis_key,proxy) == None
    
    def setmax(self,proxy):
        """
        将代理设置为 Max_score
        :param proxy: 代理
        :return: 设置结果
        """
        print('代理{}可用，设置为{}'.format(proxy,Max_score))
        return self.db.zadd(Redis_key,Max_score,proxy)
    
    def count(self):
        """
        获取数量
        :return: 数量
        """
        return self.db.zcard(Redis_key)
    
    def viewall(self):
        """
        获取全部代理
        :return: 全部代理列表
        """
        return self.db.zrangebyscore(Redis_key,Min_score,Max_score)

首先定义一些常量，通过它来获取代理存储所使用的有序集合

- MAX_SCORE 最大分数
- MIN_SCORE 最小分数
- INITIAL_SCORE 初始分数
- REDIS_HOST 地址
- REDIS_PORT 端口
- REDIS_PASSWORD 密码
- REDIS_KEY 有序集合的键名

接下来定义了一个RedisClient类，这个类可以用来操作Redis的有序集合，其中定义了一些方法来对集合中的元素进行处理，它的主要功能如下所示。

- /__init__()方法是初始化的方法，其参数是Redis的连接信息，默认的连接信息已经定义为常量，在__init__()方法中初始化了一个StrictRedis的类，建立Redis连接。
- add()方法向数据库添加代理并设置分数，默认的分数是INITIAL_SCORE，也就是10，返回结果是添加的结果。
- random()方法是随机获取代理的方法，首先获取100分的代理，然后随机选择一个返回。如果不存在100分的代理，则此方法按照排名来获取，选取前100名，然后随机选择一个返回，否则抛出异常。
- decrease()方法是在代理检测无效的时候设置分数减1的方法，代理传入后，此方法将代理的分数减1，如果分数达到最低值，那么代理就删除。
- exists()方法可判断代理是否存在集合中。
- setmax()将代理的分数设置为MAX_SCORE，即100，也就是当代理有效时的设置。
- count()方法返回当前集合的元素个数。
- viewall()方法返回所有的代理列表，以供检测使用。

定义好了这些方法，我们可以在后续的模块中调用此类来连接和操作数据库。如想要获取随机可用的代理，只需要调用random()方法即可，得到的就是随机的可用代理。


### 获取模块

获取模块的逻辑相对简单，首先要定义一个Crawler来从各大网站抓取代理

[jQuery :gt() 选择器](https://www.runoob.com/jquery/sel-gt.html)

:gt() 选择器选取 index 值大于指定数字的元素。

index 值从 0 开始

In [None]:
import json,requests
from pyquery import PyQuery as pq

class ProxyMetaclass(type):
    def __new__(cls,name,bases,attrs):
        count = 0
        attrs['__CrawlFunc__'] = []
        for k,v in attrs.items():
            if 'crawl_' in k:
                attrs['__CrawlFunc__'].append(k)
                count += 1
        attrs['__CrawlFuncCount__'] = count
        return type.__new__(cls,name,bases,attrs)
    
class Crawler(object, metaclass = ProxyMetaclass):
    def get_proxies(self,callback):
        proxies = []
        for proxy in eval("self.{}()".format(callback)):
            print('成功获取到代理', proxy)
            proxies.append(proxy)
            
            
    def crawl_daili66(self, page_count=4):  # 反爬 521 
        """
        获取代理66
        :param page_count: 页码
        :return: 代理
        """
        start_url = 'http://www.66ip.cn/{}.html'
        urls = [start_url.format(page) for page in range(1, page_count + 1)]
        for url in urls:
            print('Crawling', url)
            html = get_page(url)  # 自定义的获取页面 html 的函数函数
            if html:
                doc = pq(html)
                trs = doc('.containerbox table tr:gt(0)').items()
                for tr in trs:
                    ip = tr.find('td:nth-child(1)').text()
                    port = tr.find('td:nth-child(2)').text()
                    yield ':'.join([ip, port])
                    
    def crawl_kuaidaili(self):
        for i in range(1, 4):
            start_url = 'http://www.kuaidaili.com/free/inha/{}/'.format(i)
            html = get_page(start_url)
            if html:
                ip_address = re.compile('<td data-title="IP">(.*?)</td>') 
                re_ip_address = ip_address.findall(html)
                port = re.compile('<td data-title="PORT">(.*?)</td>')
                re_port = port.findall(html)
                for address,port in zip(re_ip_address, re_port):
                    address_port = address+':'+port
                    yield address_port.replace(' ','')
                
                
crawler = Crawler()
crawler.Crawl_dailli66()

方便起见，我们将获取代理的每个方法统一定义为以crawl开头，这样扩展的时候只需要添加crawl开头的方法即可。

在这里实现了几个示例，如抓取代理66、Proxy360、Goubanjia三个免费代理网站，这些方法都定义成了生成器，通过yield返回一个个代理。程序首先获取网页，然后用pyquery解析，解析出IP加端口的形式的代理然后返回。

然后定义了一个get_proxies()方法，将所有以crawl开头的方法调用一遍，获取每个方法返回的代理并组合成列表形式返回。

你可能会想知道，如何获取所有以crawl开头的方法名称呢？其实这里借助了元类来实现。我们定义了一个ProxyMetaclass，Crawl类将它设置为元类，元类中实现了\__new__()方法，这个方法有固定的几个参数，第四个参数attrs中包含了类的一些属性。我们可以遍历attrs这个参数即可获取类的所有方法信息，就像遍历字典一样，键名对应方法的名称。然后判断方法的开头是否crawl，如果是，则将其加入到\__CrawlFunc__属性中。这样我们就成功将所有以crawl开头的方法定义成了一个属性，动态获取到所有以crawl开头的方法列表。

所以，如果要做扩展，我们只需要添加一个以crawl开头的方法。例如抓取快代理，我们只需要在Crawler类中增加crawl_kuaidaili()方法，仿照其他几个方法将其定义成生成器，抓取其网站的代理，然后通过yield返回代理即可。这样，我们可以非常方便地扩展，而不用关心类其他部分的实现逻辑。

代理网站的添加非常灵活，不仅可以添加免费代理，也可以添加付费代理。一些付费代理的提取方式也类似，也是通过Web的形式获取，然后进行解析。解析方式可能更加简单，如解析纯文本或JSON，解析之后以同样的形式返回即可，在此不再代码实现，可以自行扩展。

自定义的获取页面 html 的函数函数 **utils.py**

In [28]:
import requests
from requests.exceptions import ConnectionError

base_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36',
    'Accept-Encoding': 'gzip, deflate, sdch',
    'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}


def get_page(url, options={}):
    """
    抓取代理
    :param url:
    :param options:
    :return:
    """
    headers = dict(base_headers, **options)
    print('正在抓取', url)
    try:
        response = requests.get(url, headers=headers)
        print('抓取成功', url, response.status_code)
        if response.status_code == 200:
            return response.text
    except ConnectionError:
        print('抓取失败', url)
        return None
    
get_page('https://www.kuaidaili.com/free/inha/1')

正在抓取 https://www.kuaidaili.com/free/inha/1
抓取成功 https://www.kuaidaili.com/free/inha/1 200


'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml">\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n<meta name="format-detection" content="telephone=no">\n<meta name="viewport" content="width=device-width,initial-scale=1.0, maximum-scale=1.0,minimum-scale=1.0,user-scalable=no" />\n<title>国内高匿免费HTTP代理IP - 快代理</title>\n\n<meta name="keywords" content="高匿代理,国内代理,代理服务器,免费代理服务器,代理ip,ip代理,高匿代理ip,免费代理,免费代理ip" />\n<meta name="description" content="快代理专业为您提供国内高匿免费HTTP代理服务器。" />\n\n<meta content="index,follow" name="robots"/>\n<meta content="index,follow" name="GOOGLEBOT"/>\n<meta content="快代理"  name="Author"/>\n<meta name="renderer" content="webkit" />\n<meta name="baidu_union_verify" content="c087a423b52225f404d4c97e59e53464">\n<meta name="google-site-verification" content="Pd8y4Id4xJSxMvj-OwUhaZaK7COpr-8LcANUG30jxW8" />\n<link rel="shortcut icon" h

In [10]:
#在函数调用时，**会以键/值对的形式解包一个字典，使其成为独立的关键字参数。\
base_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36',
    'Accept-Encoding': 'gzip, deflate, sdch',
    'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Cookie': 'JSESSIONID=47AA0C887112A2D83EE040405F837A86',
    'Host': 'www.data5u.com',
    'Referer': 'http://www.data5u.com/free/index.shtml',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36',
}
    
# headers = dict(base_headers, **options)
options = headers
headers = dict(base_headers,**options)  # 可用来合并两个字典
print(headers)

{'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36', 'Accept-Encoding': 'gzip, deflate', 'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'Cache-Control': 'max-age=0', 'Connection': 'keep-alive', 'Cookie': 'JSESSIONID=47AA0C887112A2D83EE040405F837A86', 'Host': 'www.data5u.com', 'Referer': 'http://www.data5u.com/free/index.shtml', 'Upgrade-Insecure-Requests': '1'}




既然定义了Crawler类，接下来再定义一个Getter类，用来动态地调用所有以crawl开头的方法，然后获取抓取到的代理，将其加入到数据库存储起来。

In [None]:
from db import RedisClient
from crawler import Crawler

POOL_UPPER_THRESHOLD = 10000

class Getter():
    def __init__(self):
        self.redis = RedisClient()
        self.crawler = Crawler()
        
    def is_over_threshold(self):
        """
        判断是否达到了代理池限制
        """
        
        if self.redis.count() >= POOL_UPPER_THRESHOLD:
             return True
        else:
            return False
        
    def run(self):
        if not self.is_over_threshold():
            for callback_label in range(self.crawler.__CrawlFuncCount__):
                callback = self.crawler.__CrawlFunc__[callback_label]
                proxies = self.crawler.get_proxies(callback)
                for proxy in proxies:
                    self.redis.add(proxy)

Getter类就是获取器类，它定义了一个变量POOL_UPPER_THRESHOLD来表示代理池的最大数量，这个数量可以灵活配置，然后定义了is_over_threshold()方法来判断代理池是否已经达到了容量阈值。is_over_threshold()方法调用了RedisClient的count()方法来获取代理的数量，然后进行判断，如果数量达到阈值，则返回True，否则返回False。如果不想加这个限制，可以将此方法永久返回True。

接下来定义run()方法。该方法首先判断了代理池是否达到阈值，然后在这里就调用了Crawler类的\__CrawlFunc__属性，获取到所有以crawl开头的方法列表，依次通过get_proxies()方法调用，得到各个方法抓取到的代理，然后再利用RedisClient的add()方法加入数据库，这样获取模块的工作就完成了。

### 检测模块

我们已经成功将各个网站的代理获取下来了，现在就需要一个检测模块来对所有代理进行多轮检测。代理检测可用，分数就设置为100，代理不可用，分数减1，这样就可以实时改变每个代理的可用情况。如要获取有效代理只需要获取分数高的代理即可。

由于代理的数量非常多，为了提高代理的检测效率，我们在这里使用异步请求库aiohttp来进行检测。

requests作为一个同步请求库，我们在发出一个请求之后，程序需要等待网页加载完成之后才能继续执行。也就是这个过程会阻塞等待响应，如果服务器响应非常慢，比如一个请求等待十几秒，那么我们使用requests完成一个请求就会需要十几秒的时间，程序也不会继续往下执行，而在这十几秒的时间里程序其实完全可以去做其他的事情，比如调度其他的请求或者进行网页解析等。

异步请求库就解决了这个问题，它类似JavaScript中的回调，即在请求发出之后，程序可以继续执行去做其他的事情，当响应到达时，程序再去处理这个响应。于是，程序就没有被阻塞，可以充分利用时间和资源，大大提高效率。

对于响应速度比较快的网站来说，requests同步请求和aiohttp异步请求的效果差距没那么大。可对于检测代理来说，检测一个代理一般需要十多秒甚至几十秒的时间，这时候使用aiohttp异步请求库的优势就大大体现出来了，效率可能会提高几十倍不止。

所以，我们的代理检测使用异步请求库aiohttp，实现示例如下所示：

In [1]:
import asyncio, aiohttp, time, sys

VALID_STATUS_CODES = [200]
TEST_URL = 'http://www.baidu.com'
BATCH_TEST_SIZE = 100

class Tester(object):
    def __init__(self):
        self.redis = RedisClient()
    
    async def test_single_proxy(self,proxy):
        """
       测试单个代理
       :param proxy: 单个代理
       :return: None
       """
        
        # 定义了连接器并取消ssl安全验证，使用 ssl使其等于False，默认是True的。因为有的网站请求的时候会验证ssl证书,如果是自签名的ssl证书会出错。
        coon = aiohttp.TCPConnector(ssl = False)
        async with aiohttp.ClientSession(connector=conn) as session:
            try:
                # string = b'xxxxxx'.decode() 直接以默认的utf-8编码解码bytes成string
                if isinstance(proxy, bytes):
                    proxy = proxy.decode('utf-8')
                real_proxy = 'http://'+ proxy
                print('正在测试',proxy)
                async with session.get(TEST_URL,proxy=real_proxy,timeout=15) as response:
                    if response.status in VALID_STATUS_CODES:
                        self.redis.setmax(proxy)
                        print('代理可用',proxy)
                    else:
                        self.redis.decrease(proxy)
                        print('请求响应码不合法',proxy)
            except (TimeoutError, ArithmetricError):
                self.redis.decrease(proxy)
                print('代理请求失败',proxy)
                
    def run(self):
        print('测试开始运行')
        try:
            proxies = self.redis.all()
            loop = asyncio.get_event_loop()
            for i in range(0,len(proxies),BATCH_TEST_SIZE):
                test_proxies = proxies[i:i+BATCH_TEST_SIZE] 
                tasks = [self.test_single_proxy(proxy) for proxy in test_proxies]
                loop.run_until_complete(asyncio.wait(tasks))
                time.sleep(5)
        except Exception as e:
            print('测试器发生错误',e.args)

这里定义了一个类 Tester，\__init__()方法中建立了一个 RedisClient 对象，供该对象中其他方法使用。接下来定义了一个 test_single_proxy()方法，这个方法用来检测单个代理的可用情况，其参数就是被检测的代理。注意，test_single_proxy() 方法前面加了 async 关键词，这代表这个方法是异步的。方法内部首先创建了 aiohttp 的 ClientSession对象，此对象类似于 requests 的 Session 对象，可以直接调用该对象的get()方法来访问页面。在这里，代理的设置是通过 proxy 参数传递给 get() 方法，请求方法前面也需要加上 async 关键词来标明其是异步请求，这也是 aiohttp 使用时的常见写法。

测试的链接在这里定义为常量 TEST_URL。如果针对某个网站有抓取需求，建议将 TEST_URL 设置为目标网站的地址，因为在抓取的过程中，代理本身可能是可用的，但是该代理的IP已经被目标网站封掉了。例如，某些代理可以正常访问百度等页面，但是对知乎来说可能就被封了，所以我们可以将 TEST_URL 设置为知乎的某个页面的链接，当请求失败、代理被封时，分数自然会减下来，失效的代理就不会被取到了。

如果想做一个通用的代理池，则不需要专门设置 TEST_URL，可以将其设置为一个不会封IP的网站，也可以设置为百度这类响应稳定的网站。

我们还定义了变量 VALID_STATUS_CODES，这个变量是一个列表形式，包含了正常的状态码，如可以定义成[200]。当然某些目标网站可能会出现其他的状态码，可以自行配置。

程序在获取 Response 后需要判断响应的状态，如果状态码在 VALID_STATUS_CODES 列表里，则代表代理可用，可以调用 RedisClient 的 setmax() 方法将代理分数设为100，否则调用 decrease() 方法将代理分数减1，如果出现异常也同样将代理分数减1。

另外，我们设置了批量测试的最大值 BATCH_TEST_SIZE 为100，也就是一批测试最多100个，这可以避免代理池过大时一次性测试全部代理导致内存开销过大的问题。

随后，在 run() 方法里面获取了所有的代理列表，使用 aiohttp 分配任务，启动运行，这样就快成进行异步检测了。

这样，测试模块的逻辑就完成了。

### 接口模块

通过上述三个模块，我们已经可以做到代理的获取、检测和更新，数据库就会以有序集合的形式存储各个代理及其对应的分数，分数100代表可用，分数越小代表越不可用。

但是我们怎样方便地获取可用代理呢？可以用类直接连接Redis，然后调用方法。这样做没问题，效率很高，但是会有几个弊端。

- 如果其他人使用这个代理池，他需要知道Redis连接的用户名和密码信息，这样很不安全。
- 如果代理池需要部署在远程服务器上运行，而远程服务器的Redis只允许本地连接，那么我们就不能远程直连Redis来获取代理。
- 如果爬虫所在的主机没有连接Redis模块，或者爬虫不是由Python语言编写的，那么我们就无法使用来获取代理。
- 如果类或者数据库结构有更新，那么爬虫端必须同步这些更新，这样非常麻烦。

综上考虑，为了使代理池可以作为一个独立服务运行，我们最好增加一个接口模块，并以Web API的形式暴露可用代理。这样一来，获取代理只需要请求接口即可，以上的几个缺点弊端也可以避免。

我们使用一个比较轻量级的库Flask来实现这个接口模块，实现示例如下所示：

In [None]:
from flask import Flask,g
from db import RedisClient

__all__= ['app']
app = Flask(__name__)

def get_conn():
    if not hasatrr(g,'redis'):
        g.redis = RedisClient()
    return g.redis

@app.route('/')
def index():
    return '<h2>Welcome to Proxy Pool System created by Jamie</h2>'

@app.route('/random')
def get_proxy():
    """
    Get a proxy
    :return: 随机代理
    """
    conn = get_conn()
    return conn.random()

@app.route('/count')
def get_counts():
    """
    Get the count of proxies
    :return: 代理池总量
    """  
    conn = get_conn()
    return str(conn.count())

if __name__ == '__main__':
    app.run()

在这里，我们声明了一个Flask对象，定义了三个接口，分别是首页、随机代理页、获取数量页。

运行之后，Flask会启动一个Web服务，我们只需要访问对应的接口即可获取到可用代理。


###  调度模块

调度模块就是调用以上所定义的三个模块，将这三个模块通过多进程的形式运行起来

In [None]:
TESTER_CYCLE = 20
GETTER_CYCLE = 20
TESTER_ENABLED = True
GETTER_ENABLED = True
API_ENABLED = True


from multiprocessing import Process
from api import app
from getter import Getter
from tester import Tester

class Scheduler():
    def schedule_tester(self, cycle=TESTER_CYCLE):
        """
        定时测试代理
        """
        tester = Tester()
        while True:
           print('测试器开始运行')
           tester.run()
           time.sleep(cycle)

    def schedule_getter(self, cycle=GETTER_CYCLE):
        """
        定时获取代理
        """
        getter = Getter()
        while True:
            print('开始抓取代理')
            getter.run()
            time.sleep(cycle)

    def schedule_api(self):
        """
        开启API
        """
        app.run(API_HOST, API_PORT)

    def run(self):
        print('代理池开始运行')
        if TESTER_ENABLED:
            tester_process = Process(target=self.schedule_tester)
            tester_process.start()

        if GETTER_ENABLED:
            getter_process = Process(target=self.schedule_getter)
            getter_process.start()

        if API_ENABLED:
            api_process = Process(target=self.schedule_api)
            api_process.start()

[用Flask＋Aiohttp＋Redis维护动态代理池](https://cloud.tencent.com/developer/news/165412)
[python爬虫-自建IP代理池](https://blog.csdn.net/qq_42206477/article/details/85551939)
[爬虫代理服务](http://kaito-kidd.com/2015/11/02/proxies-service/)

[解释flask的g](https://blog.csdn.net/liucy113/article/details/82843499)

# Cookies 模拟登录并爬取GitHub

In [18]:
import requests
from pyquery import PyQuery as pq

class Login():
    def __init__(self):
        self.headers = {
            'Referer':'https://github.com/',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
            'Host':'github.com'
        }
        self.login_url = 'https://github.com/login'
        self.post_url = 'https://github.com/session'
        self.feed_url = 'https://github.com/dashboard-feed'
        self.logined_url = 'https://github.com/settings/profile'
        self.session = requests.Session()
     
    def token(self):
        response = self.session.get(self.login_url,headers=self.headers)
        selector = pq(response.text)
        token = selector('input[name="authenticity_token"]').attr('value')
        print(token)
        return token
    
    def login(self,email,password):
        post_data = {
            'commit':'Sign in',
            'utf8':'✓',
            'authenticity_token':self.token(),
            'login': email,
            'password': password
        }
        
        response = self.session.post(self.post_url,data=post_data, headers=self.headers)
        response = self.session.get(self.feed_url,headers= self.headers)
        if response.status_code == 200:
            self.dynamics(response.text)
            
        response = self.session.get(self.logined_url,headers=self.headers)
        if response.status_code == 200:
            self.profile(response.text)
            
    def dynamics(self,html):
        selector = pq(html)
        dynamics = selector('div[class="d-flex flex-items-baseline"] div')
        for item in dynamics.items():
            dynamic = item.text()
            print(dynamic)
            
    def profile(self,html):
        selector = pq(html)
        name = selector('input[id="user_profile_name"]').attr('value')        
        email = selector('select[id="user_profile_email"] option[selected="selected"]').attr('value')
        print(name,email)    
        
if __name__ == '__main__':
    login = Login()
    login.login(email='',password='')

nZoDl0JokPollao87yHg49SEWwpvNbRctKLozhGVY0oh+QwOGVp/a39WGLdgbB3tPMC7+QuVBEEG468+23I50A==
Germey starred pythonnet/pythonnet
Mar 19, 2019
Germey starred hey-mikey/vssettings
Mar 18, 2019
Germey starred zhubinchen/MarkLite
Mar 18, 2019
Germey starred Azure-Samples/storage-python-getting-started
Mar 7, 2019
Germey started following breakwa11
Mar 7, 2019
Germey starred breakwa11/gfw_whitelist
Mar 7, 2019
Germey starred antdlx/aic18_rc
Mar 6, 2019
Germey starred xiaxichen/zh_login
Mar 5, 2019
Germey starred fuzhenxin/Style-Transfer-in-Text
Mar 5, 2019
Germey starred Wox-launcher/Wox
Mar 5, 2019
Germey started following zhangslob
Feb 27, 2019
Germey started following karthikncode
Feb 25, 2019
Germey starred kohlschutter/boilerpipe
Feb 20, 2019
Germey starred postlight/mercury-parser
Feb 19, 2019
Germey started following muzico425
Feb 18, 2019
Germey starred asyncspider/AsyncSpiderweb
Feb 18, 2019
Germey started following asyncins
Feb 18, 2019
Jamie 452070961@qq.com
