# python 爬虫基础

# 1.Urllib库
urllib模块提供的上层接口，使我们可以像读取本地文件一样读取www和ftp上的数据。

### urlencode
* urllib可以接受一个Request类的实例来设置URL请求的headers，用以伪装你的User Agent字符串等（伪装浏览器）。  
* urllib提供urlencode方法用来GET查询字符串的产生
* 但是urllib.urlretrieve函数（直接将远程数据下载到本地）以及urllib.quote等一系列quote和unquote功能没有被加入urllib2中，因此有时也需要urllib的辅助。

#### urllib.parse.urlencode(query, doseq=0)
#### 接受参数形式为：[(key1, value1), (key2, value2),...] 和 {'key1': 'value1', 'key2': 'value2',...}
#### 返回的是形如'key2=value2&key1=value1'字符串。

In [1]:
import urllib
data = {'user':'小宋','password':'123456'}
urllib.parse.urlencode(data)                           ## 转化成url编码

'user=%E5%B0%8F%E5%AE%8B&password=123456'

In [2]:
from urllib import parse
#定义要转化的字典数据
qdict = {'age':34,'grils':('lili','tingting'),'name':'han p$'}
print(parse.urlencode(qdict))

#怎么让两个女朋友分开呢
print(parse.urlencode(qdict,True))

#怎么让name里边的$不要编码呢
print(parse.urlencode(qdict,True,'$'))

age=34&grils=%28%27lili%27%2C+%27tingting%27%29&name=han+p%24
age=34&grils=lili&grils=tingting&name=han+p%24
age=34&grils=lili&grils=tingting&name=han+p$


###### urllib.parse.quote(s, safe='/') 
接受参数s为字符串，safe是指定某字符不被urlencode，默认为'/'，如指定'+'、'/'不需转换，传 '+/' 和 '+ /' 均可。另外此方法会将“空格”转换为“%20”

In [3]:
urllib.parse.quote('str', safe='/') 

'str'

In [4]:
urllib.parse.quote('https://www.v2ex.com/?tab=all',safe='/,?')

'https%3A//www.v2ex.com/?tab%3Dall'

In [6]:
urllib.parse.quote(u'小宋 /+'.encode('utf8'))

'%E5%B0%8F%E5%AE%8B%20/%2B'

###### urllib.urlretrieve(url[, filename[, reporthook[, data]]])

url：外部或者本地url

filename：指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；

reporthook：是一个回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。

data：指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers)，filename表示保存到本地的路径，header表示服务器的响应头。

## 1.1 扒网页
根据URL来获取它的网页信息

In [3]:
from urllib.request import urlopen

response = urlopen("https://www.baidu.com/")
content = response.read().decode('utf-8')
print(content)

<html>
<head>
	<script>
		location.replace(location.href.replace("https://","http://"));
	</script>
</head>
<body>
	<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>


## 1.2 分析扒网页的方法¶

###### urlopen(url, data, timeout)     
调用urllib库里面的urlopen方法，传入一个URL，urlopen一般接受三个参数：

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

In [6]:
print(response.read())       ## response对象有一个read方法，可以返回获取到的网页内容

b''


In [7]:
print(response)              ## 不加read，返回response对象的描述

<http.client.HTTPResponse object at 0x0000020C2B646780>


## 1.3 POST和GET数据传送¶

上面的程序演示了最基本的网页抓取，不过，现在大多数网站都是动态网页，需要你动态地传递参数给它，它做出对应的响应。所以，在访问时，我们需要传递数据给它。最常见的情况就是登录注册。

把数据用户名和密码传送到一个URL，然后你得到服务器处理之后的响应。

数据传送分为POST和GET两种方式：

最重要的区别是GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数，不过如果你想直接查看提交了什么就不太方便了。

###### POST方式：
data参数就是用在这里的，我们传送的数据就是这个参数data

In [8]:
import urllib

values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.parse.urlencode(values).encode('utf-8')      ## 将字符串以URL编码，用于编码处理
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib.request.Request(url,data)     #需要加入headers（请求头）等信息时，需要用到更强大的Request
response = urllib.request.urlopen(request)
print(response.read())

b'<!DOCTYPE html><html><head><meta http-equiv=X-UA-Compatible content="IE=Edge,chrome=1"><meta http-equiv=cache-control content="max-age=0"><meta http-equiv=cache-control content=no-cache><meta http-equiv=expires content=0><meta http-equiv=expires content="Tue, 01 Jan 1980 1:00:00 GMT"><meta name=renderer content=webkit><meta name=force-rendering content=webkit><meta charset=utf-8><meta name=description content=CSDN\xe7\x99\xbb\xe5\xbd\x95\xe6\xb3\xa8\xe5\x86\x8c><link type=image/x-icon href=https://csdnimg.cn/public/favicon.ico rel="SHORTCUT ICON"><title>CSDN-\xe4\xb8\x93\xe4\xb8\x9aIT\xe6\x8a\x80\xe6\x9c\xaf\xe7\xa4\xbe\xe5\x8c\xba</title><!--[if lt IE 9]>\n       <script>window.location.href="https://g.csdnimg.cn/browser_upgrade/1.0.2/index.html";</script>\n    <![endif]--><style>#app {\n        min-height: 500px\n      }</style><link href=https://csdnimg.cn/release/passport_fe/assets/css/login.7479892537208c9ed29123aa51b5bee7.css rel=stylesheet></head><body><div id=app></div><scrip

引入urllib库，模拟登陆CSDN，上述代码可能登陆不进去，因为还要做一些设置头部header的工作，或者还有一些参数没有设置全，还没有提及到在此就不写上去了，在此只是说明登录的原理。我们需要定义一个字典，名字为values，参数设置了username和password，利用urllib的urlencode方法将字典编码，命名为data，构建request时传入两个参数，url和data，运行程序，即可实现登陆，返回的便是登陆后呈现的页面内容。

###### GET方式：
GET方式我们可以直接把参数写到网址上面，直接构建一个带参数的URL出来即可

In [10]:
import urllib

values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.parse.urlencode(values) 
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib.request.Request(geturl)
response = urllib.request.urlopen(request)
print(geturl)
#print(response.read())

http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX


## 1.4 Urllib库的高级用法

#### 1. 设置Headers¶

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些 Headers 的属性。

按F12->network,点击第一个请求，查看headers，可看到General、Response Headers 、Request Headers三个分类，有:

>* Request URL:http://blog.csdn.net/mynameishuangshuai
>* Request Method:GET
>* User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36

In [10]:
import urllib

url= "http://blog.csdn.net/mynameishuangshuai"
request=urllib.request.Request(url)
response=urllib.request.urlopen(request)
#print(response.read().decode('utf-8'))

In [12]:
import urllib

url= "http://blog.csdn.net/mynameishuangshuai"
user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36"
headers={"User-Agent":user_agent}               ## agent是请求的身份，如果没有写入请求身份，那么服务器不一定会响应，所以在headers中设置agent
request=urllib.request.Request(url,headers=headers)    
response=urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <link rel="canonical" href="https://blog.csdn.net/mynameishuangshuai"/>
    <meta http-equiv="content-type" content="text/html; charset=utf-8">
    <meta name="renderer" content="webkit"/>
    <meta name="force-rendering" content="webkit"/>
    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"/>
    <meta name="viewport" content="width=device-width, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0, user-scalable=no">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">
    <meta name="referrer" content="always">
    <meta http-equiv="Cache-Control" content="no-siteapp" /><link rel="alternate" media="handheld" href="#" />
    <meta name="shenma-site-verification" content="5a59773ab8077d4a62bf469ab966a63b_1497598848">
    <script src="https://csdnimg.cn/release/phoenix/vendor/tingyun/tingyun-rum-blog.js"></script>

    <link href="https://csdnimg.cn/public/favicon.ico" rel="SHO

另外headers的一些属性，下面的需要特别注意一下：
>* User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
>* Referer : 对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应
>* Content-Type : 在使用 REST 接口时，服务器会检查该值，用来确定 HTTP Body 中的内容该怎样解析。
>* application/xml ： 在 XML RPC，如 RESTful/SOAP 调用时使用
>* application/json ： 在 JSON RPC 调用时使用
>* application/x-www-form-urlencoded ： 浏览器提交 Web 表单时使用  

在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务

#### 2. Proxy（代理）的设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理，网站都不知道是谁在捣鬼了

In [4]:
import urllib
enable_proxy = True
proxy_handler = urllib.request.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib.request.ProxyHandler({})
if enable_proxy:
    opener = urllib.request.build_opener(proxy_handler)
else:
    opener = urllib.request.build_opener(null_proxy_handler)
urllib.request.install_opener(opener)

#### 3.Timeout 设置
urlopen的第三个参数就是timeout的设置，可以设置等待多久超时，为了解决一些网站实在响应过慢而造成的影响。

如果第二个参数data为空那么要特别指定是timeout是多少，写明形参，如果data已经传入，则不必声明。

In [13]:
import urllib
response = urllib.request.urlopen('https://www.baidu.com/',timeout=0.02)
print(response.read().decode('utf-8'))

URLError: <urlopen error _ssl.c:629: The handshake operation timed out>










# 2.Requests库

### 2.1  引入

In [14]:
import requests

r = requests.get('http://cuiqingcai.com')

print(r.status_code)
print(r.encoding)
#200 成功

200
UTF-8


In [16]:
#print(r.text)       ## 代码请求了本站点的网址，然后打印出了返回结果的状态码，编码方式，html代码等内容

###  2.2 基本请求
requests库提供了http所有的基本请求方式：

练习页面： http://httpbin.org/

#### 基本GET请求
最基本的GET请求可以直接用get方法

In [17]:
r = requests.get("http://httpbin.org/get")

In [18]:
r.content        ## 响应内容

b'{\n  "args": {}, \n  "headers": {\n    "Accept": "*/*", \n    "Accept-Encoding": "gzip, deflate", \n    "Connection": "close", \n    "Host": "httpbin.org", \n    "User-Agent": "python-requests/2.18.4"\n  }, \n  "origin": "219.228.146.41", \n  "url": "http://httpbin.org/get"\n}\n'

In [19]:
r.ok           ## 响应内友好提示。访问无异常，为True，否则，为False

True

In [20]:
r.url         ## 访问URL

'http://httpbin.org/get'

In [21]:
r.encoding     ## headers里面的charset

In [22]:
r.apparent_encoding        ## headers里面发现不了charset ，则会根据网页内容自己分析

'ascii'

In [23]:
print(r.headers)            ## HTTP Headers内容
print(r.headers.keys())
print(r.headers['Date'])

{'Access-Control-Allow-Origin': '*', 'Content-Length': '267', 'Via': '1.1 vegur', 'Content-Type': 'application/json', 'Connection': 'keep-alive', 'Access-Control-Allow-Credentials': 'true', 'Date': 'Sun, 18 Nov 2018 06:19:20 GMT', 'Server': 'gunicorn/19.9.0'}
KeysView({'Access-Control-Allow-Origin': '*', 'Content-Length': '267', 'Via': '1.1 vegur', 'Content-Type': 'application/json', 'Connection': 'keep-alive', 'Access-Control-Allow-Credentials': 'true', 'Date': 'Sun, 18 Nov 2018 06:19:20 GMT', 'Server': 'gunicorn/19.9.0'})
Sun, 18 Nov 2018 06:19:20 GMT


In [24]:
r.json()               ## 转化成json格式输出,json类似于字典

{'args': {},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.18.4'},
 'origin': '219.228.146.41',
 'url': 'http://httpbin.org/get'}

#### 响应json内容
Requests中有一个内置的JSON解码器，可以处理JSON数据
![JSON](http://d.pr/i/qq7B.jpg)

In [26]:
import requests
url='https://github.com/timeline.json'
html_json = requests.get(url).json()
print(type(html_json))
print(html_json)

<class 'dict'>
{'documentation_url': 'https://developer.github.com/v3/activity/events/#list-public-events', 'message': 'Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.'}


#### 传headers参数

In [27]:
import requests

payload = {'key1': 'value1', 'key2': 'value2'}
headers = {'content-type': 'application/json'}
r = requests.get("http://httpbin.org/get", params=payload, headers=headers)     ## 通过headers参数可以增加请求头中的headers信息
print(r.url)

http://httpbin.org/get?key1=value1&key2=value2


基本POST请求
对于 POST 请求来说，一般需要为它增加一些参数，最基本的传参方法可以利用 data 这个参数。

In [28]:
import requests

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.18.4"
  }, 
  "json": null, 
  "origin": "219.228.146.41", 
  "url": "http://httpbin.org/post"
}



有时候我们需要传送的信息不是表单形式的，需要我们传JSON格式的数据过去，可以用 json.dumps() 方法把表单数据序列化。

In [5]:
import json
import requests

url = 'http://httpbin.org/post'
payload = {'some': 'data'}
r = requests.post(url, data=json.dumps(payload))  
#json.dumps()用于将dict类型的数据转成str，因为如果直接将dict类型的数据写入json文件中会发生报错，因此在将数据写入时需要用到该函数。
print(r.text)

{
  "args": {}, 
  "data": "{\"some\": \"data\"}", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "16", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "json": {
    "some": "data"
  }, 
  "origin": "101.84.39.161, 101.84.39.161", 
  "url": "https://httpbin.org/post"
}



### 2.3 Cookies
如果一个响应中包含了cookie，那么我们可以利用 cookies 变量来拿到（判断新老客户，保存密码）

Cookie是由服务器端生成，发送给User-Agent,浏览器会将Cookie的key/value保存到某个目录下的文本文件内，下次请求同一网站时就发送该Cookie给服务器

In [30]:
import requests

url = 'http://www.baidu.com'
r = requests.get(url)
print(r.cookies)     #获取cookie
print(r.cookies.get)

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
<bound method RequestsCookieJar.get of <RequestsCookieJar[Cookie(version=0, name='BDORZ', value='27315', port=None, port_specified=False, domain='.baidu.com', domain_specified=True, domain_initial_dot=True, path='/', path_specified=True, secure=False, expires=1542608814, discard=False, comment=None, comment_url=None, rest={}, rfc2109=False)]>>


另外可以利用 cookies 变量来向服务器发送 cookies 信息

In [31]:
import requests

url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies)
print(r.text)

{
  "cookies": {
    "cookies_are": "working"
  }
}



In [32]:
#-*- coding:utf-8 -*-
import requests

url = 'http://vip.baidu.com/pcui/show/ucenterindex?vip_frm=search_account'
cookies = {'Cookies':'ispeed_lsm=0; BDUSS=pYQWd2MnFTZGlwWVpBMnNaaElPYlBONkd-R2s3TEZ5NGRyRlh5Vko5S35PajFZSVFBQUFBJCQAAAAAAAAAAAEAAACAgo1dAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAL-tFVi~rRVYVm; BAIDUID=DCC8BA7CBF7A0244980CBE90DB2E76B5:FG=1; PSTM=1478053533; BDRCVFR[lMjvlWjDcRC]=mk3SLVN4HKm; BD_CK_SAM=1; PSINO=5; H_PS_PSSID=17944; BIDUPSID=3ACA6C4A9617AA292CDCB1EC2F3E4619; BD_UPN=12314753; H_PS_645EC=bcdeEU5%2Bvvlz0QwdkqJwdbZbuUOUiWfgLpz%2BcHKQErm7W23DCy%2BnJhGcU84iL4Nz%2FioTp992; BDSVRTM=0'}
r = requests.get(url, cookies=cookies)
print(r.encoding)
#print(r.text.encode('ISO-8859-1'))

ISO-8859-1


### 2.4 超时配置

In [35]:
requests.get('http://github.com', timeout=0.5)           ## 利用 timeout 变量来配置最大请求时间
#timeout修改大一点不会出错

<Response [200]>

### 2.5 会话对象

在以上的请求中，每次请求其实都相当于发起了一个新的请求。
也就是相当于我们每个请求都用了不同的浏览器单独打开的效果。也就是它并不是指的一个会话，即使请求的是同一个网址。比如：

In [36]:
import requests

requests.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = requests.get("http://httpbin.org/cookies")
print(r.text)

{
  "cookies": {}
}



不在一个会话中，无法获取 cookies，那么在一些站点中，我们需要保持一个持久的会话怎么办呢？就像用一个浏览器逛淘宝一样，在不同的选项卡之间跳转，这样其实就是建立了一个长久会话。

In [37]:
import requests

s = requests.Session()
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')          ## 在这里我们请求了两次，一次是设置 cookies，一次是获得 cookies
r = s.get("http://httpbin.org/cookies")
print(r.text)

{
  "cookies": {
    "sessioncookie": "123456789"
  }
}



In [35]:
#-*- coding:utf-8 -*-
import requests
s = requests.Session()
url1 = 'http://www.exanple.com/login'#登陆地址
url2 = "http://www.example.com/main"#需要登陆才能访问的地址
data={"user":"user","password":"pass"}
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
            "Accept-Encoding":"gzip",
            "Accept-Language":"zh-CN,zh;q=0.8",
            "Referer":"http://www.example.com/",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36"
            }

prepped1 = requests.Request('POST', url1,
    data=data,
    headers=headers
).prepare()
s.send(prepped1)
prepare2 = requests.Request('POST', url2,
    headers=headers
).prepare()
res2 = s.send(prepare2)

print(res2.content)

b'<?xml version="1.0" encoding="iso-8859-1"?>\n<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"\n         "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">\n\t<head>\n\t\t<title>404 - Not Found</title>\n\t</head>\n\t<body>\n\t\t<h1>404 - Not Found</h1>\n\t</body>\n</html>\n'


### 2.6 代理
可以通过为任意请求方法提供 proxies 参数来配置单个请求


In [36]:
import requests

proxies = {
  "https": "http://41.118.132.69:4433"
}
r = requests.post("http://httpbin.org/post", proxies=proxies)
print(r.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Connection": "close", 
    "Content-Length": "0", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.18.4"
  }, 
  "json": null, 
  "origin": "223.104.212.178", 
  "url": "http://httpbin.org/post"
}



# 3.Cookie

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）

比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

在此之前呢，我们必须先介绍一个opener的概念。

当用户通过浏览器首次访问一个域名时，访问的WEB服务器会给客户端发送数据，以保持WEB服务器与客户端之间的状态保持，这些数据就是Cookie，它是 Internet 站点创建的 ,为了辨别用户身份而储存在用户本地终端上的数据，Cookie中的信息一般都是经过加密的，Cookie存在缓存中或者硬盘中，在硬盘中的是一些小文本文件,当你访问该网站时，就会读取对应网站的Cookie信息，Cookie有效地提升了我们的上网体验。

### 3. 1 Opener
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout。

如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。

### 3.2 CookieJar
cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

#### 1）获取Cookie保存到变量
首先，我们先利用CookieJar对象实现获取cookie的功能，存储到变量中

In [39]:
import urllib
import http.cookiejar

#声明一个CookieJar对象实例来保存cookie
cookie = http.cookiejar.CookieJar()

#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler=urllib.request.HTTPCookieProcessor(cookie)

#通过handler来构建opener
opener = urllib.request.build_opener(handler)

#此处的open方法同urllib2的urlopen方法，也可以传入request
response = opener.open('http://www.baidu.com')
print(response)
for item in cookie:
    print('Name = '+item.name)
    print('Value = '+item.value)

<http.client.HTTPResponse object at 0x0000020C2CCBCE80>
Name = BAIDUID
Value = 80F7D2BFEC4B8A69AD49F860E423BA2A:FG=1
Name = BIDUPSID
Value = 80F7D2BFEC4B8A69AD49F860E423BA2A
Name = H_PS_PSSID
Value = 1460_21110
Name = PSTM
Value = 1542524089
Name = delPer
Value = 0
Name = BDSVRTM
Value = 0
Name = BD_HOME
Value = 0


#### 2）保存Cookie到文件
在上面的方法中，我们将cookie保存到了cookie这个变量中，如果我们想将cookie保存到文件中该怎么做呢？这时，我们就要用到

FileCookieJar这个对象了，在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存

In [38]:
#设置保存cookie的文件，同级目录下的cookie.txt
filename = 'baidu.txt'
#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件
cookie = http.cookiejar.MozillaCookieJar(filename)
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler = urllib.request.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib.request.build_opener(handler)
#创建一个请求，原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")
#保存cookie到文件
cookie.save(ignore_discard=True, ignore_expires=True)

ignore_discard的意思是即使cookies将被丢弃也将它保存下来  
ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，在这里，我们将这两个全部设置为True。

#### 3）从文件中获取Cookie并访问¶

In [39]:
#创建MozillaCookieJar实例对象
cookie = http.cookiejar.MozillaCookieJar()
#从文件中读取cookie内容到变量
cookie.load('baidu.txt', ignore_discard=True, ignore_expires=True)
#创建请求的request
req = urllib.request.Request("http://www.baidu.com")
#利用urllib2的build_opener方法创建一个opener
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
response = opener.open(req)
#print(response.read())

### 以豆瓣为例，手动获取cookie，并登录，抓取

In [6]:
#coding=utf-8
import urllib

HEADERS = {"cookie": 'bid=XjVMbhACU8g; gr_user_id=0d40a451-a87a-4fd4-a1c0-7fdb8c033463; ll="108296"; viewed="25757227_1198048"; ap=1; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1477738961%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DiJljeyvtAjxOP4iucsKsL1qjSIKuVmFLG0lSYj9qaqC%26wd%3D%26eqid%3Ddb0d484d0006cecf00000003581481ce%22%5D; __utmt=1; _gat_UA-7019765-1=1; ps=y; _ga=GA1.2.1095113428.1474646191; dbcl2="51010702:WYz0cj3POUA"; ck=Lse6; push_noty_num=0; push_doumail_num=0; _pk_id.100001.8cb4=a9e29dda84985b76.1474646190.9.1477739414.1477722329.; _pk_ses.100001.8cb4=*; __utma=30149280.1095113428.1474646191.1477722330.1477738969.13; __utmb=30149280.5.10.1477738969; __utmc=30149280; __utmz=30149280.1477738969.13.11.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmv=30149280.5101; _vwo_uuid_v2=556741B28B99F927F067AD905C2ABF58|af273547878dce6e261fcd38d1533f39'}#里面写你在www.douban.com的cookie
url = 'http://www.douban.com/'
req = urllib.request.Request(url, headers=HEADERS)
text = urllib.request.urlopen(req).read().decode('utf-8')

if "独孤怡的帐号" in text and "个人主页" in text:
    print("登陆成功!")
else:
    print("登录失败!")
#print(text)

URLError: <urlopen error [Errno 61] Connection refused>

In [42]:
url = 'https://www.douban.com/people/51010702/'
page = urllib.request.Request(url, headers=HEADERS)
PAGE = urllib.request.urlopen(page).read()
#print(PAGE)

### 百度/V2EX¶

In [6]:
#coding=utf-8
import urllib

HEADERS = {"cookie": 'PB3_SESSION="2|1:0|10:1477816201|11:PB3_SESSION|36:djJleDoxODAuMTYwLjcwLjE5OjEyMzYzNDkz|8685adc5513a7d4be8688a952cee0de6e8b5ca801f905ac13ee0d87d7933d48b"; _gat=1; A2="2|1:0|10:1477816596|2:A2|56:ZmNmMTM2MWZkNTgyMmM2YzRmNmQ1YzcxYTNmMGVlZjk0NmE5YzZjYg==|338741dec4de27fcbe4572b41679fbbb992e652f0390a18a73d47267c75cab55"; V2EX_LANG=zhcn; _ga=GA1.2.498775440.1477316299'}#里面写你在www.douban.com的cookie
url = 'http://www.v2ex.com/'
req = urllib.request.Request(url, headers=HEADERS)
text = urllib.request.urlopen(req).read()

#print(text)

In [40]:
#coding=utf-8
import urllib

HEADERS = {"cookie": 'PB3_SESSION="2|1:0|10:1477816201|11:PB3_SESSION|36:djJleDoxODAuMTYwLjcwLjE5OjEyMzYzNDkz|8685adc5513a7d4be8688a952cee0de6e8b5ca801f905ac13ee0d87d7933d48b"; _gat=1; A2="2|1:0|10:1477816596|2:A2|56:ZmNmMTM2MWZkNTgyMmM2YzRmNmQ1YzcxYTNmMGVlZjk0NmE5YzZjYg==|338741dec4de27fcbe4572b41679fbbb992e652f0390a18a73d47267c75cab55"; V2EX_LANG=zhcn; _ga=GA1.2.498775440.1477316299'}#里面写你在www.douban.com的cookie
url = 'http://www.v2ex.com/'
req = urllib.request.Request(url, headers=HEADERS)
text = urllib.request.urlopen(req).read()

#print(text)

URLError: <urlopen error [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。>

In [41]:
url = 'https://www.v2ex.com/settings'
page = urllib.request.Request(url, headers=HEADERS)
PAGE = urllib.request.urlopen(page).read()
#print(PAGE)

# 4.Beautiful Soup 

## 4.1. Beautiful Soup简介
简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据。
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

## 4.2 创建 Beautiful Soup 对象

In [42]:
import bs4
from bs4 import BeautifulSoup     ## 导入 bs4 库

创建一个字符串，后面的例子将会用它来演示：

In [43]:
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

In [44]:
soup = BeautifulSoup(html,"lxml")     ## 创建 beautifulsoup 对象
print(soup.prettify())        ## 格式化输出

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title" name="dromouse">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    <!-- Elsie -->
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [48]:
# local_soup = BeautifulSoup(open('html.html'),"lxml")     ## 用本地 HTML 文件来创建对象
# print(local_soup)

In [45]:
import requests
url = requests.get('http://www.baidu.com').text  #抓取
s = BeautifulSoup(url,'lxml')  #解析
print(s)

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta content="text/html;charset=utf-8" http-equiv="content-type"/><meta content="IE=Edge" http-equiv="X-UA-Compatible"/><meta content="always" name="referrer"/><link href="http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css" rel="stylesheet" type="text/css"/><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link="#0000cc"> <div id="wrapper"> <div id="head"> <div class="head_wrapper"> <div class="s_form"> <div class="s_form_wrapper"> <div id="lg"> <img height="129" hidefocus="true" src="//www.baidu.com/img/bd_logo1.png" width="270"/> </div> <form action="//www.baidu.com/s" class="fm" id="form" name="f"> <input name="bdorz_come" type="hidden" value="1"/> <input name="ie" type="hidden" value="utf-8"/> <input name="f" type="hidden" value="8"/> <input name="rsv_bp" type="hidden" value="1"/> <input name="rsv_idx" type="hidden" value="1"/> <input name="tn" type="hidden" value="baidu"/><span class="bg s_ipt_wr"><input autocomplete="off" au

## 4.3 四大对象种类 （文档对象模型）¶

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:  

* Tag
* NavigableString
* BeautifulSoup
* Comment

### （1）Tag（标签）
"title"、"a" 等等 HTML 标签加上里面包括的内容就是 Tag :

```<title>The Dormouse's story</title>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>```

In [46]:
print(soup.title)
print(soup.head)
print(soup.a)
print(soup.p)

<title>The Dormouse's story</title>
<head><title>The Dormouse's story</title></head>
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>


In [47]:
print(soup.body)

<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>


利用 soup 加标签名可以轻松获取这些标签的内容，  
但是，它查找的是在所有内容中的第一个符合要求的标签。

In [48]:
print(type(soup.a))     ## 查看对象类型

<class 'bs4.element.Tag'>


#### Tag 的两个重要属性， name 和 attrs

In [53]:
print(soup.name)
print(soup.head.name)   
## soup 对象本身比较特殊，它的 name 即为 [document]，对于其他内部标签，输出的值便为标签本身的名称

[document]
head


In [54]:
print(soup.p.attrs)      ## 把 p 标签的所有属性打印输出

{'class': ['title'], 'name': 'dromouse'}


In [55]:
print(soup.p['class'])        ## 单独获取某'个属性
print(soup.p.get('class'))    ## 利用get方法，传入属性的名称，获取属性值，两者等价

['title']
['title']


In [56]:
soup.p['class']="newClass"     ## 可以对这些属性和内容等进行修改
print(soup.p)

<p class="newClass" name="dromouse"><b>The Dormouse's story</b></p>


In [57]:
del soup.p['class']     ## 对属性进行删除
print(soup.p)

<p name="dromouse"><b>The Dormouse's story</b></p>


### （2）NavigableString（可遍历的字符串）
**.string 获取标签内部的文字**

In [58]:
print(soup.p.string)

The Dormouse's story


In [59]:
print(type(soup.p.string))    ## 类型是一个 NavigableString

<class 'bs4.element.NavigableString'>


### （3）BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容。大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性

In [60]:
print(type(soup.name))
print(soup.name)
print(soup.attrs)
print(soup.contents)

<class 'str'>
[document]
{}
[<html><head><title>The Dormouse's story</title></head>
<body>
<p name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>]


### （4）Comment
Comment 对象是一个特殊类型的 NavigableString 对象，其实输出的内容仍然不包括注释符号，但是如果不好好处理它，可能会对我们的文本处理造成意想不到的麻烦。

In [61]:
print(soup.a)
print(soup.a.string)
print(type(soup.a.string))

<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
 Elsie 
<class 'bs4.element.Comment'>


a 标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容，会发现它已经把注释符号去掉了，可能会给我们带来不必要的麻烦。  

另外我们打印输出下它的类型，发现它是一个 Comment 类型，所以，我们在使用前最好做一下判断，判断代码如下

In [62]:
if type(soup.a.string)==bs4.element.Comment:     ## 首先判断类型，是否为 Comment 类型，然后再进行其他操作
    print("<!--%s-->"%soup.a.string)

<!-- Elsie -->


## 4.4 遍历文档树
### （1）直接子节点
**.contents属性**

In [49]:
print(soup.body.contents)         ## tag 的 .contents 属性可以将tag的子节点以列表的方式输出
print(soup.body.contents[3])      ## 用列表索引来获取它的某一个元素

['\n', <p class="title" name="dromouse"><b>The Dormouse's story</b></p>, '\n', <p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>, '\n', <p class="story">...</p>, '\n']
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>


In [50]:
print(soup.body.contents[5]) 

<p class="story">...</p>


**.children属性**（返回的不是一个 list，而是一个 list 生成器对象，可以通过遍历获取所有子节点）

In [51]:
chil = soup.body.children
print(chil)
for i in chil:
    print(i)

<list_iterator object at 0x0000020C2CC1B898>


<p class="title" name="dromouse"><b>The Dormouse's story</b></p>


<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>


<p class="story">...</p>




In [52]:
chil = soup.body.children
print(chil)

<list_iterator object at 0x0000020C2CEF2A58>


### （2）所有子孙节点
**.descendants属性**  

.contents 和 .children 属性仅包含tag的直接子节点，.descendants 属性可以对所有tag的子孙节点进行递归循环，和 children类似，我们也需要遍历获取其中的内容。

In [53]:
for i in soup.descendants:          ## 所有的节点都被打印出来了，先最外层的 HTML标签，其次从 head 标签一个个剥离，以此类推
    print(i)

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>
<head><title>The Dormouse's story</title></head>
<title>The Dormouse's story</title>
The Dormouse's story


<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/till

### （3）节点内容
**.string属性**  

如果tag只有一个 NavigableString 类型子节点,那么这个tag可以使用 .string 得到子节点。如果一个tag仅有一个子节点,那么这个tag也可以使用 .string 方法,输出结果与当前唯一子节点的 .string 结果相同。  

通俗点说就是：如果一个标签里面没有标签了，那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了，那么 .string 也会返回最里面的内容。

In [54]:
print(soup.head.string)
print(soup.title.string)

The Dormouse's story
The Dormouse's story


如果tag包含了多个子节点,tag就无法确定，string 方法应该调用哪个子节点的内容, .string 的输出结果是 None

In [69]:
print(soup.html.string)

None


### （4）多个内容
**.strings 属性**(获取多个内容，但需要遍历获取)

In [55]:
for i in soup.strings:
    print(i)

The Dormouse's story




The Dormouse's story


Once upon a time there were three little sisters; and their names were

,

Lacie
 and

Tillie
;
and they lived at the bottom of a well.


...




**.stripped_strings 属性**（去除多余空白内容）

In [71]:
for i in soup.stripped_strings:
    print(i)

The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie
and
Tillie
;
and they lived at the bottom of a well.
...


### （5）父节点
**.parent 属性**

In [72]:
p = soup.p
print(p.parent.name)
string = soup.head.string
print(string.parent.name)

body
title


In [73]:
p = soup.p
print(p.parent)

<body>
<p name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>


In [74]:
string = soup.head.string
print(string.parent)

<title>The Dormouse's story</title>


### （6）全部父节点
**.parents 属性**(递归得到元素的所有父辈节点)

In [75]:
content = soup.head.string
for i in content.parents:
    print(i.name)

title
head
html
[document]


### （7）兄弟节点
**.next_sibling  .previous_sibling 属性**  

兄弟节点可以理解为和本节点处在同一级的节点，.next_sibling 属性获取了该节点的下一个兄弟节点，.previous_sibling 则与之相反，如果节点不存在，则返回 None

**注意：**实际文档中的tag的 .next_sibling 和 .previous_sibling 属性通常是字符串或空白，因为空白或者换行也可以被视作一个节点，所以得到的结果可能是空白或者换行

In [76]:
print(soup.p.previous_sibling.previous_sibling)
print(soup.p.next_sibling)
print(soup.p.next_sibling.next_sibling)

None


<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>


### （8）全部兄弟节点
**.next_siblings  .previous_siblings 属性**(迭代输出)

In [77]:
for i in soup.p.next_siblings:
    print(i)



<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>


<p class="story">...</p>




### （9）前后节点
**.next_element  .previous_element 属性**(与 .next_sibling  .previous_sibling 不同，它并不是针对于兄弟节点，而是在所有节点，不分层次)

In [78]:
print(soup.head.next_element)

<title>The Dormouse's story</title>


### （10）所有前后节点
**.next_elements  .previous_elements 属性**(通过 .next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容,就好像文档正在被解析一样)

In [79]:
for i in soup.head.next_elements:
    print(i.name)

title
None
None
body
None
p
b
None
None
p
None
a
None
None
a
None
None
a
None
None
None
p
None
None


## 4.5 搜索文档树

### （1）find_all( name , attrs , recursive , text , **kwargs )
搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件

**1）name 参数**  

name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉

**A.传字符串  **  

最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容

In [80]:
print(soup.find_all('b'))
print(soup.find_all('a'))

[<b>The Dormouse's story</b>]
[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


**B.传正则表达式**  

如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容

In [81]:
import re
for i in soup.find_all(re.compile('^b')):      ## 找出所有以b开头的标签
    print(i.name)

body
b


**C.传列表**  

如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回

In [82]:
soup.find_all(['a','b'])    ## 找到文档中所有<a>标签和<b>标签

[<b>The Dormouse's story</b>,
 <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

**D.传 True**

True 可以匹配任何值

In [83]:
for i in soup.find_all(True):    ## 查找到所有的tag,但不会返回字符串节点
    print(i.name)

html
head
title
body
p
b
p
a
a
a
p


**E.传方法**

如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数 ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则返回 False

In [84]:
def func(tag):
    return tag.has_attr('class') and not tag.has_attr('id')    ## 包含 class 属性却不包含 id 属性
soup.find_all(func)

[<p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>, <p class="story">...</p>]

**2）keyword 参数**  

**注意：**如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性

In [85]:
soup.find_all(id='link2')

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [86]:
soup.find_all(href=re.compile('elsie'))        ## 传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性

[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

In [87]:
soup.find_all(href=re.compile('elsie'),id='link1')        ## 使用多个指定名字的参数可以同时过滤tag的多个属性

[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

**想用 class 过滤，不过 class 是 python 的关键词，这怎么办？加个下划线就可以**

In [88]:
soup.find_all('a',class_='sister')

[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

有些tag属性在搜索时不能使用,比如HTML5中的 **data-* **属性

In [89]:
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')
data_soup.find_all(data-foo="value")

SyntaxError: keyword can't be an expression (<ipython-input-89-af593f62fb41>, line 2)

但可以通过 find_all() 方法的** attrs 参数**定义一个字典参数来搜索包含特殊属性的tag

In [90]:
data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')
data_soup.find_all(attrs={'data-foo':'value'})



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


[<div data-foo="value">foo!</div>]

**3）text 参数**

通过 text 参数可以搜索文档中的字符串内容.与 name 参数的可选值一样, text 参数接受：字符串 , 正则表达式 , 列表, True

In [91]:
print(soup.find_all(text="Elsie"))

print(soup.find_all(text=["Tillie", "Elsie", "Lacie"]))

print(soup.find_all(text=re.compile("Dormouse")))

[]
['Lacie', 'Tillie']
["The Dormouse's story", "The Dormouse's story"]


**4）limit 参数**

find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢。  
如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果.

In [92]:
soup.find_all('a',limit=2)     ## 文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量

[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [93]:
soup.find('a')  

<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>

**5）recursive 参数**

调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .

In [94]:
print(soup.find_all('body'))
print(soup.find_all('body',recursive=False))

[<body>
<p name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body>]
[]


#### （2）find( name , attrs , recursive , text , **kwargs )

它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是列表,而 find() 方法直接返回结果,且只返回一个值

#### （3）find_parents()  find_parent()

find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容

#### （4）find_next_siblings()  find_next_sibling()

这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进行迭代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点

#### （5）find_previous_siblings()  find_previous_sibling()

这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings() 方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点

#### （6）find_all_next()  find_next()

这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点

#### （7）find_all_previous() 和 find_previous()

这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点

**注：以上（2）（3）（4）（5）（6）（7）方法参数用法与 find_all() 完全相同，原理均类似，在此不再赘述。**

## 4.6 CSS选择器
写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #，在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list

### （1）通过标签名查找

In [95]:
print(soup.select('title'))
print(soup.select('a'))
print(soup.select('b'))

[<title>The Dormouse's story</title>]
[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
[<b>The Dormouse's story</b>]


### （2）通过类名查找

In [96]:
print(soup.select('.sister'))

[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


### （3）通过 id 名查找

In [97]:
print(soup.select('#link2'))

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]


### （4）组合查找

组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的

In [98]:
print(soup.select('p #link2'))        ## 查找 p 标签中，id 等于 link1的内容，二者需要用空格分开

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]


In [99]:
print(soup.select('head > title'))       ## 直接子标签查找

[<title>The Dormouse's story</title>]


### （5）属性查找

查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。

In [100]:
print(soup.select('a[class="sister"]'))

[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容。

In [101]:
soup = BeautifulSoup(html, 'lxml')
print(type(soup.select('title')))
print(soup.select('title')[0].get_text())

for title in soup.select('title'):
    print(title.get_text())

<class 'list'>
The Dormouse's story
The Dormouse's story


# 5.xpath

### 使用XPath解析HTML网页

[html教程](http://www.w3school.com.cn/html/)

### 5.1 XPath语法
XPath即为__XML路径语言（XML Path Language）__，是一门在 XML 文档中查找信息的语言。可用来在 XML 文档中对元素和属性进行遍历,以确定 XML 文档中某部分位置。   

这里讨论的是在XPath语言规范下，封装而成的一种解析XML文档的技术。在PHP，Python里，具体是指xpath这个函数。所以，所谓的对 XML 文档某部分位置的定位，就是用XPath的规范，定位到这个部分，为我所用。

**XPath可分为四种数据类型:**
* 节点集（node-set）:通过路径匹配返回的符合条件的一组节点的集合。其它类型的数据不能转换为节点集。  

* 布尔值(boolean):由函数或布尔表达式返回的条件匹配值，与一般语言中的布尔值相同，有true和false两个值。布尔值可以和数值类型、字符串类型相互转换。  

* 字符串(string):字符串即包含一系列字符的集合，XPath中提供了一系列的字符串函数。字符串可与数值类型、布尔值类型的数据相互转换。  

* 数值(number):在XPath中数值为浮点数，可以是双精度64位浮点数。另外包括一些数值的特殊描述，如非数值NaN（Not-a-Number）、正无穷大 infinity、负无穷大-infinity、正负0等等。number的整数值可以通过函数取得，另外，数值也可以和布尔类型、字符串类型相互转换


#### 节点集
#### 节点关系
```
<bookstore>
 
    <book>
        <title>Harry Potter</title>
        <author>J K. Rowling</author>
        <year>2005</year>
        <price>29.99</price>
    </book>
 
</bookstore>
```

**（1）父（Parent）**

每个元素以及属性都有一个父。以上的例子中，book 元素是 title、author、year 以及 price 元素的父。


**（2）子（Children）**

元素节点可有零个、一个或多个子。
以上例子中，title、author、year 以及 price 元素都是 book 元素的子。


**（3）同胞（Sibling）**

拥有相同的父的节点。
以上例子中，title、author、year 以及 price 元素都是同胞。


**（4）先辈（Ancestor）**

某节点的父、父的父，等等。
以上例子中，title 元素的先辈是 book 元素和 bookstore 元素：


**（5）后代（Descendant）**

某个节点的子，子的子，等等。
以上例子中，bookstore 的后代是 book、title、author、year 以及 price 元素：

### 5.2 XPath路径表达式（选取节点）
**表达式：**

![路径表达式](http://d.pr/i/a8NB.jpg)
**实例：**
![实例](http://d.pr/i/KXQI.jpg)
1. 绝对路径方式  
绝对路径方式（起始于正斜杠'/'）是从根节点开始导航，逐级而进，像上文提到的实例一样，直到想要抓取的节点。这种方式会让xpath()有更高的效率，稍后解释这点。
2. 相对路径方式  
相对路径方式（双斜杠'//'表达），不用考虑相对于根节点，要抓取的节点所在的所有级别路径。而是只需要知道当前节点上下几个级别的节点即可。在人工定位路径的时候，会更方便一些，但代码执行效率要比绝对路径低一些。

**谓语（Predicates）：**谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。
![谓语](http://d.pr/i/126CE.jpg)

![选取未知节点](http://d.pr/i/R4o9.jpg)
![选取若干路径](http://d.pr/i/5cKn.jpg)

### 5.3 XPath实践
**1. 效率问题  **  
如果xpath()的路径表达式参数是从__根元素__开始的，是__定位效率最高__的。这点容易解释，就像在一层办公大楼格子间去寻找一位同事一样。相比指定楼层， 逐个去问，给定一条直通这位同事的地图会更快。  
但是有时候从根元素开始，人工地定位路径表达式的参数并不方便（可以借助插件解决），或者是出于自己封装的解析函数的泛型化的要求，选择相对路径，牺牲些代码效率仍然是明智之举（人力才是最贵资源）。  
以下是我的一些思考测试。  
如果相对路径往上级多写几层，路径变得更加具体，应该会提升效率，但是测试之后，时间反而增加了2-3倍。
初始例子是这样的 ‘//span[@id="media_span"]/span’。
加了几层变成这样‘//div/div/div/span[@id="media_span"]/span’。
推测xpath的索引方式很可能像NTFS文件系统一样。经过统计当篇XML文档的元素个数，span 20个，而div是90个，得证。
所以，在__使用相对路径的时候，div这种极易出现的标签元素尽量不要放在起始节点__。  
从根节点开始解析比以上span开始的例子相比，只快了一点（粗略测试多篇文档，10万次解析差2秒）。  

**2. 不能跨级  **  
在选择路径表达式的时候，__不能出现跨级别的元素__，否则路径表达式是不能被xpath()解析的。  
还拿上图举例，不可以用 /bookstore/price 去解析 book 下面的 price 标签。这是一种跨级。  

**3. 最方便的确定路径参数的方式  **   
审查元素，右键copy xpath（Firefox和chrome都适用），可以直接给出从根开始的xpath路径。

### 5.4 XPath开发工具推荐
1. firfox下的xpath checker，输入xpath路径之后，可视化解析结果，方便判断路径的对错。需要注意的是当firefox加载新的网页之后要重新打开xpath checker，以便重新加载XML文档。  
2. Chrome下的xpath finder也有类似功能。  
3. Mac下的xpath explorer可以在网页中直接选取内容生成从根开始的xpath路径。

# 6.Lxml_xPath

## 问题
+ 问题1：有一个XML文件，如何解析
+ 问题2：解析后，如果查找、定位某个标签
+ 问题3：定位后如何操作标签，比如访问属性、文本内容等

In [1]:
from lxml import etree

## 6.1 Element类(问题3)
>Element是XML处理的核心类，Element对象可以直观的理解为XML的节点，大部分XML节点的处理都是围绕该类进行的。  
这部分包括三个内容：节点的操作、节点属性的操作、节点内文本的操作。

### 节点操作

#### 1.创建Element对象

In [2]:
root = etree.Element('root')   ## 直接使用Element方法，参数即节点名称
print(root)

<Element root at 0x1aa13ecf448>


#### 2.获取节点名称

In [3]:
print(root.tag)

root


#### 3.输出XML内容

In [4]:
print(etree.tostring(root))    ## 使用tostring方法输出XML内容（后文还会有补充介绍），参数为Element对象

b'<root/>'


#### 4.添加子节点

In [106]:
child1=etree.SubElement(root,'child1')   ## 使用SubElement方法创建子节点，第一个参数为父节点（Element对象），第二个参数为子节点名称
child2=etree.SubElement(root,'child2')
child2=etree.SubElement(root,'child3')
print(etree.tostring(root))

b'<root><child1/><child2/><child3/></root>'


#### 5.以列表的方式操作子节点

In [107]:
child=root[0]      ## 可以将Element对象的子节点视为列表进行各种操作：
print(child.tag)    ## 下标访问

child1


In [108]:
print(len(root))   ## 子节点数量

3


In [109]:
for child in root:    ## 遍历
    print(child.tag)

child1
child2
child3


In [110]:
root.insert(0,etree.Element('child0'))    ## 插入
print(etree.tostring(root))

b'<root><child0/><child1/><child2/><child3/></root>'


In [111]:
start=root[:1]    ## 切片

for i in start:
    print(i.tag)

child0


In [112]:
end=root[-1:]
for j in end:
    print(j.tag)

child3


In [113]:
root.append(etree.Element('child4'))    ## 尾部添加
print(etree.tostring(root))

b'<root><child0/><child1/><child2/><child3/><child4/></root>'


#### 6.删除子节点

In [114]:
root.remove(child1)   ## 删除指定子节点
print(etree.tostring(root))

b'<root><child0/><child2/><child3/><child4/></root>'


In [115]:
root.clear()    ## 清除所有子节点
print(etree.tostring(root))

b'<root/>'


#### 7.获取父节点

In [116]:
print(child1.getparent().tag)    ## 使用getparent方法可以获取父节点

AttributeError: 'NoneType' object has no attribute 'tag'

### 属性操作

#### 1.创建属性(属性是以key-value的方式存储的，就像字典一样)

In [117]:
root=etree.Element('root',interesting='totally')   ## 可以在创建Element对象时同步创建属性，第二个参数即为属性名和属性值
print(etree.tostring(root))

b'<root interesting="totally"/>'


In [118]:
root.set('Hello','Huhu')    ## 也可以使用set方法给已有的Element对象添加属性，两个参数分别为属性名和属性值
print(etree.tostring(root))

b'<root interesting="totally" Hello="Huhu"/>'


#### 2.获取属性

In [119]:
print(root.get('interesting'))   ## get方法获得某一个属性值

totally


In [120]:
root.keys()   ## keys方法获取所有的属性名
#sorted(root.keys())

['interesting', 'Hello']

In [121]:
for key,value in sorted(root.items()):       ## items方法获取所有的键值对
    print('%s = %r'%(key,value))

Hello = 'Huhu'
interesting = 'totally'


In [122]:
attributes=root.attrib       ## 也可以用attrib属性一次拿到所有的属性及属性值存于字典中
print(attributes)

{'interesting': 'totally', 'Hello': 'Huhu'}


In [123]:
attributes['good']='bye'   ## 字典的修改影响节点
print(etree.tostring(root))

b'<root interesting="totally" Hello="Huhu" good="bye"/>'


### 文本操作
>可以使用text和tail属性、或XPath的方式来访问文本内容

#### 1.text和tail属性

In [124]:
root=etree.Element('root')       ## 一般情况，可以用Element的text属性访问标签的文本
root.text='Hello World!'
print(root.text)
print(etree.tostring(root))

Hello World!
b'<root>Hello World!</root>'


In [125]:
html=etree.Element('html')    ## Element类提供了tail属性支持单一标签的文本获取
body=etree.SubElement(html,'body')
body.text='tail'
br=etree.SubElement(body,'br')
br.tail='tail'    ## tail仅在该标签后面追加文本
print(etree.tostring(html))

b'<html><body>tail<br/>tail</body></html>'


In [126]:
print(etree.tostring(br))

b'<br/>tail'


In [127]:
print(etree.tostring(html,method='text'))    ## tostring方法增加method参数，过滤单一标签，输出全部文本

b'tailtail'


#### 2.XPath方式

In [128]:
print(html.xpath('string()'))         ## 方式一：过滤单一标签，返回文本

tailtail


In [129]:
print(html.xpath('//text()'))      ## 方式二：返回列表，以单一标签为分隔

['tail', 'tail']


方法二获得的列表，每个元素都会带上它所属节点及文本类型信息

In [130]:
texts=html.xpath('//text()')
print(texts[0])
print(texts[0].getparent().tag)
print(texts[1],texts[1].getparent().tag)

tail
body
tail br


In [131]:
print(texts[0].is_text)          ## 文本类型：是普通文本还是tail文本
print(texts[1].is_text)
print(texts[1].is_tail)

True
False
True


## 6.2 文件解析与输出（问题1）
>这部分讲述如何将XML文件解析为Element对象，以及如何将Element对象输出为XML文件。

#### 1.文件解析

__文件解析常用的有fromstring、XML和HTML三个方法。接受的参数都是字符串__

In [132]:
xml_data = '<root>data</root>'

In [133]:
root1=etree.fromstring(xml_data)    ## fromstring方法
print(root1.tag)
print(etree.tostring(root1))

root
b'<root>data</root>'


In [134]:
root2=etree.XML(xml_data)           ## XML方法，与fromstring方法基本一样
print(root2.tag)
print(etree.tostring(root2))

root
b'<root>data</root>'


In [135]:
root3=etree.HTML(xml_data)         ## HTML方法，如果没有<html>和<body>标签，会自动补上
print(root3.tag)
print(etree.tostring(root3))

html
b'<html><body><root>data</root></body></html>'


#### 2.输出

__输出其实就是前面一直在用的tostring方法了，这里补充xml_declaration和encoding两个参数，前者是XML声明，后者是指定编码__

In [136]:
root = etree.XML('<root><a><b/></a></root>')
print(etree.tostring(root))

b'<root><a><b/></a></root>'


In [137]:
print(etree.tostring(root,xml_declaration=True))   ## XML声明

b"<?xml version='1.0' encoding='ASCII'?>\n<root><a><b/></a></root>"


In [138]:
print(etree.tostring(root,encoding='iso-8859-1'))   ## 指定编码

b"<?xml version='1.0' encoding='iso-8859-1'?>\n<root><a><b/></a></root>"


## 6.3 ElementPath(问题2)
>讲ElementPath前，需要引入ElementTree类，一个ElementTree对象可理解为一个完整的XML树，每个节点都是一个Element对象。  
而ElementPath则相当于XML中的XPath。用于搜索和定位Element元素

__这里介绍两个常用方法，可以满足大部分搜索、查询需求，它们的参数都是XPath语句：__

    - findall()：返回所有匹配的元素，返回列表  
    - find()：返回匹配到的第一个元素

In [139]:
root = etree.XML("<root><a x='123'>aText<b>test<c/>Tset</b></a><b>bText</b></root>")
print(etree.tostring(root,pretty_print=True))

b'<root>\n  <a x="123">aText<b>test<c/>Tset</b></a>\n  <b>bText</b>\n</root>\n'


In [140]:
## 查找第一个b标签
print(root.find('b'))
print(root.find('b').text)
print(root.find('.//b').text)
print(root.find('a'))
print(root.find('a').text)
print(root.find('a').tag)

<Element b at 0x24d185aabc8>
bText
test
<Element a at 0x24d185aabc8>
aText
a


In [141]:
## 查找所有b标签，返回Element对象组成的列表
[b.text for b in root.findall('.//b')]

['test', 'bText']

In [142]:
## 根据属性查询
print(root.findall('.//a[@x]')[0].tag)

a


In [143]:
print(root.findall('.//a[@y]'))

[]


In [144]:
print(root.xpath('//a/text()') )

['aText']


In [145]:
print(root.xpath('//b/text()'))

['test', 'Tset', 'bText']


## 参考
1. lxml官方文档：http://lxml.de/tutorial.html
2. XPath语法：http://www.w3school.com.cn/xpath/xpath_syntax.asp

### lxml_XPath查找定位

In [146]:
from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)              ## lxml 因为继承了 libxml2 的特性，具有自动修正 HTML 代码的功能,补全了 li 标签，还添加了 body，html 标签
result = etree.tostring(html)
print(result)

b'<html><body><div>\n    <ul>\n         <li class="item-0"><a href="link1.html">first item</a></li>\n         <li class="item-1"><a href="link2.html">second item</a></li>\n         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n         <li class="item-1"><a href="link4.html">fourth item</a></li>\n         <li class="item-0"><a href="link5.html">fifth item</a>\n     </li></ul>\n </div>\n</body></html>'


In [147]:
result = html.xpath('//li')   ## 获取所有li标签
print(result)
print(len(result))
print(type(result))
print(type(result[0]))            ## 每个元素都是 Element 类型

[<Element li at 0x24d185b3d48>, <Element li at 0x24d185aa208>, <Element li at 0x24d185c42c8>, <Element li at 0x24d185c4208>, <Element li at 0x24d185c44c8>]
5
<class 'list'>
<class 'lxml.etree._Element'>


In [148]:
print(html.xpath('//li/@class') )          ## 获取 <li> 标签的所有 class

['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']


In [149]:
print(html.xpath('//li/a[@href="link3.html"]') )       ## 获取 <li> 标签下 href 为 link1.html 的 <a> 标签

[<Element a at 0x24d185b3f88>]


In [150]:
print(html.xpath('//li//span'))       ## 获取 <li> 标签下的所有 <span> 标签,注意要用‘//span’，因为<span> 并不是 <li> 的子元素，不能跨级

[<Element span at 0x24d185b3dc8>]


In [151]:
print(html.xpath('//li/a//@class') )      ## 获取 <li> 标签下的所有 class，不包括 <li>

['bold']


In [152]:
print(html.xpath('//li[last()]/a/@href') )           ## 获取最后一个 <li> 的 <a> 的 href

['link5.html']


In [153]:
print(html.xpath('//li[last()-1]//text()'))        ## 获取倒数第二个元素的内容

['fourth item']


In [154]:
print(html.xpath('//*[@class="bold"]')[0].tag )         ## 获取 class 为 bold 的标签名

span
