### 1.XPath概览
    XPath的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用XPath来选择。  
    XPath于1999年11月16日成为W3C标准，它被设计为供XSLT、XPointer以及其他XML解析软件使用，更多文档参见：https://www.w3.org/TR/xpath/

### 2.XPath常用规则

     表达式                       描述  
     nodename                 选取此节点的所有子节点  
     /                        从当前节点选取直接子节点  
     //                       从当前节点选取子孙节点  
     .                        选取当前节点  
     ..                       选取当前节点的父节点  
     @                        选取属性  
   
   
这里列出来XPath的常用匹配规则，示例如下：  
    //title[@lang='eng']  
这就是一个XPath规则，它代表选择所有名称为title，同时属性lang的值为eng的节点  
后面会通过Python的lxml库，利用XPath进行HTML的解析
    

### 3.准备工作
    使用之前，首先要确保安装好lxml库

### 4.实例引入
    现在通过实例来感受一下使用XPath来对网页进行解析的过程，相关代码如下：

In [2]:
from lxml import etree
text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first time</a></li>
<li class="item-1"><a href="link2.html">second time</a></li>
<li class="item-inactive"><a href="link3.html">third time</a></li>
<li class="item-1"><a href="link4.html">fourth time</a></li>
<li class="item-0"><a href="link5.html">fifth time</a>
</ul>
</div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first time</a></li>
<li class="item-1"><a href="link2.html">second time</a></li>
<li class="item-inactive"><a href="link3.html">third time</a></li>
<li class="item-1"><a href="link4.html">fourth time</a></li>
<li class="item-0"><a href="link5.html">fifth time</a>
</li></ul>
</div>
</body></html>


这里首先导入lxml库的etree模块，然后声明了一段HTML文本，调用HTML类进行初始化，这样就成功构造了一个XPath解析对象。这里需要注意的是，HTML文本的最后一个li节点是没有闭合的，但是etree模块会自动修正HTML文本  
这里我们调用tostring()方法即可输出修正后的HTML代码，但是结果类型是byte类型。利用decode()方法将其转正str类型

In [15]:
#也可以直接读取文本文件进行解析
from lxml import etree

html = etree.parse('./test1.html', etree.HTMLParser())
result = etree.tostring(html)
print(result.decode('utf-8'))

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first time</a></li>
<li class="item-1"><a href="link2.html">second time</a></li>
<li class="item-inactive"><a href="link3.html">third time</a></li>
<li class="item-1"><a href="link4.html">fourth time</a></li>
<li class="item-0"><a href="link5.html">fifth time</a>
</li></ul>
</div></body></html>


### 5.所有节点
    我们一般会用//开头的XPath规则来选取所有符合要求的节点。这里以前面的HTML文本为例，如果要选取所有节点，可以这样实现：

In [16]:
from lxml import etree
html = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//*')
print(result)

[<Element html at 0x7fa1dbef9980>, <Element body at 0x7fa1dbef9780>, <Element div at 0x7fa1dbef9b00>, <Element ul at 0x7fa1dbef97c0>, <Element li at 0x7fa1dbef9580>, <Element a at 0x7fa1dbef9440>, <Element li at 0x7fa1dbeeb100>, <Element a at 0x7fa1dbeeb180>, <Element li at 0x7fa1dbeebf00>, <Element a at 0x7fa1dbef9c00>, <Element li at 0x7fa1dbeeb1c0>, <Element a at 0x7fa1dbeeb680>, <Element li at 0x7fa1dbeeb6c0>, <Element a at 0x7fa1dbeeb3c0>]


这里使用*代表匹配所有节点，也就是整个HTML文本中的所有节点都会被获取。可以看到，返回形式是一个列表，每个元素是Element类型，其后跟了节点的名称，如html、body、div、ul、li、a等，所有节点都包含在列表中了

In [17]:
#当然，此处匹配也可以指定节点名称。如果可以想获取所有的li节点，示例如下：
from lxml import etree
ht ml = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//li')
print(result)
print(result[0])

[<Element li at 0x7fa1dbeaa840>, <Element li at 0x7fa1dbea6a40>, <Element li at 0x7fa1dbea6e00>, <Element li at 0x7fa1dbea65c0>, <Element li at 0x7fa1dbea63c0>]
<Element li at 0x7fa1dbeaa840>


### 6.子节点
    我们通过/或//即可查找元素的子节点或子孙节点。

In [19]:
#假如现在想选择li节点的所有a子节点
from lxml import etree

html = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//li/a')
print(result)

[<Element a at 0x7fa1dbba5980>, <Element a at 0x7fa1dbe29e40>, <Element a at 0x7fa1dbe29300>, <Element a at 0x7fa1dbe291c0>, <Element a at 0x7fa1dbe7b8c0>]


这里通过追加/a既选择了所有li节点的所有直接a子节点。因为//li用于选中所有li节点，/a用于选中li节点的所有直接子节点a，二者组合在一起即获取所有li节点的所有直接a子节点

In [22]:
#如果要获取ul节点下的所有子孙a节点
from lxml import etree

html = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//ul//a')
print(result)

[<Element a at 0x7fa1dbe6dd80>, <Element a at 0x7fa1dbe6d3c0>, <Element a at 0x7fa1dbe6d300>, <Element a at 0x7fa1dbe6d580>, <Element a at 0x7fa1dbe6dc40>]


但是如果使用//ul/a，就无法获取结果，因为/用于直接获取子节点，而在ul节点下没有直接的a子节点，只有li节点，所以就无法获取任何匹配结果,代码如下：

In [24]:
from lxml import etree

html = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//ul/a')
print(result)

[]


因此，这里我们要注意/和//的区别，其中/用于获取直接子节点，//用于获取子孙节点

### 7.父节点
    我们知道通过连续的/或//可以查找子节点或子孙节点，那么我们知道了子节点，可以用..来实现查找父节点

In [25]:
'''比如，现在首先选中href属性为link4.html的a节点，
   然后再获取其父节点，然后再获取其class属性'''

from lxml import etree

html = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/../@class')
print(result)

['item-1']


检查一下结果发现，这正是我们获取的目标li节点的class  

In [26]:
#同时，我们也可以通过parent::来获取父节点
from lxml import etree

html = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
print(result)

['item-1']


### 8.属性匹配
    在选取的时候，我们还可以用@符号进行属性过滤。

In [27]:
#比如，这里如果要选取class为item-0的li节点
from lxml import etree
html = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//li[@class="item-0"]')
print(result)

[<Element li at 0x7fa1dc074800>, <Element li at 0x7fa1dbeff280>]


### 9.文本获取
   

In [28]:
#我们用XPath中的text()方法获取节点中的文本，接下来尝试获取前面li节点中的文本
from lxml import etree

result = html.xpath('//li[@class="item-0"]/text()')
print(result)

['\n']


奇怪的是，这里并没有获取到任何文本，而是得到了一个换行符，这是因为XPath中text()前面是/，而此处/的含义是获取直接子节点，很明显li的直接子节点都是a节点，文本都是在a节点内部的，所以这里匹配到的结果就是被修正的li节点内部的换行符，因为自动修正的li节点的尾标签换行了

即选中的是这两个节点：  
<li class="item-1"><a href="link4.html">fourth time</a></li>
<li class="item-0"><a href="link5.html">fifth time</a>
</li>   
其中一个节点因为自动修正，li节点的尾标签添加的时候换行了，所以提取文本得到的唯一结果就是li节点的尾标签和a节点的尾标签之间的换行符  

因此，如果想获取li节点内部的文本，就有两种方式，一种是先选取a节点再获取文本，另一种就是使用//

In [29]:
from lxml import etree

result = html.xpath('//li[@class="item-0"]/a/text()')
print(result)

['first time', 'fifth time']


上面我们是逐层选取的，先选取了li节点，又利用/选取了其直接子节点a，然后再选取其文本，得到的结果恰好是符合我们预期的两个结果

In [30]:
#再看另一种方式（即使用//）选取的结果
result = html.xpath('//li[@class="item-0"]//text()')
print(result)

['first time', 'fifth time', '\n']


不出所料，这里的返回结果是3个。可想而知，这里选取所有子孙节点的文本，其中前两个就是li的子节点a节点内部的文本，另外一个就是最后一个li节点内部的文本，即换行符

所以说，想要获取子孙节点内部的所有文本，可以直接使用//加text()的方式，这样可以保证获取到最全面的文本信息，但是可能会夹杂一些换行符等特殊字符。如果想要获取某些特定子孙节点下的所有文本，可以先选取到特定的子孙节点，然后再调用text()方法获取内部文本，这样可以保证获取的结果是整洁的

### 10.属性获取
    我们知道了用text()可以获取节点内部文本，那么节点属性该如何获取？

In [31]:
from lxml import etree

html = etree.parse('./test1.html', etree.HTMLParser())
result = html.xpath('//li/a/@href')
print(result)

['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']


这里我们通过@href即可获取节点的href属性。注意，此处和属性匹配的方法不同，属性匹配是中括号加属性名和值来限定某个属性，如[@href="link1.html],而此处的@href指的是获取节点的某个属性，二者要做好区分

### 11.属性多值匹配

In [32]:
#有时候，某些节点的某个属性可能有多个值，例如：
from lxml import etree
text = '''
<li class="li li-first"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[@class="li"]/a/text()')
print(result)

[]


这里HTML文本中的li节点的class属性有两个值li和li-first，此时如果还想要之前的属性匹配就无法获取了。  
这时就需要用到contains()函数

In [33]:
from lxml import etree
text = '''
<li class="li li-first"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li")]/a/text()')
print(result)

['first item']


这样通过contains()方法，第一个参数传入属性名称，第二个参数传入属性值，只要此属性包含所传入的属性值，就可以匹配完成。

此种方式在某个节点的某个属性有多个值时经常用到，如某个节点的class属性通常有多个

### 12.多属性匹配
    另外，我们可能还会遇到一种情况，那就是根据多个属性确定一个节点，这时就需要同时匹配多个属性

In [36]:
from lxml import etree
text = '''
<li class="li li-first" name="item"><a href="link.html">first item</a></li>
'''
html = etree.HTML(text)
result = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)

['first item']


这里的li节点又增加了一个属性name。要确定这个节点，需要同时根据class和name属性来选择，一个条件是class属性里面包含li字符串，另一个条件是name属性为item字符串，二者需要同时满足，需要用and操作符相连，相连之后置于中括号内进行条件筛选。

这里的and其实是XPath中的运算符。

                            运算符及其介绍  
    运算符    描述          实例               返回值  
    or       或     age=19 or age=20   age是19，返回True，是20，False  
    and      与     age>19 and age<21  age是20，返回True，是18，False  
    mod  计算除法的余数  5 mod 2                 1  
    |    计算两个节点集  //book| //cd    返回所拥有book和cd元素的节点集  
    +       加法           6+4                 10  
    -       减法           6-4                  2  
    *       乘法           6*4                 24    
    div     除法           8 div 4              2  
    =       等于           age=19       age是19，返回True，反之，False  
    !=      不等于         age!=19      age不是19，返回True，是19，False 
    <       小于           age<19       age比19小，返回True，反之，False 
    <=      小于或等于      age<=19      age是19，返回True，是20，False  
    >       大于           age>19       age是20，返回True，是19，False  
    >=      大于或等于      age>=19      age是19，返回True，是20，False

### 13.按序选择
    有时候，我们在选择的时候某些属性可能同时匹配了多个节点，但是只想要其中的某个节点，如第二个节点或最后一个节点，这是就可以利用中括号传入索引的方法获取特定次序的节点

In [38]:
from lxml import etree

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first time</a></li>
<li class="item-1"><a href="link2.html">second time</a></li>
<li class="item-inactive"><a href="link3.html">third time</a></li>
<li class="item-1"><a href="link4.html">fourth time</a></li>
<li class="item-0"><a href="link5.html">fifth time</a>
</ul>
</div>
'''

html = etree.HTML(text)
result1 = html.xpath('//li[1]/a/text()')
print(result1)
result2 = html.xpath('//li[last()]/a/text()')
print(result2)
result3 = html.xpath('//li[position()<3]/a/text()')
print(result3)
result4 = html.xpath('//li[last()-2]/a/text()')
print(result4)

['first time']
['fifth time']
['first time', 'second time']
['third time']


第一次选择时，我们选取了第一个li节点，中括号中传入数字1即可。注意，这里和代码中不同，序号是以1开头的，不是以0开头  
第二次选择时，我们选取了最后一个li节点，中括号中传入last()即可，返回的便是最后一个li节点  
第三次选择时，我们选取了位置小于3的li节点，也就是位置序号为1和2的节点，得到的结果就是前两个li节点  
第四次选择时，我们选取了倒数第三个li节点，中括号中传入last()-2即可。因为last()是最后一个，所以last()-2就是倒数第三个  

这里我们使用了last()、position()等函数，在XPath，提供了100多个函数，包括存取、数值、字符串、逻辑、节点、序列等处理功能，具体参考: http://www.w3school.com.cn/xpath/xpath_functions.asp

### 14.节点轴选择
    XPath提供了很多节点轴选择方法，包括了获取子元素、兄弟元素、父元素、祖先元素等

In [40]:
from lxml import etree

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html"><span>first time</span></a></li>
<li class="item-1"><a href="link2.html">second time</a></li>
<li class="item-inactive"><a href="link3.html">third time</a></li>
<li class="item-1"><a href="link4.html">fourth time</a></li>
<li class="item-0"><a href="link5.html">fifth time</a>
</ul>
</div>
'''

html = etree.HTML(text)
result1 = html.xpath('//li[1]/ancestor::*')
print(result1)
result2 = html.xpath('//li[1]/ancestor::div')
print(result2)
result3 = html.xpath('//li[1]/attribute::*')
print(result3)
result4 = html.xpath('//li[1]/child::a[@href="link1.html"]')
print(result4)
result5 = html.xpath('//li[1]/descendant::span')
print(result5)
result6 = html.xpath('//li[1]/following::*[2]')
print(result6)
result7 = html.xpath('//li[1]/following-sibling::*')
print(result7)

[<Element html at 0x7fa1dc0807c0>, <Element body at 0x7fa1dbd3a700>, <Element div at 0x7fa1dbd3aa40>, <Element ul at 0x7fa1dbd3a380>]
[<Element div at 0x7fa1dbd3aa40>]
['item-0']
[<Element a at 0x7fa1dc1ae180>]
[<Element span at 0x7fa1dc1ae340>]
[<Element a at 0x7fa1dbd67900>]
[<Element li at 0x7fa1dc1e6ac0>, <Element li at 0x7fa1dbde6840>, <Element li at 0x7fa1dc19d280>, <Element li at 0x7fa1dc047ac0>]


第一次选择时，我们调用了ancestor轴，可以获取所有祖先节点。其后面需要跟两个冒号，然后是节点的选择器，这里我们直接使用* ，表示匹配所有节点，因此返回结果是第一个li节点的所有祖先节点，包括html、body、div和ul  
第二次选择时，我们又加了限定条件，这次在冒号后面加了div，这样得到的结果就只有div这个祖先节点了。  
第三次选择时，我们调用了attribute轴，可以获取所有属性值，其后跟的选择器还是* ，这代表获取节点的所有属性，返回值就是li节点的所有属性值  
第四次选择时，我们调用了child轴，可以直接获取所有直接子节点。这里我们又加了限定条件，选取href属性为link1.html的a节点  
第五次选择时，我们调用了descendant轴，可以获取所有子孙节点。这里我们又加了限定条件获取span节点，所以返回的结果只包含span节点而不包含a节点  
第六次选择时，我们调用了following轴，可以直接获取当前节点之后的所有节点。这里虽然用的是* 匹配，但又加了索引所择，所以只获取了第二个后续节点  
第七次选择时，我们调用了following-sibling轴，可以获取当前节点之后的所有同级节点。这里我们使用* 匹配，所以获取了所有后续同级节点。

详情参考 http://www.w3school.com.cn/xpath/xpath_axes.asp

到现在为止，我们基本把可能用到的XPath选择器介绍完了。XPath功能非常强大，内置函数非常多，熟练使用之后，可以大大提升HTML信息的提取效率