## 对比磁盘路径表达式,xpath选择节点的操作类似；
+ /   从根节点选取；
+ //  从任意位置选取；
+ .   选取当前节点
+ ..  选取当前节点的父节点；
+ @   选取属性。

In [4]:
## xml示例:
from lxml import etree
text = '''
<book>
<title>Harry Potter</title>
<author>J K.Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
'''

In [None]:
# 使用xpath获取元素，返回的结果一定是列表：
tree = etree.fromstring(text)
book = tree.xpath("/book")
print(book)
print(type(book))

In [25]:
# 获取book元素下的title子元素：
t1 = book[0].xpath("./title")
t1[0].tag


'title'

In [26]:
# 或者：
t2 = tree.xpath("/book/title")
t2[0].tag

'title'

In [27]:
# 从title节点获取year节点：
y1 = t1[0].xpath("../year")
y1[0].tag

'year'

In [28]:
# 从任意位置获取price节点：
p1 = tree.xpath("//price")
p1[0].tag

'price'

In [29]:
# 从任意位置获取所有节点：
all1 = tree.xpath("//*")
for i in all1:
    print(i.tag)

book
title
author
year
price


In [30]:
# 获取book节点下的所有子节点：
book_son = tree.xpath("/book/*")
for son in book_son:
    print(son.tag)

title
author
year
price


## 文本内容与文本节点
### 打开文件有两种方法：
+ 1.找到文件所在路径'E:\Course\spyder'，然后打开'xml示例.xml'；
+ 2.直接输入带路径的文件名打开'E:\Course\spyder\xml示例.xml'；

In [32]:
# 相当于第一种打开文件的方法：先定位到title节点，再打开它的text属性；
tree.xpath("/book/title")[0].text

'Harry Potter'

In [33]:
# 相当于第二种打开文件的方法：直接输入带路径的文件名，打开了text属性；
tree.xpath("/book/title/text()")

['Harry Potter']

In [34]:
# 获取所有的文本节点：
all_text = tree.xpath("//text()")
all_text # 出现了很多"\n"：相当于获取了book元素节点下的"\n"也给获取了；

['\n', 'Harry Potter', '\n', 'J K.Rowling', '\n', '2005', '\n', '29.99', '\n']

In [35]:
# 获取book元素所有子元素的文本节点：
son_text = tree.xpath("/book/*/text()")
son_text # 此时就没有"\n"了；

['Harry Potter', 'J K.Rowling', '2005', '29.99']

## 获取所有节点包括：
+ 元素节点
+ 文本节点

In [37]:
# 获取所有节点用node()方法：
all_nodes = tree.xpath("//node()")
print(all_nodes)
for node in all_nodes:
    print(node)

[<Element book at 0x1a598eeedc0>, '\n', <Element title at 0x1a598ee52c0>, 'Harry Potter', '\n', <Element author at 0x1a599326500>, 'J K.Rowling', '\n', <Element year at 0x1a5992f2240>, '2005', '\n', <Element price at 0x1a5990a8540>, '29.99', '\n']
<Element book at 0x1a598eeedc0>


<Element title at 0x1a598ee52c0>
Harry Potter


<Element author at 0x1a599326500>
J K.Rowling


<Element year at 0x1a5992f2240>
2005


<Element price at 0x1a5990a8540>
29.99




In [40]:
from lxml import etree
text = '''
<table id="cominfo" width="100%" id="Table1">
    <tbody>
        <tr>
            <td class="ct" width="25%"><div align="center"><strong>姓名</strong></div></td>
            <td class="ct" width="25%"><div align="center"><strong>职务</strong></div></td>
            <td class="ct" width="25%"><div align="center"><strong>起始日期</strong></div></td>
            <td class="ct" ><div align="center"><strong>终止日期</strong></div></td>
        </tr>
    </tbody>
</table>
'''
tree = etree.HTML(text)
text_list = tree.xpath("//strong/text()")
text_list

['姓名', '职务', '起始日期', '终止日期']

## XPath路径表达式例2：属性
### 找到属性值：

In [57]:
text = '''
<bookstore>
    <book category="Fantasy Novels">
        <title lang="English">Harry Potter</title>
        <title lang="zhongwen">哈利波特</title>
        <author>J K.Rowling</author>
        <year>2005</year>
        <price>29.99</price>
    </book>
    <book category="武侠小说">
        <title lang="中文">天龙八部</title>
        <title lang="pingying">tianlongbabu</title>
        <author>金庸</author>
        <year>2006</year>
        <price>40</price>
    </book>
</bookstore>
'''
# 将字符串内容转换为Element对象：
tree = etree.fromstring(text)
book = tree.xpath("//book")
book

[<Element book at 0x1a596b42400>, <Element book at 0x1a596b42b40>]

In [58]:
# 获取第二个book元素的category属性
category = book[1].xpath("./@category")
category

['武侠小说']

In [59]:
# 获取所有book元素的category属性
category_list = tree.xpath("//book/@category")
category_list

['Fantasy Novels', '武侠小说']

In [53]:
category2 = tree.xpath("//book[2]/@category") # 这里的2和列表索引中的2不一样，这里就是指第二个book元素节点；
category

['武侠小说']

In [60]:
# 获取lang属性的属性值
lang = tree.xpath("//title/@lang")
lang 

['English', 'zhongwen', '中文', 'pingying']

In [61]:
# 注意:这里的1是指所有节点下的第一个title节点的lang属性，
lang = tree.xpath("//title[1]/@lang")
lang

['English', '中文']

In [62]:
# 遍历所有节点下的第二个title下的lang属性，而不是把所有title放到一起的第二个title；
lang2 = tree.xpath("//title[2]/@lang")
lang2

['zhongwen', 'pingying']

## 根据属性值定位

In [66]:
# 获取category属性为“武侠小说”的book元素的title元素的lang属性：
lang1 = tree.xpath("//book[@category='武侠小说']/title/@lang")
print(lang1)
# 方括号表示限定属性值category='武侠小说'的book元素。
# 还可以获取具有category属性的book元素：
lang2 = tree.xpath("//book[@category]/title/@lang")
print(lang2)

['中文', 'pingying']
['English', 'zhongwen', '中文', 'pingying']


In [68]:
# 获取所有具有属性的元素
all_att = tree.xpath("//*[@*]")
for att in all_att:
    print(att.tag)

book
title
title
book
title
title


# 总结：三种节点
+ 元素节点：类比于磁盘中的文件夹；
+ 文本节点：相当于文件夹中的文件；
+ 属性节点
# 文本内容和文本节点的区别：

## XPath运算符