# python lxml

lxml库是一个含有丰富特性的、很容易解析XML/HTML文档的库

etree._Element类代表树中的节点
etree._ElementTree类代表树中的树

## 创建HTML元素

使用lxml库中的etree模块可以创建HTML元素，元素也被称为节点(Nodes)

etree.Element() 返回一个lxml.etree._Element对象，本质是个list

In [2]:
from lxml import etree

root_elem = etree.Element('html')
etree.SubElement(root_elem,'head')
etree.SubElement(root_elem,'title')
etree.SubElement(root_elem,'body')

print(etree.tostring(root_elem,pretty_print=True).decode('utf-8'))

<html>
  <head/>
  <title/>
  <body/>
</html>



HTML元素本质上是有list组成，我们可以像操作list一样使用索引获取根节点内的子节点,返回'lxml.etree._Element'对象

In [12]:
# 获取根节点中的第一个子节点
html = root_elem[0]
print(type(html))

# 使用tag属性获得标签
print(html.tag) 

# 子节点遍历
for item in root_elem:
    print(item.tag)

<class 'lxml.etree._Element'>
head
head
title
body


## 检验HTML元素有效性

使用iselement()函数检验给定的元素是否有效,返回True/False

In [14]:
print(etree.iselement(root_elem))

True


## 使用HTML元素的属性

### 创建元素的属性

XML Element的属性格式为Python的dict。可以通过get/set方法进行设置或获取操作

#### 创建元素时定义属性

In [4]:
html_elem = etree.Element('html',lang='en_GB')

print(etree.tostring(html_elem).decode('utf-8'))

<html lang="en_GB"/>


#### set方法追加属性

In [5]:
html_elem.set('age','24')

print(etree.tostring(html_elem).decode('utf-8'))

<html lang="en_GB" age="24"/>


### 获取元素属性

使用get()方法获取属性,若属性不存在则返回None

In [21]:
print(html_elem.get('lang'))

print(html_elem.get('age'))

en_GB
24


### 遍历全部属性

In [6]:
for attribute,value in html_elem.items():
    print(attribute,value)

lang en_GB
age 24


## 创建子元素

子元素即子节点，使用etree.SubElement()方法在根节点上创建，前提是先定义根节点

SubElement(_parent,
            _tag, 
            attrib=None, 
            nsmap=None, 
            **_extra)

In [28]:
# 创建根节点,标签名为html
html = etree.Element('html')

# 创建子节点
etree.SubElement(html,'head')

<Element head at 0x7f79e3108c30>

### 为子元素添加文本内容

设置text属性定义文本内容

In [29]:
etree.SubElement(html,"body").text='I love python and perl'

print(etree.tostring(html,pretty_print=True).decode('utf-8'))


<html>
  <head/>
  <body>I love python and perl</body>
</html>



### 获取子元素的文本内容

获取text属性

In [32]:
print(html[1].text)

I love python and perl


## XML字符解析

使用etree.XML()函数，将一个原始XML字符串，转化为lxml.etree._Element对象

In [35]:
html = etree.XML('<html><head>Head of HTML</head><title>I am the title!</title><body>Here is the body</body></html>')

print(type(html))

print(etree.tostring(html,
                     pretty_print=True).decode('utf-8'))

# 输出XML结构声明标签
print(etree.tostring(html,
                     pretty_print=True,
                    xml_declaration=True).decode('utf-8'))



<class 'lxml.etree._Element'>
<html>
  <head>Head of HTML</head>
  <title>I am the title!</title>
  <body>Here is the body</body>
</html>

<?xml version='1.0' encoding='ASCII'?>
<html>
  <head>Head of HTML</head>
  <title>I am the title!</title>
  <body>Here is the body</body>
</html>



## HTML字符解析

使用etree.HTML()函数,返回lxml.etree._Element对象

将字符串格式的HTML解析为DOM文档

In [35]:
root = etree.HTML("<p>data</p>")
print(type(root))

<class 'lxml.etree._Element'>


## parse()

实际应用过程中尽量避免使用前面两个字符解析函数，应为字符解析函数常用来解析XML/HTML片段，返回的是Element对象
然而，parse()返回的是一个完整的DOM文档

etree.parse()函数用来解析文件或类文件中的对象
返回lxml.etree._ElementTree类

parse()支持以下的文档来源:
    1. 一个打开的文件(二进制模式)
    2. 类文件
    3. 文件名字符串(即文件路径)
    4. HTTP/FTP url string
注意: 导入的文档中只能是HTML/XML结构，若含有javascript则会失败

In [36]:
# 类文件
from io import StringIO

title = StringIO('<title>Title Here</title>')

tree = etree.parse(title)

print(type(tree))

print(etree.tostring(tree))

<class 'lxml.etree._ElementTree'>
b'<title>Title Here</title>'


In [45]:
# 从文件获取，保证文件打开模式为二进制

html = etree.parse(r'html.txt')
print(html)

<lxml.etree._ElementTree object at 0x7f0a861c5500>


## 直接解析字符串

使用etree.fromstring()函数可以直接解析字符串,
前面使用了etree.tostring()将Element转换为string

In [50]:
title = "<html><head>Head of HTML</head><title>I am the title!</title><body>Here is the body</body></html>"

root = etree.fromstring(title)
print(type(root))
print(etree.tostring(root))

<class 'lxml.etree._Element'>
b'<html><head>Head of HTML</head><title>I am the title!</title><body>Here is the body</body></html>'


# lxml.etree._Element属性

.tag – element的名字

.text – 元素的文本内容

.tail – 元素后面的内容

.attrib – 元素的属性,返回一个字典

In [13]:
html = etree.fromstring('<title lang="en" color="blue">Title Here</title>')

print(html.attrib)

{'lang': 'en', 'color': 'blue'}


XML的标签是成对出现的，但是对于HTML而言，可能存在
这样的单一标签，可以通过tail来读取文本

# xpath方式

在使用xpath之前，先导入etree类，对原始的html页面进行处理获得一个Element对象

我们可以通过Element对象来使用xpath

from lxml import etree
selector =etree.HTML(網頁原始碼）
selector.xpath(xpath語法)

xpath()返回结果是一个list

In [9]:
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''

html = etree.HTML(text)

result = etree.tostring(html,pretty_print=True).decode('utf-8')

print(result)

print(html.xpath('//li[@class="item-0"]/ancestor::*'))

<html>
  <body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div>
</body>
</html>

[<Element html at 0x7ff7ff68a460>, <Element body at 0x7ff7ff48aaf0>, <Element div at 0x7ff7ff48ad70>, <Element ul at 0x7ff7ff48acd0>]
first item
second item
third item
fourth item
fifth item


In [32]:
# 获取所有的li

li = html.xpath('//li[1]')

print(li[0].get('class'))

result = html.xpath('//li/a[@href="link1.html"]')
print(result)


item-0
[<Element a at 0x7f0a8596cf00>]
['link1.html']


## xpath语法

xpath,全称XML Path Language，它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的，但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取

xpath组成:有不同的step组成

绝对路径: /step/step...
相对路径: step/step/...

每个step包括:轴(定义所选节点与当前节点的树关系),
            节点测试(识别某个轴内部的节点)，
            谓语(筛选)
            
            轴名称::节点测试[谓语]
            
xml文档的节点有多种类型，其中最常用的有以下几种:

1. 根节点
2. 元素节点
3. 属性节点
4. 文本节点

\* 　　　选择所有元素子节点

text()　选择所有文本子节点

@ATTR  选择名为ATTR的属性节点

/ 根节点

. 当前节点

.. 当前节点的父节点

### 属性值定位

- '/'和'//'

    - '/'表示绝对路径
/tag[@attributr='value']

    - '//'表示相对路径
//tag[@attribute]
//tag[@attribute='value']

- 获取属性

获取所有li节点下的直接a子节点的href属性
//li/a/@href 

- 使用contains函数构建xpath
//tag[contains(attribute,'value')]

- 使用starts-with函数构建xpath
//tag[starts-with(attribute,'value')]

### 文本内容定位

E/text():选中E的文本子节点

- 使用text函数定位，text()用于提取标签的文本
//tag[text()='value'] 

- 与属性值类似，文本内容也支持starts-with和contains模糊匹配
//tag[contains(text(),'value')]

//tag[starts-with(text(),'value')]

### xpath中的通配符

xpath通配符可用来选取未知的xml元素

- \*匹配任何元素的节点
/li/* 选取元素的所有子元素

- @* 匹配任何属性的节点
//li[@\*] 选取带有属性的li元素

- node()匹配任何类型的节点

### xpath中的轴定位

一些时候，某个标签很难使用xpath进行定位，这是我们可以基于其他标签进行选择，这时候就需要寻找父节点和平级节点,可以使用'/'或'//'

轴可表示相对与当前节点的节点集

*语法*:
    轴名称::节点名称

- 特殊标记
'.' 　表示当前节点的路径
'..'　表示父节点的路径

- 查找父节点
xpath-to-some-element//parent::tag

- 查找前面的平级节点
xpath-to-some-element//preceding-sibling::tag

- 查找后面的平级节点
xpath-to-some-element//following-sibling::tag

- 查找祖先节点包括父节点
xpath-to-some-element//ancestor::tag

- 查找元素节点前的所有节点
xpath-to-some-element//prceding::tag

- 查找元素节点后的所有节点
xpath-to-some-element//following::tag

## xpath谓词

谓词是每一个定位路径的最后一部分，谓词是可选的,用'[]'包含谓词

- 位置谓词
xpath中索引从1开始

选择div标签下的第一个p标签
//body/div/div/p[1]

- last()选择最后一个p标签
//body/div/div/p[last()]

- 位置范围
有时候你需要一部分节点，那么可以结合position()和布尔表达式(and or = != < > <= >=)

//body//div//li[position()>1 and position()<last()]

- 多个谓词
可以使用多个谓词进行筛选
//div[@class="second"][2]


- string()函数 返回标签内的所有文本连接成一个字符串

In [3]:
from lxml import etree

dom = etree.fromstring('<a href="#">Click here to go to the <strong>Next Page</strong></a>')

# 使用text将返回一个列表
print(dom.xpath('//a/text()'))

# 这种情况下可以直接使用string函数
print(dom.xpath('string(//a)'))

'Click here to go to the Next Page'

选择具有lang属性的所有title元素
//title[@lang]

选择lang属性值等于'eng'的所有title元素
//title[@lang='eng']

选择lang属性值包含'eng'的所有title元素
//title[contains(@lang,'eng')]

选择lang属性值以'eng'开头的所有title元素
//title[starts-with(@lang,'eng')]

### 分支结构

通过在路径表达式中使用 '|'，构建分支结构

//li/a|//li/b  选取li元素下的所有a和b元素

//title|//price 选取文档中的title和price元素

## lxml.cssselect

lxml中也支持CSS选择器，引入lxml.cssselect模块

### CSSSelector 类

cssselect模块中最重要的是CSSSelector类

返回CSSSelector类,CSSSelector实际上编译成 XPath

In [13]:
from lxml.cssselect import CSSSelector

sel = CSSSelector('div.content')

print(type(sel))

<class 'lxml.cssselect.CSSSelector'>


### CSSSelector方法

In [16]:
# .css 方法,返回CSS选择器内容

print(sel.css)

# .path查看对象
print(sel.path)

div.content
descendant-or-self::div[@class and contains(concat(' ', normalize-space(@class), ' '), ' content ')]


### CSS选择器语法

CSS是层叠样式表 --> 给HTML添加样式的

css选择器速度优于xpath

#### 元素选择器

##### \* 通配符选择器

选择所有的元素

In [5]:
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li id="item-0"><li>text<a href="link5.html">fifth item</a></li></li>
         <a id="1">http://www.baidu.com</a>
         <a id="2">http://www.yahoo.com</a>
     </ul>
     <a>http:</a>
     <a>https:</a>
 </div>
'''

html = etree.HTML(text)

print(html.cssselect('*'))

print(html.cssselect('a::text'))

[<Element html at 0x7f9526e31f00>, <Element body at 0x7f952690d730>, <Element div at 0x7f9526dfc6e0>, <Element ul at 0x7f952692c780>, <Element li at 0x7f9526971c30>, <Element a at 0x7f9526971230>, <Element li at 0x7f95269288c0>, <Element a at 0x7f95269280f0>, <Element li at 0x7f9526928b40>, <Element a at 0x7f9526928be0>, <Element li at 0x7f952691fe10>, <Element a at 0x7f952693eaa0>, <Element li at 0x7f9526ba3320>, <Element li at 0x7f9526ba3730>, <Element a at 0x7f9526ca9b40>, <Element a at 0x7f9526ca9a50>, <Element a at 0x7f9526ca93c0>, <Element a at 0x7f9526ca9f00>, <Element a at 0x7f9526b62b40>]


ExpressionError: Pseudo-elements are not supported.

##### E 元素选择器

直接输入元素名字

In [18]:
print(html.cssselect('li'))

[<Element li at 0x7ff7fefae2d0>, <Element li at 0x7ff7feca16e0>, <Element li at 0x7ff7feca1e10>, <Element li at 0x7ff7fecd77d0>, <Element li at 0x7ff7ff209c30>]


##### id选择器

'#'表示ID属性

#idName,选择id属性等于idName的元素

In [22]:
print(html.cssselect('#item-0'))

[<Element li at 0x7ff7ff1ebb90>]


##### class选择器

'.' 表示class属性

.className,选择class属性包含className的元素

In [19]:
print(html.cssselect('.item-0'))

[<Element li at 0x7ff7ff1eac80>, <Element li at 0x7ff7ff642d20>]


#### 关系选择器

##### 包含选择器

E F

选择所有包含在E元素里面的F元素，可以选中所有符合条件的后代

In [25]:
print(html.cssselect('ul li'))

[<Element li at 0x7ff7feca9910>, <Element li at 0x7ff7ff2562d0>, <Element li at 0x7ff7fec28370>, <Element li at 0x7ff7ff23e960>, <Element li at 0x7ff7ff6b2050>, <Element li at 0x7ff7ff116c80>]


##### 子选择器

E>F

选择所有作为E元素的子元素F,只能选中子元素，不能选中孙元素

In [26]:
print(html.cssselect('ul>li'))

[<Element li at 0x7ff7fed5a4b0>, <Element li at 0x7ff7ff242b90>, <Element li at 0x7ff7fed0bdc0>, <Element li at 0x7ff7ff2dc1e0>, <Element li at 0x7ff7ff2dc5a0>, <Element li at 0x7ff7ff2dceb0>]


##### 相邻选择器

E+F

选择紧贴在E元素之后的第一个F元素,只会选中符合条件的相邻的兄弟元素

In [43]:
print(html.cssselect('ul+a')[0].text)

http:


##### 兄弟选择器

E~F

选择E元素所有兄弟元素F，选中所有符合条件的兄弟元素，不强制是紧邻的元素

In [39]:
print(html.cssselect('li~a'))

[<Element a at 0x7ff7fea6ff50>, <Element a at 0x7ff7fea75c30>]


##### 组合选择器

使用','组合两个不同的CSS选择元素

选择所有的E元素和F元素
E,F

In [44]:
print(html.cssselect('li,a'))

[<Element li at 0x7ff7fe9ef2d0>, <Element a at 0x7ff7fef8ce60>, <Element li at 0x7ff7feba35f0>, <Element a at 0x7ff7fe9f3640>, <Element li at 0x7ff7fe9e86e0>, <Element a at 0x7ff7fe9e85f0>, <Element li at 0x7ff7fe9e8370>, <Element a at 0x7ff7fe9e8910>, <Element li at 0x7ff7fe9e8640>, <Element li at 0x7ff7fe9e8690>, <Element a at 0x7ff7feb03cd0>, <Element a at 0x7ff7fea8a6e0>, <Element a at 0x7ff7fea8a5f0>, <Element a at 0x7ff7fea8a820>, <Element a at 0x7ff7fea2b640>]


##### 伪类选择器

伪类选择器是一类选择特定状态元素的选择方式

伪类选择器关键字以':'开头

:pseudo-class-name

###### tag:nth-child(n)

提取第几个tag标签

In [52]:
# 提取第二个li标签
print(html.cssselect('li:nth-child(2)>a')[0].text)

# 提取偶数索引的li标签
print(html.cssselect('li:nth-child(2n)>a'))

# 选择前6个元素
:nth-child(-n+6)
    
#从第6个开始选择
:nth-child(n+6)

# 两者结合使用，可以限制选择某一个范围
:nth-child(-n+9):nth-child(n+6) # 选择第6个到第9个

second item
[<Element a at 0x7ff7ff46c460>, <Element a at 0x7ff7ff091820>, <Element a at 0x7ff7fea7ff50>]


###### tag:first-child

提取第一个标签

In [53]:
print(html.cssselect('li:first-child'))

[<Element li at 0x7ff7ff5bca00>]


###### tag:not(attr)

提取所有属性非attr的tag

In [58]:
print(html.cssselect('li:not(#item-0)'))

[<Element li at 0x7ff7febaa5a0>, <Element li at 0x7ff7febaa280>, <Element li at 0x7ff7febaa3c0>, <Element li at 0x7ff7febaae60>, <Element li at 0x7ff7febaaf00>]


##### 属性选择器

- E[attr]
    
    选择具有attr属性的E元素

- E[attr='val']

    选择具有attr属性且属性值等于val的E元素

- E[attr~='val']
    
    选择具有attr属性且属性值其中一个等于val的E元素

- E[attr^='val']
    
    选择具有attr属性且属性值以val开头的E元素

- E[attr$='val']
    
    选择具有attr属性且属性值以val结束的E元素

- E[attr*='val']
    
    选择具有attr属性且属性值为包含val的E元素
    
- 当属性为class和id时可以简写

E.'val'　选择class为'val'的E元素
E#'val'　选择id为'val'的E元素