# 环境与模块介绍


## 环境安装

1. 命令

```shell

    pip install lxml
    
```

## 模块介绍

- 使用pydocs指令可以查看lxml模块的所有包

```python

    PACKAGE CONTENTS
        ElementInclude        
        _elementpath          
        builder                   # 创建xml文档，只有一个生成器类ElementMaker
        cssselect                # 基于css的选择器
        doctestcompare       # xml的输出比较
        etree                       # 使用解析器加载html与xml数据并产生dom树
        html (package)         # 实现html处理的工具 
        includes (package)       # 空的，暂时没有实现
        isoschematron (package)     # 标准的xslt实现
        objectify                            # xml的Python API实现
        pyclasslookup                    # 用于向后兼容的实现
        sax                                   # 基于sax的xml拷贝适配器
        usedoctest                       # 文档测试模块，不能独立使用

```

# 解析html与xml数据

## 加载html与xml

- 使用lxml.etree模块中提供的函数，完成xml与html数据加载，加载的时候，可以指定不同的解析器。

    - lxml.etree提供两种解析器
        - XMLParser
        - HTMLParse

### 加载文件

- 使用lxml.etree的parse函数,函数的定义如下：

```python

parse(source, parser=None, *, base_url=None)
    parse(source, parser=None, base_url=None)
    
    Return an ElementTree object loaded with source elements.  If no parser
    is provided as second argument, the default parser is used.
    
    The ``source`` can be any of the following:
    
    - a file name/path
    - a file object
    - a file-like object
    - a URL using the HTTP or FTPotocol
```

- 说明：
    - source指定解析的数据源，可以使用如下几种对象：
        - 文件名
        - 打开的文件对象
        - 类似文件的对象（就是具有read函数的对象）
        - url指定的网络文件名（或者资源名）
        
    - parser 指定解析器
        - XMLParser
        - HTMLParser
    
    - base_url指定外部实体查找资源（DTD，XSD等）的路径。（如果xml与html内部使用了相对路径的资源）
    
    
    - 返回一个根节点，类型是：
        -`lxml.etree._ElementTree`s

In [2]:
import lxml.etree

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)
print(type(doc))


<class 'lxml.etree._ElementTree'>


### 加载缓存

- 使用lxml.etree的fromstring函数,函数的定义如下：

```python

fromstring(text, parser=None, *, base_url=None)
    fromstring(text, parser=None, base_url=None)
    
    Parses an XML document or fragment from a string.  Returns the
    root node (or the result returned by a parser target).
    
```


- 说明：
    - 其中的参数与parse函数一样，仅仅是数据来源形式不同而已。
    - 返回类型是：
        - `lxml.etree._Element`，与parse返回类型不同。

In [4]:
import lxml.etree

parser = lxml.etree.XMLParser()

fd = open('books.xml', 'br')
xml_buffer = fd.read()
fd.close()

doc = lxml.etree.fromstring(xml_buffer, parser)
print(type(doc))

<class 'lxml.etree._Element'>


### 加载的快捷方式

- 在lxml.etree中提供了两个快捷加载函数
    - XML函数用于加载xml
    - HTML函数用于加载html

1. XML函数的定义

```python

XML(text, parser=None, *, base_url=None)
    XML(text, parser=None, base_url=None)
    
    Parses an XML document or fragment from a string constant.
    Returns the root node (or the result returned by a parser target).
    This function can be used to embed "XML literals" in Python code,
```

- 说明：
    - text 指定一段XML文本字符串；
    - parser可以指定解析器，默认XMLParser
    - base_url 用于指定xml中使用相对路径资源时的参考路径。
    
    - 返回类型是：
        - `lxml.etree._Element`

In [6]:
import lxml.etree
fd = open('books.xml', 'br')
xml_buffer = fd.read()
fd.close()

doc = lxml.etree.XML(xml_buffer)
print(type(doc))

<class 'lxml.etree._Element'>


In [11]:
import lxml.etree
# 下面unicode编码就不需要指定unicode，声明一定第一行
str_xml = '''<?xml version='1.0'?>
<books id="0001" name="马哥书库">
    <!--注释-->
    <book name=""><title>Python编程</title><author>赵德柱</author><year>2016</year><price>88.50</price><publisher>清华出版社</publisher></book>
    <book>
        <title>爬虫编程</title>
        <author>黄金花</author>
        <year>2018</year>
        <price>100.00</price>
        <publisher>水电出版社</publisher>
    </book>
</books>
'''

doc = lxml.etree.XML(str_xml)
print(type(doc))

<class 'lxml.etree._Element'>


2. HTML函数的定义

```python
HTML(text, parser=None, *, base_url=None)
    HTML(text, parser=None, base_url=None)
    
    Parses an HTML document from a string constant.  Returns the root
    node (or the result returned by a parser target).  This function
    can be used to embed "HTML literals" in Python code.

```
- 说明：
    - text 指定一段HTML文本字符串。
    - parser可以指定解析器，默认HTMLParser
    - base_url 用于指定xml中使用相对路径资源时的参考路径。
    
    - 返回类型是：
        - `lxml.etree._Element`

In [13]:
import lxml.etree

str_html = '''
<!doctype html>
<html>
    <head>
        <title>标题</title>
    </head>
    <body>正文</body>
</html>

'''

doc = lxml.etree.HTML(str_html)
print(type(doc))

<class 'lxml.etree._Element'>


## \_ElementTree的使用

- \_ElementTree方法很多，从数据解析的角度主要分成下面几类：

### 返回根节点

- 使用`getroot`函数，函数定义如下：

```
 |  getroot(self)
 |      getroot(self)
```

- 说明：
    - 返回的是`_Element`元素

In [16]:
import lxml.etree

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)
print(type(doc.getroot()))

<class 'lxml.etree._Element'>


### 节点查找

- 节点树提供一组find函数用于节点查找，函数定义如下：

```
 |  find(self, path, namespaces)      # 返回找到的第一个
 |      find(self, path, namespaces=None)
 |      
 |  
 |  findall(self, path, namespaces)    # 返回找到的所有
 |      findall(self, path, namespaces=None)
 |      
 |  
 |  findtext(self, path, default, namespaces)  # 返回文本
 |      findtext(self, path, default=None, namespaces=None)

```

In [17]:
import lxml.etree

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)

node = doc.find('book/title')
print(type(node), node)

<class 'lxml.etree._Element'> <Element title at 0x108043488>


In [18]:
import lxml.etree

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)

node = doc.findall('book/title')
print(type(node), node)

<class 'list'> [<Element title at 0x108043688>, <Element title at 0x10803acc8>]


In [32]:
import lxml.etree

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)

node = doc.findtext('book[@no="0002"]/title')
print(type(node), node)

<class 'str'> 爬虫编程


### xpath函数

- xpath函数支持完全的xpath，上面的find系列函数是xpath的特列。 

In [35]:
import lxml.etree

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)

node = doc.xpath('book[@no="0002"]/title/text()')
print(type(node), node)
node = doc.xpath('book/@*')
print(type(node), node)

<class 'list'> ['爬虫编程']
<class 'list'> ['0001', '0002']


## \_Element的使用

### 节点基本属性

- 一般节点的属性包括
    - 节点名 ：
    - 节点的属性：
    - 节点的文本：
    - 父子节点与兄弟节点访问：

- 可以使用节点的属性来访问到的节点属性：
    - attrib：属性字典
    - tag：节点名
    - text：节点文本
    
- 也可以使用函数访问：
    - `get(self, key, default)`  :访问属性
    - `getchildren(self)`  ：访问子节点
    - `getnext(self)`   ：访问下一个兄弟节点
    - `getparent(self)`   ： 访问父节点
    - `getprevious(self)`  ： 访问前一个兄弟节点
    
    - `items(self)`    ： 所有属性
    - `keys(self)`     ： 所有属性名
    - `values(self)`   ： 所有属性值

- 节点支持的运算符
    - 下标运算
    - len运算
    - 迭代器运算

In [37]:
import lxml.etree

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)

root = doc.getroot()

node = root.xpath('book/title')
print(type(node), node)

print(node[0].tag)
print(node[0].text)
print(node[0].getparent().attrib)

<class 'list'> [<Element title at 0x10804af88>, <Element title at 0x1080573c8>]
title
Python编程
{'no': '0001'}


### XPATH查找

- xpath查找包含find系列函数与xpath函数
    - `find(self, path, namespaces)`
    - `findall(self, path, namespaces)`
    - `findtext(self, path, default, namespaces)`
    - `xpath(self, _path, *, namespaces, extensions, smart_strings, **_variables)`

- 还提供生成器返回结果
    - `iter(self, tag, *tags)`
    - `iterancestors(self, tag, *tags)`
    - `iterchildren(self, tag, *tags, reversed)`
    - `iterdescendants(self, tag, *tags)`
    - `iterfind(self, path, namespaces)`
    - `itersiblings(self, tag, *tags, preceding)`
    - `itertext(self, tag, *tags, with_tail)`
    - ``

In [38]:
import lxml.etree

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)

root = doc.getroot()

nodes = root.xpath('book')

re = nodes[0].itersiblings(preceding=False)
print(type(re), list(re))


<class 'lxml.etree.SiblingsIterator'> [<Element book at 0x108057448>]


### CSS选择器查找

- 可以通过如下函数使用选择器：
    - `cssselect(self, expr, *, translator)`
    - 参数：translator用来把css翻译成xpath，
    - 返回元素列表。
    
- 选择器有两种使用方式：
    - 使用上面cssselect函数
    - 使用CSSSelector类


In [39]:
import lxml.etree
import lxml.cssselect

parser = lxml.etree.XMLParser()

doc = lxml.etree.parse('books.xml', parser)

root = doc.getroot()

# 使用CSSSelector类（效率高点）
selector = lxml.cssselect.CSSSelector('books > book')
print(selector.path)
re = selector(root)
print(type(re), re)

# 使用函数
re = root.cssselect('books > book', translator='html')
print(type(re), re)

<class 'list'> [<Element book at 0x108071c48>, <Element book at 0x108071c88>]


# 创建并保存xml文件

- 使用xmlfle类与Element类
    - xmlfile负责写入数据
    - Element负责构建节点，节点属性与节点间关系。

In [40]:
import lxml.etree

with lxml.etree.xmlfile("exam.xml", encoding='utf-8') as xf:
    print(dir(xf))  # 动态添加的
    xf.write_declaration(standalone=True)
    xf.write_doctype('<!DOCTYPE root SYSTEM "some.dtd">')

    with xf.element('books'):
        ele_book = lxml.etree.Element('book', {'no': '0001', 'name': '好书'})
        ele_title = lxml.etree.Element('title')
        ele_title.text = '好书'
        ele_book.append(ele_title)
        xf.write(ele_book)

    xf.flush()


['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__pyx_vtable__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'element', 'flush', 'method', 'write', 'write_declaration', 'write_doctype']
