# Python爬虫私房手册-`PyQuery`解析库

## 选择`dom`元素

## 问题收集

### `pyquery`历遍元素获取属性时抛出`AttributeError`错误？ 

如果直接对一个`pyquery`对象历遍，会抛出`AttributeError: 'HtmlElement' object has no attribute 'attr'`错误，主要原因是因为`pyquery`是对`lxml`的包装，直接历遍的话，返回的其实是`lxml`的`HtmlElement`对象，因此有以下几种方法：
1. 直接使用`lxml`的`ElementTree API`:
```python
e = pq(url=results_url)
for link in e('li.moredetails a'):
    print link.attrib['href']
```
2. 再次使用`pyquery`对`HtmlElement`进行包装：
```python
print pq(link).attr('href')
```
或者
```python
print pq(link).attr['href']
```
3. 使用`pyquery`的`items()`方法进行历遍，返回的元素直接就是`pyquery`对象：
```python
e = pq(url=results_url)
for link in e('li.moredetails a').items():
    print link.attr['href']
```

### `pyquery`不识别大写的标签怎么办？

`pyquery`默认使用`lxml`进行解析，`lxml`不能识别大写的标签，可以传入`parser`参数，强制性的使用`html`解析：
```python
html = PyQuery('http://www.sina.com.cn',parser='html`)
```
但是使用`html`解析貌似有个问题，就是`encoding`参数变得无效，如果网页是`gbk`编码，则中文无法识别。

最简单的办法是直接读取文件为字符串，使用`lower`全部转换为小写，然后再使用`PyQuery`读取字符串。

### 如何读取直接子节点？

一般情况下，只需要调用`PyQuery`对象的`children`方法即可，但是使用中发现，对`pq`构造函数返回的`PyQuery`对象使用`children`方法获取直接子节点无效，比如：

In [14]:
from pyquery import PyQuery as pq

text = """
    <html>
    <body>
    <ul>
        <li><a href="ne/dc_ne_preface_cli.html">前 言</a>
            <ul>
                <li><a href="vrp/dc_vrp_cli_cfg_0001.html">命令行概述</a></li>
            </ul>
        </li>
    </ul>
    </body>
    </html>
    """

doc = pq(text)
ul = doc.children('ul')  # children方法无效
print(ul) # ul为空




如果直接传入元素标签，则总是把所有子孙节点全部找出来：

In [19]:
uls = doc('ul')
print(uls)

<ul>
        <li><a href="ne/dc_ne_preface_cli.html">前 言</a>
            <ul>
                <li><a href="vrp/dc_vrp_cli_cfg_0001.html">命令行概述</a></li>
            </ul>
        </li>
    </ul>
    <ul>
                <li><a href="vrp/dc_vrp_cli_cfg_0001.html">命令行概述</a></li>
            </ul>
        


此时如果要只获取直接子节点，目前发现的方法只有通过向`doc`传递css选择器实现：

In [18]:
ul = doc('body > ul')
print(ul)

<ul>
        <li><a href="ne/dc_ne_preface_cli.html">前 言</a>
            <ul>
                <li><a href="vrp/dc_vrp_cli_cfg_0001.html">命令行概述</a></li>
            </ul>
        </li>
    </ul>
    
