In [118]:
from pyquery import PyQuery as pq

# 初始化
我们在解析HTML文本的时候，首先需要将其初始化为一个pyquery对象。它的初始化方式有多种，比如直接传入字符串、传入URL、传入文件名等等。
## 1.字符串初始化

In [119]:
html = '''
<div id="container">
    <ul class="list">
        <li class="item-0">first item</li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
        <li class="item-1 active"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
</div>
'''
doc = pq(html) # 将(HTML字符串)当作参数传递给pyquery，这样就成功完成了初始化。
doc('li') # CSS选择器 直接提取所有的li节点

[<li.item-0>, <li.item-1>, <li.item-0.active>, <li.item-1.active>, <li.item-0>]

## 2.URL初始化
初始化url：https://cuiqingcai.com

In [120]:
doc = pq(url='https://cuiqingcai.com')
print(doc('title'))

<title>静觅丨崔庆才的个人站点</title>
  


## 3.文件初始化
当然除了传递一个 URL ，我们还可以传递本地的文件名，参数指定为 filename  即可：
```doc = pq(filename='demo.html')
print(doc('li'))```

# CSS选择器

In [121]:
doc = pq(html)
print(doc('.item-0.active a'))

<a href="link3.html"><span class="bold">third item</span></a>


## 1.查找节点

In [122]:
html = '''
<div class="wrap">
    <div id="container">
        <ul class="list">
            <li class="item-0">first item</li>
            <li class="item-1"><a href="link2.html">second item</a></li>
            <li class="item-0 active">
                <a href="link3.html">
                    <li class="bold">third item</li>
                </a>
            </li>
            <li class="item-1 active"><a href="link4.html">fourth item</a></li>
            <li class="item-0"><a href="link5.html">fifth item</a></li>
        </ul>
    </div>
</div>
'''
doc = pq(html)
items = doc('.list')

### 1.1子节点

In [123]:
zi = items.children('li') # 子节点
zi

[<li.item-0>, <li.item-1>, <li.item-0.active>, <li.item-1.active>, <li.item-0>]

### 1.2 子孙节点

In [124]:
zisun = items.find('li .bold') # 子孙节点
zisun

[<li.bold>]

### 1.3父节点

In [125]:
parent = items.parent()
parent

[<div#container>]

### 1.4祖先节点

In [126]:
parents = items.parents('.wrap')
parents

[<div.wrap>]

### 1.5兄弟节点

In [127]:
li = doc('.list .item-0.active')
li.siblings()

[<li.item-1>, <li.item-0>, <li.item-1.active>, <li.item-0>]

### 1.6遍历节点
调用 items方法 得到一个生成器，遍历一下，就可以逐个得到所有节点对象了

In [128]:
A = li.siblings().items()
for a in A:
    print(a)

<li class="item-1"><a href="link2.html">second item</a></li>
            
<li class="item-0">first item</li>
            
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
            
<li class="item-0"><a href="link5.html">fifth item</a></li>
        


## 2.获取信息
比较重要的信息有两类，一是属性，二是文本。
### 2.1获取属性
可以调用 attr  方法来获取属性

In [129]:
zisun = items.find('li .bold')
print(zisun.attr('class'))

bold


### 2.2获取文本
text文本，html文本

In [130]:
a = items.children('.item-0.active')
print(a.text(),'\n**********************',a.html())

third item 
********************** 
                <a href="link3.html">
                    <li class="bold">third item</li>
                </a>
            


## 3.节点操作
对节点进行动态修改，比如为某个节点添加一个 class ，移除某个节点等
### 3.1addClass 和 removeClass

In [131]:
li = doc('.item-1.active')
print('删除前：',li)
li.removeClass('active')
print('删除后：',li)
li.addClass('active')
print('添加后：',li)

删除前： <li class="item-1 active"><a href="link4.html">fourth item</a></li>
            
删除后： <li class="item-1"><a href="link4.html">fourth item</a></li>
            
添加后： <li class="item-1 active"><a href="link4.html">fourth item</a></li>
            


### 3.2attr 、 text 、 html

In [132]:
li = doc('.item-1.active')
print('改   前：',li)

li.attr('name', 'link')
print('改属性后：',li)

li.text('testing text')
print('改文本后：',li)

li.html('<span>testing</span>')
print('改html后：',li)

改   前： <li class="item-1 active"><a href="link4.html">fourth item</a></li>
            
改属性后： <li class="item-1 active" name="link"><a href="link4.html">fourth item</a></li>
            
改文本后： <li class="item-1 active" name="link">testing text</li>
            
改html后： <li class="item-1 active" name="link"><span>testing</span></li>
            


### 3.3remove

In [133]:
html = '''
<div class="wrap">
Hello, World
<p>This is a paragraph.</p>
</div>
'''
doc = pq(html)
wrap = doc('.wrap')
print(wrap.text(),'\n****************')

wrap.find('p').remove()
print(wrap.text())

Hello, World
This is a paragraph. 
****************
Hello, World
