## 解析(定位)网页数据
将需要的data从网页中提取出来，常用的库有：
- pyquery库
- re库
- json库


html就像家族树，有层级结构
![](img/家族树.jpeg)

**我们先看一个html文本**

[**data/测试网页.html**](data/测试网页.html)

### PyQuery库
pyquery库是jQuery的Python实现，能够以jQuery的语法来操作解析 HTML 文档，易用性和解析速度都很好。

PyQuery库官方文档  https://pythonhosted.org/pyquery/index.html

本文章节：

1. 初始化为PyQuery对象
2. 常用的CCS选择器
3. 伪类选择器
4. 查找标签
5. 获取标签信息
6. 高级方法

### 一、初始化为PyQuery对象

In [1]:
html_string = """
<html lang="en">
    <head>
        简单好用的
        <title>PyQuery</title>
    </head>
    <body>
        <ul id="container">
            <li class="object-1" title="编程语言">Python</li>
            <li class="object-2" title="夸张的编程语言">大法</li>
            <li class="object-3" title="评价">好</li>
        </ul>
    </body>
</html>
"""

In [2]:
html_string

'\n<html lang="en">\n    <head>\n        简单好用的\n        <title>PyQuery</title>\n    </head>\n    <body>\n        <ul id="container">\n            <li class="object-1" title="编程语言">Python</li>\n            <li class="object-2" title="夸张的编程语言">大法</li>\n            <li class="object-3" title="评价">好</li>\n        </ul>\n    </body>\n</html>\n'

In [3]:
from pyquery import PyQuery

doc = PyQuery(html_string)
print(type(doc))
print(doc)

<class 'pyquery.pyquery.PyQuery'>
<html lang="en">
    <head>
        简单好用的
        <title>PyQuery</title>
    </head>
    <body>
        <ul id="container">
            <li class="object-1" title="编程语言">Python</li>
            <li class="object-2" title="夸张的编程语言">大法</li>
            <li class="object-3" title="评价">好</li>
        </ul>
    </body>
</html>


### 二、常用的CCS选择器【重点】
为了定位html中对应的节点及其属性和含有的信息，我们需要使用选择器。



|css选择器|例子|解释|
|---|---|---|
|``.class``|``.intro``|选出``class="intro"``的节点|
|``#id``|``#firstname``|选出``id="firstname"``的节点|
|element|p|选出所有p标签的节点|
|element element|``div p``|选出div节点后辈p的所有节点|
|``*``|``#firstname``|选出``id="firstname"``的节点|
|``[attribute]``|``[target]``|选出带有 target 属性所有节点|
|``[attribute=value]``|``[target=_blank]``|选出 ``target="_blank"`` 的所有节点|


常用的css选择器主要有 .class  #id  element 这三种，本文只讲class、id 和lement最常见的css选择器。

#### 2.1 打印id为container的标签

In [4]:
doc('li')

[<li.object-1>, <li.object-2>, <li.object-3>]

In [5]:
doc('#container')

[<ul#container>]

In [6]:
doc('.object-1')

[<li.object-1>]

#### 2.2 打印class为object-1的标签

In [5]:
print(doc('.object-1'))

<li class="object-1" title="&#x7F16;&#x7A0B;&#x8BED;&#x8A00;">Python</li>
            


打印标签名为body的标签

In [6]:
print(doc('body'))

<body>
        <ul id="container">
            <li class="object-1" title="编程语言">Python</li>
            <li class="object-2" title="夸张的编程语言">大法</li>
            <li class="object-3" title="评价">好</li>
        </ul>
    </body>



#### 2.3 多种css选择器使用
选出ul节点，有很多种表达方式。比如ul节点（该ul节点中的属性键值对为id=container）

In [7]:
print(doc("ul[id=container]"))

<ul id="container">
            <li class="object-1" title="编程语言">Python</li>
            <li class="object-2" title="夸张的编程语言">大法</li>
            <li class="object-3" title="评价">好</li>
        </ul>
    


In [13]:
doc('html body ul')

[<ul#container>]

In [12]:
doc('html body #container')

[<ul#container>]

In [11]:
doc('html body ul li')

[<li.object-1>, <li.object-2>, <li.object-3>]

### 三、伪类选择器【了解】
极少数情况下，css选择器还是无法对我们需要的数据进行定位，我们还需要使用伪类选择器。

|css选择器|例子|解释|
|---|---|---|
|``:nth-child(n)``|``p:nth-child(2)``|找到第二个p节点标签|
|``:first-child``|``p:first-child``|找到第一个p节点标签|
|``:last-child``|``p:last-child``|找到最后一个p标签|
|``:gt(n)``|``p:gt(2)``|找到第二个以后标签|
|``:lt(n)``|``p:lt(5)``|找到第5个以前标签|
|``:contains()``|``p:contains('second')	``|找到包含second文本的p标签


这里只需要了解即可，不用太下功夫联系

In [14]:
pseudo_html  = """
<html lang="en">
    <head>
        简单好用的
        <title>PyQuery</title>
    </head>
    <body>
        <ul id="container">
            <li class="object-1" title="编程语言">Python</li>
            <li class="object-2" title="夸张的编程语言">大法</li>
            <li class="object-3" title="评价">好</li>
        </ul>
    </body>
</html>
"""


pseudo_doc = PyQuery(pseudo_html)
print(pseudo_doc)

<html lang="en">
    <head>
        简单好用的
        <title>PyQuery</title>
    </head>
    <body>
        <ul id="container">
            <li class="object-1" title="编程语言">Python</li>
            <li class="object-2" title="夸张的编程语言">大法</li>
            <li class="object-3" title="评价">好</li>
        </ul>
    </body>
</html>


#### 3.1 伪类nth

In [16]:
print(pseudo_doc('li:nth-child(2)'))

<li class="object-2" title="&#x5938;&#x5F20;&#x7684;&#x7F16;&#x7A0B;&#x8BED;&#x8A00;">大法</li>
            


In [17]:
# html看起来奇怪，解析出来后汉字是正常的
print(pseudo_doc('li:nth-child(2)').attr('title'))

夸张的编程语言


#### 3.2 contains

In [18]:
#找到含有Python的li标签
print(pseudo_doc("li:contains('Python')"))


<li class="object-1" title="&#x7F16;&#x7A0B;&#x8BED;&#x8A00;">Python</li>
            


### 四、查找标签【重点】
PyQuery对象拥有很多实用的定位方法

|PyQuery对象方法|功能|
|---|---|
|.items(selector)|迭代每一个element，返回的是PyQuery对象|
|.find(selector)|找到selector的节点|
|.eq(index)|获得第index个节点|
|.text()|获得节点内的文本|
|.attr(属性名)|获得节点属性值|
|.html()|获得子节点的html|
|.parents(selector)|父辈节点|
|.siblings(selector)|兄弟节点|
|.children(selector)|获得子节点|
|.contents(selector)|获得子节点（带文本）|


**常用的有items/find/eq/text/attr这五个方法**

In [19]:
print(doc)

<html lang="en">
    <head>
        简单好用的
        <title>PyQuery</title>
    </head>
    <body>
        <ul id="container">
            <li class="object-1" title="编程语言">Python</li>
            <li class="object-2" title="夸张的编程语言">大法</li>
            <li class="object-3" title="评价">好</li>
        </ul>
    </body>
</html>


获得所有的li标签

In [20]:
doc('li')

[<li.object-1>, <li.object-2>, <li.object-3>]

查看li标签的类型

In [21]:
[type(l) for l in doc('li')]

[lxml.etree._Element, lxml.etree._Element, lxml.etree._Element]

doc('li')返回的不是PyQuery类型，而是lxml.etree._Element类型。_Element.text获取节点的文本内容

In [22]:
[l.text 
 for l in doc('li')]

['Python', '大法', '好']

获取所有的li，并以PyQuery形式逐个迭代

In [24]:
for item in doc.items('li'):
    print(type(item))

<class 'pyquery.pyquery.PyQuery'>
<class 'pyquery.pyquery.PyQuery'>
<class 'pyquery.pyquery.PyQuery'>


查看doc.items迭代出的对象的数据类型

In [30]:
[type(l) for l in doc.items('li')]

[pyquery.pyquery.PyQuery, pyquery.pyquery.PyQuery, pyquery.pyquery.PyQuery]

In [None]:
PyQuery类型拥有.text()方法

In [25]:
[l.text() 
 for l in doc.items('li')]

['Python', '大法', '好']

In [26]:
[l.attr('title') 
 for l in doc.items('li')]

['编程语言', '夸张的编程语言', '评价']

获得doc节点的（当前为整个文档）的  id='container' 的节点

In [28]:
print(doc.find('#container'))

<ul id="container">
            <li class="object-1" title="编程语言">Python</li>
            <li class="object-2" title="夸张的编程语言">大法</li>
            <li class="object-3" title="评价">好</li>
        </ul>
    


 id='container' 的节点的子节点们

 id='container' 的节点的子节点们（节点内带字符串）

In [31]:
print(doc.find('#container').children())

<li class="object-1" title="&#x7F16;&#x7A0B;&#x8BED;&#x8A00;">Python</li>
            <li class="object-2" title="&#x5938;&#x5F20;&#x7684;&#x7F16;&#x7A0B;&#x8BED;&#x8A00;">大法</li>
            <li class="object-3" title="&#x8BC4;&#x4EF7;">好</li>
        


In [33]:
doc.find('#container').contents()

['\n            ', <Element li at 0x6794f80>, '\n            ', <Element li at 0x65e1468>, '\n            ', <Element li at 0x64d9378>, '\n        ']

 id='container' 的节点的第二个子节点

In [37]:
print(doc.find('#container').contents().eq(1))

<li class="object-1" title="&#x7F16;&#x7A0B;&#x8BED;&#x8A00;">Python</li>
            


# 二、正则表达式 re库
### 3.2 re库-正则表达式

#### 部分正则符号

|正则符号|描述|
|---|---|
|``( )``|标记一个子表达式的开始和结束位置。|
|.|	匹配除换行符 ``\n`` 之外的任何单字符。要匹配 ``. ``，请使用 ``\. ``。|
|\*|	匹配前面的子表达式零次或多次。要匹配 \* 字符，请使用 ``\*``。|
|?|	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 \? 字符，请使用 \\?。|
|+|匹配前面的子表达式一次或多次。要匹配 ``+ ``字符，请使用 ``\+``。|
|\[|	标记一个中括号表达式的开始。要匹配 \[,请使用``\\[``。|
|\|	转义字符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\"，而 '\(' 则匹配 "("。|
|\d|匹配字符串中的单个数字|
|a-zA-Z|匹配全部英文字符|
|0-9|匹配全部数字|
|\s|匹配字符串中的``\n``,``\t``,``空格``|



**正则符号**组成**正则表达式**，用于**匹配**需要的字符。

#### re库常用方法

|re库常用函数|作用|
|---|---|
|``re.findall(pattern, string)``|根据pattern返回匹配结果（列表）|
|``re.split(pattern, string)`` |使用pattern分割string，返回列表        
|``re.sub(pattern, repl, string)``|使用repl替换string中的pattern|

### re.findall(pattern, text)
在text中查找满足pattern条件的文本，返回列表

- pattern:用正则表达式设计的匹配规则
- text：文本数据

In [None]:
import re

description = '我叫张三,今年25岁'

pattern = '我叫(.*?),今年(\d+)岁'
name_age = re.findall(pattern, description)
name_age

In [None]:
string = 'Good Moring，张三！'

#english = re.findall('[a-zA-Z]+', string)
english = re.findall('[a-zA-Z]+', string)
english

In [None]:
import re
#re.split()
string3 = """第一部 文化大革命如火如荼地进行，天文学家叶文洁在期间历经劫难，被带到军方绝秘计划“红岸工程”。
             第二部 面对地球文明前所未有的危局，人类组建起同样庞大的太空舰队，同时（PDC）利用三体人思维透明的致命缺陷，制订了“面壁计划”。
             第三部 在地球人类接近灭亡之际，只有程心和艾AA两个幸存者乘坐光速飞船离开。她们在冥王星带走人类文明的精华。"""


titles = re.split('第[一二三]部', string3)

[ t for t in titles if t!='']

### re.split(pattern, text)
用pattern分割text，返回列表

- pattern:用正则表达式设计的匹配规则
- text：待分割的文本数据

In [None]:
import re

string2 = """第一部 文化大革命如火如荼地进行，天文学家叶文洁在期间历经劫难，被带到军方绝秘计划“红岸工程”。
             第二部 面对地球文明前所未有的危局，人类组建起同样庞大的太空舰队，同时（PDC）利用三体人思维透明的致命缺陷，制订了“面壁计划”。
             第三部 在地球人类接近灭亡之际，只有程心和艾AA两个幸存者乘坐光速飞船离开。她们在冥王星带走人类文明的精华。"""

#
parts = re.split('第[一二三]+部', string2)

#剔除空数据
parts = [part 
         for part in parts 
         if part]
parts

### re.sub(old, new, text)
将text中的old替换为new，返回字符串

In [None]:
import re

string4 = """第一部 文化大革命如火如荼地进行  第二部 面对地球文明前所未有的危局。 第三部 在地球人类接近灭亡之际"""
#文化大革命  替换为  革命
titles = re.sub('文化大革命', '革命', string4)

print(titles)

# 三、json库
Python3 中可以使用 json 模块来对 **JSON 数据（样子像字典类型的字符串）**进行编解码，它包含了两个函数：

|json库常用函数|作用|
|---|---|
|json.dumps()| 将 **python对象数据**编码 为**字符串数据**。|
|json.loads()|将**字符串数据**（长得像字典的字符串）解码为 **python对象数据**。|

In [38]:
import json
 
# Python 字典类型转换为 JSON 对象
info = {
    'name' : 'David',
    'gender' : 'male',
    'age' : '25'
}
 

print(type(info))
json_str = json.dumps(info)
print(type(json_str))

<class 'dict'>
<class 'str'>


In [39]:
import json

dict_str = '{"name": "David", "gender": "male", "age": "25"}'


print(type(dict_str))
data = json.loads(dict_str)
print(data)
print(type(data))

<class 'str'>
{'name': 'David', 'gender': 'male', 'age': '25'}
<class 'dict'>


# 四、数据存储
一般爬虫数据常常存储于txt和或csv文件中。

## 4.1 存储到txt

```python
txtf = 'data.txt'  

#新建一个data.txt文件， 使用追加方式（a+），编码采用utf-8
f = open(txtf, 'a+', encoding='utf-8')

#采集到的文本数据
content = '采集到的文本数据'

#将content写入到data.txt中
f.write(content)

#关闭f
f.close()
```


|**txt与代码文件是否在同一文件夹**|txt文件路径写法|例子|
|---|---|---|
|是|文件名.txt|'data.txt'|
|否|路径/文件名.txt|"/Users/suosuo/Desktop/data.txt"|

In [None]:
#data.txt 与 代码脚本在同一路径
txtf = 'data.txt'  
f = open(txtf, 'a+', encoding='utf-8')
content = '采集到的文本数据'
f.write(content)
f.close()

In [None]:
#data.txt 与 代码脚本不在同一路径,
# 但data文件夹与 代码脚本在同一路径
txtf = 'data/data.txt'  
f = open(txtf, 'a+', encoding='utf-8')
content = '将采集到的文本数据存储在 data/data.txt'
f.write(content)
f.close()

## 4.2 存入csv

```python
file = 'data.csv'
csvf = open(file, 'a+', encoding='gbk', newline = '')
writer = csv.writer(csvf)

#向csv文件写入数据时候，要求的格式为 元组样式数据
writer.writerow('元组类型的数据')

csvf.clsoe
```

In [None]:
import csv 

file = 'data/data.csv'
#使用utf-8编码保存，使用excell打开会显示乱码。这里使用gbk保存
csvf = open(file, 'a+', encoding='gbk', newline = '')
writer = csv.writer(csvf)

#定义data.csv文件的列名
writer.writerow(('name', 'gender', 'age'))

#写入数据
writer.writerow(('David', 'male', '25'))
writer.writerow(('Mark', 'male', '23'))

#关闭
csvf.close()

In [None]:
import csv

#采集到的数据以列表和元组形式组合
datas = [('David', 'male', '25'),
        ('Mark', 'male', '23'),
        ('Mary', 'female', '18')]

csvf = open('data/data2.csv', 'a+', encoding='gbk', newline='')
writer = csv.writer(csvf)
#定义列名时要在for循环之外
writer.writerow(('name', 'gender', 'age'))

for data in datas:
    #写入csv数据时，要在for循环内
    writer.writerow(data)

#关闭要在for循环外

# [下一节：05-爬虫实战.ipynb](05-爬虫实战.ipynb)