# Day04-数据解析

HTTP请求库获取到网站的响应内容了。但是网站返回的响应内容确实太多了，其中大部分并不是我们想要的。那么如何从这些内容中精确获取到我们想要的数据呢?本章就带领大家学习数据提取过程中经常会用到的一些技术。

## 正则表达式

正则表达式（Regular Expression，常简写为regex、regexp或RE），又称规则表达式，是计算机科学中的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式利用字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。可以理解正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串的规则。

正则表达式的特点是：

    1- 灵活性、逻辑性和功能性非常强；
    2- 可以迅速地用极简单的方式达到对字符串的复杂控制；
    3- 但是对于刚接触的人来说，比较晦涩难懂。
    
在爬虫数据提取过程中，正则表达式主要用于提取网页中包含的邮件地址、电话号码等这些符合特定规则的数据。



Python中需要通过正则表达式对字符串进⾏匹配的时候， 可以使⽤内置的re模块：

**导入re模块**

In [3]:
import re

**使⽤match⽅法进⾏匹配操作**

re.match是⽤来检查正则表达式是否匹配的⽅法，若字符串匹配正则表达式，则match⽅法返回匹配对象（Match Object），否则返回None（注意不是空字符串""）。 

```
result = re.match(正则表达式,要匹配的字符串)
```
**使⽤group⽅法来提取数据**

匹配对象Macth Object具有group⽅法，⽤来返回字符串的匹配部分

```
result.group() 
```

### 正则表达式语法介绍

正则表达式由一些普通字符和一些元字符（metacharacters）组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义，我们下面会给予解释。
在最简单的情况下，一个正则表达式看上去就是一个普通的字符串。

####  字符表示

下面是一些表示特殊字符的元字符：

|字符 | 功能|
|-|-|
|. |  匹配任意1个字符（除了\n）|
|`[ ]` |    匹配`[ ]`中列举的字符 |
|\d | 匹配数字， 即0-9 |
|\D | 匹配⾮数字， 即不是数字|
|\s | 匹配空⽩字符， 如空格， tab键|
|\S | 匹配⾮空⽩字符|
|\w | 匹配单词字符， 即a-z、 A-Z、 0-9、 |
|\W | 匹配⾮单词字符|

- 如果hello的⾸字符⼩写， 那么正则表达式需要⼩写的h

In [29]:
ret = re.match("h","hello Python")
ret.group()

'h'

- 如果hello的⾸字符⼤写， 那么正则表达式需要⼤写的H

In [5]:
ret = re.match("H","Hello Python")
ret.group()

'H'

- ⼤⼩写h都可以的情况

In [6]:
ret = re.match("[hH]","hello Python")
ret.group()

'h'

In [7]:
ret = re.match("[hH]","Hello Python")
ret.group()

'H'

- 匹配0到9第⼀种写法

In [9]:
ret = re.match("[0123456789]","7Hello Python") 
ret.group()

'7'

- 匹配0到9第⼆种写法

In [8]:
ret = re.match("[0-9]","7Hello Python")
ret.group()

'7'

- 匹配0到9第三种写法

In [30]:
ret = re.match("\\d","7Hello Python")
ret.group()

'7'

----------

**转义字符**

正则表达式⾥使⽤“\”作为转义字符 ，假如你需要匹配如下⽂本中的字符"\"， 那么使⽤正则表达式⾥将需要四个反斜杠"\\\\"
```
"c:\\a\\b\\c"
```

Python中字符串前⾯加上 r 表示原始字符串,有了原始字符串， 你再也不⽤担⼼是不是漏写了反斜杠：

In [25]:
ret = re.match("c:\\\\a", "c:\\a\\b\\c" )
ret.group()

'c:\\a'

In [26]:
ret = re.match(r"c:\\a", "c:\\a\\b\\c" )
ret.group()

'c:\\a'

#### 表示数量

下面是一些表示数量的元字符：

|字符 | 功能|
|-|-|
|* |   匹配前⼀个字符出现0次或者⽆限次， 即可有可⽆|
|+ |  匹配前⼀个字符出现1次或者⽆限次， 即⾄少有1次|
|? |  匹配前⼀个字符出现1次或者0次， 即要么有1次， 要么没有|
|{m} |    匹配前⼀个字符出现m次|
|{m,} |   匹配前⼀个字符⾄少出现m次|
|{m,n} |  匹配前⼀个字符出现从m到n次|

- ⼀个字符串第⼀个字⺟为⼤写字母， 后⾯都是⼩写字⺟

In [33]:
re.match("[A-Z][a-z]*","Mm").group()

'Mm'

In [35]:
re.match("[A-Z][a-z]*","Aabcdef").group()

'Aabcdef'

In [40]:
re.match("[A-Z][a-z]*","AabCdef").group()

'Aab'

 - 检测变量名的有效性：

In [36]:
re.match("[a-zA-Z_]+\w*","name1").group()

'name1'

In [37]:
re.match("[a-zA-Z_]+\w*","_name").group()

'_name'

In [39]:
re.match("[a-zA-Z_]+\w*","2_name").group()

AttributeError: 'NoneType' object has no attribute 'group'

- 匹配0-99间的数字：

In [41]:
re.match("[1-9]?[0-9]","7").group()

'7'

In [42]:
re.match("[1-9]?[0-9]","33").group()

'33'

In [43]:
re.match("[1-9]?[0-9]","09").group()

'0'

- 8到20位的密码， 可以是⼤⼩写英⽂字⺟、 数字、 下划线

In [45]:
re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66").group()

'1ad12f23s34455ff66'

-----

#### 表示边界

下面是一些表示边界的元字符：

|字符 | 功能 |
|-|-|
|^  | 匹配字符串开头|
|$  | 匹配字符串结尾|
|\b | 匹配⼀个单词的边界|
|\B |匹配⾮单词边界|



- 匹配163.com的邮箱地址:

In [48]:
re.match("[\w]{4,20}@163\.com", "xiaoWang@163.com").group()

'xiaoWang@163.com'

In [49]:
re.match("[\w]{4,20}@163\.com", "xiaoWang@163.comheihei").group()

'xiaoWang@163.com'

In [50]:
re.match("[\w]{4,20}@163\.com$", "xiaoWang@163.comheihei").group() 

AttributeError: 'NoneType' object has no attribute 'group'

----

#### 匹配分组

下面是一些和分组相关的元字符：

|字符 | 功能 |
|-|-|
|| |  匹配左右任意⼀个表达式|
|(ab) |   将括号中字符作为⼀个分组|
|\num |   引⽤分组num匹配到的字符串|
|(?P<name>) | 分组起别名 |
|(?P=name) |  引⽤别名为name分组匹配到的字符串|

- 匹配左右任意⼀个表达式:

In [51]:
re.match("\w{4,20}@163\.com", "test@163.com").group()

'test@163.com'

In [52]:
re.match("\w{4,20}@(163|126|qq)\.com", "test@126.com").group()

'test@126.com'

In [53]:
re.match("\w{4,20}@(163|126|qq)\.com", "test@qq.com").group()

'test@qq.com'

In [54]:
re.match("\w{4,20}@(163|126|qq)\.com", "test@gmail.com").group()

AttributeError: 'NoneType' object has no attribute 'group'

- 未命名分组：

In [57]:
ret = re.match("([^-]*)-(\d+)","010-12345678")
ret.group()

'010-12345678'

In [58]:
ret.group(1)

'010'

In [59]:
ret.group(2)

'12345678'

- 通过数字引用未命名分组：

In [60]:
# 能够完成对正确的字符串的匹配
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
ret.group()

'<html>hh</html>'

In [61]:
# 如果遇到⾮正常的html格式字符串， 匹配出错
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</body>")
ret.group() 

'<html>hh</body>'

In [62]:
# 通过引⽤分组中匹配到的数据即可， 但是要注意是元字符串
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
ret.group()

'<html>hh</html>'

In [63]:
# 因为2对<>中的数据不⼀致， 所以没有匹配出来
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</body>")
ret.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [64]:
ret = re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>www.sina.cn</h1></html>")
ret.group()

'<html><h1>www.sina.cn</h1></html>'

In [65]:
ret = re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>www.sina.cn</h2></html>")
ret.group()

AttributeError: 'NoneType' object has no attribute 'group'

- 使用命名分组：

In [66]:
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.sina.cn</h1></html>")
ret.group()

'<html><h1>www.sina.cn</h1></html>'

In [67]:
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.sina.cn</h2></html>")
ret.group()

AttributeError: 'NoneType' object has no attribute 'group'

*注意： (?P<name>) 和 (?P=name) 中的字⺟p⼤写*

### 正则表达式的其它使用

#### 通过re模块中的search方法可以 搜索符合某个正则表达式特征的字符串：

In [74]:
ret = re.search(r"\d+", "阅读次数为 9999")
ret.group() 

'9999'

#### 通过re模块中的findall方法可以 找出所有符合正则表达式特征的字符串：

In [73]:
re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")

['9999', '7890', '12345']

#### 通过re模块中的sub方法可以 将正则表达式匹配到的数据进⾏替换：

In [71]:
re.sub(r"\d+", '998', "python = 997")

'python = 998'

#### 通过re模块中的split 方法可以根据正则表达式匹配进⾏切割字符串， 并返回⼀个列表：

In [72]:
re.split(r":| ","info:xiaoZhang 33 shandong")

['info', 'xiaoZhang', '33', 'shandong']

In [None]:
Python⾥正则表达式数量词默认是贪婪的（在有些语⾔⾥也可能是默认⾮贪婪） ， 总是尝试匹配尽可能多的字符。

⾮贪婪匹配则相反， 总是尝试匹配尽可能少的字符。

在"*","?","+","{m,n}"等量词后⾯加上“？” ， 可以使贪婪匹配变成⾮贪婪匹配

In [81]:
re.search(r"aa(\d+)","aa2343ddd").group(1)

'2343'

In [82]:
re.search(r"aa(\d+?)","aa2343ddd").group(1)

'2'