### 第13章 正则表达式
#### 正则表达式（Regular Expression，常简写为regex,regexp,RE,re），是预先定义好的一个“规则字符串”，用来描述你想搜索的字符串的特征。
#### Python中正则表达式的应用非常广泛，如数据挖掘、数据分析、网络爬虫、输入有效性验证等。
#### re模块
#### 在线验证，大家可以访问这个网址： https://regex101.com/

### 13.1 	正则表达式中字符
+ 普通字符，按照字符字面意义表示的字符。
+ 元字符，是预先定义好的一些特定字符，用来描述其他字符。

### 表13-1 基本元字符
|字符|说明|
|---|---|
|\\|转义符|
|.|表示任意一个字符（除换行符）|
|+|表示重复一次或多次|
|* |表示重复零次或多次|
|?|表示重复零次或一次|
|\||选择符号，表示“或关系”|
|{}|定义量词|
|[]|定义字符类|
|()|定义分组|
|^|表示取反或匹配一行的开始|
|$|匹配一行的结束|

#### 例1 开始与结束字符

In [5]:
# coding=utf-8
# 代码文件：chapter14/ch14.1.3.py
import re 

p1 = r'\w+@zhijieketang\.com' 
p2 = r'^\w+@zhijieketang\.com$' 

text = "Tony's email is tony_guan588@zhijieketang.com."
m = re.search(p1, text) 
print(m)  # 匹配

m = re.search(p2, text) 
print(m)  # 不匹配

email = 'tony_guan588@zhijieketang.com'
m = re.search(p2, email)
print(m)  # 匹配 

<re.Match object; span=(16, 45), match='tony_guan588@zhijieketang.com'>
None
<re.Match object; span=(0, 29), match='tony_guan588@zhijieketang.com'>


### 13.2 字符类

#### 例2 定义字符类

In [33]:
# coding=utf-8
# 代码文件：chapter14/ch14.1.3.py
import re

p = r'[Jj]ava'

m = re.search(p, 'I like Java and Python.')
print(m)  # 匹配

m = re.search(p, 'I like JAVA and Python.')
print(m)  # 不匹配

m = re.search(p, 'I like java and Java.')
print(m)  # 匹配


<re.Match object; span=(7, 11), match='Java'>
None
<re.Match object; span=(7, 11), match='java'>


#### 例3 字符类取反

In [7]:
# coding=utf-8
# 代码文件：chapter14/ch14.2.2.py
import re

p = r'[^0123456789]'  #匹配非数字字符

m = re.search(p, '1000')
print(m)  # 不匹配

m = re.search(p, 'Python 3')
print(m)  # 匹配

None
<re.Match object; span=(0, 1), match='P'>


#### 例4 区间

In [10]:
# coding=utf-8
# 代码文件：chapter14/ch14.2.3.py
import re

m = re.search(r'[A-Za-z0-9]', 'A10.3')
print(m)  # 匹配

m = re.search(r'[0-25-7]', 'A3489C')
print(m)  # 不匹配


<re.Match object; span=(0, 1), match='A'>
None


#### 例5 预定义字符类（见书上表格）

|字符|说明|
|---|---|
|.|匹配任意一个字符(除了换行符)|
| \\\ |匹配反斜杠\字符|
|\n|匹配换行|
|\r|匹配回车|
|\f|匹配一个换页符|
|\t|匹配一个水平制表符|
|\v|匹配一个垂直制表符|
|\s|匹配一个空格符，等价于[\t\n\r\f\v]|
|\S|匹配一个非空格符，等价于[^\s]|
|\d|匹配一个数字字符，等价于[0-9]|
|\D|匹配一个非数字字符，等价于[^0-9]|
|\w|匹配任何语言的单词字符、数字和下划线等字符|
|\W|等价于[^\w]|

In [13]:
# coding=utf-8
# 代码文件：chapter14/ch14.2.4.py
import re

# p = r'[^0123456789]'
p = r'\D' 

m = re.search(p, '1000')
print(m)  # 不匹配

m = re.search(p, 'Python 3')
print(m)  # 匹配

text = '你们好Hello'
m = re.search(r'\w', text) 
print(m)  # 匹配


None
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='你'>


### 13.3 量词

|字符|说明|
|---|---|
|?|出现零次或一次|
|* |出现零次或多次|
|+|出现一次或多次|
|{n}|出现零次或n次|
|{n,m}|至少出现n次但不超过m次|
|{n,}|至少出现n次|

In [25]:
# coding=utf-8
# 代码文件：chapter14/ch14.3.1.py


import re

m = re.search(r'\d?', '87654321')  # 出现数字一次
print(m)  # 匹配字符'8'

m = re.search(r'\d?', 'ABC')  # 出现数字零次
print(m)  # 匹配字符''

m = re.search(r'\d*', '87654321')  # 出现数字多次
print(m)  # 匹配字符'87654321'

m = re.search(r'\d*', 'ABC')  # 出现数字零次
print(m)  # 匹配字符''

m = re.search(r'\d+', '87654321')  # 出现数字多次
print(m)  # 匹配字符'87654321'

m = re.search(r'\d+', 'ABC')
print(m)  # 不匹配


<re.Match object; span=(0, 1), match='8'>
<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(0, 8), match='87654321'>
<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(0, 8), match='87654321'>
None


#### 贪婪量词和懒惰量词

In [17]:
# coding=utf-8
# 代码文件：chapter14/ch14.3.2.py


import re

# 使用贪婪量词
m = re.search(r'\d{5,8}', '87654321')  # 出现数字8次 ①
print(m)  # 匹配字符'87654321'

# 使用惰性量词，在量词后面加“?”
m = re.search(r'\d{5,8}?', '87654321')  # 出现数字5次 ②
print(m)  # 匹配字符'87654'


<re.Match object; span=(0, 8), match='87654321'>
<re.Match object; span=(0, 5), match='87654'>


### 13.4 分组
在此之前学习的量词只能重复显示一个字符，如果想让一个字符串作为整体使用量词，可将这个字符串放到一对小括号中，这就是分组。
#### 13.4.1 使用分组

In [16]:
# coding=utf-8
# 代码文件：chapter14/ch14.4.1.py


import re

p = r'(121){2}' #①
m = re.search(p, '121121abcabc')
print(m)  # 匹配
print(m.group())  # 返回匹配字符串 #②
print(m.group(1))  # 获得第一组内容 #③ 组编号从1开始

p = r'(\d{3,4})-(\d{7,8})' #④
m = re.search(p, '010-87654321')
print(m)  # 匹配
print(m.group())  # 返回匹配字符串
print(m.groups())  # 获得所有组内容 #⑤

<re.Match object; span=(0, 6), match='121121'>
121121
121
<re.Match object; span=(0, 12), match='010-87654321'>
010-87654321
('010', '87654321')


#### 13.4.2 分组的命名
通过在组开头添加“?P<分组名>”实现。

In [19]:
# coding=utf-8
# 代码文件：chapter14/ch14.4.2.py
import re

p = r'(?P<area_code>\d{3,4})-(?P<phone_code>\d{7,8})' #①
m = re.search(p, '010-87654321')
print(m)  # 匹配
print(m.group())  # 返回匹配字符串
print(m.groups())  # 获得所有组内容

# 通过组编号返回组内容
print(m.group(1)) 
print(m.group(2))

# 通过组名返回组内容
print(m.group('area_code')) #②
print(m.group('phone_code')) #③


<re.Match object; span=(0, 12), match='010-87654321'>
010-87654321
('010', '87654321')
010
87654321
010
87654321


#### 13.4.3 反向引用分组
#### 反向引用的语法是“\组编号”
#### 例：若想解析一段XML代码，就需要找到某一个开始标签和结束标签。

In [14]:
# coding=utf-8
# 代码文件：chapter14/ch14.4.3.py
import re

p = r'<([\w]+)>.*</([\w]+)>' #①

m = re.search(p, '<a>abc</a>') #②
print(m)  # 匹配

m = re.search(p, '<html>abc</html>') #②
print(m)  # 匹配

m = re.search(p, '<a>abc</b>') #③
print(m)  # 匹配


<re.Match object; span=(0, 10), match='<a>abc</a>'>
<re.Match object; span=(0, 16), match='<html>abc</html>'>
<re.Match object; span=(0, 10), match='<a>abc</b>'>


In [15]:
# coding=utf-8
# 代码文件：chapter14/ch14.4.3.py
import re

p = r'<([\w]+)>.*</\1>' #使用反向引用

m = re.search(p, '<a>abc</a>') 
print(m)  # 匹配

m = re.search(p, '<h1>abc</h1>') 
print(m)  # 匹配

m = re.search(p, '<a>abc</b>') 
print(m)  # 不匹配

<re.Match object; span=(0, 10), match='<a>abc</a>'>
<re.Match object; span=(0, 12), match='<h1>abc</h1>'>
None


#### 13.4.4 非捕获分组
前面介绍的分组称为捕获分组，捕获分组的匹配子表达式结果被暂时保存到内存中，以备表达式或其他程序引用；如果想将小括号内作为一个整体进行匹配，可以使用非捕获分组，在组开头使用“?:”。

In [21]:
# coding=utf-8
# 代码文件：chapter14/ch14.4.4.py


import re

s = 'img1.jpg,img2.jpg,img3.bmp'

#捕获分组
p = r'\w+(\.jpg)' # ①
mlist = re.findall(p, s)
print(mlist)

#非捕获分组
p = r'\w+(?:\.jpg)' # ②
mlist = re.findall(p, s)
print(mlist)

p = r'\w+\.jpg' # ③
mlist = re.findall(p, s)
print(mlist)


['.jpg', '.jpg']
['img1.jpg', 'img2.jpg']
['img1.jpg', 'img2.jpg']


### 13.5 re模块
#### 13.5.1  search()和match()函数
+ search()。在输入字符串中查找，返回第一个匹配内容。如果找到则返回match对象，如果没有找到则返回None。
+ match()。在输入字符串开始处查找匹配内容，如果找到则返回match对象，如果没有找到则返回None。

In [18]:
# coding=utf-8
# 代码文件：chapter14/ch14.5.1.py
import re

p = r'\w+@zhijieketang\.com'

text = "Tony's email is tony_guan588@zhijieketang.com." # ①
m = re.search(p, text)
print(m)  # 匹配

m = re.match(p, text)
print(m)  # 不匹配

email = 'tony_guan588@zhijieketang.com' # ②
m = re.search(p, email)
print(m)  # 匹配

m = re.match(p, email)
print(m)  # 匹配

# match对象常用的几个方法：
print("match对象几个方法")
print(m.group()) #返回匹配的子字符串
print(m.start()) #返回匹配的子字符串的开始索引
print(m.end())   #返回匹配的子字符串的结束索引
print(m.span())  #返回匹配的子字符串的跨度

<re.Match object; span=(16, 45), match='tony_guan588@zhijieketang.com'>
None
<re.Match object; span=(0, 29), match='tony_guan588@zhijieketang.com'>
<re.Match object; span=(0, 29), match='tony_guan588@zhijieketang.com'>
match对象几个方法
tony_guan588@zhijieketang.com
0
29
(0, 29)


#### 13.5.2 findall()和finditer()函数
+ findall()。在输入字符串中查找所有匹配内容。如果匹配成功，则返回match列表对象；如果匹配失败则返回None。
+ finditer()。在输入字符串中查找所有匹配内容，如果匹配成功，则返回容纳match的可迭代对象，通过迭代对象每次可以返回一个match对象。如果匹配失败则返回None。

In [19]:
# coding=utf-8
# 代码文件：chapter14/ch14.5.2.py


import re

p = r'[Jj]ava'
text = 'I like Java and java.'

match_list = re.findall(p, text) 
print(match_list) 

match_iter = re.finditer(p, text) 
for m in match_iter: 
    print(m.group())


['Java', 'java']
Java
java


#### 13.5.3 字符串分割
#### 使用split()函数，该函数按照匹配的子字符串来分割字符串，并返回字符串列表对象。
re.split(pattern,string,maxsplit=0,flags=0)

In [22]:
# coding=utf-8
# 代码文件：chapter12chapter14/ch14.5.3.py


import re

p = r'\d+'
text = 'AB12CD34EF'

clist = re.split(p, text) # ①
print(clist)

clist = re.split(p, text, maxsplit=1) # ②
print(clist)

clist = re.split(p, text, maxsplit=2) # ③
print(clist)

['AB', 'CD', 'EF']
['AB', 'CD34EF']
['AB', 'CD', 'EF']


#### 13.5.4 字符串替换

In [24]:
# coding=utf-8
# 代码文件：chapter12chapter14/ch14.5.4.py


import re

p = r'\d+'
text = 'AB12CD34EF'

repace_text = re.sub(p, ' ', text) # ①
print(repace_text)

repace_text = re.sub(p, '*', text, count=1) # ②
print(repace_text)

repace_text = re.sub(p, ' ', text, count=2) # ③
print(repace_text)

AB CD EF
AB*CD34EF
AB CD EF


### 13.6 编译正则表达式

### 作业1 从下面这段文字中提取出所有颜色信息。

In [None]:
# 提取颜色
content = '''苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的'''

import re

### 作业2 从下面这段文字中匹配出QQ密码。

In [None]:
content='''我的微博密码是：1234567，
QQ密码是：33445566，
银行卡密码是：888888，
Github密码是：999abc999，帮我记住它们'''


### 作业3 从下面这段文字中提取出所有的薪资信息。

In [1]:
content = '''
Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员
测试开发工程师（C++/python） 上海墨鹍数码科技有限公司上海-浦东新区2.5万/每月02-18未满员
Python3 开发工程师 上海德拓信息技术股份有限公司上海-徐汇区1.3万/每月02-18剩余11人
测试开发工程师（Python） 赫里普（上海）信息科技有限公司上海-浦东新区1.1万/每月02-18剩余5人
Python高级开发工程师 上海行动教育科技股份有限公司上海-闵行区2.8万/月02-18剩余255人
python开发工程师 上海优似腾软件开发有限公司上海-浦东新区2.5万/每月02-18满员
python开发工程师 上海优乐美软件开发有限公司上海-浦东新区5万/每月02-18满员
'''

### 从上面的例子可以看出， 用正则表达式关键的地方在于， 如何写出正确的表达式语法 。