# 正则表达式

正则表达式是一个特殊的字符序列，用于判断一个字符串是否与我们所设定的字符序列是否匹配，也就是说检查一个字符串是否与某种模式匹配。

比如在一段字符串中寻找是否含有某个字符或某些字符，通常我们使用内置函数来实现，如下：

In [1]:
a = 'aaa|bbb|eee|ccc|ddd'

print('是否含有“aaa”这个字符串：{0}'.format(a.index('aaa') > -1))
print('是否含有“aaa”这个字符串：{0}'.format('aaa' in a))

是否含有“aaa”这个字符串：True
是否含有“aaa”这个字符串：True


如何使用正则表达式？Python 提供了 `re` 模块来实现正则表达式的所有功能。`re.findall(pattern, string[, flags])` 该函数实现了在字符串中找到正则表达式所匹配的所有子串，并组成一个列表返回。

In [2]:
import re

a = 'aaa|bbb|eee|ccc|ddd'

findall = re.findall('aaa', a)
print(findall)

if len(findall) > 0:
    print('a 含有“aaa”这个字符串')
else:
    print('a 不含有“aaa”这个字符串')

['aaa']
a 含有“aaa”这个字符串


In [3]:
import re

a = 'aaa|bbb|eee|ccc|ddd|12345'

re_findall = re.findall('[a-z]', a) # 找出字符串中的所有小写字母

print(re_findall)

print(re.findall('[0-9a-gA-G]', a))

['a', 'a', 'a', 'b', 'b', 'b', 'e', 'e', 'e', 'c', 'c', 'c', 'd', 'd', 'd']
['a', 'a', 'a', 'b', 'b', 'b', 'e', 'e', 'e', 'c', 'c', 'c', 'd', 'd', 'd', '1', '2', '3', '4', '5']


字符集是由一对方括号`[]`括起来的字符集合。使用字符集，可以匹配多个字符中的一个。字符集一对方括号`[]`里面的字符关系是"或（OR）"关系。

比如 `C[ET]O` 匹配到的是 `CEO` 或 `CTO` ，就是说 `[ET]` 代表的是一个 `E` 或者一个 `T` 。像上面提到的 `[a-z]` 就是所有小写字母中的其中一个，这里使用连字符`-`定义一个连续字符的字符范围。当然这种写法可以包含多个字符范围，比如：`[0-9a-fA-F]` 匹配单个的字母和数字，且不分大小写。注意，字符和范围定义的先后顺序对匹配的结果没有任何影响。

In [4]:
import re
a = 'uav,ubv,ucv,uwv,uzv,ucv,uov'

# 取 u 和 v 中间是 a 或 b 或 c 的字符
print(re.findall('u[abc]v', a))

# 如果是连续的字母，数字可以使用 - 来代替
print(re.findall('u[a-c]v', a))

# 取 u 和 v 中间不是 a 或 b 或 c 的字符
print(re.findall('u[^abc]v', a))

['uav', 'ubv', 'ucv', 'ucv']
['uav', 'ubv', 'ucv', 'ucv']
['uwv', 'uzv', 'uov']


下面通过字符集的形式解释一些特殊字符。

In [5]:
import re

a = 'uav_ubv_ucv_uwv_uzv_ucv_uov&$#@123-456-789'

# \d 相当于 [0-9], 匹配所有数字字符
# \D 相当于 [^0-9], 匹配所有非数字字符
# \w 匹配包括下划线的任何单词字符，等价于 [A-Za-z0-9_]
print(re.findall('\d', a))
print(re.findall('\D', a))
print(re.findall('\w', a))

['1', '2', '3', '4', '5', '6', '7', '8', '9']
['u', 'a', 'v', '_', 'u', 'b', 'v', '_', 'u', 'c', 'v', '_', 'u', 'w', 'v', '_', 'u', 'z', 'v', '_', 'u', 'c', 'v', '_', 'u', 'o', 'v', '&', '$', '#', '@', '-', '-']
['u', 'a', 'v', '_', 'u', 'b', 'v', '_', 'u', 'c', 'v', '_', 'u', 'w', 'v', '_', 'u', 'z', 'v', '_', 'u', 'c', 'v', '_', 'u', 'o', 'v', '1', '2', '3', '4', '5', '6', '7', '8', '9']


数量词的词法是：`{min,max}` 。`min` 和 `max` 都是非负整数。如果逗号有而 `max` 被忽略了，则 `max` 没有限制。如果逗号和 `max` 都被忽略了，则重复 `min` 次。比如，`\b[1-9][0-9]{3}\b` 匹配的是 1000 ~ 9999 之间的数字(`\b`表示单词边界），而 `\b[1-9][0-9]{2,4}\b` 匹配的是一个在 100 ~ 99999 之间的数字。

In [6]:
import re

a = 'java*&39android##@@python'

findall = re.findall('[a-z]{4,7}', a) # 匹配出字符串中 4 到 7 个字母的英文
print(findall)

['java', 'android', 'python']


注意，这里有贪婪和非贪婪之分。

贪婪模式：一次性读入整个字符串，如果不匹配就吐掉最右边的一个字符再匹配，直到找到匹配的字符串或字符串的长度为 0 为止。它的宗旨是读尽可能多的字符，所以当读到第一个匹配时就立刻返回。

懒惰模式：从字符串的左边开始，试图不读入字符串中的字符进行匹配，失败则多读一个字符，再匹配，如此循环，当找到一个匹配时会返回该匹配的字符串，然后再次进行匹配直到字符串结束。

上面例子中的就是贪婪的，如果要使用非贪婪，也就是懒惰模式，则加一个 `?` ，上面的例子修改如下：

In [7]:
import re

a = 'java*&39android##@@python'

re_findall = re.findall('[a-z]{4,7}?', a)
print(re_findall)

['java', 'andr', 'pyth']


很多时候需要替换字符串中的字符，这时候就可以用到 `re.sub(pattern, repl, string, count=0, flags=0)` ，前三个为必选参数，后两个为可选参数。

| 参数  | 描述  |
| --- | --- |
| pattern | 表示正则中的模式字符串 |
| repl | replacement，被替换的字符串 |
| string | 表示要被替换的那个 string 字符串 |
| count | 对于pattern中匹配到的结果，count可以控制对前几个group进行替换 |
| flags | 正则表达式修饰符 |

注意，第二个参数可以传递一个函数，这也是这个方法的强大之处。例如例子里面的函数 `convert` ，对传递进来要替换的字符进行判断，替换成不同的字符。

In [8]:
#!/usr/bin/env python3
# -*- coding: UTF-8 -*-

import re

a = 'Python*Android*Java-888'

# 把字符串中的 * 字符替换成 & 字符
sub1 = re.sub('\*', '&', a)
print(sub1)

# 把字符串中的第一个 * 字符替换成 & 字符
sub2 = re.sub('\*', '&', a, 1)
print(sub2)

# 把字符串中的 * 字符替换成 & 字符,把字符 - 换成 |
def convert(value):
    item = value.group()
    if (item == '*'):
        return '&'
    elif (item == '-'):
        return '|'

# 第二个参数，要替换的字符可以为一个函数
sub3 = re.sub('[\*-]', convert, a)
print(sub3)

Python&Android&Java-888
Python&Android*Java-888
Python&Android&Java|888


`re.match(pattern, string, flags=0)` 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，就返回 none。

`re.search(pattern, string, flags=0)` 扫描整个字符串并返回第一个成功的匹配。

区别：`re.match` 只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回 `None`；而 `re.search` 匹配整个字符串，直到找到一个匹配。

In [9]:
import re

a = '<img src="https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg">'

# 使用 re.search
search = re.search('<img src="(.*)">', a)
# group(0) 是一个完整的分组
print(search.group(0))
print(search.group(1))

# 使用 re.findall
findall = re.findall('<img src="(.*)">', a)
print(findall)

# 多个分组的使用（比如我们需要提取 img 字段和图片地址字段）
re_search = re.search('<(.*) src="(.*)">', a)
# 打印 "img"
print(re_search.group(1))
# 打印图片地址
print(re_search.group(2))
# 打印 img 和图片地址，以元祖的形式
print(re_search.group(1, 2))
# 或者使用 groups
print(re_search.groups())

<img src="https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg">
https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg
['https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg']
img
https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg
('img', 'https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg')
('img', 'https://s-media-cache-ak0.pinimg.com/originals/a8/c4/9e/a8c49ef606e0e1f3ee39a7b219b5c05e.jpg')


在爬虫和数据分析这两个模块中都是离不开正则表达式的。

### 按类型匹配

In [10]:
import re
matched = re.search(r"\w+?@\w+?\.com", "aaa@edu.com")
print("aaa@edu.com:", matched)
matched = re.search(r"\w+?@\w+?\.com", "the email is aaa@edu.com.")
print("the email is aaa@edu.com:", matched)

aaa@edu.com: <re.Match object; span=(0, 11), match='aaa@edu.com'>
the email is aaa@edu.com: <re.Match object; span=(13, 24), match='aaa@edu.com'>


In [11]:
# r 代表原生字符串， 使用 r 开头的字符串是为了不混淆字符串中到底要写几个 \
match = re.search(r"run", "I run to you")
print(match)
print(match.group())

<re.Match object; span=(2, 5), match='run'>
run


In [12]:
print(re.search(r"r[au]n", "I run to you"))
print(re.search(r"f(ou|i)nd", "I find you"))
print(re.search(r"f(ou|i)nd", "I found you"))

<re.Match object; span=(2, 5), match='run'>
<re.Match object; span=(2, 6), match='find'>
<re.Match object; span=(2, 7), match='found'>


| 特定标识 | 含义  | 范围  |
| --- | --- | --- |
| \d  | 任何数字 | [0-9] |
| \D  | 不是数字的 |     |
| \s  | 任何空白字符 | [ \t \n \r \f \v] |
| \S  | 空白字符以外的 |     |
| \w  | 任何大小写字母,数字和 _ | [a-zA-Z0-9_] |
| \W  | \w 以外的 |     |
| \b  | 匹配一个单词边界 | 比如 er\b 可以匹配 never 中的 er，但不能匹配 verb 中的 er |
| \B  | 匹配非单词边界 | 比如 er\B 能匹配 verb 中的 er，但不能匹配 never 中的 er |
| \\  | 强制匹配 \ |     |
| .   | 匹配任何字符 (除了 \n) |     |
| ?   | 前面的模式可有可无 |     |
| *   | 重复**零次**或多次 |     |
| +   | 重复**一次**或多次 |     |
| {n,m} | 重复 n 至 m 次 |     |
| {n} | 重复 n 次 |     |
| +?  | 非贪婪，最小方式匹配 + |     |
| *?  | 非贪婪，最小方式匹配 * |     |
| ??  | 非贪婪，最小方式匹配 ? |     |
| ^   | 匹配一行开头，在 re.M 下，每行开头都匹配 |     |
| $   | 匹配一行结尾，在 re.M 下，每行结尾都匹配 |     |
| \A  | 匹配最开始，在 re.M 下，也从文本最开始 |     |
| \B  | 匹配最结尾，在 re.M 下，也从文本最结尾 |     |

In [13]:
import re
ptn = re.compile(r"\w+?@\w+?\.com")

matched = ptn.search("aaa@edu.com")
print("aaa@edu.com is a valid email:", matched)
matched = ptn.search("aaa@edu+com")
print("aaa@edu+com is a valid email:", matched)

aaa@edu.com is a valid email: <re.Match object; span=(0, 11), match='aaa@edu.com'>
aaa@edu+com is a valid email: None


In [14]:
# 识别所有中文字符，使用 Unicode
print(re.search(r"[\u4e00-\u9fa5]+", "我爱Python。"))
# 识别所有中文字符和标点
print(re.search(r"[\u4e00-\u9fa5！？。，￥【】「」]+", "我爱python。python是最好的语言！"))

<re.Match object; span=(0, 2), match='我爱'>
<re.Match object; span=(0, 2), match='我爱'>


| 功能  | 说明  | 举例  |
| --- | --- | --- |
| re.search() | 扫描查找整个字符串，找到第一个模式匹配的 | re.search(rrun, I run to you) > 'run' |
| re.match() | 从字符的最开头匹配，找到第一个模式匹配的。**即使用 re.M 多行匹配，也是从最开头开始匹配** | re.match(rrun, I run to you) > None |
| re.findall() | 返回一个不重复的 pattern 的匹配列表 | re.findall(rr[ua]n, I run to you. you ran to him) > ['run', 'ran'] |
| re.finditer() | 和 findall 一样，只是用迭代器的方式使用 | for item in re.finditer(rr[ua]n, I run to you. you ran to him): |
| re.split() | 用正则分开字符串 | re.split(rr[ua]n, I run to you. you ran to him) > ['I ', ' to you. you ', ' to him'] |
| re.sub() | 用正则替换字符 | re.sub(rr[ua]n, jump, I run to you. you ran to him) > 'I jump to you. you jump to him' |
| re.subn() | 和 sub 一样，额外返回一个替代次数 | re.subn(rr[ua]n, jump, I run to you. you ran to him) > ('I jump to you. you jump to him', 2) |

In [15]:
print("search:", re.search(r"run", "I run to you"))
print("match:", re.match(r"run", "I run to you"))
print("findall:", re.findall(r"r[ua]n", "I run to you. you ran to him"))

for i in re.finditer(r"r[ua]n", "I run to you. you ran to him"):
    print("finditer:", i)

print("split:", re.split(r"r[ua]n", "I run to you. you ran to him"))
print("sub:", re.sub(r"r[ua]n", "jump", "I run to you. you ran to him"))
print("subn:", re.subn(r"r[ua]n", "jump", "I run to you. you ran to him"))

search: <re.Match object; span=(2, 5), match='run'>
match: None
findall: ['run', 'ran']
finditer: <re.Match object; span=(2, 5), match='run'>
finditer: <re.Match object; span=(18, 21), match='ran'>
split: ['I ', ' to you. you ', ' to him']
sub: I jump to you. you jump to him
subn: ('I jump to you. you jump to him', 2)


### 在模式中获取特定信息

In [16]:
found = []
for i in re.finditer(r"[\w-]+?\.jpg", "I have 2021-02-01.jpg, 2021-02-02.jpg, 2021-02-03.jpg"):
    found.append(re.sub(r".jpg", "", i.group()))
print(found)

['2021-02-01', '2021-02-02', '2021-02-03']


In [17]:
# 只要在正则表达中加入一个 () 选定要截取返回的位置， 就直接返回括号里的内容。
string = "I have 2021-02-01.jpg, 2021-02-02.jpg, 2021-02-03.jpg"
print("without ():", re.findall(r"[\w-]+?\.jpg", string))
print("with ():", re.findall(r"([\w-]+?)\.jpg", string))

without (): ['2021-02-01.jpg', '2021-02-02.jpg', '2021-02-03.jpg']
with (): ['2021-02-01', '2021-02-02', '2021-02-03']


In [18]:
string = "I have 2021-02-01.jpg, 2021-02-02.jpg, 2021-02-03.jpg"
match = re.finditer(r"(\d+?)-(\d+?)-(\d+?)\.jpg", string)
for file in match:
    print("matched string:", file.group(0), ", year:", file.group(1), ", month:", file.group(2), ", day:", file.group(3)) # file.group(0) 全匹配

matched string: 2021-02-01.jpg , year: 2021 , month: 02 , day: 01
matched string: 2021-02-02.jpg , year: 2021 , month: 02 , day: 02
matched string: 2021-02-03.jpg , year: 2021 , month: 02 , day: 03


In [19]:
# findall 可以达到同样效果，但没有全匹配
string = "I have 2021-02-01.jpg, 2021-02-02.jpg, 2021-02-03.jpg"
match = re.findall(r"(\d+?)-(\d+?)-(\d+?)\.jpg", string)
for file in match:
    print("year:", file[0], ", month:", file[1], ", day:", file[2])

year: 2021 , month: 02 , day: 01
year: 2021 , month: 02 , day: 02
year: 2021 , month: 02 , day: 03


有时候我们 `group` 的信息太多了，括号写得太多，让人眼花缭乱怎么办？我们还能用一个名字来索引匹配好的字段， 然后用 `group("索引")` 的方式获取到对应的片段。注意，上面方案中的 `findall` 不提供名字索引的方法， 我们可以用 `search` 或者 `finditer` 来调用 `group` 方法。为了索引，我们需要在括号中写上 `?P<索引名>` 这种模式。

In [20]:
string = "I have 2021-02-01.jpg, 2021-02-02.jpg, 2021-02-03.jpg"
match = re.finditer(r"(?P<y>\d+?)-(?P<m>\d+?)-(?P<d>\d+?)\.jpg", string)
for file in match:
    print("matched string:", file.group(0), 
        ", year:", file.group("y"), 
        ", month:", file.group("m"), 
        ", day:", file.group("d"))

matched string: 2021-02-01.jpg , year: 2021 , month: 02 , day: 01
matched string: 2021-02-02.jpg , year: 2021 , month: 02 , day: 02
matched string: 2021-02-03.jpg , year: 2021 , month: 02 , day: 03


### 多模式匹配

| 模式  | 全称  | 说明  |
| --- | --- | --- |
| re.I | re.IGNORECASE | 忽略大小写 |
| re.M | re.MULTILINE | 多行模式，改变'^'和'$'的行为 |
| re.S | re.DOTALL | 点任意匹配模式，改变'.'的行为, 使".“可以匹配任意字符 |
| re.L | re.LOCALE | 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定 |
| re.U | re.UNICODE | 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性 |
| re.X | re.VERBOSE | 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。以下两个正则表达式是等价的 |

In [21]:
ptn, string = r"r[ua]n", "I Ran to you"
print("without re.I:", re.search(ptn, string))
print("with re.I:", re.search(ptn, string, flags=re.I))

without re.I: None
with re.I: <re.Match object; span=(2, 5), match='Ran'>


我们想在每行文字的开头匹配特定字符，如果用 `^ran` 固定样式开头，是匹配不到第二行的 `ran to you` 的，所以我们得加上一个 `re.M` flag。 注意 `re.search()` 和 `re.match()` 不一样，`re.match()` 是不管有没有 `re.M` flag，匹配都是按照最头上开始匹配的。 所以在下面的实验中，`re.match()` 匹配不到任何东西。

In [22]:
ptn = r"^ran"
string = """I 
ran to you"""
print("without re.M:", re.search(ptn, string))
print("with re.M:", re.search(ptn, string, flags=re.M))
print("with re.M and match:", re.match(ptn, string, flags=re.M))

without re.M: None
with re.M: <re.Match object; span=(3, 6), match='ran'>
with re.M and match: None


In [23]:
# 多flag
ptn = r"^ran"
string = """I
Ran to you"""
print("with re.M and re.I:", re.search(ptn, string, flags=re.M|re.I))

with re.M and re.I: <re.Match object; span=(2, 5), match='Ran'>


### 更快的执行

In [24]:
import time
n = 1000000
# 不提前 compile
t0 = time.time()
for _ in range(n):
    re.search(r"ran", "I ran to you")
t1 = time.time()
print("不提前 compile 运行时间：", t1-t0)

# 先做 compile
ptn = re.compile(r"ran")
for _ in range(n):
    ptn.search("I ran to you")
print("提前 compile 运行时间：", time.time()-t1)

不提前 compile 运行时间： 0.9936192035675049
提前 compile 运行时间： 0.3965420722961426
