1.17 正则表达式

In [1]:
# 在正则表达式前加 'r' 以防止转义
print(r"\nHello World")
# 不加 'r' 时，'\n' 将被转义成换行符
print("\nHello World")

\nHello World

Hello World


In [5]:
import re
# 定义规则
# 为简单起见，我们先不使用任何模式
regex = r"World"

# 定义两个字符串
str1 = "Hello World Hello World"
str2 = "World Hello World Hello"

# 测试 re.match()
print(re.match(regex, str1))    # 由于 World 不在字符串的开头，无法匹配到 World
print(re.match(regex, str2))   # 当 World 在字符串的开头时，可以匹配到 World

# 测试 re.search()
# 不管 World 出现在哪里，都可以成功匹配
print(re.search(regex, str1))
print(re.search(regex, str2))

None
<re.Match object; span=(0, 5), match='World'>
<re.Match object; span=(6, 11), match='World'>
<re.Match object; span=(0, 5), match='World'>


In [7]:
# 使用 re.compile() 进行预编译
# 当我们执行上面的代码时，实际上是先将 regex 编译好，再执行 re.match() 或 re.search()
# 因此，我们也可以预先编译好表达式，避免执行隐式转换
# 实际上，由于 re.compile() 自带缓存，进行预编译并不能提升效率
import re

regex = r"World"
pattern = re.compile(regex)

# 定义两个字符串
str1 = "World Hello World Hello"

print(re.match(pattern, str1))
print(re.search(pattern, str1))

<re.Match object; span=(0, 5), match='World'>
<re.Match object; span=(0, 5), match='World'>


In [11]:
# span() 与 group()
import re

regex = r"Hello World"

# 定义字符串
str1 = "Hello World Hello World"

# span()，返回匹配字符的下标范围
print(re.match(regex, str1).span())
print(re.search(regex, str1).span())

# 假如没有匹配成功的话，调用 span() 会报错
# AttributeError: 'NoneType' object has no attribute 'span'
# print(re.match(regex, "").span())

# group()，返回匹配字符
print(re.match(regex, str1).group())
print(re.search(regex, str1).group())

# 假如没有匹配成功的话，调用 group() 会报错
# AttributeError: 'NoneType' object has no attribute 'group'
# print(re.match(regex, "").group())

(0, 11)
(0, 11)
Hello World
Hello World


IndexError: no such group

In [76]:
import re

# 使用 re.findall() 匹配多次
regex = r"Hello World"
print(re.findall(regex, "Hello World Hello World"))

# 使用 re.finditer() 匹配多次
it = re.finditer(regex,  "Hello World Hello World")
for ele in it:
    print(ele)
    
# 需要注意，下面这段代码只能匹配出一个 hh
regex = r"hh"
sentence = "hhh"
print(re.findall(regex, sentence))   

['Hello World', 'Hello World']
<re.Match object; span=(0, 11), match='Hello World'>
<re.Match object; span=(12, 23), match='Hello World'>
['hh']


In [22]:
# 使用 re.sub() 替换
import re

regex = r"Small"
str1 = "Small Data Small Data"

str2 = re.sub(regex, "Big", str1)
print(str1)
print(str2)

Small Data Small Data
Big Data Big Data


1.17.1 正则表达式模式

In [26]:
import re

str1 = "Hello World"

# ^，匹配字符串的开头
regex1 = r"World"
regex2 = r"^World"

print(re.search(regex1, str1))
print(re.search(regex2, str1))   # 因为 World 不在文件开头，所以不能匹配

# $，匹配字符串的末尾
regex1 = r"Hello"
regex2 = r"Hello$"

print(re.search(regex1, str1))
print(re.search(regex2, str1))   # 因为 Hello 不在文件末尾，所以不能匹配

# 用 search() 来实现 match()
# 但效率上可能会有区别
regex1 = r"^World"
regex2 = r"World"
print(re.search(regex1, str1))
print(re.match(regex2, str1))

<re.Match object; span=(6, 11), match='World'>
None
<re.Match object; span=(0, 5), match='Hello'>
None
None
None


In [38]:
import re

# .，匹配除了换行符的任意字符，当 re.DOTALL 标记被指定时，则可以匹配包括换行符的任意字符
regex = r"."
sentence = "Eddie\n"
print(re.findall(regex, sentence))

# [...]，用来表示一组字符
regex = r"[eid]"    # 匹配 e 或 i 或 d
sentence = "big data"
print(re.findall(regex, sentence))

# [^...]，不在[]中的字符
regex = r"[^eid]"    # 匹配 e、i、d 以外的字符
sentence = "big data"
print(re.findall(regex, sentence))

# 缩写
# [0-9] 表示匹配任何数字
# [a-z] 表示匹配任何小写字母
# [A-Z] 表示匹配任何大写字母
# [a-zA-Z0-9] 表示匹配任何字母及数字
# [^0-9]，表示匹配除了数字外的字符（同理可得 [^a-z]、[^A-Z]、[^a-zA-Z0-9]）
# 缩写可自行指定范围
regex = r"[a-l]"
sentence = "a b c x y z"
print(re.findall(regex, sentence))

# 实际上是 Ascii 码的范围
regex = r"[A-z]"    # 表示从 A 到 z 的所有字符
sentence = "A _ z"    # A 的 Ascii 码为 65；_ 的 Ascii 码为 95；z 的 Ascii 码为 122
print(re.findall(regex, sentence))
# 范围不正确的时候会报错（必须是正序）
regex = r"[z-A]"
sentence = "A _ z"
print(re.findall(regex, sentence))

['E', 'd', 'd', 'i', 'e']
['i', 'd']
['b', 'g', ' ', 'a', 't', 'a']
['a', 'b', 'c']
['A', '_', 'z']


error: bad character range z-A at position 1

In [48]:
import re

# re*，匹配 0 个或多个的表达式
regex = r"hello*"    # * 跟在 o 后面，表示匹配 0 或多个 o
sentence = "hello, hell, hellooo"
print(re.findall(regex, sentence))

# re+，匹配 1 个或多个的表达式
regex = r"hello+"    # + 跟在 o 后面，表示匹配 1 或多个 o
sentence = "hello, hell, hellooo"
print(re.findall(regex, sentence))

# re?，匹配 0 个或 1 个由前面的正则表达式定义的片段，非贪婪方式
# ? 表示懒惰模式，需要搭配 + 或 * 使用
sentence = "hello, hell, hellooo"
print(re.findall(r"hello*?", sentence))
print(re.findall(r"hello+?", sentence))

# re{n}，匹配 n 个前面表达式
regex = r"hello{1}"    # 精确匹配一个 o
sentence = "hello, hell, hellooo"
print(re.findall(regex, sentence))

# re{n,}，精确匹配 n 个前面表达式
regex = r"hello{1,}"    # 匹配一个 o 或多个 o
sentence = "hello, hell, hellooo"
print(re.findall(regex, sentence))

# re{n, m}，匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
regex = r"hello{1,3}"    # 匹配一个到三个 o：所谓贪婪即能匹配三个就不会只匹配两个
sentence = "hello, hell, hellooo"
print(re.findall(regex, sentence))

['hello', 'hell', 'hellooo']
['hello', 'hellooo']
['hell', 'hell', 'hell']
['hello', 'hello']
['hello', 'hello']
['hello', 'hellooo']
['hello', 'hellooo']


In [67]:
# a | b，匹配 a 或 b
regex = r"co|ame"    # 匹配 co 或 ame
sentence = "come, came, cme"
print(re.findall(regex, sentence))

# (re)，匹配括号内的表达式，也表示一个组
regex = r"c(o|a)me"    # 匹配 o 或 a，近似于 r"c[oa]me"
sentence = "come, came, cme"
print(list(re.finditer(regex, sentence)))
# 由于我们使用了括号，代表我们将 (o|a) 视为一个组
# 因此，我们使用 findall 时仅会返回组内的文本
print(re.findall(regex, sentence))

# 为了应对上述情况，我们将详细介绍 group() 与 groups()
regex = r"c(o|a)me"
sentence = "come"
# 调用 group()
print(re.match(regex, sentence).group())
# 调用 groups()
print(re.match(regex, sentence).groups())
# 调用 group(index)
print(re.match(regex, sentence).group(0))
print(re.match(regex, sentence).group(1))
print(re.match(regex, sentence).group(2))

['co', 'ame']
[<re.Match object; span=(0, 4), match='come'>, <re.Match object; span=(6, 10), match='came'>]
['o', 'a']
come
('o',)
come
o


IndexError: no such group

In [74]:
import re

# 存在多个组的情况
regex = r"(c)(o|a)(me)"
sentence = "come, came, cmd"

# 调用 findall()
print(re.findall(regex, sentence))
# 调用 finditer()
print(list(re.finditer(regex, sentence)))

# 调用 group()
print(re.match(regex, sentence).group())
# 调用 groups()
print(re.match(regex, sentence).groups())
# 调用 group(index)
print(re.match(regex, sentence).group(0))
print(re.match(regex, sentence).group(1))
print(re.match(regex, sentence).group(2))
print(re.match(regex, sentence).group(3))
print(re.match(regex, sentence).group(4))

[('c', 'o', 'me'), ('c', 'a', 'me')]
[<re.Match object; span=(0, 4), match='come'>, <re.Match object; span=(6, 10), match='came'>]
come
('c', 'o', 'me')
come
c
o
me


IndexError: no such group

In [83]:
# 多种模式的混合使用
import re

# 检测某个字符串是否为课程名
regex = r"[A-Z]{4}[0-9]{4}"
sentences = ["MSBD5001", "MS5001", "MSBD1", "MATH6000"]
print(re.findall(regex, str(sentences)))
# 一种更好的写法
print([re.findall(regex, s) for s in sentences])
# 把前一种写法的结果展平
from functools import reduce
print(reduce(lambda lhs, rhs: lhs + rhs, [re.findall(regex, s) for s in sentences]))
# 或者用下面的写法（列表生成器的嵌套）
print([match for s in sentences for match in re.findall(regex, s)])

['MSBD5001', 'MATH6000']
[['MSBD5001'], [], [], ['MATH6000']]
['MSBD5001', 'MATH6000']
['MSBD5001', 'MATH6000']


In [91]:
# 多种模式的复杂混合使用
import re

# 假设我们的产品名的格式如下：产品种类-产品描述-...-产品描述-...-产品描述-产品版本。其中：
# 产品种类是有限的（必须是 MSBD 或者 MATH）；
# 至少存在一个产品描述，单个产品描述由数字和字母组成，多个产品描述间由 '-' 连接；
# 产品版本由 v 开头，后接数字与 '.' 的组合。
# 以下是一些产品名的例子：
# MSBD-abc-000-def-v1.0.3, MATH-b2b-v9

regex = r"^(MSBD|MATH)(-[a-zA-Z0-9]+)+(-v[0-9]+(\.[0-9]+)*)$"
sentences = ["MSBD-abc-000-DEF-v1.0.3", "MATH-b2b-v9", 
                   "MSBD-v2.0", "MATH-h2o", "noise-MATH-head-v0", 
                   "MATH-tail-v0-noise", "ABCD-b52-v1", 
                   "MSBD-m&n-v0", "MATH-abc-v1-v3.3", "MATH-abc-v1-v3&3"]
print([match.group() for s in sentences for match in re.finditer(regex, s)])

# 假如我们想提取出所有产品的描述
candidate = [match.group() for s in sentences for match in re.finditer(regex, s)]
extractor = r"^(.+?)-(.+)-(v.+)$"
print([match.group(2) for c in candidate for match in re.finditer(extractor, c)])
# 思考：假如将 extractor 改成 r"^(.+)-(.+)-(v.+)$" 会发生什么？
# 会贪心地去匹配，导致部分产品描述缺失
extractor = r"^(.+)-(.+)-(v.+)$"
print([match.group(2) for c in candidate for match in re.finditer(extractor, c)])

['MSBD-abc-000-DEF-v1.0.3', 'MATH-b2b-v9', 'MATH-abc-v1-v3.3']
['abc-000-DEF', 'b2b', 'abc-v1']
['DEF', 'b2b', 'v1']


1.17.2 正则表达式修饰符

In [105]:
import re

# re.I，使匹配对大小写不敏感
regex = r"[a-z]+"
sentence = "Bazinga"
print(re.findall(regex, sentence))
print(re.findall(regex, sentence, re.I))

# re.S，使 . 匹配包括换行在内的所有字符
regex = r".{1}"
sentence = "\n"
print(re.findall(regex, sentence))
print(re.findall(regex, sentence, re.S))

# 同时使用多个修饰符
regex = r"[a-z]+!.{1}"
sentence = "Bazinga!\n"
print(re.findall(regex, sentence))
print(re.findall(regex, sentence, re.I | re.S))

['azinga']
['Bazinga']
[]
['\n']
[]
['Bazinga!\n']
