In [1]:
import re

In [2]:
m = re.search('(?<=abc)def', 'abcdef')
m.group(0)

'def'

In [3]:
m = re.search(r'(?<=-)\w+', 'spam-egg')
m.group(0)

'egg'

In [10]:
m = re.search(r'a+', 'aaaab')
m.group(0)

'aaaa'

In [11]:
m = re.search(r'a+?', 'aaaab')
m.group(0)

'a'

In [12]:
prog = re.compile(r'a+?') #多次需要用到匹配式时
m = prog.search('aaaab')
m.group(0)

'a'

**re.A**
- re.ASCII

让 \w, \W, \b, \B, \d, \D, \s 和 \S 只匹配ASCII，而不是Unicode。这只对Unicode样式有效，会被byte样式忽略。相当于前面语法中的内联标志 (?a) 。
注意，为了保持向后兼容， re.U 标记依然存在（还有他的同义 re.UNICODE 和嵌入形式 (?u) ) ， 但是这些在 Python 3 是冗余的，因为默认字符串已经是Unicode了（并且Unicode匹配不允许byte出现)。

**re.DEBUG**

显示编译时的debug信息，没有内联标记。

**re.I**
- re.IGNORECASE

进行忽略大小写匹配；表达式如 [A-Z] 也会匹配小写字符。Unicode匹配（比如 Ü 匹配 ü）同样有用，除非设置了 re.ASCII 标记来禁用非ASCII匹配。当前语言区域不会改变这个标记，除非设置了 re.LOCALE 标记。这个相当于内联标记 (?i) 。

注意，当设置了 IGNORECASE 标记，搜索Unicode样式 [a-z] 或 [A-Z] 的结合时，它将会匹配52个ASCII字符和4个额外的非ASCII字符： 'İ' (U+0130, 拉丁大写的 I 带个点在上面), 'ı' (U+0131, 拉丁小写没有点的 I ), 'ſ' (U+017F, 拉丁小写长 s) and 'K' (U+212A, 开尔文符号).如果使用 ASCII 标记，就只匹配 'a' 到 'z' 和 'A' 到 'Z' 。

**re.L**
- re.LOCALE

由当前语言区域决定 \w, \W, \b, \B 和大小写敏感匹配。这个标记只能对byte样式有效。这个标记不推荐使用，因为语言区域机制很不可靠，它一次只能处理一个 "习惯”，而且只对8位字节有效。Unicode匹配在Python 3 里默认启用，并可以处理不同语言。 这个对应内联标记 (?L) 。

在 3.6 版更改: re.LOCALE 只能用于byte样式，而且不能和 re.ASCII 一起用。

在 3.7 版更改: 设置了 re.LOCALE 标记的编译正则对象不再在编译时依赖语言区域设置。语言区域设置只在匹配的时候影响其结果。

**re.M**
- re.MULTILINE

设置以后，样式字符 '^' 匹配字符串的开始，和每一行的开始（换行符后面紧跟的符号）；样式字符 '$' 匹配字符串尾，和每一行的结尾（换行符前面那个符号）。默认情况下，’^’ 匹配字符串头，'$' 匹配字符串尾。对应内联标记 (?m) 。

**re.S**
- re.DOTALL

让 '.' 特殊字符匹配任何字符，包括换行符；如果没有这个标记，'.' 就匹配 除了 换行符的其他任意字符。对应内联标记 (?s) 。

**re.X**
- re.VERBOSE

这个标记允许你编写更具可读性更友好的正则表达式。通过分段和添加注释。空白符号会被忽略，除非在一个字符集合当中或者由反斜杠转义，或者在 *?, (?: or (?P<…> 分组之内。当一个行内有 # 不在字符集和转义序列，那么它之后的所有字符都是注释。

In [13]:
re.split(r'\W+', 'Words, words, words.')

['Words', 'words', 'words', '']

In [14]:
# 带括号则所有的组里的文字也会包含在列表里
re.split(r'(\W+)', 'Words, words, words.')

['Words', ', ', 'words', ', ', 'words', '.', '']

In [15]:
# 最多进行一次分割
re.split(r'\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

In [18]:
re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

['0', '3', '9']

In [26]:
# 如果分隔符里有捕获组合，并且匹配到字符串的开始，那么结果将会以一个空字符串开始。对于结尾也是一样
re.split(r'(\W+)', 'words, words...')

['words', ', ', 'words', '...', '']

In [29]:
# 转义 pattern 中的特殊字符。
import string
legal_chars = string.ascii_lowercase + string.digits + "!#$%&'*+-.^_`|~:"
print('[%s]+' % re.escape(legal_chars))

[abcdefghijklmnopqrstuvwxyz0123456789!\#\$%\&'\*\+\-\.\^_`\|\~:]+


In [34]:
# 如果正则表达式使用了 (?P<name>…) 语法， groupN 参数就也可能是命名组合的名字。
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")

In [35]:
m.group('first_name')

'Malcolm'

In [32]:
m.group('last_name')

'Reynolds'

In [37]:
print(m.group(0))
print(m.group(1))
print(m.group(2))

Malcolm Reynolds
Malcolm
Reynolds


In [33]:
# 如果一个组匹配成功多次，就只返回最后一个匹配
m = re.match(r"(..)+", "a1b2c3")
m.groups()

('c3',)

In [38]:
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
m.groupdict()

{'first_name': 'Malcolm', 'last_name': 'Reynolds'}

In [40]:
# 返回 group 匹配到的字串的开始和结束标号
email = "tony@tiremove_thisger.net"
m = re.search("remove_this", email)
print(m.start())
print(m.end())
print(email[:m.start()] + email[m.end():])

7
18
tony@tiger.net


In [41]:
m.span()

(7, 18)

# search() vs. match()
基于 re.match() 检查字符串开头，或者 re.search() 检查字符串的任意位置（默认Perl中的行为）

In [45]:
re.match("c", "abcdef")  # No match

In [46]:
re.search("c", "abcdef")

<re.Match object; span=(2, 3), match='c'>