Python 中所有正则表达式的函数都在 re 模块中。

In [1]:
import re

# 1. 用正则表达式查找文本模式

现在的任务是，检查一个字符串是否具有电话号码的形式，比如：415-555-4242，也就是判断字符串是否 \d\d\d-\d\d\d-\d\d\d\d 的格式，其中 \d  是一个正则表达式，表示一位数字（0到9）字符。

In [2]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')

注意：

- 向 `re.compile()` 传入一个字符串值，表示正则表达式，它将返回一个 Regex 模式对象.
- 回忆第6章，在字符串前面加`r`表示该字符串是原始字符串，里面的`\`并不是转义字符. 如果不加 `r`，那么将写成 `re.compile('\\d\\d\\d-\\d\\d\\d-\\d\\d\\d\\d')`

Regex 对象的 `search()` 方法，能够查找传入的字符串中，所有符合该正则表达式的匹配。

如果字符串中没有找到该正则表达式模式，`search()` 方法将返回 None。

如果找到了该模式， `search()` 方法将返回一个 Match 对象。Match 对象有一个 `group()` 方法，它返回被查找字符串中实际匹配的文本（稍后解释）。

In [3]:
mo = phoneNumRegex.search('My number is 415-555-4242.')
print('Phone number found: ' + mo.group())

Phone number found: 415-555-4242


**总结使用正则表达式有几个步骤：**

1. 用 `import re` 导入正则表达式模块。 
2. 用 `re.compile()`函数创建一个 Regex 对象（记得使用原始字符串）。
3. 向 Regex 对象的 `search()` 方法传入想查找的字符串。它返回一个 Match 对象。 
4. 调用 Match 对象的 `group()`方法，返回实际匹配文本的字符串。

# 利用括号分组

1. 添加括号将在正则表达式中创建“分组”： (\d\d\d)-(\d\d\d-\d\d\d\d)
2. 第一对括号是第 1 组。第二对括号是第 2 组。向 group() 匹配对象方法传入整数 1 或 2，就可以取得匹配文本的不同部分。向 group()方法传 入 0 或不传入参数 ，将返回整个匹配的文本。

**注意**

1. 括号`()`在正则表达式中有特殊的含义，但是如果你需要在文本中匹配括号`()`，那么就需要用倒斜杠对`(`和`)`进行字符转义。
2. 如果正则表达式中没有分组，那么命令 `group(1)` 会出错，`groups()` 会返回空的元组。

In [4]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('My number is 415-555-4242.')
mo.group(1)

'415'

In [5]:
mo.group(2)

'555-4242'

In [6]:
mo.group()

'415-555-4242'

如果想要一次就获取所有的分组，请使用 groups()方法，返回多个值的元组。

In [7]:
mo.groups()

('415', '555-4242')

# 用管道匹配多个分组

字符`|`称为管道。例如 `r'Batman|Tina Fey'` 将匹配 `Batman` 或 `Tina Fey`。如果两者都在被查找的字符串中，则返回第一次出现的作为 Match 对象返回。

In [8]:
heroRegex = re.compile(r'Batman|Tina Fey')
mo1 = heroRegex.search('Batman and Tina Fey')
mo1.group()

'Batman'

In [9]:
mo1.group(1)

IndexError: no such group

In [10]:
mo1.groups() #因为正则表达式中没有用括号分组，所有返回空的元组。

()

In [11]:
batRegex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = batRegex.search('Batmobile lost a wheel')
mo.group()

'Batmobile'

In [12]:
mo.group(1)

'mobile'

In [13]:
mo.groups()

('mobile',)

# 用问号实现可选匹配

In [14]:
batRegex = re.compile(r'Bat(wo)?man')
mo1 = batRegex.search('The Adventures of Batman')
mo1.group()

'Batman'

In [25]:
mo1.groups()

(None,)

In [17]:
mo1.group(1) == None

True

In [18]:
mo2 = batRegex.search('The Adventures of Batwoman')
mo2.group()

'Batwoman'

In [19]:
mo2.group(1)

'wo'

In [20]:
mo2.groups()

('wo',)

# 用星号匹配零次或多次

In [21]:
batRegex = re.compile(r'Bat(wo)*man')
mo3 = batRegex.search('The Adventures of Batwowowowoman and Batwoman')
mo3.group()

'Batwowowowoman'

In [22]:
mo3.group(1)

'wo'

In [23]:
mo3.groups()

('wo',)

# 用加号匹配一次或多次

In [24]:
batRegex = re.compile(r'Bat(wo)+man')
mo1 = batRegex.search('The adventures of Batman and Batwowowoman')
mo1.group()

'Batwowowoman'

In [49]:
mo2 = batRegex.search('The adventures of Batman')
mo2 == None

True

# 用花括号匹配特定次数

例如 
- `(Ha){3}` 将匹配字符串 `HaHaHa`，但不匹配 `HaHa`.
- `(Ha){3,5}` 将匹配字符串`HaHaHa`、`HaHaHaHa` 和`HaHaHaHaHa`.
- `(Ha){3,}` 将匹配字符串`Ha`至少连续出现3次或以上.
- `(Ha){,5}` 将匹配字符串`Ha`至少连续出现0次到5次.

In [55]:
haRegex = re.compile(r'(Ha){3,5}')
mo1 = haRegex.search('HaHa and HaHaHa and HaHaHaHa and HaHaHaHaHa and HaHaHaHaHaHa')
mo1.group()

'HaHaHa'

In [56]:
mo1.groups()

('Ha',)

In [57]:
mo1.group(1) #注意运行 mo1.group(2)则出错

'Ha'

# 贪心和非贪心匹配

In [58]:
haRegex = re.compile(r'(Ha){3,5}')
mo1 = haRegex.search('HaHaHaHaHaHaHaHaHaHaHa')
mo1.group()

'HaHaHaHaHa'

In [60]:
haRegex = re.compile(r'(Ha){3,5}?') # 加了 ? 表示用非贪心匹配，不加默认用贪心匹配。
mo1 = haRegex.search('HaHaHaHaHaHaHaHaHaHaHa')
mo1.group()

'HaHaHa'

# findall() 方法


除了 search 方法外，Regex 对象也有一个 findall()方法

- search()将返回一个 Match 对象，包含被查找字符串中的“第一次”匹配的文本，后面出现的匹配不再查找。
- findall()方法将返回由字符串组成的列表，包含被查找字符串中的所有匹配。

**注意**

- 当正则表达式中无分组时，findall() 返回一个字符串的列表
- 当正则表达式中有分组时，findall() 返回一个字符串元组的列表。

In [25]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phoneNumRegex.search('Cell: 415-555-9999, work: 212-555-0000')
mo.group()

'415-555-9999'

In [62]:
phoneNumRegex.findall('Cell: 415-555-9999, work: 212-555-0000')

['415-555-9999', '212-555-0000']

In [63]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
phoneNumRegex.findall('Cell: 415-555-9999, work: 212-555-0000')

[('415', '555', '9999'), ('212', '555', '0000')]

# 字符分类

|缩写字符分类|表示|
|:---|:---|
|`\d`|0 到 9 的任何数字|
|`\D`|除 0 到 9 的数字以外的任何字符|
|`\w`|任何字母、数字或下划线字符（可以认为是匹配“单词”字符）|
|`\W`|除字母、数字和下划线以外的任何字符|
|`\s`|空格、制表符或换行符（可以认为是匹配“空白”字符）|
|`\S`|除空格、制表符和换行符以外的任何字符|

In [27]:
xmasRegex = re.compile(r'\d+\s\w+')
xmasRegex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 7 天鹅, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge')

['12 drummers',
 '11 pipers',
 '10 lords',
 '9 ladies',
 '8 maids',
 '7 天鹅',
 '6 geese',
 '5 rings',
 '4 birds',
 '3 hens',
 '2 doves',
 '1 partridge']

# 建立自己的字符分类

用方括号定义自己的字符分类，如：

* 字符分类 `[0-5]` 只匹配数字 0 到 5，这比 输入(0|1|2|3|4|5)要短很多.
* 字符分类 `[aeiouAEIOU]` 将匹配所有元音字符，不论大小写.
* 字符分类 `[a-zA-Z0-9]` 将匹配所有小写字母、大写字母和数字。
* 通过在字符分类的左方括号后加上一个插入字符（^），就可以得到“非字符类”.

In [28]:
strRegex = re.compile(r'[0-2a-cA-C]')
strRegex.findall('012345, abcdef, ABCDEF')

['0', '1', '2', 'a', 'b', 'c', 'A', 'B', 'C']

In [29]:
strRegex = re.compile(r'[^0-2a-cA-C]')
strRegex.findall('012345, abcdef, ABCDEF')

['3', '4', '5', ',', ' ', 'd', 'e', 'f', ',', ' ', 'D', 'E', 'F']

# 插入字符和美元字符

* 正则表达式的开始处使用插入符号`^`，表明匹配必须发生在被查找文本开始处。
* 正则表达式的末尾加上美元符号，表示该字符串必 须以这个正则表达式的模式结束。
* 同时使用^和美元号，表明整个字符串必须匹配该模式，也就是说，只匹配该字符串的某个子集是不够的。

In [30]:
beginsWithHello = re.compile(r'^Hello')
mo = beginsWithHello.search('Hello world!')
mo.group()

'Hello'

In [32]:
mo1 = beginsWithHello.search('He says Hello world!')
mo1.group()

AttributeError: 'NoneType' object has no attribute 'group'

In [33]:
mo1 == None

True

In [34]:
wholeStringIsNum = re.compile(r'^\d+$')
wholeStringIsNum.search('1234567890')

<re.Match object; span=(0, 10), match='1234567890'>

In [36]:
mo = wholeStringIsNum.search('1234567890')
mo.group()

'1234567890'

In [37]:
wholeStringIsNum.search('1234567890xyz') == None

True

# 通配字符

句点 `.` 称为通配符，匹配除了换行之外的所有字符. 要想连换行符也匹配，使用 `re.DOTALL`，后面在说明.

要匹配真正的句点，就是用倒斜杠转义 `\.`.

In [38]:
atRegex = re.compile(r'.at')
atRegex.findall('The cat in the hat sat on the flat mat.')

['cat', 'hat', 'sat', 'lat', 'mat']

In [39]:
nameRegex = re.compile(r'First Name: (.*) Last Name: (.*)')
mo = nameRegex.search('First Name: Al Last Name: Sweigart')
mo.groups()

('Al', 'Sweigart')

In [41]:
mo.group(1)

'Al'

In [42]:
mo.group(2)

'Sweigart'

回忆加 `?` 表示“非贪心”模式，不加表示“贪心”模式.

In [43]:
nongreedyRegex = re.compile(r'<.*?>')
mo = nongreedyRegex.search('<To serve man> for dinner.>')
mo.group()

'<To serve man>'

In [44]:
nongreedyRegex = re.compile(r'<.*>')
mo = nongreedyRegex.search('<To serve man> for dinner.>')
mo.group()

'<To serve man> for dinner.>'

## 使得句点符也匹配换行符

通过传入 `re.DOTALL` 作为 `re.compile()` 的第二个参数，可以让句点字符匹配所有字符，包括换行字符.

In [45]:
noNewlineRegex = re.compile(r'.*')
noNewlineRegex.search('Serve the public trust.\nProtect the innocent. \nUphold the law.').group()

'Serve the public trust.'

In [46]:
NewlineRegex = re.compile(r'.*', re.DOTALL)
NewlineRegex.search('Serve the public trust.\nProtect the innocent. \nUphold the law.').group()

'Serve the public trust.\nProtect the innocent. \nUphold the law.'

# 不区分大小写的匹配

向 `re.compile()` 传入 `re.IGNORECASE` 或 `re.I`，作为第二个参数，可以使得正则表达式不区分大小写.

In [47]:
robocop = re.compile(r'robocop', re.I)
robocop.search('RoboCop is part man, part machine, all cop.').group()

'RoboCop'

# sub() 方法替换字符串

Regex 对象的 sub() 方法需要传入两个参数：
* 第一个参数是一个字符串，用于取代发现的匹配。
* 第二个参数是一个用于匹配的字符串文本。

sub()方法返回替换完成后的字符串。

In [50]:
namesRegex = re.compile(r'Agent \w+')
namesRegex.sub('Agent ****', 'Agent Alice gave the secret documents to Agent Bob.')

'Agent **** gave the secret documents to Agent ****.'

当需要使用匹配的文本本身作为替换的一部分时，可以这样做：
* 对 re.compile 的正则表达式加括号分组。
* 在 sub()的第一个参数中，可以输入\1、\2、\3……，表示“在替换中输入分组 1、2、3……的文本”。

In [51]:
agentNamesRegex = re.compile(r'(Agent \w)\w*')
agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')

'Agent A**** told Agent C**** that Agent E**** knew Agent B**** was a double agent.'

# 管理复杂的正则表达式

匹配复杂的文本模式时，最好在正则表达式字符串中增加适当的空白符和注释，以便于阅读。为了让 re.compile() 忽略这些空白符和注释（不认为是正则表达式的一部分），要向 re.compile() 传入变量 re.VERBOSE，作为第二个参数。

下面这个正则表达式难以阅读：

In [52]:
phoneRegex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)\d{4}(\s*(ext|x|ext.)\s*\d{2,5})?)')

如果写成多行，并加上注释，则方便阅读：

In [54]:
phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?               # area code
    (\s|-|\.)?                       # separator
    (\d{3})                          # first 3 digits
    (\s|-|\.)                        # separator
    (\d{4})                          # last 4 digits
    (\s*(ext|x|ext.)\s*\d{2,5})?     # extension
)''', re.VERBOSE)

# 组合使用 re.IGNORECASE, re.DOTALL 和 re.VERBOSE

由于 re.compile()函数只接受一个值作为它的第二参数，所以不能同时使用上述多个参数。但可以使用管道字符（`|`）将变量组合起来，从而绕过这个限制。管道字符在这里称为“按位或”操作符。

例如，如果希望正则表达式不区分大小写，并且句点字符匹配换行，就可以这样构造 re.compile()调用：

In [55]:
someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL)

# 项目：电话号码和 E-mail 地址提取程序

任务：
* 从剪贴板取得文本。 
* 找出文本中所有的电话号码和 E-mail 地址。 
* 将它们粘贴到剪贴板。

大致想法：

```python

# TODO: Create phone regex

# TODO: Create email regex

# TODO: Find matches in clipboard text.

# TODO: Copy results to the clipboard.

```

In [69]:
import pyperclip, re

创建电话号码的正则表达式：

In [74]:
phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?               # area code
    (\s|-|\.)?                       # separator
    (\d{3})                          # first 3 digits
    (\s|-|\.)                        # separator
    (\d{4})                          # last 4 digits
    (\s*(ext|x|ext.)\s*(\d{2,5}))?   # extension
)''', re.VERBOSE)

创建 E-mail 的正则表达式：

In [75]:
emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+           # username
    @                           # @ symbol
    [a-zA-Z0-9.-]+              # domain name
    (\.[a-zA-Z]{2,4})           # dot-something
)''', re.VERBOSE)

获取剪贴板上的文本，保存成一个字符串. 例如，先复制以下的一段文本：

Contact Us

No Starch Press, Inc.
245 8th Street
San Francisco, CA 94103 USA
Phone: 800.420.7240 or +1 415.863.9900 (9 a.m. to 5 p.m., M-F, PST)
Fax: +1 415.863.9950

Reach Us by Email

    General inquiries: info@nostarch.com
    Media requests: media@nostarch.com
    Academic requests: academic@nostarch.com (Please see this page for academic review requests)
    Help with your order: info@nostarch.com 

Reach Us on Social Media

    Twitter
    Facebook


In [76]:
text = str(pyperclip.paste())

对该字符进行匹配，找出电话号码和电邮地址：

关于分组编号：**从头阅读该正则表达式，每遇到一个左括号就计数加一。**

In [77]:
matches = []
for groups in phoneRegex.findall(text):
    phoneNum = '-'.join([groups[1], groups[3], groups[5]])
    if groups[8] != '':
        phoneNum += ' X' + groups[8]
    matches.append(phoneNum)

for groups in emailRegex.findall(text):
    matches.append(groups[0])

将找到的匹配输出终端，并复制到剪贴板：

In [83]:
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard:')
    print('\n'.join(matches))
else:
    print('No phone numbers or email address found.')

Copied to clipboard:
800-420-7240
415-863-9900
415-863-9950
info@nostarch.com
media@nostarch.com
academic@nostarch.com
info@nostarch.com
