Python 中所有正则表达式的函数都在 re 模块中。

In [1]:
import re

# 1. 用正则表达式查找文本模式

现在的任务是，检查一个字符串是否具有电话号码的形式，比如：415-555-4242，也就是判断字符串是否 \d\d\d-\d\d\d-\d\d\d\d 的格式，其中 \d  是一个正则表达式，表示一位数字（0到9）字符。

In [4]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')

注意：

- 向 `re.compile()` 传入一个字符串值，表示正则表达式，它将返回一个 Regex 模式对象.
- 回忆第6章，在字符串前面加`r`表示该字符串是原始字符串，里面的`\`并不是转义字符. 如果不加 `r`，那么将写成 `re.compile('\\d\\d\\d-\\d\\d\\d-\\d\\d\\d\\d')`

Regex 对象的 `search()` 方法，能够查找传入的字符串中，所有符合该正则表达式的匹配。

如果字符串中没有找到该正则表达式模式，`search()` 方法将返回 None。

如果找到了该模式， `search()` 方法将返回一个 Match 对象。Match 对象有一个 `group()` 方法，它返回被查找字符串中实际匹配的文本（稍后解释）。

In [5]:
mo = phoneNumRegex.search('My number is 415-555-4242.')
print('Phone number found: ' + mo.group())

Phone number found: 415-555-4242


**总结使用正则表达式有几个步骤：**

1. 用 `import re` 导入正则表达式模块。 
2. 用 `re.compile()`函数创建一个 Regex 对象（记得使用原始字符串）。
3. 向 Regex 对象的 `search()` 方法传入想查找的字符串。它返回一个 Match 对象。 
4. 调用 Match 对象的 `group()`方法，返回实际匹配文本的字符串。

# 利用括号分组

1. 添加括号将在正则表达式中创建“分组”： (\d\d\d)-(\d\d\d-\d\d\d\d)
2. 第一对括号是第 1 组。第二对括号是第 2 组。向 group() 匹配对象方法传入整数 1 或 2，就可以取得匹配文本的不同部分。向 group()方法传 入 0 或不传入参数 ，将返回整个匹配的文本。

**注意**

1. 括号`()`在正则表达式中有特殊的含义，但是如果你需要在文本中匹配括号`()`，那么就需要用倒斜杠对`(`和`)`进行字符转义。
2. 如果正则表达式中没有分组，那么命令 `group(1)` 会出错，`groups()` 会返回空的元组。

In [7]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('My number is 415-555-4242.')
mo.group(1)

'415'

In [8]:
mo.group(2)

'555-4242'

In [9]:
mo.group()

'415-555-4242'

如果想要一次就获取所有的分组，请使用 groups()方法，返回多个值的元组。

In [10]:
mo.groups()

('415', '555-4242')

# 用管道匹配多个分组

字符`|`称为管道。例如 `r'Batman|Tina Fey'` 将匹配 `Batman` 或 `Tina Fey`。如果两者都在被查找的字符串中，则返回第一次出现的作为 Match 对象返回。

In [29]:
heroRegex = re.compile(r'Batman|Tina Fey')
mo1 = heroRegex.search('Batman and Tina Fey')
mo1.group()

'Batman'

In [30]:
mo1.group(1)

IndexError: no such group

In [31]:
mo1.groups() #因为正则表达式中没有用括号分组，所有返回空的元组。

()

In [32]:
batRegex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = batRegex.search('Batmobile lost a wheel')
mo.group()

'Batmobile'

In [20]:
mo.group(1)

'mobile'

In [21]:
mo.groups()

('mobile',)

# 用问号实现可选匹配

In [22]:
batRegex = re.compile(r'Bat(wo)?man')
mo1 = batRegex.search('The Adventures of Batman')
mo1.group()

'Batman'

In [25]:
mo1.groups()

(None,)

In [26]:
mo2 = batRegex.search('The Adventures of Batwoman')
mo2.group()

'Batwoman'

In [27]:
mo2.group(1)

'wo'

In [28]:
mo2.groups()

('wo',)

# 用星号匹配零次或多次

In [42]:
batRegex = re.compile(r'Bat(wo)*man')
mo3 = batRegex.search('The Adventures of Batwowowowoman and Batwoman')
mo3.group()

'Batwowowowoman'

In [43]:
mo3.group(1)

'wo'

In [41]:
mo3.groups()

('wo',)

# 用加号匹配一次或多次

In [45]:
batRegex = re.compile(r'Bat(wo)+man')
mo1 = batRegex.search('The adventures of Batman and Batwowowoman')
mo1.group()

'Batwowowoman'

In [49]:
mo2 = batRegex.search('The adventures of Batman')
mo2 == None

True

# 用花括号匹配特定次数

例如 
- `(Ha){3}` 将匹配字符串 `HaHaHa`，但不匹配 `HaHa`.
- `(Ha){3,5}` 将匹配字符串`HaHaHa`、`HaHaHaHa` 和`HaHaHaHaHa`.
- `(Ha){3,}` 将匹配字符串`Ha`至少连续出现3次或以上.
- `(Ha){,5}` 将匹配字符串`Ha`至少连续出现0次到5次.

In [55]:
haRegex = re.compile(r'(Ha){3,5}')
mo1 = haRegex.search('HaHa and HaHaHa and HaHaHaHa and HaHaHaHaHa and HaHaHaHaHaHa')
mo1.group()

'HaHaHa'

In [56]:
mo1.groups()

('Ha',)

In [57]:
mo1.group(1) #注意运行 mo1.group(2)则出错

'Ha'

# 贪心和非贪心匹配

In [58]:
haRegex = re.compile(r'(Ha){3,5}')
mo1 = haRegex.search('HaHaHaHaHaHaHaHaHaHaHa')
mo1.group()

'HaHaHaHaHa'

In [60]:
haRegex = re.compile(r'(Ha){3,5}?') # 加了 ? 表示用非贪心匹配，不加默认用贪心匹配。
mo1 = haRegex.search('HaHaHaHaHaHaHaHaHaHaHa')
mo1.group()

'HaHaHa'

# findall() 方法


除了 search 方法外，Regex 对象也有一个 findall()方法

- search()将返回一个 Match 对象，包含被查找字符串中的“第一次”匹配的文本，后面出现的匹配不再查找。
- findall()方法将返回由字符串组成的列表，包含被查找字符串中的所有匹配。

**注意**

- 当正则表达式中无分组时，findall() 返回一个字符串的列表
- 当正则表达式中有分组时，findall() 返回一个字符串元组的列表。

In [61]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phoneNumRegex.search('Cell: 415-555-9999, work: 212-555-0000')
mo.group()

'415-555-9999'

In [62]:
phoneNumRegex.findall('Cell: 415-555-9999, work: 212-555-0000')

['415-555-9999', '212-555-0000']

In [63]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
phoneNumRegex.findall('Cell: 415-555-9999, work: 212-555-0000')

[('415', '555', '9999'), ('212', '555', '0000')]