# 第七章 模式匹配与正则表达式

## 1. 用正则表达式查找文本模式

In [None]:
import re

# 1. 创建正则表达式对象
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # \d 表示一位数字

# 2. 匹配Regex对象
mo = phoneNumRegex.search('My number is 415-555-4242') # 返回一个Match对象
print(mo.group())

### Python正则表达式步骤

1．用import re 导入正则表达式模块。

2．用re.compile()函数创建一个Regex 对象（记得使用原始字符串）。

3．向Regex 对象的search()方法传入想查找的字符串。它返回一个Match 对象。

4．调用Match 对象的group()方法，返回实际匹配文本的字符串。

## 2. 用正则表达式匹配更多模式

### 2.1 用括号分组

In [2]:
import re

phoneNumberRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # 用括号分组
mo = phoneNumberRegex.search('My number is 425-666-4521')
mo.group(1) # 第一对括号是第一组

'425'

In [3]:
mo.group(0) # 或group()匹配整个文本

'425-666-4521'

In [4]:
mo.groups() # groups() 一次获取所有分组

('425', '666', '4521')

**\（ \）转义匹配实际的括号字符**

In [5]:
phoneNumberRegex = re.compile(r'(\(\d\d\d\)) (\d\d\d-\d\d\d\d)') # \( 和 \)转义
mo = phoneNumberRegex.search('My number is (123) 123-3245')
mo.group(1)

'(123)'

In [6]:
mo.group(2)

'123-3245'

### 2.2 用管道 | 匹配多个分组

In [7]:
import re

heroRegex = re.compile(r'Batman|Tina Fey')
mo1 = heroRegex.search('Batman and Tina Fey')
mo1.group()

'Batman'

In [8]:
mo2 = heroRegex.search('Tina Fey and Batman')
mo2.group()

'Tina Fey'

**匹配多个模式中的一个**

In [9]:
batRegex = re.compile(r'Bat(man|mobile|copter|bat)')

mo = batRegex.search('Batmobile lost a wheel')
mo.group()

'Batmobile'

In [10]:
mo.group(1)

'mobile'

### 2.3 ？实现可选匹配

In [11]:
batRegex = re.compile(r'Bat(wo)?man') # 字符?表明它前面的分组是可选的

In [12]:
mo1 = batRegex.search("The Adventures of Batman")
mo1.group()

'Batman'

In [13]:
mo2 = batRegex.search("The Adventures of Batwoman")
mo2.group()

'Batwoman'

### 2.3 用星号 * 匹配零次或多次

In [14]:
batRegex = re.compile(r'Bat(wo)*man')

mo1 = batRegex.search('The adventures of Batwowoman')
mo1.group()

'Batwowoman'

In [15]:
mo2 = batRegex.search('The advantures of Batman')
mo2.group()

'Batman'

### 2.4 用加号 + 匹配一次或多次

In [16]:
batRegex = re.compile(r'Bat(wo)+man')

mo1 = batRegex.search('The Advantage of Batwoman')
mo.group()

'Batmobile'

In [17]:
mo2 = batRegex.search('The Advantage of Batman')
print(mo2)

None


### 2.5 用花括号 {} 匹配特定次数

In [18]:
haRegex = re.compile(r'(Ha){3}')

mo = haRegex.search('HaHaHa')
mo.group()

'HaHaHa'

**还可以指定范围** {m,n}

In [19]:
haRegex = re.compile(r'(Ha){1,3}') # {,3} {3,}

mo = haRegex.search('HaHa')
mo.group()

'HaHa'

## 3. 贪心和非贪心匹配

- Python正则表达式默认“贪心”，即最长匹配原则
- “非贪心”版本在花括号后加？

In [20]:
nongreedyHaRegex = re.compile(r'(Ha){3,5}?') # {}后加？非贪心匹配

mo = nongreedyHaRegex.search('HaHaHaHaHa')
mo.group()

'HaHaHa'

**问号的两种含义完全无关**

## 4. findall()方法
search()返回的Match对象仅包含匹配的第一个字符串。

而findall()返回所有匹配成功的字符串。

### 4.1 无分组

In [21]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # has no group
phoneNumRegex.findall('Cell: 123-422-1234 Work: 532-234-1342') # findall()

['123-422-1234', '532-234-1342']

### 4.2 有分组
返回元组列表

In [22]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # has group
phoneNumRegex.findall('Cell: 123-532-2341 Work: 123-542-3242') # final()

[('123', '532', '2341'), ('123', '542', '3242')]

## 5. 字符分类

- \d：匹配所有数字
- \D：匹配所有非数字字符
- \w：匹配所有字母、数字、下划线
- \W：匹配所有非字母、数字、下划线
- \s：匹配空白字符（空格、制表符、换行符）
- \S：匹配非空白字符

## 6. 建立自己的字符分类
用方括号[]定义自己的字符分类

In [23]:
vowelRegex = re.compile(r'[aeiouAEIOU]')
vowelRegex.findall('RoboCop eats baby food. BABY FOOD.')

['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']

**短横杠表示字母和数字的范围**

In [24]:
rangeRegex = re.compile(r'[a-zA-Z0-9]')
rangeRegex.findall('My number is 123.')

['M', 'y', 'n', 'u', 'm', 'b', 'e', 'r', 'i', 's', '1', '2', '3']

**插入符号 ^ 匹配非此字符类中的字符**

In [25]:
rangeRegex = re.compile(r'[^a-zA-Z0-9]')
rangeRegex.findall('My number is 123.')

[' ', ' ', ' ', '.']

## 7. 插入字符 ^ 和美元字符 $

In [30]:
# ^ 在开始处，表示匹配必须发生在文本开头

beginsWithHello = re.compile(r'^Hello')
m1 = beginsWithHello.search('Hello World!')
m1.group()

'Hello'

In [32]:
# $ 在结尾处，表示该字符串必须以这个正则表达式结尾

endsWithWorld = re.compile(r'World!$')
m2 = endsWithWorld.search('Hello World!')
m2.group()

'World!'

## 8. 通配字符