## 正则表达式进行模式匹配

## 模式匹配

### 检查电话号码的函数

In [3]:
# 确保字符串长度为 12 个字符
# 检查前面的三个字符是否为数字，后跟一个连字符，三个数字，另一个连字符，最后是四个数字
def isPhoneNumber(text):
    if len(text) != 12:
        return False
    if not text[0:3].isdecimal() or text[3] != '-':
        return False
    if not text[4:7].isdecimal() or text[7] != '-':
        return False
    if not text[8:12].isdecimal():
        return False
    return True


### 文本中查找电话号码

In [9]:
message = 'Call me at 415-555-1011 tomorrow. 415-555-9999 is my office.'
for i in range(len(message)):
    chunk = message[i:i+12]
    if isPhoneNumber(chunk):
        print('Phone number found: ' + chunk)

Phone number found: 415-555-1011
Phone number found: 415-555-9999





## 正则表达式匹配

### 正则表达式（regex）是文本模式的描述。例如，\d 表示一个数字字符（0-9)

In [10]:
# 创建正则表达式对象
# 使用正则表达式 \d{3}-\d{3}-\d{4} 可以匹配格式为“三位数字-三位数字-四位数字”的电话号码
# 使用对象的 search() 方法搜索目标字符串。
# 通过 Match 对象的 group() 方法获取匹配的文本
import re

phoneNumRegex = re.compile(r'\d{3}-\d{3}-\d{4}')
mo = phoneNumRegex.search('My number is 415-555-4242.')
print('Phone number found: ' + mo.group())

Phone number found: 415-555-4242


## 使用括号进行分组

In [11]:
# 第一个括号中的内容为组 1
# 第二个括号中的内容为组 2
# 递 0 或不传参数则会返回整个匹配文本
import re

phoneNumRegex = re.compile(r'(\d{3})-(\d{3}-\d{4})')
mo = phoneNumRegex.search('My number is 415-555-4242.')
print(mo.group(1))  # 输出: '415'
print(mo.group(2))  # 输出: '555-4242'
print(mo.group(0))  # 输出: '415-555-4242'
print(mo.group())   # 输出: '415-555-4242'


415
555-4242
415-555-4242
415-555-4242


### 如果你想一次性获取所有的分组，可以使用 groups() 方法

In [12]:
print(mo.groups())  # 输出: ('415', '555-4242')

areaCode, mainNumber = mo.groups()
print(areaCode)     # 输出: 415
print(mainNumber)   # 输出: 555-4242


('415', '555-4242')
415
555-4242


### 匹配括号

In [15]:
# 匹配()需要用转义符\(....\)匹配实际括号的内容
phoneNumRegex = re.compile(r'(\(\d{3}\)) (\d{3}-\d{4})')
mo = phoneNumRegex.search('My phone number is (415) 555-4242.')
print(mo.group(1))  # 输出: '(415)'
print(mo.group(2))  # 输出: '555-4242'


(415)
555-4242


### 使用管道符(|)Pipe匹配多个组

In [16]:
#管道符 | 是一个强大的工具，允许你在正则表达式中匹配多个表达式。例如，正则表达式 r'Batman|Tina Fey' 可以匹配字符串中的 'Batman' 或 'Tina Fey
# 当 'Batman' 和 'Tina Fey' 同时出现在搜索字符串中时，返回的 Match 对象将是第一个匹配的文本
import re

heroRegex = re.compile(r'Batman|Tina Fey')
mo1 = heroRegex.search('Batman and Tina Fey.')
print(mo1.group())  # 输出: 'Batman'

mo2 = heroRegex.search('Tina Fey and Batman.')
print(mo2.group())  # 输出: 'Tina Fey'


Batman
Tina Fey


### 匹配多个模式

In [19]:
# 如果你需要匹配实际的管道符字符，可以用反斜杠转义它，像这样 \| (（即 | 本身)

# 你还可以使用管道符来作为正则表达式的一部分，以匹配多个模式。
# 例如，假设你想匹配字符串 'Batman'、'Batmobile'、'Batcopter' 和 'Batbat'。
# 由于这些字符串都以 "Bat" 开头，因此可以只指定一次前缀。可以使用括号来实现这一点
batRegex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = batRegex.search('Batmobile lost a wheel')
print(mo.group())   # 输出: 'Batmobile'
print(mo.group(1))  # 输出: 'mobile'


Batmobile
mobile


### 可选匹配(?)

In [23]:
# 这里的 (wo)? 部分表示模式 "wo" 是一个可选组。这个正则表达式会匹配包含零个实例或一个实例的 "wo"

batRegex = re.compile(r'Bat(wo)?man')
mo1 = batRegex.search('The Adventures of Batman')
print(mo1.group())  # 输出: Batman

mo2 = batRegex.search('The Adventures of Batwoman')
print(mo2.group())  # 输出: Batwoman



Batman
Batwoman


In [24]:
### 正则表达式查找有或没有区号的电话号码

In [25]:
# 如果你需要匹配实际的问号字符，请用 \? 进行转义。
phoneRegex = re.compile(r'(\d{3}-)?\d{3}-\d{4}')
mo1 = phoneRegex.search('My number is 415-555-4242')
print(mo1.group())  # 输出: 415-555-4242

mo2 = phoneRegex.search('My number is 555-4242')
print(mo2.group())  # 输出: 555-4242


415-555-4242
555-4242


### 使用(*)匹配零次或多次

In [26]:
# (wo)* 匹配字符串中零次的 wo
batRegex = re.compile(r'Bat(wo)*man')
mo1 = batRegex.search('The Adventures of Batman')
print(mo1.group())  # 输出: Batman

mo2 = batRegex.search('The Adventures of Batwoman')
print(mo2.group())  # 输出: Batwoman

mo3 = batRegex.search('The Adventures of Batwowowowoman')
print(mo3.group())  # 输出: Batwowowowoman


Batman
Batwoman
Batwowowowoman


### 使用(+)匹配一个或多个

In [28]:
#(wo)+匹配字符串中一个或多个的 wo
# 正则表达式 Bat(wo)+man 不会匹配字符串 'The Adventures of Batman'，因为加号要求至少有一个 wo 的出现。
batRegex = re.compile(r'Bat(wo)+man')
mo1 = batRegex.search('The Adventures of Batwoman')
print(mo1.group())  # 输出: Batwoman

mo2 = batRegex.search('The Adventures of Batwowowowoman')
print(mo2.group())  # 输出: Batwowowowoman

mo3 = batRegex.search('The Adventures of Batman')
print(mo3 == None)  # 输出: True


Batwoman
Batwowowowoman
True


### 使用花括号{}匹配特定次数

In [29]:
# (Ha){3}
# (Ha)(Ha)(Ha)
# Ha){3,5}
# ((Ha)(Ha)(Ha))|((Ha)(Ha)(Ha)(Ha))|((Ha)(Ha)(Ha)(Ha)(Ha))

haRegex = re.compile(r'(Ha){3}')
mo1 = haRegex.search('HaHaHa')
print(mo1.group())  # 输出: HaHaHa

mo2 = haRegex.search('Ha')
print(mo2 == None)  # 输出: True


HaHaHa
True


In [34]:
#贪婪匹配 
#(Ha){3,5}，在字符串 'HaHaHaHaHa' 中，它会找到最长的匹配，即 'HaHaHaHaHa'，因为它符合3到5次的条件
greedyHaRegex = re.compile(r'(Ha){3,5}')
mo1 = greedyHaRegex.search('HaHaHaHaHa')
print(mo1.group())  # 输出 'HaHaHaHaHa'


#非贪婪版本的正则表达式 (Ha){3,5}?，则会找到最短的匹配，即 'HaHaHa'，因为它同样满足至少3次的条件
nongreedyHaRegex = re.compile(r'(Ha){3,5}?')
mo2 = nongreedyHaRegex.search('HaHaHaHaHa')
print(mo2.group())  # 输出 'HaHaHa'


HaHaHaHaHa
HaHaHa


### findall() 

In [36]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phoneNumRegex.search('Cell: 415-555-9999 Work: 212-555-0000')
print(mo.group())  # 输出 '415-555-9999'

# findall() 方法返回一个字符串匹配的列表
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')  # 无分组
print(phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000'))
# 输出 ['415-555-9999', '212-555-0000']


415-555-9999
['415-555-9999', '212-555-0000']


### 字符类

| 简写    | 表示                               |
| ------- | ---------------------------------- |
| `\d`   | 任意数字字符，范围为 0 到 9。      |
| `\D`   | 任何不是数字字符的字符。          |
| `\w`   | 任何字母、数字字符或下划线字符。  |
| `\W`   | 任何不是字母、数字字符或下划线的字符。 |
| `\s`   | 任何空格、制表符或换行字符。      |
| `\S`   | 任何不是空格、制表符或换行的字符。 |


In [38]:
# 字符类 [0-5] 仅匹配数字 0 到 5
# 正则表达式 \d+\s\w+ 将匹配包含一个或多个数字字符（\d+），
# 后跟一个空白字符（\s），
# 再后跟一个或多个字母/数字/下划线字符（\w+）的文本。
# findall() 方法返回与该正则表达式模式匹配的所有字符串，并以列表形式返回
xmasRegex = re.compile(r'\d+\s\w+')
print(xmasRegex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 7 swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge'))


['12 drummers', '11 pipers', '10 lords', '9 ladies', '8 maids', '7 swans', '6 geese', '5 rings', '4 birds', '3 hens', '2 doves', '1 partridge']


### 创建自定义字符类

In [39]:
# 字符类 [aeiouAEIOU] 将匹配任何元音字母，无论是小写还是大写
vowelRegex = re.compile(r'[aeiouAEIOU]')
print(vowelRegex.findall('RoboCop eats baby food. BABY FOOD.'))


['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']


In [43]:
# ^你可以创建一个负字符类。负字符类将匹配所有不在字符类中的字符
consonantRegex = re.compile(r'[^aeiouAEIOU]')
print(consonantRegex.findall('RoboCop eats baby food. BABY FOOD.'))


['R', 'b', 'C', 'p', ' ', 't', 's', ' ', 'b', 'b', 'y', ' ', 'f', 'd', '.', ' ', 'B', 'B', 'Y', ' ', 'F', 'D', '.']


### 插入符号(^)和美元符号($)  

(^)来指示匹配必须发生在搜索文本的开头  

($)以指示字符串必须以该正则表达式模式结尾

In [47]:
# 正则表达式 r'^Hello' 匹配以 "Hello" 开头的字符串
beginsWithHello = re.compile(r'^Hello')
print(beginsWithHello.search('Hello world!'))
print(beginsWithHello.search('He said hello.') == None)


<re.Match object; span=(0, 5), match='Hello'>
True


In [48]:
# 正则表达式 r'^\d+$' 匹配以一个或多个数字字符开头和结尾的字符串
wholeStringIsNum = re.compile(r'^\d+$')
print(wholeStringIsNum.search('1234567890'))
print(wholeStringIsNum.search('12345xyz67890') == None)
print(wholeStringIsNum.search('12 34567890') == None)


<re.Match object; span=(0, 10), match='1234567890'>
True
True


### 通配符字符

In [51]:
# 在正则表达式中，.（点）字符被称为通配符，可以匹配任何字符（除了换行符）
import re

atRegex = re.compile(r'.at')
result = atRegex.findall('The cat in the hat sat on the flat mat.')
print(result)  # 输出: ['cat', 'hat', 'sat', 'lat', 'mat']



['cat', 'hat', 'sat', 'lat', 'mat']


In [52]:
# 可以使用点星号 .* 来表示“任意内容”。请记住，点字符表示“任何单个字符（除了换行符）”，而星号字符表示“零个或多个前面的字符”
# 点星号使用贪婪模式：它会尽可能多地匹配文本
nameRegex = re.compile(r'First Name: (.*) Last Name: (.*)')
mo = nameRegex.search('First Name: Al Last Name: Sweigart')
print(mo.group(1))  # 输出: 'Al'
print(mo.group(2))  # 输出: 'Sweigart'


Al
Sweigart


In [55]:
# 非贪婪方式匹配所有文本，可以使用点、星号和问号 .*?
nongreedyRegex = re.compile(r'<.*?>')
mo = nongreedyRegex.search('<To serve man> for dinner.')
print(mo.group())  # 输出: '<To serve man>'

greedyRegex = re.compile(r'<.*>')
mo = greedyRegex.search('<To serve man> for dinner.')
print(mo.group())  # 输出: '<To serve man> for dinner.>'


<To serve man>
<To serve man>


In [56]:
# 点星号 .* 默认情况下会匹配所有字符，除了换行符。
# 通过将 re.DOTALL 作为第二个参数传递给 re.compile()，可以使点字符匹配所有字符，包括换行符
import re

# 不包含 re.DOTALL 的正则表达式
noNewlineRegex = re.compile('.*')
# 查找匹配项
result1 = noNewlineRegex.search('Serve the public trust.\nProtect the innocent.\nUphold the law.').group()
# 打印结果
print(result1)  # 输出: 'Serve the public trust.'

# 包含 re.DOTALL 的正则表达式
newlineRegex = re.compile('.*', re.DOTALL)
# 查找匹配项
result2 = newlineRegex.search('Serve the public trust.\nProtect the innocent.\nUphold the law.').group()
# 打印结果
print(result2)  
# 输出: 
# 'Serve the public trust.
# Protect the innocent.
# Uphold the law.'


Serve the public trust.
Serve the public trust.
Protect the innocent.
Uphold the law.


### 正则表达式
?：匹配前面的组零次或一次。  
*：匹配前面的组零次或多次。  
+：匹配前面的组一次或多次。  
{n}：匹配前面的组恰好 n 次。  
{n,}：匹配前面的组至少 n 次。  
{,m}：匹配前面的组最多 m 次。  
{n,m}：匹配前面的组至少 n 次且至多 m 次。  
{n,m}?、*?、+?：执行前面的组的非贪婪匹配。  
^spam：表示字符串必须以 "spam" 开头。  
spam$：表示字符串必须以 "spam" 结尾。  
.：匹配任何字符，除了换行符。    
\d、\w、\s：分别匹配数字、单词字符或空格字符。   
\D、\W、\S：分别匹配不是数字、单词字符或空格字符的任何字符。  
[abc]：匹配方括号内的任意字符（例如 a、b 或 c）。   
[^abc]：匹配不在方括号内的任意字符。   

### 不区分大小写的匹配

In [59]:
# 要使您的正则表达式不区分大小写，您可以将 re.IGNORECASE 或 re.I 作为第二个参数传递给 re.compile()

import re

robocop = re.compile(r'robocop', re.I)
result1 = robocop.search('RoboCop is part man, part machine, all cop.').group()
result2 = robocop.search('ROBOCOP protects the innocent.').group()
result3 = robocop.search('Al, why does your programming book talk about robocop so much?').group()


### 用 sub() 方法替换字符串

In [60]:
import re

namesRegex = re.compile(r'Agent \w+')
result = namesRegex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')
print(result)

CENSORED gave the secret documents to CENSORED.


In [62]:
import re

agentNamesRegex = re.compile(r'Agent (\w)\w*')
result = agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')
print(result)


A**** told C**** that E**** knew B**** was a double agent.


### verbose mode(详细模式)

In [2]:
import re
# 正则表达式用来匹配电话号码，但它非常长，难以一眼看懂
phoneRegex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)\d{4}(\s*(ext|x|ext.)\s*\d{2,5})?)')
# 使用 re.VERBOSE（更易读）
# 使用三引号（'''）将正则表达式分成多行，使得代码更加清晰、易读
phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?     # 区号（可以是3个数字或(XXX)格式）
    (\s|-|\.)?             # 可选的分隔符（空格、连字符或点）
    \d{3}                  # 前3位数字
    (\s|-|\.)              # 分隔符（空格、连字符或点）
    \d{4}                  # 后4位数字
    (\s*(ext|x|ext.)\s*\d{2,5})?  # 可选的扩展号码（ext、x或ext.，后跟2到5个数字）
)''', re.VERBOSE)



### 同时启用多个选项（比如 re.VERBOSE、re.IGNORECASE 和 re.DOTALL），可以使用按位或运算符（|）来组合它们

In [3]:
# re.IGNORECASE：使得匹配不区分大小写。
# re.DOTALL：使得 .（点号）匹配包括换行符在内的任何字符。
# re.VERBOSE：允许在正则表达式中使用多行和注释，增加可读性。
import re

# 正则表达式：忽略大小写，允许点号匹配换行符，且可以使用注释
someRegexValue = re.compile(r'''foo  # 匹配 'foo'
''', re.IGNORECASE | re.DOTALL | re.VERBOSE)

# 测试匹配
match = someRegexValue.search("FOO\nbar")
print(match.group())  # 输出 'FOO'


FOO


### 综合

In [23]:
import pyperclip, re

# 创建电话号码正则表达式
phoneRegex = re.compile(r'''(
        (\d{3}|\(\d{3}\))? # 区号
        (\s|-|\.)? # 分隔符
        (\d{3}) # 前3位数字
        (\s|-|\.)? # 分隔符
        (\d{4}) # 后4位数字
        (\s*(ext|x|ext.)\s*(\d{2,5}))? # 扩展号
)''', re.VERBOSE)

# 创建电子邮件正则表达式
emailRegex = re.compile(r'''(
        [a-zA-Z0-9._%+-]+ # 用户名
        @ # @ 符号
        [a-zA-Z0-9.-]+ # 域名
        (\.[a-zA-Z]{2,4}) # 顶级域名
)''', re.VERBOSE)

# 获取剪贴板文本
text = str(pyperclip.paste())

matches = []

# 查找电话号码
for groups in phoneRegex.findall(text):
    # 格式化电话号码
    phoneNum = '-'.join([groups[1], groups[3], groups[5]])
    # 检查是否有扩展号，并添加
    if len(groups) > 8 and groups[8] != '':  # 如果扩展号存在
        phoneNum += ' x' + groups[8]
    matches.append(phoneNum)

# 查找电子邮件地址
for groups in emailRegex.findall(text):
    matches.append(groups[0])  # 电子邮件是组的第一个匹配项

# 将结果复制到剪贴板
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard:')
    print('\n'.join(matches))
else:
    print('No phone numbers or email addresses found.')


Copied to clipboard:
186-234-5678
yc892254@gmail.com
