## 第7章　模式匹配与正则表达式

#### isPhoneNumber.py

In [1]:
message = 'Call me at 415-555-1011 tomorrow. 415-555-9999 is my office.'

def isPhoneNumber(text): 
    if len(text) != 12:
        return False
    for i in range(0, 3):
        if not text[i].isdecimal():
            return False 
    if text[3] != '-':
        return False
    for i in range(4, 7):
        if not text[i].isdecimal():
            return False 
    if text[7] != '-':
        return False
    for i in range(8, 12): 
        if not text[i].isdecimal():
            return False 
    return True

for i in range(len(message)):
    chunk = message[i:i+12]
    if isPhoneNumber(chunk):
        print("电话号码已被找到" + chunk)

print("done")

电话号码已被找到415-555-1011
电话号码已被找到415-555-9999
done


#### 匹配Regex对象


In [2]:
import re
phoneNumRegex = re.compile(r"\d{3}-\d{3}-\d{4}")
mo = phoneNumRegex.search('My number is 415-555-4242.')
print(mo.group())

415-555-4242


##### 利用括号分组

In [6]:
import re
phoneNumRegex = re.compile(r"(\d{3})-(\d{3})-(\d{4})")
mo = phoneNumRegex.search('My number is 415-555-4242.')
print(mo.group(1))
print(mo.group(2))
print(mo.group(3))
print(mo.group( 0))
print(mo.group())
print(mo.groups())
# 如果想要一次就获取所有的分组，请使用groups()方法，注意函数名的复数形式。

415
555
4242
415-555-4242
415-555-4242
('415', '555', '4242')


> 括号在正则表达式中有特殊的含义，但是如果你需要在文本中匹配括号。在这种情况下，就需要用倒斜杠对(和)进行字符转义。

In [12]:
phoneNumRegex = re.compile(r"(\(\d{3}\)) (\d{3}-\d{4})")
mo = phoneNumRegex.search('My number is (415) 555-4242.')
print(mo.group(1))
print(mo.group(2))
print(mo.group())   
# group() 返回符合要求的整体内容
print(mo.groups())
# groups() 返回符合要求的子集的集合

(415)
555-4242
(415) 555-4242
('(415)', '555-4242')


#### 用管道匹配多个分组

> 字符|称为“管道”。希望匹配许多表达式中的一个时，就可以使用它。

In [16]:
heroRegex = re.compile (r'Batman|Tina Fey')
mo1 = heroRegex.search('Batman and Tina Fey.')
print(mo1.group())
# 此时他是非贪婪的，只要第一个符合要求后面的内容就不会判断。
# 类似于(与关系(|))只要前面是真后面根本不判断
mo2 = heroRegex.search('Tina Fey and Batman.')
print(mo2.group())

Batman
Tina Fey


In [19]:
batRegex = re.compile(r"Bat(man|mobile|copter|bat)")
mo = batRegex.search('Batmobile lost a wheel')
print(mo.groups())
# ()是分组，因为只有一个括号，分组的起始序号是1
# 所以mo.group(1)匹配的内容是第一个括号里的内容
print(mo.group(0))
print(mo.group(1))

('mobile',)
Batmobile
mobile


#### 用问号实现可选匹配

> 有时候，想匹配的模式是可选的。就是说，不论这段文本在不在，正则表达式都会认为匹配

In [21]:
batRegex = re.compile(r"Bat(wo)?man")
mo1 = batRegex.search("The Adventures of Batman")
print(mo1.group())

mo2 = batRegex.search("The Adventures of Batwoman")
print(mo2.group())

Batman
Batwoman


> ? 匹配问号前的分组零次or一次

> \* 匹配星号前的分组零次or多次

> \+ 匹配加号前的分组一次or多次

In [22]:
batRegex = re.compile(r"Bat(wo)*man")
mo1 = batRegex.search("The Adventures of Batman")
print(mo1.group())

mo2 = batRegex.search("The Adventures of Batwoman")
print(mo2.group())

mo3 = batRegex.search("The Adventures of Batwowowoman")
print(mo3.group())

Batman
Batwoman
Batwowowoman


In [25]:
batRegex = re.compile(r"Bat(wo)+man")

mo2 = batRegex.search("The Adventures of Batwoman")
print(mo2.group())

mo3 = batRegex.search("The Adventures of Batwowowoman")
print(mo3.group())

mo1 = batRegex.search("The Adventures of Batman")
print(mo1 == None)
# 因为+意味着至少存在一次，所以当一次都不匹配的时候，mo1的返回值是None

Batwoman
Batwowowoman
True


#### 贪心和非贪心匹配

> Python的正则表达式默认是“贪心”的，这表示在有二义的情况下，它们会尽可能匹配最长的字符串。花括号的“非贪心”版本匹配尽可能最短的字符串，即在结束的花括号后跟着一个问号。

In [27]:
greedyHaRegex = re.compile(r"(Ha){3,5}")
mo1 = greedyHaRegex.search("HaHaHaHa")
print(mo1.group())
mo2 = greedyHaRegex.search("HaHaHaHaHa")
print(mo2.group())
# 上述输出结果表明python的正则表达式默认匹配次数多的情况

HaHaHaHa
HaHaHaHaHa


In [31]:
greedyHaRegex = re.compile(r"Ha{3,5}")
mo1 = greedyHaRegex.search("HaHaHaHa")
print(mo1 == None)
mo2 = greedyHaRegex.search("Haaaaa")
print(mo2.group())

# 如果不给Ha加上()就默认匹配对象是a

True
Haaaaa


In [32]:
greedyHaRegex = re.compile(r"(Ha){3,5}?")
mo1 = greedyHaRegex.search("HaHaHaHa")
print(mo1.group())
mo2 = greedyHaRegex.search("HaHaHaHaHa")
print(mo2.group())

HaHaHa
HaHaHa


> 问号在正则表达式中可能有两种含义：声明非贪心匹配或表示可选的分组。

> 声明非贪婪的情况是? 跟在一个{n, m}的后面，意味着取少不取多

> 声明可选非情况是? 跟在一个分组的后面，意味着该分组可以出现零次or一次

#### findall()方法

> search()将返回一个Match对象，包含被查找字符串中的***第一次***匹配的文本，而findall()方法将返回一组字符串，包含被查找字符串中的所有匹配。如果出现分组则从外向内输出匹配结果

> findall的返回值是一个由匹配对象的tuple组成的list 其中这个tuple的第一个值是正则表达式匹配的整体结果 后面的几个值依次(顺序为从外到内，从左到右)是正则表达式的分组1,2,3····

In [6]:
import re
phoneNumRegex = re.compile(r"\d{3}-\d{3}-\d{4}")
mo = phoneNumRegex.search("Cell: 415-555-9999 Work: 212-555-0000")
print(mo.group())


415-555-9999


In [118]:
import re
phoneNumRegex = re.compile(r"(((\d{3})-(\d{3}))-(\d{4}))")
mo = phoneNumRegex.findall("Cell: 415-555-9999 Work: 212-555-0000")
# phoneNumRegex.findall("Cell: 415-555-9999 Work: 212-555-0000")
print(mo[0][1])

415-555


> 如果在正则表达式中有分组，那么findall将返回元组的列表。每个元组表示一个找到的匹配，其中的项就是正则表达式中每个分组的匹配字符串

In [9]:
phoneNumRegex = re.compile(r"(\d{3})-(\d{3})-(\d{4})")
phoneNumRegex.findall("Cell: 415-555-9999 Work: 212-555-0000")

[('415', '555', '9999'), ('212', '555', '0000')]

|缩写字符分类|表示|
|-|-|
|\d|0-9的任何数字|
|\D|非0-9的任何数字|
|\w|任何字母、数字或下划线字符（可以认为是匹配“单词”字符）|
|\W|除字母、数字和下划线以外的任何字符|
|\s|空格、制表符或换行符（可以认为是匹配“空白”字符）|
|\S|除空格、制表符和换行符以外的任何字符|

In [10]:
xmasRegex = re.compile(r"\d+\s\w+")
xmasRegex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 7 swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge')

['12 drummers',
 '11 pipers',
 '10 lords',
 '9 ladies',
 '8 maids',
 '7 swans',
 '6 geese',
 '5 rings',
 '4 birds',
 '3 hens',
 '2 doves',
 '1 partridge']

#### 建立自己的字符分类
> 使用方括号实现正则的字符集合，在方括号内，普通的正则表达式符号不会被解释。这意味着，你不需要前面加上倒斜杠转义.、*、?或()字符。

In [12]:
vowelRegex = re.compile(r'[aeiouAEIOU]')
vowelRegex.findall('RoboCop eats baby food. BABY FOOD.')

['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']

In [13]:
vowelRegex = re.compile(r'(aeiouAEIOU)')
vowelRegex.findall('RoboCop eats baby food. aeiouAEIOU BABY FOOD.')

['aeiouAEIOU']

> 如上所示，使用方括号的匹配结果得到的是和方括号字符集中一个or多个的内容相同的结果，但是如果使用小括号就是返回和小括号中的内容严格一样的结果

> 通过在字符分类的左方括号后加上一个插入字符（^），就可以得到“非字符类”。非字符类将匹配不在这个字符类中的所有字符。

In [17]:
consonantRegex = re.compile(r'[^aeiouAEIOU]')
consonantRegex.findall('RoboCop eats baby food. BABY FOOD.')

['R',
 'b',
 'C',
 'p',
 ' ',
 't',
 's',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 '.',
 ' ',
 'B',
 'B',
 'Y',
 ' ',
 'F',
 'D',
 '.']

#### 插入字符和美元字符

> 可以在正则表达式的开始处使用插入符号（^），表明匹配必须发生在被查找文本开始处。类似地，可以再正则表达式的末尾加上美元符号（$），表示该字符串必须以这个正则表达式的模式结束

In [20]:
beginsWithHello = re.compile(r"^Hello")
mo = beginsWithHello.search("Hello world!")
mo.group()

'Hello'

In [29]:
mo = beginsWithHello.search("hello world!")
print(mo == None)
mo1 = beginsWithHello.search("hello world! Hello")
print(mo1 == None)
mo2 = beginsWithHello.search(" Hello world! Hello")
print(mo2 == None)

True
True
True


> 这个^的要求就是待匹配的部分必须严格的以正则表达式中的形式出现，就算前面有个空格也不行

In [30]:
endsWithNumber = re.compile(r"\d$")
endsWithNumber.search('Your number is 42')

<re.Match object; span=(16, 17), match='2'>

In [32]:
mo = endsWithNumber.search('Your number is forty two')
print(mo == None)
mo1 = endsWithNumber.search('Your number is 42  ')
print(mo1 == None)

True
True


#### 正则表达式中易混点辨析
##### ?的不同含义
> 如果? 是出现在()的后面，意味着?前面哪个小括号的分组出现零次or一次

> 如果? 是出现在{}or是代表次数的 * ? +的后面，也就意味着匹配次数为非贪婪模式，取少不取多
```python
# 匹配前面分组的情况
timesRegex = re.compile(r"(ha)?")
mo1 = timesRegex.search("hahaha")
mo2 = timesRegex.search("hhhh")
print(mo1.group(),mo2.group())
print(mo2)
"""输出结果
ha 
<re.Match object; span=(0, 0), match=''>
"""
# 匹配非贪婪的情况
greedyMatchRegex1 = re.compile(r"(ha){2,3}?")
mo1 = greedyMatchRegex1.search("hahaha")
greedyMatchRegex2 = re.compile(r"(ha){2,3}")
mo2 = greedyMatchRegex2.search("hahaha")
print(mo1.group(),mo2.group())
"""输出结果
haha hahaha
"""
```
##### ^的不同含义
> 如果^ 是出现在[]中内容的最前面，意味着^所在的字符集取非操作

> 如果^ 是出现在一个待匹配内容or()的前面,意味着^后面的内容必须严格的出现在待匹配项的最前面
```python 
# 取非操作
nonRegex = re.compile(r"[^a]")
mo1 = nonRegex.search("hahaha")
# 起始操作
beginWidthRegex = re.compile(r"^(ha)")
mo2 = beginWidthRegex.search("hahaha")
print(mo1.group(),mo2.group())
"""输出结果
h ha
"""
```

In [40]:
nonRegex = re.compile(r"[^a]")
mo1 = nonRegex.search("ha ha ha")
beginWidthRegex = re.compile(r"^(ha)")
mo2 = beginWidthRegex.search("hahaha")
print(mo1.group(),mo2.group())


h ha


#### 通配字符
> 在正则表达式中，.（句点）字符称为“通配符”。它匹配除了换行之外的所有字符。

In [42]:
atRegex = re.compile(r".at")
atRegex.findall('The cat in the hat sat on the flat mat.')

['cat', 'hat', 'sat', 'lat', 'mat']

In [49]:
atRegex = re.compile(r"((.)?at)")
atRegex.findall('The cat in the hhat sat on the flat mat.')

[('cat', 'c'), ('hat', 'h'), ('sat', 's'), ('lat', 'l'), ('mat', 'm')]

In [66]:
atRegex = re.compile(r"((.)*at)")
atRegex.findall('The cat in the hhat sat on the flat mat.')

[('The cat in the hhat sat on the flat mat', 'm'), ('', ''), ('', '')]

In [67]:
atRegex = re.compile(r"((.)+at)")
atRegex.findall('The cat in the hhat sat on the flat mat.')

[('The cat in the hhat sat on the flat mat', 'm'), ('', ''), ('', '')]

##### 用点-星匹配所有字符

In [65]:
nameRegex = re.compile(r'First Name: (.*) Last Name: (.*)')
mo = nameRegex.search('First Name: Al Last Name: Sweigart')
print(mo.group(1))
print(mo.group(2))

Al
Sweigart


> 点-星使用“贪心”模式

In [69]:
nongreedRegex = re.compile(r"<.*?>")
mo = nongreedRegex.search("< To serve man> for dinner.>")
mo.group()

'< To serve man>'

In [71]:
nongreedRegex = re.compile(r"<.*>")
mo = nongreedRegex.search("< To serve man> for dinner.>")
mo.group()

'< To serve man> for dinner.>'

##### 用句点字符匹配换行

In [72]:
noNewlineRegex = re.compile('.*')
noNewlineRegex.search("Serve the public trust.\nProtect the innocent.\nUphold the law.").group()

'Serve the public trust.'

In [73]:
noNewlineRegex = re.compile('.*',re.DOTALL)
noNewlineRegex.search("Serve the public trust.\nProtect the innocent.\nUphold the law.").group()

'Serve the public trust.\nProtect the innocent.\nUphold the law.'

> 正则表达式noNewlineRegex 在创建时没有向re.compile() 传入re.DOTALL ， 它将匹配所有字符， 直到第一个换行字符。但是，newlineRegex在创建时向re.compile()传入了re.DOTALL，它将匹配所有字符

#### 不区分大小写的匹配

> 有时候你只关心匹配字母，不关心它们是大写或小写。要让正则表达式不区分大小写，可以向re.compile()传入re.IGNORECASE或re.I，

In [75]:
robocop = re.compile(r'robocop', re.I)
robocop.search('RoboCop is part man, part machine, all cop.').group()

'RoboCop'

In [76]:
robocop.search('ROBOCOP protects the innocent.').group()

'ROBOCOP'

In [77]:
robocop.search('Al, why does your programming book talk about robocop so much?').group()

'robocop'

#### 用sub()方法替换字符串

> 正则表达式不仅能找到文本模式，而且能够用新的文本替换掉这些模式。Regex对象的sub()方法需要传入两个参数。第一个参数是一个字符串，用于取代发现的匹配。 第二个参数是一个字符串，即正则表达式需要判断的内容。sub()方法返回替换完成后的字符串。

In [80]:
nameRegex = re.compile(r"Agent \w+")
# 上述要匹配的是Agent 一个字符串 直到下一个空格
nameRegex.sub("CENSORED", 'Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

> 在sub()的第一个参数中，可以输入\1、\2、\3……。表示“在替换中输入分组1、2、3……的文本”。

In [90]:
agetNameRegex = re.compile(r"(Agent) (\w)(\w)\w*")
agetNameRegex.sub(r"\1 \2*\3***",'Agent Alice told Agent Carol that Agent Eve knew Agent Bob was a double agent.')

'Agent A*l*** told Agent C*a*** that Agent E*v*** knew Agent B*o*** was a double agent.'

> 上面的\1 \2的意思就是第一个分组和第二个分组的内容不替换，保留原内容

#### 管理复杂的正则表达式

> 向re.compile()传入变量re.VERBOSE，作为第二个参数。

In [98]:
phoneRegex = re.compile(r'''(
                    (\d{3}|\(\d{3}\))? # 三个数字or括号三个数字 出现零次or一次
                    (\s|-|\.)? # 一个制表符or空格or短横线or任意符号 出现零次or一次
                    \d{3} # 三个数字
                    (\s|-|\.) # 一个制表符or空格or短横线or任意符号
                    \d{4} # 四个数字
                    (\s*(ext|x|ext.)\s*\d{2,5})? 
                    # 任意个制表符or空格or换行 一个  ext|x|ext.任意个制表符or空格or换行 二到五位的数字
                    )''', re.VERBOSE)

mo = phoneRegex.findall(R"'Call me at 415-555-1011 tomorrow. 415-555-9999 is my office.'")
print(mo)

[('415-555-1011', '415', '-', '-', '', ''), ('415-555-9999', '415', '-', '-', '', '')]


#### 组合使用re.IGNOREC ASE 、re.DOTALL 和 re.VERBOSE

> 可以使用管道字符（|）将变量组合起来

In [124]:
exampleRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = exampleRegex.search('415-555-4242 x234 mwq1742801515@Foxmail.com')
print(mo.group(0),"\n",mo.group(1),"\n",mo.group(2))

415-555-4242 
 415 
 555-4242


In [129]:
threeNumRegex = re.compile(r"^\d{1,3}(,\d{3})*$")
mo = threeNumRegex.search('12,324,567')
mo.group()

'12,324,567'

In [138]:
nameRegex = re.compile(r"[A-Z][a-z]*\sNakamoto")
mo = nameRegex.search('WW Nakamoto')
print(mo.group())

W Nakamoto


In [3]:
greet = "welcome to python"
print(greet)
for i in range(len(greet)):
    print("=",end='')

welcome to python