In [1]:
import re

## re.match
尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 none。

In [2]:
match_obj = re.match('www', 'www.runoob.com') # 成功匹配返回一个Match对象
print(match_obj)
print(match_obj.span())
print(re.match('com', 'www.runoob.com'))


<re.Match object; span=(0, 3), match='www'>
(0, 3)
None


- ?用在*,+,{n,}后面表示非贪婪模式，*,+,{n,}在满足条件的前提下，匹配最少的字符串。
- matchObj.group() 返回所有匹配到的字符，即整个正则表达式的匹配结果。默认放在group0,而group()方法的默认参数也是0。
- matchObj.group(n) 返回正则表达式第n个分组匹配到的字符
- matchObj.group(i, j, ...) 返回正则表达式第i, j, ...个分组匹配到的字符的元组
- matchObj.span() 返回匹配到的位置索引[start, end)，同group。
- matchObj.start(), matchObj.end()，同group。
- matchObj.groupdict() 需要正则表达式中有已命名分组`(?P<GroupName>regex)`
- matchObj.regs 保存所有group的span的元组
- matchObj.re 使用的正则表达式是如何编译的

In [3]:
line = "Cats are smarter than dogs"

matchObj = re.match(r'(?P<G1>.*) are (?P<G2>.*?) .*', line, re.I)

if matchObj:
   print("matchObj.group() : ", matchObj.group()) # 所有匹配到的字符
   print("matchObj.group(1) : ", matchObj.group(1))
   print("matchObj.group(2) : ", matchObj.group(2)) # 不加问好则结果为smarter than
else:
   print("No match!!")
matchObj.group(1, 0)

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter


('Cats', 'Cats are smarter than dogs')

## re.search
re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

In [4]:
line = "Cats are smarter than dogs"

match_obj = re.search(r'dogs', line, re.I)

## re.sub
用于替换字符串中的匹配项  
`re.sub(pattern, repl, string, count=0, flags=0)`
- pattern : 正则中的模式字符串。
- repl : 替换的字符串，也可为一个函数。
- string : 要被查找替换的原始字符串。
- count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

In [5]:
phone = "2004-959-559 # 这是一个国外电话号码"

# 删除字符串中的 Python注释
num = re.sub(r'#.*$', "", phone)
print(num)

# 删除非数字(-)的字符串
num = re.sub(r'\D', "", phone)
print(num)

2004-959-559 
2004959559


repl是函数。该函数的参数为matchObj,返回值为要用于替换的字符串。

In [6]:
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)

s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

A46G8HFD1134


## re.compile
用于编译正则表达式，生成一个正则表达式对象，供需要正则表达式的函数使用。  
通常用字符串表达的正则表达式也会在内部被编译为对象。  
提前编译通常仅在某个正则表达式会被反复利用多次时使用。

## re.findall & re.finditer
findall在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。finditer则返回迭代器，其他同findall

注意： match 和 search 是匹配一次 findall 匹配所有。  
`findall(string[, pos[, endpos]])`
- string : 待匹配的字符串。
- pos : 可选参数，指定字符串的起始位置，默认为 0。
- endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。

In [7]:
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)

print(result1)
print(result2)

['123', '456']
['88', '12']


In [8]:
re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')

[('width', '20'), ('height', '10')]

## re.split
`re.split(pattern, string[, maxsplit=0, flags=0])`
- maxsplit:分隔次数，maxsplit=1，只分隔一次，默认为 0，不限制次数。
- 对于一个找不到匹配的字符串，split 不会对其作出分割

In [9]:
re.split('\W+', 'runoob, runoob, runoob.')

['runoob', 'runoob', 'runoob', '']

In [10]:
re.split('a+', 'hello world')

['hello world']