In [1]:
import re

In [2]:
# 编译正则表达式，正则表达式被编译成模式对象
# 模式对象具有各种操作的方法，例如搜索模式匹配或执行字符串替换
pattern = re.compile("ab*")
print(pattern)

re.compile('ab*')


In [3]:
p = re.compile('ab*', re.IGNORECASE)
print(p)

re.compile('ab*', re.IGNORECASE)


In [5]:
# 模式对象
# match: 确定正则是否从字符串的开头匹配, 未找到返回None
# search：扫描字符串，查找此正则匹配的任何位置, 未找到返回None
# findall: 找到正则匹配的所有子字符串，并将它们作为列表返回。
# finditer：找到正则匹配的所有子字符串，并将它们返回为一个 iterator。
p = re.compile("[a-z]+")
print(p.match(""))
print(p.match("tempo"))

None
<re.Match object; span=(0, 5), match='tempo'>


In [6]:
# group：返回正则匹配的字符串
# start: 返回匹配的开始位置
# end: 返回匹配的结束位置
# span: 返回包含匹配的位置的元组
m = p.match("tempo")
print(m.group())
print(m.start())
print(m.end())
print(m.span())

tempo
0
5
(0, 5)


In [9]:
print(p.match("::: message"))
m = p.search("::: message")
print(m)
m.group()
m.span()

None
<re.Match object; span=(4, 11), match='message'>


(4, 11)

In [10]:
if m:
    print("Match found: ", m.group())
else:
    print("No match")

Match found:  message


In [11]:
p = re.compile(r'\d+')
match_str = "12 drummers drumming, 11 pipers piping, 10 lords a-leaping"
print(p.search(match_str))
p.findall(match_str)

<re.Match object; span=(0, 2), match='12'>


['12', '11', '10']

In [12]:
iterator = p.finditer(match_str)
iterator  
for match in iterator:
    print(match.span())

(0, 2)
(22, 24)
(40, 42)


In [13]:
# 不用创建模式对象,直接调用顶层函数
print(re.match(r'From\s+', 'Fromage amk'))
re.match(r'From\s+', 'From amk Thu May 14 19:12:10 1998')  

None


<re.Match object; span=(0, 5), match='From '>

In [14]:
print(re.search('^From', 'From Here to Eternity'))  
print(re.search('^From', 'Reciting From Memory'))

<re.Match object; span=(0, 4), match='From'>
None


In [15]:
print(re.search('}$', '{block}'))  
print(re.search('}$', '{block} '))
print(re.search('}$', '{block}\n'))  

<re.Match object; span=(6, 7), match='}'>
None
<re.Match object; span=(6, 7), match='}'>


In [16]:
# 分组
# 正则表达式通常用于通过将正则分成几个子组来解析字符串
# 这些子组匹配不同的感兴趣组件
p = re.compile('(ab)*')
print(p.match('ababababab').span())

(0, 10)


In [17]:
# 修改字符串
# split: 将字符串拆分为一个列表，在正则匹配的任何地方将其拆分
# sub: 找到正则匹配的所有子字符串，并用不同的字符串替换它们
# subn: 与 sub() 相同，但返回新字符串和替换次数

In [18]:
p = re.compile(r'\W+')

print(p.split('This is a test, short and sweet, of split().'))
print(p.split('This is a test, short and sweet, of split().', 3))

['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']
['This', 'is', 'a', 'test, short and sweet, of split().']


In [19]:
# 使用捕获括号，则它们的值也将作为列表的一部分返回
p = re.compile(r'\W+')
p2 = re.compile(r'(\W+)')

p.split('This... is a test.')
p2.split('This... is a test.')

['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']

In [20]:
p = re.compile('(blue|white|red)')

p.sub('colour', 'blue socks and red shoes')
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'