In [1]:
import re

In [None]:
'''
 • re.I(全拼：IGNORECASE): 忽略大小写（括号内是完整写法，下同）
 • re.M(全拼：MULTILINE): 多行模式，改变'^'和'$'的行为（参见上图）
 • re.S(全拼：DOTALL): 点任意匹配模式，改变'.'的行为
 • re.L(全拼：LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
 • re.U(全拼：UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
 • re.X(全拼：VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。
 '''

# re.match

从字符串的起始部分对模式进行匹配。成功就返回对象，失败返回None

In [2]:
pattern = re.compile(r'hello')

In [3]:
result1 = re.match(pattern,'hello')
if result1:
    print (result1.group())
else:
    print ('1匹配失败')

hello


In [4]:
pattern = re.compile(r'hello')
if pattern.search("hello world"):
    print ("Successful match!")
else:
    print ("Failed!")

Successful match!


In [12]:
result2 = re.match(pattern,'helloo CQC!')
if result2:
    print (result2.group())
else:
    print ('2匹配失败')

hello


In [13]:
result3 = re.match(pattern,'helo CQC!')
if result3:
    print(result3.group())
else:
    print ('3匹配失败')

3匹配失败


In [14]:
result4 = re.match(pattern,'hello CQC!')
if result4:
    print (result4.group())
else:
    print ('4匹配失败')

hello


In [15]:
m = re.match(r'(\w+) (\w+)(?P<sign>.*)','hello world!')

In [16]:
m.string

'hello world!'

In [17]:
m.re

re.compile(r'(\w+)(\w+)(?P<sign>.*)', re.UNICODE)

In [18]:
m.pos

0

In [19]:
m.endpos

12

In [20]:
m.lastindex

3

In [21]:
m.lastgroup

'sign'

In [22]:
m.group() #匹配对象的方法，返回整个匹配对象或者特定子组

'hello world!'

In [26]:
m.group(1,2,3)

('hell', 'o', ' world!')

In [25]:
m.groups()

('hell', 'o', ' world!')

In [27]:
m.groupdict()

{'sign': ' world!'}

In [28]:
m.start(2)

4

In [29]:
m.end(2)

5

In [30]:
m.span(2)

(4, 5)

# re.search

在字符串的任意位置对给定正则表达式模式搜索第一次出现的匹配情况

In [None]:
'''
区别在于match()函数只检测re是不是在string的开始位置匹配，
search()会扫描整个string查找匹配，match（）只有在0位置匹配成功的话才有返回，
如果不是开始位置匹配成功的话，match()就返回None
'''

In [31]:
pattern = re.compile(r'world')

In [32]:
result1 = re.match(pattern,'hello world')
result2 = re.search(pattern,'hello world')
if result1:
    print (result1.group())

In [33]:
if result2:
    print (result2.group())

world


# re.split(pattern, string[, maxsplit])

In [34]:
pattern = re.compile(r'\d+')
re.split(pattern,'one1tow2three3four4')

['one', 'tow', 'three', 'four', '']

# re.findall

查询字符串中某个正则表达式模式全部的非重复出现情况。成功返回包含所有结果的列表，失败返回空列表

In [None]:
'''
搜索string，以列表形式返回全部能匹配的子串
'''

In [35]:
pattern = re.compile(r'\d+')
re.findall(pattern,'one1two2three3four4')

['1', '2', '3', '4']

# re.finditer

In [None]:
'''
搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器
'''

In [36]:
pattern = re.compile(r'\d+')
for m in re.finditer(pattern,'one1two2three3four4'):
    print (m.group())

1
2
3
4


# re.sub(pattern, repl, string[, count])

In [None]:
'''
使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时，可以使用\id或\g、\g引用分组，但不能使用编号0。
当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。
count用于指定最多替换次数，不指定时全部替换。
'''

In [37]:
pattern = re.compile(r'(\w+) (\w+)')
s = 'i say,hello world!'
print (re.sub(pattern,r'\2 \1',s))

def func(m):
    return m.group(1).title() + ' '+ m.group(2).title()
print (re.sub(pattern,func,s))

say i,world hello!
I Say,Hello World!


# re.subn(pattern, repl, string[, count])

In [38]:
pattern = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
print (re.subn(pattern,r'\2 \1',s))

def func(m):
    return m.group(1).title() + ' '+ m.group(2).title()
print (re.subn(pattern,func,s))

('say i, world hello!', 2)
('I Say, Hello World!', 2)


# 邮箱匹配

In [4]:
pattern = re.compile('\w+@\w+\.com')

In [5]:
s = 'wsy0929sky@hotmail.com'

In [7]:
m = re.match(pattern,s)
m.group()

'wsy0929sky@hotmail.com'

# 几种方法对比

In [8]:
re.search('foo','seafood').group()

'foo'

In [9]:
re.match('foo','seafood').group()

AttributeError: 'NoneType' object has no attribute 'group'

In [10]:
re.findall('car','tcarr carry a car')

['car', 'car', 'car']

In [13]:
re.findall('car.?','tcarr carry a car')

['carr', 'carr', 'car']

In [12]:
re.findall('car.{0,2}','tcarr carry a car')

['carr ', 'carry', 'car']

In [14]:
re.findall('car|y','tcarr carry a car')

['car', 'car', 'y', 'car']

In [15]:
re.findall('car|y.','tcarr carry a car')

['car', 'car', 'y ', 'car']

In [16]:
s = "你好世界1024，今天天气不错"

In [17]:
re.findall('[好天错]',s)

['好', '天', '天', '错']

In [19]:
re.findall('[好天错]\d*',s)

['好', '天', '天', '错']

In [25]:
re.findall('[^好天错]\d*',s)

['你', '世', '界1024', '，', '今', '气', '不']

In [23]:
re.match('你好\w+',s).group()

'你好世界1024'

In [24]:
re.match('你好\w+，\w+',s).group()

'你好世界1024，今天天气不错'