# 文本模式的匹配和查找

如果只是匹配简单的文字， 那么通常基本的字符串方法足够使用，如str.find(), str.endswith(), str.startswith()

对于更复杂的匹配使用正则表达式以及re模块。

In [1]:
import re

In [2]:
text = '11/27/2012'
re.match(r'[01]?\d/(?:[012]?\d|3[01])/\d+', text)

<_sre.SRE_Match object; span=(0, 10), match='11/27/2012'>

<span class="mark">如果要针对同一种模式做多次匹配，那么通常会先将正则表达式模式预编译成一个模式对象</span>

In [3]:
datepart = re.compile(r'[01]?\d/(?:[012]?\d|3[01])/\d+')

In [4]:
datepart.match(text)

<_sre.SRE_Match object; span=(0, 10), match='11/27/2012'>

In [5]:
datepart.match('12/21/2012')

<_sre.SRE_Match object; span=(0, 10), match='12/21/2012'>

match只是在字符串的开头找到匹配项，如果针对整个文本找出所有匹配项，可以使用findall()

In [6]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
datepart.findall(text)

['11/27/2012', '3/13/2013']

当定义正则表达式时，我们可以将部分模式用括号包起来的方式引入捕获组。

In [7]:
datepart = re.compile(r'([01]?\d)/([012]?\d|3[01])/(\d+)')

捕获组能简化后续对匹配文本的处理，每个组的内容都可以单独提取出来

In [8]:
m = datepart.match('11/27/2012')
m

<_sre.SRE_Match object; span=(0, 10), match='11/27/2012'>

In [9]:
m.group(0)

'11/27/2012'

In [10]:
m.group(1)

'11'

In [11]:
m.group(2)

'27'

In [12]:
m.group(3)

'2012'

In [13]:
m.groups()

('11', '27', '2012')

使用findall找到所有匹配时，所有匹配被分割成tuple

In [14]:
text

'Today is 11/27/2012. PyCon starts 3/13/2013.'

In [15]:
datepart.findall(text)

[('11', '27', '2012'), ('3', '13', '2013')]

In [16]:
for month, day, year in datepart.findall(text):
    print('{}-{}-{}'.format(year, month, day))

2012-11-27
2013-3-13


findall()方法搜索整个文本并找出所有匹配的项，然后将它们以列表的形式返回。

<span class="mark">如果想要以迭代的方式找出匹配项，可以使用finditer()方法。</span>

In [17]:
for m in datepart.finditer(text):
    print(m.groups())

('11', '27', '2012')
('3', '13', '2013')


re模块对文本做匹配和搜索的基本功能是首先用re.compile()对模式进行编译，然后用像match()、findall()、finditer这样的方法做匹配和搜索

match()方法只会检查字符串的开头，有可能出现匹配的结果不是你想要的。

In [18]:
m = datepart.match('11/27/2012kjsdklfjklwe')
m

<_sre.SRE_Match object; span=(0, 10), match='11/27/2012'>

In [19]:
datepart = re.compile(r'([01]?\d)/([012]?\d|3[01])/(\d+)$')
print(datepart.match('11/27/2012kjsdklfjklwe'))

None


如果只想进行一次性的文本匹配和搜索操作，那么可以直接使用re模块中的函数，省略编译步骤

In [20]:
re.findall(r'([01]?\d)/([012]?\d|3[01])/(\d+)', text)

[('11', '27', '2012'), ('3', '13', '2013')]

如果打算执行很多匹配或查找操作，通常需要先将模式编译再重复匹配

模块级的函数对最近编译过的模式会做缓存处理，因此这里并不会有巨大的性能差异

但是使用自己编译过的模式会省下一些查找步骤和额外的处理