##### 问题:
我们想要按照特定的文本模式进行匹配或查找.

##### 解决方案:
如果想要匹配的只是简单的文字，那么通常只需要用基本的字符串方法就可以了，比如 str.find()、str.endswith()、str.startswith()或类似的函数。示例如下：

In [6]:
# Match at start or end
text = 'yeah, but no, but yeah, but no, but yeah' 
text.startswith('yeah')


True

In [7]:
# Search for the location of the first occurrence
text.find('no')

10

对于更为复杂的匹配则需要使用正则表达式以及 re 模块。为了说明使用正则表达式的
基本流程，假设我们想匹配以数字形式构成的日期，比如“11/27/2012”

In [8]:
text1 = '11/27/2012'
text2 = 'Nov 27, 2012'

import re 
# Simple matching: \d+ means match one or more digits
if re.match(r'\d+/\d+/\d+', text1):
    print('yes')
else:
    print('no')

yes


如果打算针对同一种模式做多次匹配，那么通常会先将正则表达式模式预编译成一个
模式对象，比如：

In [9]:
datepat = re.compile(r'\d+/\d+/\d+') 
if datepat.match(text1):
    print('yes') 
else: 
    print('no') 

yes


In [10]:
if datepat.match(text2):
    print('yes')
else:
    print('no') 

no


match()方法总是尝试在字符串的开头找到匹配项。如果想针对整个文本搜索出所有的
匹配项，那么就应该使用 findall()方法。例如：

In [11]:
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
datepat.findall(text) 

['11/27/2012', '3/13/2013']

当定义正则表达式时，我们常会将部分模式用括号包起来的方式引入捕获组。例如：

In [14]:
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
print(datepat)

re.compile('(\\d+)/(\\d+)/(\\d+)')


捕获组通常能简化后续对匹配文本的处理，因为每个组的内容都可以单独提取出来

In [22]:
m = datepat.match('11/27/2012')
print(m)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.groups())


<re.Match object; span=(0, 10), match='11/27/2012'>
11/27/2012
11
27
2012
('11', '27', '2012')


In [24]:
month, day, year = m.groups() 
print(month,day,year)

11 27 2012


In [26]:
# Find all matches (notice splitting into tuples) 
text='Today is 11/27/2012. PyCon starts 3/13/2013.' 
datepat.findall(text)
for month, day, year in datepat.findall(text):
    print('{}-{}-{}'.format(year, month, day)) 

2012-11-27
2013-3-13


findall()方法搜索整个文本并找出所有的匹配项然后将它们以列表的形式返回。如果想
以迭代的方式找出匹配项，可以使用 finditer()方法。示例如下：

In [27]:
for m in datepat.finditer(text):
    print(m.groups()) 

('11', '27', '2012')
('3', '13', '2013')


本节向您展示了利用 re 模块来对文本做匹配和搜索的基础。基本功能是首先用 re.compile()对模式进行编译，然
后使用像 match()、findall()或 finditer()这样的方法做匹配和搜索。

当指定模式时我们通常会使用原始字符串，比如 r'(\d+)/(\d+)/(\d+)'。这样的字符串不会
对反斜线字符转义，这在正则表达式上下文中会很有用。否则，我们需要用双反斜线
来表示一个单独的'\'，例如'(\\d+)/(\\d+)/(\\d+)'。

请注意 match()方法只会检查字符串的开头

如果想要精确匹配，请确保在模式中包含一个结束标记（$）

In [28]:
datepat = re.compile(r'(\d+)/(\d+)/(\d+)$')
datepat.match('11/27/2012abcdef')
datepat.match('11/27/2012') 

<re.Match object; span=(0, 10), match='11/27/2012'>

最后，如果只是想执行简单的文本匹配和搜索操作，通常可以省略编译步骤，直接使
用 re 模块中的函数即可。例如：

In [29]:
re.findall(r'(\d+)/(\d+)/(\d+)', text)

[('11', '27', '2012'), ('3', '13', '2013')]

请注意，如果打算执行很多匹配或查找操作的话，通常需要先将模式编译然后再重复
使用。模块级的函数会对最近编译过的模式做缓存处理，因此这里并不会有巨大的性
能差异。