In [None]:
# 问题： 我们要按照特定的文本模式匹配或查找
# 解决:str.find(),str.endswith,str.startwith()

In [4]:
text = 'yeah, but no, but yeah, but no, but yeah'
# Exact math
print(text == 'yeah')

# Match at start or end
print(text.startswith('yea'))
print(text.endswith('butyeah'))

# Search for the location of the first occurrence
print(text.find('no'))

False
True
False
10


In [6]:
# 更复杂的匹配则需要正则表达式
import re
text1 = '11/27/2012'
text2 = 'Nov 27, 2012'

# Simple matching: \d+ means match one or more digits
print(bool(re.match(r'\d+/\d+/\d+', text1)))

True


In [7]:
# 如果针对同一种模式做多次匹配，那么通常先将正则表达式模式预编译成一个模式对象。
datepat = re.compile(r'\d+/\d+/\d+')
print(bool(datepat.match(text1)))

True


In [8]:
# match 方法总是尝试在字符串开头找到匹配项。
# 如果想针对整个文本搜索出所有匹配项，那么该使用findall()方法。
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
print(datepat.findall(text))

['11/27/2012', '3/13/2013']


In [17]:
# 当定义正则表达式时，我们常会将部分模式用括号包起来的方式引入捕获组。
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')

# 捕获组通常能简化后续对匹配文本的处理，因为每个组的内容都可以单独提取出来。
m = datepat.match('11/27/2012/11/27/2012')
#全部
# print(m.group(0))
# 小组第一个
# print(m.group(1))

# 测试
print(m.group() == m.group(0))
print(m.groups())

True
('11', '27', '2012')


In [14]:
# Find all  matches (notice splitting into tuples)
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
m = datepat.findall(text)
print(m)

[('11', '27', '2012'), ('3', '13', '2013')]


In [15]:
for m in datepat.finditer(text):
    print(m.groups())
    print('--------------------------')

('11', '27', '2012')
--------------------------
('3', '13', '2013')
--------------------------


In [None]:
# 小结： 
# 1. 指定模式时，会使用原始字符串，如： r'(\d+)/(\d+)/(\d+)'
#    这样的字符串中反斜线不会字符转义。
#    否则要用双反斜线。


# 2. 要精确匹配则要在结尾添加（$）标记。

# 3.如果只是简单的匹配或者查找可以不预编译。如果是多次大量则需要预编译，这样可以省去重复预编译的步骤提升性能。