# match
match方法会尝试从字符串的起始位置匹配正则表达式，如果匹配，就返回匹配成功的结果；如果不匹配，就返回 None。  
因为 match方法 需要考虑到打头开始的内容，这在做匹配时并不方便。它更适合用来检测某个字符串是否符合某个正则表达式的规则。

In [1]:
import re
content = 'Hello 123 4567 World_This is a Regex Demo'
print('字符串长度为：',len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print('匹配结果为：', result)
print('正则表达式规则所匹配的内容：', result.group())
print('匹配到的结果字符串在原字符串中的位置范围：',result.span())

字符串长度为： 41
匹配结果为： <re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>
正则表达式规则所匹配的内容： Hello 123 4567 World_This
匹配到的结果字符串在原字符串中的位置范围： (0, 25)


|模式|描述|
|:---:|:---|
|\w|匹配字母、数字及下划线|
|\W|匹配不是字母、数字及下划线的字符|
|\s|匹配任意空白字符，等价于 [\t\n\r\f]|
|\S|匹配任意非空字符||
|\d|匹配任意数字，等价于 [0~9]|
|\D|匹配任意非数字的字符|
|\A|匹配字符串开头|
|\Z|匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串|
|\z|匹配字符串结尾，如果存在换行，同时还会匹配换行符|
|\G|匹配最后匹配完成的位置||
|\n|匹配一个换行符|
|\t|匹配一个制表符|
|^|匹配一行字符串的开头|
|$|匹配一行字符串的结尾|
|.|匹配任意字符，除了换行符，当 re.DOTALL 标记被指定时，则可以匹配包括换行符的任意字符|
|[...]|用来表示一组字符，单独列出，比如 [amk] 匹配 a、m 或 k|
|[^...]|不在 [] 中的字符，比如 匹配除了 a、b、c 之外的字符|
|*|匹配 0 个或多个表达式|
|+|匹配 1 个或多个表达式|
|?|匹配 0 个或 1 个前面的正则表达式定义的片段，非贪婪方式|
|{n}|精确匹配 n 个前面的表达式|
|{n, m}|匹配 n 到 m 次由前面正则表达式定义的片段，贪婪方式|
|a竖线b|匹配 a 或 b|
|()|匹配括号内的表达式，也表示一个组|

# 匹配目标
一段文本中提取出邮件或电话号码等内容。我们可以使用 () 括号将想提取的子字符串括起来。  
()实际上标记了一个子表达式的开始和结束位置，被标记的每个子表达式会依次对应每一个分组，调用 group方法 传入分组的索引即可获取提取的结果。

In [2]:
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print('匹配结果为：', result)
print('正则表达式规则所匹配的内容：',result.group())
print('提取内容为：', result.group(1))
print('匹配到的结果字符串在原字符串中的位置范围：',result.span())

匹配结果为： <re.Match object; span=(0, 19), match='Hello 1234567 World'>
正则表达式规则所匹配的内容： Hello 1234567 World
提取内容为： 1234567
匹配到的结果字符串在原字符串中的位置范围： (0, 19)


# 万能匹配式.*

In [3]:
content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*World', content)
print('匹配结果为：', result)
print('正则表达式规则所匹配的内容：',result.group())

print('匹配到的结果字符串在原字符串中的位置范围：',result.span())

匹配结果为： <re.Match object; span=(0, 20), match='Hello 123 4567 World'>
正则表达式规则所匹配的内容： Hello 123 4567 World
匹配到的结果字符串在原字符串中的位置范围： (0, 20)


### 1.贪婪匹配.*
匹配尽可能多的字符

In [4]:
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result.group(1))

7


### 2.非贪婪匹配.*？
匹配尽可能少的字符

In [5]:
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result.group(1))

1234567


# 修饰符
|修饰符|描述|
|:---:|:---|
|re.I|使匹配对大小写不敏感|
|re.L|做本地化识别（locale-aware）匹配|
|re.M|多行匹配，影响 ^ 和 $|
|re.S|使匹配包括换行在内的所有字符|
|re.U|根据 Unicode 字符集解析字符。这个标志影响 \w、\W、\b 和 \B|
|re.X|该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解|

在网页匹配中，较为常用的修饰符有 re.S  和 re.I 。

In [6]:
# 字符串中多了换行
content = '''Hello 1234567 World_This
is a Regex Demo
''' 
# result = re.match('^He.*?(\d+).*?Demo$', content) # 普通的.*是不能匹配换行符的
# 需要添加re.S作为修饰符
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
print(result.group(1))

1234567


# Search方法
扫描整个字符串，然后返回第一个成功匹配的结果。也就是说，search方法会依次扫描字符串，直到找到第一个符合规则的字符串，然后返回匹配内容，如果搜索完了还没有找到，就返回 None。

In [7]:
html = '''<div id="songs-list">
<h2 class="title"> 经典老歌 </h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
<a href="/2.mp3" singer=" 任贤齐 "> 沧海一声笑 </a>
</li>
<li data-view="4" class="active">
<a href="/3.mp3" singer=" 齐秦 "> 往事随风 </a>
</li>
<li data-view="6"><a href="/4.mp3" singer="beyond"> 光辉岁月 </a></li>
<li data-view="5"><a href="/5.mp3" singer=" 陈慧琳 "> 记事本 </a></li>
<li data-view="5">
<a href="/6.mp3" singer=" 邓丽君 "> 但愿人长久 </a>
</li>
</ul>
</div>'''


In [8]:
result=re.search('li.*?active.*?singer="(.*?)">(.*?)<', html, re.S)
if result:
    print(result.group(1), result.group(2))

 齐秦   往事随风 


# findall
search方法匹配正则表达式的第一个内容，但是如果想要获取匹配正则表达式的所有内容，要借助 findall方法。

In [9]:
results=re.findall('<li\s.*?singer="(.*?)">(.*?)<', html, re.S)
for result in results:
    print(result)
results[4][1]

(' 任贤齐 ', ' 沧海一声笑 ')
(' 齐秦 ', ' 往事随风 ')
('beyond', ' 光辉岁月 ')
(' 陈慧琳 ', ' 记事本 ')
(' 邓丽君 ', ' 但愿人长久 ')


' 但愿人长久 '

# sub 修改文本

In [10]:
content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '|', content)
print(content)

|aK|yr|oiR|ix|L|g


In [11]:
# 可以先用sub方法去掉所有的a节点，剩下的全是歌名
tmp = re.sub('<a.*?>|</a>', '', html)
print(tmp,'\n**********************************************')
results=re.findall('<li.*?>(.*?)</li>',tmp,re.S)
for result in results:
    print(result.strip())

<div id="songs-list">
<h2 class="title"> 经典老歌 </h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="2"> 一路上有你 </li>
<li data-view="7">
 沧海一声笑 
</li>
<li data-view="4" class="active">
 往事随风 
</li>
<li data-view="6"> 光辉岁月 </li>
<li data-view="5"> 记事本 </li>
<li data-view="5">
 但愿人长久 
</li>
</ul>
</div> 
**********************************************
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


# compile
给正则表达式做封装，以便我们更好的复用。

In [12]:
content1, content2, content3= '2019-12-15 12:00', '2019-12-17 12:55', '2019-12-22 13:21'

regulation = re.compile('\d{2}:\d{2}') # compile 封装
result1 = re.sub(regulation, '', content1) # compile 调用 
result2 = re.sub(regulation, '', content2) # compile 调用 
result3 = re.sub(regulation, '', content3) # compile 调用
print(result1, result2, result3)

2019-12-15  2019-12-17  2019-12-22 
