## 正则表达式

### 常见匹配模式

| 模式 | 描述| 
|: ----------------- |:-----------------------------------------------------------------|
|\w |匹配字母、数字及下划线 |
|\W |匹配不是字母、数字及下划线的字符|
|\s |匹配任意空白字符，等价于[\t\n\r\f]|
|\S |匹配任意非空字符|
|\d |匹配任意数字，等价于[0-9]|
|\D |匹配任意非数字字符|
|\A |匹配字符串开头|
|\Z |匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串|
|\z |匹配字符串结尾，如果存在换行，同时还会匹配换行符|
|\G |匹配最后匹配完成的位置|
|\n |匹配一个换行符|
|\t |匹配一个制表符|
|^ |匹配一行字符串的开头|
|$ |匹配一行字符串的结尾|
|. |匹配任意字符，除了换行符，当re.DATALL标记被指定时，则可以匹配包括换行符的任意字符|
|[...] |用来表示一组字符，单独列出，比如[amk]匹配a、m或k|
|[^...] |不在[]中的字符，比如[^abc]匹配除了a、b、c之外的字符|
|* |匹配0个或多个表达式|
|+ |匹配1个或多个表达式|
|? |匹配0个或1个前面的正则表达式定义的片段，非贪婪模式|
|{n} |精确匹配n个前面的表达式|
|{n,m} |匹配n到m次由前面正则表达式定义的片段，贪婪模式|
|a\|b |匹配a或b|
|() |匹配括号内的表达式，也表示一个组|

### re.match

re.match(pattern,string,flags=0)

### 最常规的匹配

In [1]:
import re

content='Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result=re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$',content)
print(result)
print(result.group())
print(result.span())

41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)


### 泛匹配

In [2]:
import re

content='Hello 123 4567 World_This is a Regex Demo'
result=re.match('^Hello.*Demo$',content)
print(result)
print(result.group())
print(result.span())

<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)


### 匹配目标

In [4]:
import re

content='Hello 1234567 World_This is a Regex Demo'
result=re.match('^Hello\s(\d+)\sWorld.*Demo$',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
Hello 1234567 World_This is a Regex Demo
1234567
(0, 40)


### 贪婪匹配

In [9]:
import re

content='Hello 1234567 World_This is a Regex Demo'
result=re.match('He.*(\d+).*Demo$',content)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7


### 非贪婪匹配

In [8]:
import re

content='Hello 1234567 World_This is a Regex Demo'
result=re.match('He.*?(\d+).*Demo$',content)
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567


### 匹配模式

In [16]:
import re

content='''Hello 1234567 World_This 
is a Regex Demo
'''
result=re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result)
print(result.group())
print(result.group(1))

<_sre.SRE_Match object; span=(0, 41), match='Hello 1234567 World_This \nis a Regex Demo'>
Hello 1234567 World_This 
is a Regex Demo
1234567


### 转义

In [17]:
import re

content='price is $5.00'
result=re.match('price is $5.00',content)
print(result)

None


In [18]:
import re

content='price is $5.00'
result=re.match('price is \$5\.00',content)
print(result)

<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>


总结：尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行符就用re.S

### re.search

re.search扫描整个字符串并返回第一个成功的匹配

In [24]:
import re

content='Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result=re.match('Hello.*?(\d+).*?Demo',content)
print(result)

None


In [26]:
import re

content='Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result=re.search('Hello.*?(\d+).*?Demo',content)
print(result)
print(result.group())
print(result.group(1))

<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
Hello 1234567 World_This is a Regex Demo
1234567


总结：为了匹配方便，能使用search就不用match

### 匹配练习

In [28]:
import re

html='''<div id="songs-list>
     <h2 class="title">经典老歌</h2>
     <p class="introduction">
         经典老歌列表
     </p>
     <ul id="list" class="list-group">
       <li data-view="2">一路上有你</li>
       <li data-view="7">
          <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
       </li>
       <li data-view="4" class="active">
          <a href="/3.mp3" singer="齐秦">往事随风</a>
       </li>
       <li data-view="6"><a href="/4.mp3"singer="beyond">光辉岁月</a></li>
       <li data-view="5"><a href="/5.mp3"singer="陈慧琳">记事本</a></li>
       <li data-view="5">
          <a href="/6.mp3"singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
       </li>
    </ul>
</div>'''
result=re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
if result:
    print(result.group(1),result.group(2))

齐秦 往事随风


In [29]:
import re

html='''<div id="songs-list>
     <h2 class="title">经典老歌</h2>
     <p class="introduction">
         经典老歌列表
     </p>
     <ul id="list" class="list-group">
       <li data-view="2">一路上有你</li>
       <li data-view="7">
          <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
       </li>
       <li data-view="4" class="active">
          <a href="/3.mp3" singer="齐秦">往事随风</a>
       </li>
       <li data-view="6"><a href="/4.mp3"singer="beyond">光辉岁月</a></li>
       <li data-view="5"><a href="/5.mp3"singer="陈慧琳">记事本</a></li>
       <li data-view="5">
          <a href="/6.mp3"singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
       </li>
    </ul>
</div>'''
result=re.search('<li.*?singer="(.*?)">(.*?)</a>',html,re.S)
if result:
    print(result.group(1),result.group(2))

任贤齐 沧海一声笑


In [30]:
import re

html='''<div id="songs-list>
     <h2 class="title">经典老歌</h2>
     <p class="introduction">
         经典老歌列表
     </p>
     <ul id="list" class="list-group">
       <li data-view="2">一路上有你</li>
       <li data-view="7">
          <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
       </li>
       <li data-view="4" class="active">
          <a href="/3.mp3" singer="齐秦">往事随风</a>
       </li>
       <li data-view="6"><a href="/4.mp3"singer="beyond">光辉岁月</a></li>
       <li data-view="5"><a href="/5.mp3"singer="陈慧琳">记事本</a></li>
       <li data-view="5">
          <a href="/6.mp3"singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
       </li>
    </ul>
</div>'''
result=re.search('<li.*?singer="(.*?)">(.*?)</a>',html)
if result:
    print(result.group(1),result.group(2))

beyond 光辉岁月


### re.findall

搜素字符串，以列表形式返回全部能匹配的子串。

In [38]:
import re

html='''<div id="songs-list>
     <h2 class="title">经典老歌</h2>
     <p class="introduction">
         经典老歌列表
     </p>
     <ul id="list" class="list-group">
       <li data-view="2">一路上有你</li>
       <li data-view="7">
          <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
       </li>
       <li data-view="4" class="active">
          <a href="/3.mp3" singer="齐秦">往事随风</a>
       </li>
       <li data-view="6"><a href="/4.mp3"singer="beyond">光辉岁月</a></li>
       <li data-view="5"><a href="/5.mp3"singer="陈慧琳">记事本</a></li>
       <li data-view="5">
          <a href="/6.mp3"singer="邓丽君">但愿人长久</a>
       </li>
    </ul>
</div>'''
results=re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0],result[1],result[2])

[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'), ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '但愿人长久')]
<class 'list'>
('/2.mp3', '任贤齐', '沧海一声笑')
/2.mp3 任贤齐 沧海一声笑
('/3.mp3', '齐秦', '往事随风')
/3.mp3 齐秦 往事随风
('/4.mp3', 'beyond', '光辉岁月')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本')
/5.mp3 陈慧琳 记事本
('/6.mp3', '邓丽君', '但愿人长久')
/6.mp3 邓丽君 但愿人长久


In [44]:
import re

html='''<div id="songs-list>
     <h2 class="title">经典老歌</h2>
     <p class="introduction">
         经典老歌列表
     </p>
     <ul id="list" class="list-group">
       <li data-view="2">一路上有你</li>
       <li data-view="7">
          <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
       </li>
       <li data-view="4" class="active">
          <a href="/3.mp3" singer="齐秦">往事随风</a>
       </li>
       <li data-view="6"><a href="/4.mp3"singer="beyond">光辉岁月</a></li>
       <li data-view="5"><a href="/5.mp3"singer="陈慧琳">记事本</a></li>
       <li data-view="5">
          <a href="/6.mp3"singer="邓丽君">但愿人长久</a>
       </li>
    </ul>
</div>'''
results=re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
print(results)
for result in results:
    print(result[1])

[('', '一路上有你', ''), ('<a href="/2.mp3" singer="任贤齐">', '沧海一声笑', '</a>'), ('<a href="/3.mp3" singer="齐秦">', '往事随风', '</a>'), ('<a href="/4.mp3"singer="beyond">', '光辉岁月', '</a>'), ('<a href="/5.mp3"singer="陈慧琳">', '记事本', '</a>'), ('<a href="/6.mp3"singer="邓丽君">', '但愿人长久', '</a>')]
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


### re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串

In [45]:
import re

content='Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content=re.sub('\d+','',content)
print(content)

Extra stings Hello  World_This is a Regex Demo Extra stings


In [46]:
import re

content='Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content=re.sub('\d+','Replacement',content)
print(content)

Extra stings Hello Replacement World_This is a Regex Demo Extra stings


In [48]:
import re

content='Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
content=re.sub('(\d+)',r'\1 89101',content)
print(content)

Extra stings Hello 1234567 89101 World_This is a Regex Demo Extra stings


In [49]:
import re

html='''<div id="songs-list>
     <h2 class="title">经典老歌</h2>
     <p class="introduction">
         经典老歌列表
     </p>
     <ul id="list" class="list-group">
       <li data-view="2">一路上有你</li>
       <li data-view="7">
          <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
       </li>
       <li data-view="4" class="active">
          <a href="/3.mp3" singer="齐秦">往事随风</a>
       </li>
       <li data-view="6"><a href="/4.mp3"singer="beyond">光辉岁月</a></li>
       <li data-view="5"><a href="/5.mp3"singer="陈慧琳">记事本</a></li>
       <li data-view="5">
          <a href="/6.mp3"singer="邓丽君">但愿人长久</a>
       </li>
    </ul>
</div>'''
html=re.sub('<a.*?>|</a>','',html)
print(html)
results=re.findall('<li.*?>(.*?)</li>',html,re.S)
print(results)
for result in results:
    print(result.strip())

<div id="songs-list>
     <h2 class="title">经典老歌</h2>
     <p class="introduction">
         经典老歌列表
     </p>
     <ul id="list" class="list-group">
       <li data-view="2">一路上有你</li>
       <li data-view="7">
          沧海一声笑
       </li>
       <li data-view="4" class="active">
          往事随风
       </li>
       <li data-view="6">光辉岁月</li>
       <li data-view="5">记事本</li>
       <li data-view="5">
          但愿人长久
       </li>
    </ul>
</div>
['一路上有你', '\n          沧海一声笑\n       ', '\n          往事随风\n       ', '光辉岁月', '记事本', '\n          但愿人长久\n       ']
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


### re.compile

将正则字符串编译成正则表达式对象

In [None]:
将一个正则表达式串编译成正则对象，以便于复用该匹配模式

In [50]:
import re

content='''Hello 1234567 World_This
is a Regex Demo'''
pattern=re.compile('Hello.*Demo',re.S)
result=re.match(pattern,content)
#result=re.match('Hello.*Demo',content,re.S)
print(result)

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>


### 实战练习

爬取豆瓣读书中的图书信息

In [1]:
import requests
import re
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'
}
content=requests.get('https://book.douban.com/',headers=headers).text
pattern=re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
results=re.findall(pattern,content)
for result in results:
    url,name,author,data=result
    author=re.sub('\s','',author)
    data=re.sub('\s','',data)
    print(url,name,author,data)

https://book.douban.com/subject/30274766/?icn=index-editionrecommend 潦草 贾行家 2018-8
https://book.douban.com/subject/30228612/?icn=index-editionrecommend 游泳回家 [英]德博拉·利维 2018-8-1
https://book.douban.com/subject/30280804/?icn=index-editionrecommend 薛兆丰经济学讲义 薛兆丰 2018-7
https://book.douban.com/subject/30185326/?icn=index-editionrecommend 给孩子的未来脑计划 魏坤琳 2018-4
https://book.douban.com/subject/30288807/?icn=index-editionrecommend 加密与解密（第4版） 段钢 2018-9-1
https://book.douban.com/subject/30258687/?icn=index-latestbook-subject 战略级天使 白伯欢 2018-7
https://book.douban.com/subject/30222403/?icn=index-latestbook-subject 明治天皇 (美)唐纳德·基恩(DonaldKeene) 2018-7
https://book.douban.com/subject/27176955/?icn=index-latestbook-subject 罗特小说集2 [奥]约瑟夫·罗特&nbsp;/&nbsp;刘炜主编 2018-6
https://book.douban.com/subject/30229646/?icn=index-latestbook-subject 阿波罗 [英]扎克·斯科特 2018-7-1
https://book.douban.com/subject/30246163/?icn=index-latestbook-subject 默读.2 Priest 2018-6
https://book.douban.com/subject/30259720/?icn=index-latestbook-