# 正则表达式

## 常见匹配模式

### re.match

re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match（）就返回none

### 最常规的匹配

In [1]:
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$',content)
print(result)
print(result.group()) #匹配的结果
print(result.span())  #匹配的长度（从第几位到第几位）

41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)


### 泛匹配

In [2]:
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello.*Demo$',content)
print(result)
print(result.group()) #匹配的结果
print(result.span())  #匹配的长度（从第几位到第几位）

41
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)


### 匹配目标

In [9]:
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\s(\d+)\sWorld.*Demo$',content)
print(result)
print(result.group(1)) #当group（）里面有了数字之后表示用括号括起来的第几组，括号外面需要指定左端点和右端点
print(result.span())

<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
123
(0, 41)


### 贪婪匹配

In [10]:
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content) #.*会尽可能多地去匹配
print(result)
print(result.group(1)) #当group（）里面有了数字之后表示用括号括起来的第几组，括号外面需要指定左端点和右端点

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7


### 非贪婪匹配

In [11]:
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content) #.*？会尽可能少地去匹配
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567


### 匹配模式

In [21]:
import re

#三引号来包含换行的字符串
content = '''Hello 1234567 World_This  
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$',content,re.S) #.虽然能匹配任意字符，但是不能匹配换行符，要想匹配，需要在后面加入re.S
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(0, 41), match='Hello 1234567 World_This \nis a Regex Demo'>
1234567


### 转义

In [22]:
import re

content = 'price is $5.00'
result = re.match('price is $5.00',content)
print(result)

None


In [24]:
import re

content = 'price is $5.00'
result = re.match('price is \$5\.00',content)   #特殊符号前比如$,*前面需要加转义符，否则无法进行匹配
print(result)

<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>


总结：尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行就用re.S

### re.search

#### re.search 扫描整个字符串并返回第一个成功的匹配。

In [27]:
import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo',content)  #re.match会从第一个字符进行匹配，不合适整个匹配就失败了
print(result)

None


In [29]:
import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.search('Hello.*?(\d+).*?Demo',content)  
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
1234567


#### 总结：为匹配方便，能用search就不用match

### 匹配演练

In [30]:
import re

content = '''<div id="user_menu" class="user_menu">
                        <div class="topArrow1"></div>
                        <div class="topArrow2"></div>
                        <ul>
                            <li><a target="_blank" href="http://www.kugou.com/newuc/user/uc/"><span class="user_icon1"></span>个人帐号</a></li>
                            <li><a href="http://www.kugou.com/newuc/login/outlogin"><span class="user_icon2"></span>退出登录</a></li>
                        </ul>
                    </div>
'''
result = re.search('<li.*?target.*?span>(.*?)</a>.*?span>(.*?)</a>',content,re.S)
if result:
    print(result.group(1),result.group(2))

个人帐号 退出登录


In [31]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)    #找到第一个符合的返回
print(result)
print(result.groups())
print(result.group(1))
print(result.group(2))

<_sre.SRE_Match object; span=(153, 366), match='<li data-view="2">一路上有你</li>\n        <li data-vi>
('齐秦', '往事随风')
齐秦
往事随风


In [32]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result)
print(result.groups())
print(result.group(1))
print(result.group(2))

<_sre.SRE_Match object; span=(153, 260), match='<li data-view="2">一路上有你</li>\n        <li data-vi>
('任贤齐', '沧海一声笑')
任贤齐
沧海一声笑


In [33]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html)     #不用re.S不能包含换行，所以找到第一个返回结果如下
print(result)
print(result.groups())
print(result.group(1))
print(result.group(2))

<_sre.SRE_Match object; span=(389, 448), match='<li data-view="6"><a href="/4.mp3" singer="beyond>
('beyond', '光辉岁月')
beyond
光辉岁月


### re.findall

#### 搜索字符串，以列表形式返回全部能匹配的子串

In [34]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])

[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'), ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '但愿人长久')]
<class 'list'>
('/2.mp3', '任贤齐', '沧海一声笑')
/2.mp3 任贤齐 沧海一声笑
('/3.mp3', '齐秦', '往事随风')
/3.mp3 齐秦 往事随风
('/4.mp3', 'beyond', '光辉岁月')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本')
/5.mp3 陈慧琳 记事本
('/6.mp3', '邓丽君', '但愿人长久')
/6.mp3 邓丽君 但愿人长久


In [35]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',html,re.S)
print(results)
for result in results:
    print(result[1])

[('', '一路上有你', ''), ('<a href="/2.mp3" singer="任贤齐">', '沧海一声笑', '</a>'), ('<a href="/3.mp3" singer="齐秦">', '往事随风', '</a>'), ('<a href="/4.mp3" singer="beyond">', '光辉岁月', '</a>'), ('<a href="/5.mp3" singer="陈慧琳">', '记事本', '</a>'), ('<a href="/6.mp3" singer="邓丽君">', '但愿人长久', '</a>')]
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


### re.sub

#### 替换字符串中每一个匹配的子串后返回替换后的字符

In [38]:
import re

content = "Extra things hello 1234567 World_this is a regex Demo extra things"
#把原来的数字全部替换掉了
content = re.sub('\d+','',content)  #第一个参数是正则表达式，第二个参数是你要替换成的字符串，第三个参数是原字符串
print(content)

Extra things hello  World_this is a regex Demo extra things


In [42]:
import re

content = "Extra things hello 1234567 World_this is a regex Demo extra things"

content = re.sub('\d+','Replacement',content)
print(content)

Extra things hello Replacement World_this is a regex Demo extra things


In [43]:
import re

content = "Extra things hello 1234567 World_this is a regex Demo extra things"

content = re.sub('(\d+)',r'\1 8910',content)  #\1是获取第一个匹配的结果，为了防止转义字符的问题，我们需要在前面加上r
print(content)

Extra things hello 1234567 8910 World_this is a regex Demo extra things


In [46]:
import re 

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''
html = re.sub('<a.*?>|</a>','',html) #把所有的a标签去掉了
print(html)
results = re.findall('<li.*?>(.*?)</li>',html,re.S)
print(results) 
for result in results:
    print(result.strip())  #strip()方法用于去掉换行符

<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            沧海一声笑
        </li>
        <li data-view="4" class="active">
            往事随风
        </li>
        <li data-view="6">光辉岁月</li>
        <li data-view="5">记事本</li>
        <li data-view="5">
            但愿人长久
        </li>
    </ul>
</div>
['一路上有你', '\n            沧海一声笑\n        ', '\n            往事随风\n        ', '光辉岁月', '记事本', '\n            但愿人长久\n        ']
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


### re.compile

#### 将正则字符串编译成正则表达式对象

#### 将一个正则表达式串编译成正则对象，以便于复用该匹配模式

In [49]:
import re

content = '''Hello 1234567 World_This 
is a Regex Demo'''

pattern = re.compile('Hello.*Demo',re.S) #作为一个模式保存下来，以后可以直接复用
result = re.match(pattern,content)
#上面两句和下面一句是等价的
#result = re.match('Hello.*Demo',content,re.S)
print(result)

<_sre.SRE_Match object; span=(0, 41), match='Hello 1234567 World_This \nis a Regex Demo'>


### 实战演练

#### 获取豆瓣网书籍的页面的书籍信息，通过正则实现

In [None]:
import requests
import re
content = requests.get('https://book.douban.com/').text
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)
results = re.findall(pattern, content)
print(results)

for result in results:
    url,name,author,date = result   #正好对应四个括号
    author = re.sub('\s','',author) #去掉换行
    date = re.sub('\s','',date)
    print(url,name,author,date)