# 1. re.match(pattern, string, [flags])
尝试从字符串起始位置匹配一个模式，如果匹配成功则会返回匹配结果，失败则会返回None    
#### 三个参数：
1. pattern：[正则字符串](http://cuiqingcai.com/977.html)
2. string：匹配目标字符串
   * 如果目标字符串中有\字符，建议使用r"\\"，否则将需要"\\\\"4个反斜杠才能表达
3. flags：匹配模式
   * re.I：IgnoreCase，忽略大小写
   * re.M：Multiline，多行模式
   * re.S：Dotall， "."可以匹配任意字符，包括换行符
   * re.L：Locale，使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
   * re.U：Unicode，使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
   * re.X：Verbose，详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释

#### 总结：尽量使用泛匹配和非贪婪模式，使用括号得到匹配目标，有换行符就用re.S

### 最常规的匹配

In [11]:
import re

content = "Hello 1234567 World_This is a Regex Demo"
print(len(content))

result = re.match("^Hello\s\d{7}\s\w{10}.*Demo$", content)
print(result)

# 匹配返回结果的一些方法
# 返回匹配范围
print(result.span())
# 返回匹配字符串
print(result.group())

40
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
(0, 40)
Hello 1234567 World_This is a Regex Demo


### 泛匹配：.*

In [12]:
import re

content = "Hello 1234567 World_This is a Regex Demo"

result = re.match("^Hello.*Demo$", content)
print(result)

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>


### 匹配目标：()

In [10]:
import re

content = "Hello 1234567 World_This is a Regex Demo"

result = re.match("^Hello\s(\d+)\sWorld.*Demo$", content)
# 返回第一个分组()内的目标
print(result.group(1))

1234567


### 贪婪匹配

In [13]:
import re

content = "Hello 1234567 World_This is a Regex Demo"

result = re.match("^He.*(\d+).*Demo$", content)
# He.*将会贪婪匹配到7之前
print(result.group(1))

7


### 非贪婪匹配：.*?

In [3]:
import re

content = "Hello 1234567 World_This is a Regex Demo"

result = re.match("^He.*?(\d+).*Demo$", content)
print(result.group(1))

1234567


### 匹配模式

In [31]:
import re

content = r"""Hello 1234567 World_This 
is a Regex Demo
"""
result = re.match("^He.*?(\d+).*Demo$", content, re.S)
print(result.group())

Hello 1234567 World_This 
is a Regex Demo


### 转义

In [26]:
import re

content = "price is $5.00"

result = re.match("price is \$5.00", content)
print(result.group())

<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>


# 2. re.search(pattern, string, [flags])
扫描整个字符串并返回第一个成功的匹配

#### 总结：能使用re.search()方法就用

### 演示

In [55]:
import re

content = "Extra string Hello 1234567 World_This is a Regex Demo Extra string"

result1 = re.match("Hello.*?(\d+).*Demo", content)
result2 = re.search("Hello.*?(\d+).*Demo", content)

# re.match与re.search结果的对比
print(result1)
print(result2)
print(result2.group(1))

None
<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
1234567


### 匹配练习

In [18]:
import re

html = """<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>"""

result1 = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
result2 = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
result3 = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)

print(result1.group(1), result1.group(2))
print(result2.group(1), result2.group(2))
print(result3.group(1), result3.group(2))

齐秦 往事随风
任贤齐 沧海一声笑
beyond 光辉岁月


# 3. re.findall
搜索字符串，以列表形式返回全部所有能匹配的子串

In [19]:
import re

html = """<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>"""

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)

print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0],result[1],result[2])

# 匹配所有歌名，后面使用re.sub方法先替换掉超链接后再匹配会更加便捷
results2 = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results2:
    print(result[1])

[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'), ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '但愿人长久')]
<class 'list'>
('/2.mp3', '任贤齐', '沧海一声笑')
/2.mp3 任贤齐 沧海一声笑
('/3.mp3', '齐秦', '往事随风')
/3.mp3 齐秦 往事随风
('/4.mp3', 'beyond', '光辉岁月')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本')
/5.mp3 陈慧琳 记事本
('/6.mp3', '邓丽君', '但愿人长久')
/6.mp3 邓丽君 但愿人长久
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


# 4. re.sub('表达式', '替换后', 要替换的)
替换字符串中每一个匹配的子串后返回替换后的字符串

In [17]:
import re

content = "Extra string Hello 1234567 World_This is a Regex Demo Extra string"
# 替换为空
content1 = re.sub('\d+', '', content)
# 替换为'7c'
content2 = re.sub('\d+', '7c', content)
# 在原基础上增加
content3 = re.sub('(\d+)', r'\1 8910', content)

print(content1,'\n', content2, '\n', content3)

Extra string Hello  World_This is a Regex Demo Extra string 
 Extra string Hello 7c World_This is a Regex Demo Extra string 
 Extra string Hello 1234567 8910 World_This is a Regex Demo Extra string


In [25]:
import re

html = """<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>"""

# 使用re.sub方法先替换掉超链接后在匹配会更加便捷
html = re.sub('<a.*?>|</a>', '', html)
print(html)

results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
    print(result.strip())

<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            沧海一声笑
        </li>
        <li data-view="4" class="active">
            往事随风
        </li>
        <li data-view="6">光辉岁月</li>
        <li data-view="5">记事本</li>
        <li data-view="5">
            但愿人长久
        </li>
    </ul>
</div>
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


# 5. re.compile
将正则字符串编译成正则表达式对象，以便于复用该匹配模式

In [1]:
import re

content = r"""Hello 1234567 World_This 
is a Regex Demo"""

pattern = re.compile("Hello.*?Demo", re.S)
result = re.match(pattern, content)
print(result)

<_sre.SRE_Match object; span=(0, 41), match='Hello 1234567 World_This \nis a Regex Demo'>


# 综合实战

In [5]:
import requests
import re

content = requests.get("https://book.douban.com/").text
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>', re.S)
results = re.findall(pattern, content)
for result in results:
    url,name,author,date = result
    # 用re.sub方法去掉换行符
    author = re.sub('\s', '', author)
    # 也可用.strip()方法去掉换行符
    print(url,name,author,date.strip())

https://book.douban.com/subject/27139846/?icn=index-editionrecommend 我在未来等你 刘同 2017-9
https://book.douban.com/subject/27118367/?icn=index-editionrecommend 奋斗者：侯沧海商路笔记 小桥老树 2017-10
https://book.douban.com/subject/27077719/?icn=index-editionrecommend 黑匣子思维 [英]马修·萨伊德 2017-7
https://book.douban.com/subject/27121179/?icn=index-editionrecommend 诸神纪 严优 2017-9
https://book.douban.com/subject/27092880/?icn=index-editionrecommend 这本书能让你睡得好 [美]肖恩·史蒂文森（ShawnStevenson） 2017-8-1
https://book.douban.com/subject/27132522/?icn=index-latestbook-subject 唐译子不语 [清]袁枚 2017-9-1
https://book.douban.com/subject/27093323/?icn=index-latestbook-subject 百年战争简史 [英]德斯蒙德·苏厄德 2017-9
https://book.douban.com/subject/27134137/?icn=index-latestbook-subject 白夜追凶 指纹 2017-9-1
https://book.douban.com/subject/27091014/?icn=index-latestbook-subject 忠实的刽子手 [美]乔尔·哈林顿 2017-9
https://book.douban.com/subject/27103712/?icn=index-latestbook-subject 雨中杀手 [美]雷蒙德·钱德勒 2017-9
https://book.douban.com/subject/27131703/?icn=index-latestbook-s