### re.match()函数
re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None


In [21]:
# 取出字符串中的数字
import re
content = 'Hello 1234567 is a number.Regex String'
result = re.match('.*?(\d+).*', content)  #　？表示非贪婪匹配，去掉的话１２３４５６７无法匹配
# "^Hello " 匹配字符串开头; (\d+) 匹配任意个数字; .* 匹配任意字符(换行符除外); 
# String$ 匹配字符串结尾
if result:
    print(result.group(1)) # 取出第一个括号的内容, 即(\d+)中的数字

1234567


In [27]:
# 多行匹配
import re

content = '''Hello is a number. 
           Regex String 1234567'''  # 把数字换到第二行
result = re.match('.*?(\d+).*', content, flags=re.S)  # re.S表示匹配换行符在内的字符
# 在 .* 后面加 ? 就可以使用非贪婪模式
if result:
    print(result.group(1))

1234567


### re.search()函数

re.search匹配整个字符串，直到找到一个匹配

In [29]:
import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)
# match没有匹配, 字符串不是Extra开头

result = re.search('Hello.*?(\d+).*?Demo', content)
print(result.group(1))

None
1234567


### re.findall()函数
findall() 会搜索字符串，以列表形式返回全部能匹配的子串。

`findall(pattern, string, flags=0)`

In [32]:
# 找出html中的歌手和歌名

import re

# 取出html中的歌手名和歌名
html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

# 使用search
result = re.search('<a.*?singer="(.*?)">(.*?)</a>', html)
# 歌手名和歌名都在<a>标签中, 从 <a 开始匹配
if result:
    print(result.group(1), result.group(2))
result = re.findall('<a.*?singer="(.*?)">(.*?)</a>', html)
if result:
    print(result)


任贤齐 沧海一声笑
[('任贤齐', '沧海一声笑'), ('齐秦', '往事随风'), ('beyond', '光辉岁月'), ('陈慧琳', '记事本'), ('邓丽君', '但愿人长久')]


In [33]:
# 简单爬虫
import requests
import re
content = requests.get('https://movie.douban.com/chart').text

# 豆瓣电影排行榜  对照原始网页源代码看
pattern = re.compile('class="pl2".*?<.*?="(.*?)".*?>(.*?)<span.*?>(.*?)</span>.*?"rating_nums">(.*?)</span>.*?"pl">(.*?)</span>', re.S)
# compile可以在多次使用中提高效率，这里影响不大  多行匹配
results = re.findall(pattern, content)
for result in results:
    url, name1, name2, nums, pl = result
    print(url, name1.replace("/","").strip(), name2.replace("/","").strip(), nums, pl)

https://movie.douban.com/subject/26588308/ 死侍2 DP2 7.5 (88524人评价)
https://movie.douban.com/subject/26654269/ 瞒天过海：美人计 女版十一罗汉  瞒天过海：八面玲珑(台) 6.9 (25223人评价)
https://movie.douban.com/subject/27093707/ 升级 Stem 8.1 (19630人评价)
https://movie.douban.com/subject/24773958/ 复仇者联盟3：无限战争 复仇者联盟3：无限之战(港)  复仇者联盟：无限之战(台) 8.2 (374272人评价)
https://movie.douban.com/subject/27621727/ 遗传厄运 宿怨(台)  祖孽(港) 7.4 (12366人评价)
https://movie.douban.com/subject/27040737/ 祈祷落幕时 新参者完结篇：当祈祷落幕时(台)  新参者剧场版：祈祷落幕时 8.2 (8180人评价)
https://movie.douban.com/subject/26842702/ 燃烧 燃烧烈爱(台)  Burning 7.9 (83655人评价)
https://movie.douban.com/subject/26786642/ 摘金奇缘 我的超豪男友(港)  疯狂亚洲富豪(台) 7.2 (1906人评价)
https://movie.douban.com/subject/27064658/ 致所有我曾爱过的男孩 爱的过去进行式(台) 7.1 (3054人评价)
https://movie.douban.com/subject/26908280/ 美国动物
                    <a>



                    <p class="pl">2018-01-19(圣丹斯电影节)  2018-06-01(美国)  埃文·彼得斯  巴里·基奥根  布莱克·詹纳  安·唐德  乌多·基尔  杰瑞德·亚伯拉汉姆森  盖里·巴萨拉巴  拉腊·格赖斯  简·麦克尼尔  韦恩·杜瓦尔  英国  美国  巴特·雷顿  116分钟...<p>

              