# 正则表达式

## <center>正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符及组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑</center>
<a href="http://tool.oschina.net/">网站展示</a>

## 常见匹配模式

| 模式| 描述|
|----|----|
| \w	| 匹配字母数字及下划线 |
| \W	| 匹配非字母数字下划线 |
| \s	| 匹配任意空白字符，等价于 [\t\n\r\f]. |
| \S	| 匹配任意非空字符 |
| \d	| 匹配任意数字，等价于 [0-9] |
| \D	| 匹配任意非数字 |
| \A	| 匹配字符串开始 |
| \Z	| 匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串 |
| \z	| 匹配字符串结束 |
| \G	| 匹配最后匹配完成的位置 |
| \n   | 匹配一个换行符 |
| \t   | 匹配一个制表符 |
| ^	   | 匹配字符串的开头 |
| $	   | 匹配字符串的末尾。|
| .	   | 匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。|
| [...]	| 用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k' |
| [^...]| 不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。| 
| *	   | 匹配0个或多个的表达式。|
| +	   | 匹配1个或多个的表达式。|
| ?	   | 匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式| 
| {n}	| 精确匹配n个前面表达式。|
| {n, m} | 匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式| 
| a&#124;b | 匹配a或b |
| ( )	| 匹配括号内的表达式，也表示一个组 |

## re.match
* re.match(pattern,string,flags=0)

In [3]:
import re

content = "Hello 123 4567 World_This is a Regex Demo"
result = re.match("^Hello\s\d{3}\s\d{4}\s\w*",content)
# result1 = re.match(".*",content)
print(result)
print(result.group())#直接输出匹配信息
print(result.span())#字符个数范围
# print(help(re.match))

<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)
<built-in method start of _sre.SRE_Match object at 0x000002A97FAAB988>


## .* 范匹配

In [2]:
import re

content = "Hello 123 4567 World_This is a Regex Demo"
result = re.match("^Hello.*Demo$",content)
print(result.group())

Hello 123 4567 World_This is a Regex Demo


## 匹配目标(分组)

In [3]:
import re

content = "Hello 123 4567 World_This 89 is a Regex Demo"
result = re.match("^Hello\s(\d+)\s(\d+)\s.*Demo$",content)
print(result.group(1))
print(result.group(2))
print(result.group(1)+result.group(2))

123
4567
1234567


## 贪婪匹配

In [33]:
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)# .*匹配尽可能多的字符（从最大值减一开始）
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7


## 非贪婪匹配

In [34]:
import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)# .*?匹配尽可能少的字符（从0开始）
print(result)
print(result.group(1))

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567


In [38]:
import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
# result = re.match('^He.*?(\d+).*?\n.*Demo$', content)  # .*?匹配内容不包括换行符(\n匹配换行)
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
print(result.group(1))

1234567


## 转义

In [46]:
import re

content = "price is $5.00"
result = re.match("price is $5.00",content)
print(result)
result1 = re.match("price is \$5\.(\d+)",content)
print(result1.group())

None
price is $5.00


> 尽量使用泛函数，使用括号得到匹配目标，尽量使用非贪婪模式，有换行符就用re.S

## 缺点：re.match()方法必须从开头匹配，否则报错
## 引出re.search()方法
* 扫描整个字符串，并返回第一个成功的匹配


In [53]:
import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
# result = re.match('Hello.*?(\d+).*?Extra', content)
result = re.search('Hello.*?(\d+).*?Extra', content)
print(result.group())
print(result.group(1))

Hello 1234567 World_This is a Regex Demo Extra
1234567


> 所以优先使用search方法

## 动手练习

In [18]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>'''
# 匹配出齐秦：往事随风
result = re.search('<li.*?active.*?singer="(\w{2})">(.*?)</a>',html,re.S)
print(result.group(1),result.group(2))

#在python中\w可以匹配中文（一个\w可以匹配一个汉字），如果声明re.A就表示仅支持英文
result1 = re.search('<li.*?6.mp3.*?singer="(.*?)".*?</i>(\S+)</a>',html,re.S) 
print(result1.group(1),result1.group(2))

齐秦 往事随风
邓丽君 但愿人长久


## re.findall
* 搜索字符串，以列表的形式返回全部能匹配的子串

In [4]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

# results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)
print(results)#一个列表的形式
print(type(results))
for value in results:
    print(value)
    print(value[1],value[2],value[0])

[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'), ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '但愿人长久')]
<class 'list'>
('/2.mp3', '任贤齐', '沧海一声笑')
任贤齐 沧海一声笑 /2.mp3
('/3.mp3', '齐秦', '往事随风')
齐秦 往事随风 /3.mp3
('/4.mp3', 'beyond', '光辉岁月')
beyond 光辉岁月 /4.mp3
('/5.mp3', '陈慧琳', '记事本')
陈慧琳 记事本 /5.mp3
('/6.mp3', '邓丽君', '但愿人长久')
邓丽君 但愿人长久 /6.mp3


## re.sub
* （substitution）替换字符串中每一个匹配的子串后返回替换后的字符串

In [8]:
import re

content = "Hello 1234567 World_This is a Regex"
sub_content = re.sub('\d+','666',content)
print(sub_content)

Hello 666 World_This is a Regex


In [20]:
import re

content = "Hello 1234567 World_This 2344 is a3d Regex"
sub_content = re.sub('(\d+)',r'\1+666',content)#\1=(\d+)的所有内容
print(sub_content)

Hello 1234567+666 World_This 2344+666 is a3+666d Regex


In [26]:
import re

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

sub_html = re.sub('(<a.*?>|</a>)','',html)#将所有的a标签替换成空
print(sub_html)
sub_html1 = re.sub('<li.*?>|</li>','',sub_html)
print("====")
# print(type(sub_html1))
sub_html2 = re.sub('\n|\s+',' ',sub_html1)
print(sub_html2)

sub_content = re.findall('<li.*?>(.*?)</li>',sub_html,re.S)
print(sub_content)
for value in sub_content:
    print(value.strip())

<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            沧海一声笑
        </li>
        <li data-view="4" class="active">
            往事随风
        </li>
        <li data-view="6">光辉岁月</li>
        <li data-view="5">记事本</li>
        <li data-view="5">
            但愿人长久
        </li>
    </ul>
</div>
====
<div id="songs-list">  <h2 class="title">经典老歌</h2>  <p class="introduction">  经典老歌列表  </p>  <ul id="list" class="list-group">  一路上有你  沧海一声笑  往事随风  光辉岁月  记事本  但愿人长久  </ul> </div>
['一路上有你', '\n            沧海一声笑\n        ', '\n            往事随风\n        ', '光辉岁月', '记事本', '\n            但愿人长久\n        ']
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久


## re.compile方法
* 将正则表达式编译成正则表达式对象

In [31]:
import re

content = '''Hello 1234567 World_This
 is a Regex Demo'''
pattern = re.compile('Hel.*Demo$',re.S)#提高了模式的复用性
result = re.match(pattern,content)
print(result.group())
#equal to :
result1 = re.match('Hel.*?Demo$',content,re.S)
print(result1,result1.group(),sep="\n")

Hello 1234567 World_This
 is a Regex Demo
<_sre.SRE_Match object; span=(0, 41), match='Hello 1234567 World_This\n is a Regex Demo'>
Hello 1234567 World_This
 is a Regex Demo


## Execise

In [33]:
import requests

response = requests.get("https://book.douban.com/").text
print(response)



<!DOCTYPE html>
<html lang="zh-CN" class=" book-new-nav">
  <head>
    <meta charset="utf-8">
    <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />
    <meta http-equiv="Pragma" content="no-cache">
    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
    <meta http-equiv="Expires" content="Sun, 6 Mar 2005 01:00:00 GMT">
    
  <meta http-equiv="mobile-agent" content="format=xhtml; url=http://m.douban.com/book/">
  <meta name="keywords" content="豆瓣读书,新书速递,畅销书,书评,书单"/>
  <meta name="description" content="记录你读过的、想读和正在读的书，顺便打分，添加标签及个人附注，写评论。根据你的口味，推荐适合的书给你。" />
  <meta name="verify-v1" content="EYARGSAVd5U+06FeTmxO8Mj28Fc/hM/9PqMfrlMo8YA=">
  <meta property="wb:webmaster" content="7c86191e898cd20d">
  <meta property="qc:admins" content="1520412177364752166375">

    <title>
    豆瓣读书
</title>
    <link rel="shortcut icon" href="https://img3.doubanio.com/favicon.ico"
      type="image/x-icon">
    <script src="https://img3.doubanio

In [43]:
import re
pattern = re.compile('<li.*?info.*?more-meta.*?title">(.*?)</h4>.*?author">(.*?)</span>.*?year">(.*?)</span>.*?publisher">(.*?)</span>',re.S)
result = re.findall(pattern,response)
# print(result)
for title,author,year,publisher in result:
    title = re.sub('\s','',title)
    author = re.sub('\s','',author)
    year = re.sub('\s','',year)
    publisher = re.sub('\s','',publisher)
#     print(title.split(),author.split(),year.split(),publisher.split())
    print(title,author,year,publisher,sep="   ")

童话中人：动物农场   [美]比尔•威灵翰著&nbsp;/&nbsp;[美]马库斯·白金汉   2019-1   世界图书出版公司
过剩之地   [美]莫妮卡·普拉萨德   2019-1-1   上海人民出版社
对着天空散漫射击   李柳杨   2019-3   上海文艺出版社
新艺术的震撼   [澳]罗伯特·休斯   2019-1   理想国|中国美术学院出版社
死亡终局   [英]阿加莎·克里斯蒂   2019-1   新星出版社
何为“成田”   [日]宇泽弘文   2019-1   生活·读书·新知三联书店
2018年中国侦探推理小说精选   韩璇选编&nbsp;/&nbsp;张蓉&nbsp;/&nbsp;铁血阿郎&nbsp;/&nbsp;贺清华&nbsp;/&nbsp;宜铭&nbsp;/&nbsp;王珂&nbsp;/&nbsp;顾建平&nbsp;/&nbsp;漆雕醒&nbsp;/&nbsp;香无&nbsp;/&nbsp;易诺&nbsp;/&nbsp;拟南芥&nbsp;/&nbsp;寒汐&nbsp;/&nbsp;轩弦&nbsp;/&nbsp;河狸&nbsp;/&nbsp;杜辉&nbsp;/&nbsp;阿真   2019-1   长江文艺出版社
女性与权力   [英]玛丽·比尔德&nbsp;/&nbsp;MaryBeard   2019-2   后浪丨天津人民出版社
乳房   [美]菲利普·罗斯   2019-1-24   上海译文出版社
艺术精神   [美]罗伯特·亨利   2019-1-1   上海人民美术出版社
读心师   向林   2019-2-1   湖南文艺出版社
拜占庭帝国史   [美]A.A.瓦西列夫   2019-1   商务印书馆
火的记忆3   [乌拉圭]爱德华多·加莱亚诺   2019-2-1   作家出版社
物体系   [法]让·鲍德里亚   2019-1   上海人民出版社
圆屋   [美]厄德里克(LouiseErdrich)   2019-1   上海译文出版社
见字如来   张大春   2019-1   理想国|天地出版社
像火焰像灰烬   程姬   2019-1   四川文艺出版社
美的进化   [美]理查德·O.普鲁姆（RichardO.Prum）   2019-1   中信出版集团·鹦鹉螺
关于同一个男人简单生活的想象 

In [1]:
import requests
response = requests.get("https://yz.chsi.com.cn/").text
print(response)







<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1">
        <title>中国研究生招生信息网</title>
        <meta name="robots" content="all" />
        <meta name="keywords" content="考研,研究生招生,研究生网上报名,网上调剂,专业学位,招生简章" />
        <meta name="description" content="中国研究生招生信息网是隶属于教育部的以考研为主题的官方网站，是教育部唯一指定的研究生招生考试网上报名及调剂网站，主要提供研究生网上报名及调剂、专业目录查询、在线咨询、院校信息、报考指南和考试辅导等多方面的服务和信息指导。" />
        


<link rel="dns-prefetch" href="//axvert.chsi.com.cn">
<link rel="dns-prefetch" href="//t1.chei.com.cn">
<link rel="dns-prefetch" href="//t2.chei.com.cn">
<link rel="dns-prefetch" href="//t3.chei.com.cn">
<link rel="dns-prefetch" href="//t4.chei.com.cn">
<link rel="dns-prefetch" href="//www.google-analytics.com">
<link rel="stylesheet" href="https://t1.chei.com.cn/common/ch/iconfont.css">
<link rel="stylesheet" href="https://t4.chei.com.cn/yz/assets/css/yz.min.css?20180523">
<script src="https://t1.chei.co

In [14]:
import re
s = re.findall('<li.*?clearfix.*?<a href="(.*?)".*?>(.*?)</a>',response,re.S)
# print(s)
# print(type(s))
for x,y in s:
    
    if(x[11:26]=='201902/20190214'):
        print(x,y)

/kyzx/kydt/201902/20190214/1764033591.html 关于公布云南省2019年全国硕士研究生招生考试初试成绩的通知
/kyzx/kydt/201902/20190214/1764033584.html 广西2019年硕士研究生招生考试成绩查询办法
/kyzx/kydt/201902/20190214/1764019212.html 河北省2019年全国硕士研究生招生考试成绩复查办法
/kyzx/tjxx/201902/20190214/1764299179.html 北京大学工学院“创新菁英计划”2019年调剂通知
