# 正则表达式

[在线测试](http://tool.oschina.net/regex)

### 常见匹配内容


````
\w      匹配字母数字及下划线
\W      匹配f非字母数字下划线
\s      匹配任意空白字符，等价于[\t\n\r\f]
\S      匹配任意非空字符
\d      匹配任意数字
\D      匹配任意非数字
\A      匹配字符串开始
\Z      匹配字符串结束，如果存在换行，只匹配换行前的结束字符串
\z      匹配字符串结束
\G      匹配最后匹配完成的位置
\n      匹配一个换行符
\t      匹配一个制表符
^       匹配字符串的开头
$       匹配字符串的末尾
.       匹配任意字符，除了换行符，re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符
[....]  用来表示一组字符，单独列出：[amk]匹配a,m或k
[^...]  不在[]中的字符：[^abc]匹配除了a,b,c之外的字符
*       匹配0个或多个的表达式
+       匹配1个或者多个的表达式
?       匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{n}     精确匹配n前面的表示
{m,m}   匹配n到m次由前面的正则表达式定义片段，贪婪模式
a|b     匹配a或者b
()      匹配括号内的表达式，也表示一个组

```

![](http://r.photo.store.qq.com/psb?/V12RfvTp2UiL6h/LZWPM5rGW05epogxdZgK.TjUZfN5SjaucMriZuA15rk!/r/dPMAAAAAAAAA)

## re 模块

* **re模块** 中提供很多函数，这些函数和方法可以帮助你使用正则表达式对字符串进行匹配、提取和替换等操作，你也可以将正则表达式编译为对象后，通过对象的方法对字符串进行相同的操作。

以下为将要介绍的re模块里的函数和方法：

|函数|功能|函数|功能|
|:-:|:-:|:-:|:-:|
|**re.compile ( )**|将字符串形式的正则表达式编译为Pattern对象|**re.match ( )**|匹配字符串开头|
|**re.search ( )**|从左到右扫描字符串，返回对应第一个匹配对象|**re.finall ( )**|匹配的子字符串以列表形式返回|
|**re.finditer ( )**|返回匹配访问顺序|**re.split ( )**|按照能够匹配的子串将string分割后返回列表|
|**re.sub ( )**| 输出修改替换后的字符串|**re.subn ( )**|返回一个元组（新字符串，替换次数)|
|**re.escape ( )**|转义除ASCII字母、数字和下划线的所有字符|**re.purge ( )**|清除所有正则表达式缓存|

* **函数句法** 

【例】** re.match(pattern, string, flags=0)**

      pattern：需要匹配的正则表达式

      string：需要被匹配的字符串

      flags：匹配模式，取值可以使用按位或运算符'|'表示同时生效，比如 re.compile('pattern', re.I | re.M)
      
|flags|功能|
|:-|:-|  
|**re.I(re.IGNORECASE)**  |忽略大小写（括号内是完整写法，下同)|
|**re.M(MULTILINE)**  |多行模式，'^'和'$'匹配每行的开头和结尾|
|**re.S(DOTALL)**  |点任意匹配模式，'.'匹配任意字符，包括换行符|
|**re.L(LOCALE)**  |使预定字符类 \w \W \b \B \s \S 取决于当前区域设定|
|**re.U(UNICODE)**  |使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性|
|**re.X(VERBOSE)**  |详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释|
|**re.A(ASCII)**  |在unicode字符串模式的情况下影响\w, \W, \b, \B, \d, \D, \s, \S，让它们只匹配ASCII码,在bytes字符串模式下会被忽略|


In [18]:
import re

content= "Hello 123 4567 World_This is a regex Demo"

result = re.match(r'^Hello\s\d{3}\s\d{4}\s\w{10}',content)

In [19]:
print(result)

<re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>


In [20]:
result.group() #输出匹配结果

'Hello 123 4567 World_This'

In [22]:
result.span() #返回匹配字符范围

(0, 25)

### 匹配目标

In [24]:
result = re.match(r'^Hello\s(\d{3}\s\d{4})\s\w{10}',content)

In [29]:
result.group(1) #匹配的第1个小括号里的内容

'123 4567'

### 贪婪匹配

In [43]:
content = "Hello 1234567 World_This is a regex Demo"

result = re.match(r'^Hello\s(\d+).*Demo$',content)

In [44]:
result.group(1)

'1234567'

In [45]:
result = re.match(r'^Hello\s(\d+?).*Demo$',content)
result.group(1)

'1'

In [46]:
result = re.match(r'^H.*(\d+).*Demo$',content)
result.group(1)

'7'

In [48]:
result = re.match(r'^H.*?(\d+).*Demo$',content)
result.group(1)

'1234567'

### 区配模式

In [52]:
content = '''Hello 1234567 World_This
is a regex Demo'''

result = re.match(r'^Hello.*?(\d+).*Demo$',content, re.S)

In [53]:
result

<re.Match object; span=(0, 40), match='Hello 1234567 World_This\nis a regex Demo'>

### 转义

In [59]:
content= "price is $5.00"

result = re.match(r'^p.*(\$\d.\d\d)$',content)
print(result)
print(result.group(1))

<re.Match object; span=(0, 14), match='price is $5.00'>
$5.00


### 小结

尽量使用泛匹配，使用括号得到匹配目标，尽量使用非贪婪模式，有换行符就用re.S
强调re.match是从字符串的起始位置匹配一个模式

In [82]:
#例子提取歌名和歌手

html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''

In [123]:
result = re.findall(r'<a href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)

In [105]:
result

[('/2.mp3', '任贤齐', '沧海一声笑'),
 ('/3.mp3', '齐秦', '往事随风'),
 ('/4.mp3', 'beyond', '光辉岁月'),
 ('/5.mp3', '陈慧琳', '记事本'),
 ('/6.mp3', '邓丽君', '但愿人长久')]

In [94]:
result = re.search(r'<a href.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result.group(0),result.group(1),result.group(2))

<a href="/2.mp3" singer="任贤齐">沧海一声笑</a> 任贤齐 沧海一声笑


In [97]:
result = re.search(r'<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)
print(result.group(0),result.group(1),result.group(2))

<li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a> 齐秦 往事随风


In [143]:
result = re.findall(r'<li.*?>\s*?(<a href.*?>)?(\w+)(</a>)?\s*?</li>',html)
result

[('', '一路上有你', ''),
 ('<a href="/2.mp3" singer="任贤齐">', '沧海一声笑', '</a>'),
 ('<a href="/3.mp3" singer="齐秦">', '往事随风', '</a>'),
 ('<a href="/4.mp3" singer="beyond">', '光辉岁月', '</a>'),
 ('<a href="/5.mp3" singer="陈慧琳">', '记事本', '</a>'),
 ('<a href="/6.mp3" singer="邓丽君">', '但愿人长久', '</a>')]

## re.sub

In [1]:
#用空替换上面内容中的数字

import re

content = "Extra things hello 123455 World_this is a regex Demo extra things"

content = re.sub('\d+','',content)
print(content)

Extra things hello  World_this is a regex Demo extra things


In [11]:
# 用原有数字+789替换现有的数字

content = "Extra things hello 123455 World_this is a regex Demo 333 extra things"

re.sub(r'(\d+)',r'\1 789',content)

'Extra things hello 123455 789 World_this is a regex Demo 333 789 extra things'

## re.compile

In [20]:
#匹配下面的字符串

content= """hello 12345 world_this
123 fan
"""

result = re.compile(r'^he.*?fan$',re.S)

In [25]:
result.match(content).group(0)

'hello 12345 world_this\n123 fan'

#### 实例

In [6]:
import requests
import re

response = requests.get('https://book.douban.com/')

In [7]:
response.raise_for_status,response.encoding

(<bound method Response.raise_for_status of <Response [200]>>, 'utf-8')

In [8]:
html = response.text

In [10]:
re.findall(r'<li.*?class="cover".*?<a href="(.*?)" title="(.*?)">.*?<div class="author">(.*?)</div>'
           ,html,re.S)

[('https://book.douban.com/subject/33400116/?icn=index-latestbook-subject',
  '悬崖上的谋杀',
  '\n                [英] 阿加莎·克里斯蒂\n              '),
 ('https://book.douban.com/subject/30420870/?icn=index-latestbook-subject',
  '王权派的革命',
  '\n                埃里克·纳尔逊\n              '),
 ('https://book.douban.com/subject/30419379/?icn=index-latestbook-subject',
  '佩恩先生',
  '\n                [智利] 罗贝托·波拉尼奥\n              '),
 ('https://book.douban.com/subject/33435992/?icn=index-latestbook-subject',
  '思想史研究课堂讲录（增订版）',
  '\n                葛兆光\n              '),
 ('https://book.douban.com/subject/30466204/?icn=index-latestbook-subject',
  '赖床的男人',
  '\n                [英]戴维·洛奇\n              '),
 ('https://book.douban.com/subject/33387440/?icn=index-latestbook-subject',
  '我在挪威做木匠',
  '\n                [挪] 奥勒·托斯滕森\n              '),
 ('https://book.douban.com/subject/33430542/?icn=index-latestbook-subject',
  '沙漏做招牌的疗养院',
  '\n                [波兰] 布鲁诺·舒尔茨\n              '),
 ('https://book.douban

In [31]:
response.text



### 校验数字的表达式

```
1 数字：^[0-9]*$
 2 n位的数字：^\d{n}$
 3 至少n位的数字：^\d{n,}$
 4 m-n位的数字：^\d{m,n}$
 5 零和非零开头的数字：^(0|[1-9][0-9]*)$
 6 非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$
 7 带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})?$
 8 正数、负数、和小数：^(\-|\+)?\d+(\.\d+)?$
 9 有两位小数的正实数：^[0-9]+(.[0-9]{2})?$
10 有1~3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$
11 非零的正整数：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
12 非零的负整数：^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
13 非负整数：^\d+$ 或 ^[1-9]\d*|0$
14 非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
15 非负浮点数：^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
16 非正浮点数：^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
17 正浮点数：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
18 负浮点数：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
19 浮点数：^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

```

### 校验字符的表达式

```
 1 汉字：^[\u4e00-\u9fa5]{0,}$
 2 英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
 3 长度为3-20的所有字符：^.{3,20}$
 4 由26个英文字母组成的字符串：^[A-Za-z]+$
 5 由26个大写英文字母组成的字符串：^[A-Z]+$
 6 由26个小写英文字母组成的字符串：^[a-z]+$
 7 由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$
 8 由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$
 9 中文、英文、数字包括下划线：^[\u4E00-\u9FA5A-Za-z0-9_]+$
10 中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
11 可以输入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+
12 禁止输入含有~的字符：[^~\x22]+
```

### 特殊需求表达式

```
 1 Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
 2 域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
 3 InternetURL：[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
 4 手机号码：^(13[0-9]|14[0-9]|15[0-9]|16[0-9]|17[0-9]|18[0-9]|19[0-9])\d{8}$ (由于工信部放号段不定时，所以建议使用泛解析 ^([1][3,4,5,6,7,8,9])\d{9}$)
 5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX)：^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$ 
 6 国内电话号码(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7} 
 7 18位身份证号码(数字、字母x结尾)：^((\d{18})|([0-9x]{18})|([0-9X]{18}))$
 8 帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
 9 密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^[a-zA-Z]\w{5,17}$
10 强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$  
11 日期格式：^\d{4}-\d{1,2}-\d{1,2}
12 一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$
13 一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$ 
14 钱的输入格式：
15    1.有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000"：^[1-9][0-9]*$ 
16    2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式：^(0|[1-9][0-9]*)$ 
17    3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号：^(0|-?[1-9][0-9]*)$ 
18    4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分：^[0-9]+(.[0-9]+)?$ 
19    5.必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的：^[0-9]+(.[0-9]{2})?$ 
20    6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样：^[0-9]+(.[0-9]{1,2})?$ 
21    7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样：^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$ 
22    8.1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$ 
23    备注：这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里
24 xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
25 中文字符的正则表达式：[\u4e00-\u9fa5]
26 双字节字符：[^\x00-\xff]    (包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计2，ASCII字符计1))
27 空白行的正则表达式：\n\s*\r    (可以用来删除空白行)
28 HTML标记的正则表达式：<(\S*?)[^>]*>.*?</\1>|<.*? />    (网上流传的版本太糟糕，上面这个也仅仅能部分，对于复杂的嵌套标记依旧无能为力)
29 首尾空白字符的正则表达式：^\s*|\s*$或(^\s*)|(\s*$)    (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式)
30 腾讯QQ号：[1-9][0-9]{4,}    (腾讯QQ号从10000开始)
31 中国邮政编码：[1-9]\d{5}(?!\d)    (中国邮政编码为6位数字)
32 IP地址：\d+\.\d+\.\d+\.\d+    (提取IP地址时有用)
33 IP地址：((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))
        ```

### 练习

#### 基础题

1、编写一个函数匹配包含字母'z'的单词

In [40]:
re.findall(r'\b\w*z\w*\b','da;fkdjdafa zoo zerbra a;dfa dafzedadaf')

['zoo', 'zerbra', 'dafzedadaf']

2、编写一个函数提取字符串中的第一个单词

In [41]:
re.findall(r'^\w*\b','dafkdjdafa zoo zerbra a;dfa dafzedadaf')

['dafkdjdafa']

3、调出字符串'AV is largest Analytics community of India'中每个字母Extract each character (提示：用“\w“)

In [43]:
re.findall(r'\w','AV is largest Analytics community of India')

['A',
 'V',
 'i',
 's',
 'l',
 'a',
 'r',
 'g',
 'e',
 's',
 't',
 'A',
 'n',
 'a',
 'l',
 'y',
 't',
 'i',
 'c',
 's',
 'c',
 'o',
 'm',
 'm',
 'u',
 'n',
 'i',
 't',
 'y',
 'o',
 'f',
 'I',
 'n',
 'd',
 'i',
 'a']

4、提取出字符串'AV is largest Analytics community of India'中每个单词的前两个字母(提示：用“\b“)

In [44]:
re.findall(r'\b\w\w','AV is largest Analytics community of India')

['AV', 'is', 'la', 'An', 'co', 'of', 'In']

#### 中级题

1、编写一个函数将字符串中的'Road'简写为'Rd.'

In [48]:
re.sub(r'\bRoad\b','Rd.','xinghua Road, rongjing west Road,weieRoad jhfkgkgRoadjkf;ajfdks')

'xinghua Rd., rongjing west Rd.,weieRoad jhfkgkgRoadjkf;ajfdks'

2、编写一个函数字符串是否为带2-3位小数的正数或负数

In [91]:
def xiaoshu(s):
    if re.match(r'-?\d+.\d{2,3}$',s):
        return True
    else:
        return False
    
print(xiaoshu('5.4'))
print(xiaoshu('-532432.32'))
print(xiaoshu('2432.3212'))
print(xiaoshu('dd2.3'))

False
True
False
False


3、提取出字符串'Amit 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009'中的年份(提示："\d"提取数字)

In [97]:
s = 'Amit 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009'

re.findall(r'\d\d-\d\d-(\d{4})\b',s)

['2007', '2011', '2009']

4、你想在字符串 'xyz alice-b@google.com purple monkey'中找到邮箱地址.(提示：用r'\w+@\w+'模式)

In [109]:
s = 'xyz alice-b@google.com purple monkey'

re.findall(r'\s(.*?@\w+.\w+)\s',s)

['alice-b@google.com']

### 挑战题

1、国内电话号码(0511-4405222、021-87888822)，编写一个函数检查电话号码是否合格

In [119]:
def is_telephone(s):
    result = re.match(r'\d{4}-\d{7}|\d{3}-\d{8}$',s)
    if result:
        return True
    else:
        return False

print(is_telephone('0511-4405222'))
print(is_telephone('021-87888822'))
print(is_telephone('05177-4405222'))
print(is_telephone('021-8788882233'))
print(is_telephone('021v-88882233'))

True
True
False
False
False


2、密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)，编写一个函数检查密码是否合格

In [131]:
def check_password(s):
    if re.match(r'^[A-Za-z]\w{5,17}$',s):
        return True
    else:
        return False

print(check_password('ydfnasdfowiejjkfkjfioe'))
print(check_password('adreamed'))
print(check_password('1234555'))
print(check_password('a12345'))

False
True
False
True
