# 什么是正则表达式？

> 正则表达式是一组由字母和符号组成的特殊文本，它可以用来从文本中找出满足你想要的格式的句子。

一个正则表达式是一种从左到右匹配主体字符串的模式。 “Regular expression”这个词比较拗口，我们常使用缩写的术语“regex”或“regexp”。 正则表达式可以从一个基础字符串中根据一定的匹配模式替换文本中的字符串、验证表单、提取字符串等等。

想象你正在写一个应用，然后你想设定一个用户命名的规则，让用户名包含字符、数字、下划线和连字符，以及限制字符的个数，好让名字看起来没那么丑。 我们使用以下正则表达式来验证一个用户名：

![](https://pptwinpics.oss-cn-beijing.aliyuncs.com/regexp-cn_20200225142334.png)

以上的正则表达式可以接受 `john_doe`、`jo-hn_doe`、`john12_as`。 但不匹配`Jo`，因为它包含了大写的字母而且太短了。

让我们用 Python 来实现一下。

# Python 正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

本章节主要介绍Python中常用的正则表达式处理函数。

## re.match 方法

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法：

```
re.match(pattern, string, flags=0)
```

函数参数说明：


|参数|	描述|
|----|---|
|pattern|	匹配的正则表达式|
|string|	要匹配的字符串。|
|flags|	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。|

参见：[正则表达式修饰符 - 可选标志]()

匹配成功`re.match`方法返回一个匹配的对象，否则返回`None`。

我们可以使用`group(num)` 或 `groups()` 匹配对象函数来获取匹配表达式。

In [3]:
#!/usr/bin/python
# -*- coding: UTF-8 -*- 
 
import re
print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

(0, 3)
None


In [10]:
import re
# re.match 返回一个Match Object 对象
# 对象提供了 group() 方法，来获取匹配的结果
result = re.match("hello","hello,world")
if result:
    print(result.group())
else:
    print("匹配失败!")

hello


In [6]:
import re
a = r"umji"
match = re.search(a,'umji isbest umji inworld')
if match:
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())
    print(type(match.group()))

umji
0
4
(0, 4)
<class 'str'>


|方法名称|	作用|
|-------|----|
|group|	以str形式返回对象中match的元素|
|start|	返回开始位置|
|end|	返回结束位置|
|span|	以tuple形式返回范围|

## re.search 方法

`re.search()`函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回，如果字符串没有匹配，则返回None。

```
re.search(pattern, string, flags=0)
```

要求：匹配出文章阅读的次数

In [11]:
import re

ret = re.search(r"\d+", "阅读次数为 9999")
print(ret.group())

9999


## match()和search()的区别：

- `match()`函数只检测RE是不是在string的开始位置匹配，
- `search()`会扫描整个string查找匹配
- `match()`只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match()就返回none

举例说明：

In [12]:
import re
print(re.match('super', 'superstition').span())

(0, 5)


In [13]:
print(re.match('super','insuperable'))


None


In [14]:
print(re.search('super','superstition').span())


(0, 5)


In [15]:
print(re.search('super','insuperable').span())


(2, 7)


## re.sub 方法（检索和替换）
Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法：
```
re.sub(pattern, repl, string, count=0, flags=0)

```

参数：

- pattern : 正则中的模式字符串。
- repl : 替换的字符串，也可为一个函数。
- string : 要被查找替换的原始字符串。
- count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。


In [17]:
#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import re
 
phone = "2004-959-559 # 这是一个国外电话号码"
 
# 删除字符串中的 Python注释 
num = re.sub(r'#.*$', "", phone)
print("电话号码是: ", num)
 
# 删除非数字(-)的字符串 
num = re.sub(r'\D', "", phone)
print("电话号码是 : ", num)

电话号码是:  2004-959-559 
电话号码是 :  2004959559


### repl 参数也可以是一个函数

以下实例中将字符串中的匹配的数字乘以 2：

In [18]:
#!/usr/bin/python
# -*- coding: UTF-8 -*-
 
import re
 
# 将匹配的数字乘以 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

A46G8HFD1134


## re.compile 方法
compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：

```
re.compile(pattern[, flags])
```

参数：

- pattern : 一个字符串形式的正则表达式

- flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

    - re.I 忽略大小写
    - re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    - re.M 多行模式
    - re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
    - re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    - re.X 为了增加可读性，忽略空格和 # 后面的注释
实例

In [25]:
import re
pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
m = pattern.match('one12twothree34four')        # 查找头部，没有匹配
print(m)

m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配
print(m)

m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配
print(m)

print(m.group(0))   # 可省略 0
print(m.start(0))   # 可省略 0
print(m.end(0))
print(m.span(0))

None
None
<re.Match object; span=(3, 5), match='12'>
12
3
5
(3, 5)


在上面，当匹配成功时返回一个 Match 对象，其中：

- `group([group1, …])` 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
- `start([group])` 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
- `end([group])` 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
- `span([group])` 方法返回 (start(group), end(group))。

In [28]:
import re
pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)   # re.I 表示忽略大小写
m = pattern.match('Hello World Wide Web')
print(m)                               # 匹配成功，返回一个 Match 对象
print(m.group(0))                            # 返回匹配成功的整个子串
print(m.span(0) )                            # 返回匹配成功的整个子串的索引
print(m.group(1))                            # 返回第一个分组匹配成功的子串
print(m.span(1) )                            # 返回第一个分组匹配成功的子串的索引
print(m.group(2))                            # 返回第二个分组匹配成功的子串
print(m.span(2) )                            # 返回第二个分组匹配成功的子串
print(m.groups())                            # 等价于 (m.group(1), m.group(2), ...)
print(m.group(3))                            # 不存在第三个分组

<re.Match object; span=(0, 11), match='Hello World'>
Hello World
(0, 11)
Hello
(0, 5)
World
(6, 11)
('Hello', 'World')


IndexError: no such group

## re.findall 方法

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

语法格式为：

```
findall(string[, pos[, endpos]])
```
参数：

- `string` : 待匹配的字符串。
- `pos `: 可选参数，指定字符串的起始位置，默认为 0。
- `endpos` : 可选参数，指定字符串的结束位置，默认为字符串的长度。

查找字符串中的所有数字：

In [29]:
# -*- coding:UTF8 -*-
 
import re
 
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)  # 注意左闭右开
 
print(result1)
print(result2)

['123', '456']
['88', '12']


## re.finditer 方法

和 `findall` 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

```
re.finditer(pattern, string, flags=0)
```

|参数|	描述|
|----|------|
|pattern|	匹配的正则表达式|
|string|	要匹配的字符串。|
|flags|	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。|

参见：正则表达式修饰符 - 可选标志

In [30]:
# -*- coding: UTF-8 -*-
 
import re
 
it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )

12
32
43
3


## re.split 方法

split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

```
re.split(pattern, string[, maxsplit=0, flags=0])

```

|参数|	描述|
|----|------|
|pattern|	匹配的正则表达式|
|string|	要匹配的字符串。|
|maxsplit|	分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。|
|flags|	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。|

参见：正则表达式修饰符 - 可选标志

In [32]:
import re
re.split('\W+', 'runoob, runoob, runoob.')

['runoob', 'runoob', 'runoob', '']

In [33]:
re.split('(\W+)', ' runoob, runoob, runoob.') 

['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']

In [34]:
re.split('\W+', ' runoob, runoob, runoob.', 1) 

['', 'runoob, runoob, runoob.']

In [35]:
re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割

['', 'h', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd', '']

## 正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

https://www.runoob.com/python/python-reg-expressions.html#flags

# 目录

- [1. 基本匹配](#1.-基本匹配)
- 2. 元字符
    - 2.1 点运算符 .
    - 2.2 字符集
        - [2.2.1 否定字符集](#2.2.1-否定字符集)
    - 2.3 重复次数
        - 2.3.1 * 号
        - [2.3.2 + 号](#2.3.2-+-号)
        - 2.3.3 ? 号
    - 2.4 {} 号
    - 2.5 (...) 特征标群
    - 2.6 | 或运算符
    - 2.7 转码特殊字符
    - 2.8 锚点
        - 2.8.1 ^ 号
        - 2.8.2 $ 号
- 3. 简写字符集
- 4. 零宽度断言(前后预查)
    - 4.1 ?=... 正先行断言
    - 4.2 ?!... 负先行断言
    - 4.3 ?<= ... 正后发断言
    - 4.4 ?<!... 负后发断言
- 5. 标志
    - 5.1 忽略大小写（Case Insensitive）
    - 5.2 全局搜索（Global search）
    - 5.3 多行修饰符（Multiline）

## 1. 基本匹配

正则表达式其实就是在执行搜索时的格式，它由一些字母和数字组合而成。 例如：一个正则表达式 the，它表示一个规则：由字母t开始，接着是h，再接着是e。

"the" => The fat cat sat on **the** mat.

[在线练习](https://regex101.com/r/dmRygT/1)

In [39]:
import re
print(re.search('the', ' The fat cat sat on the mat.').span())

(20, 23)


正则表达式`123`匹配字符串`123`。它逐个字符的与输入的正则表达式做比较。

正则表达式是大小写敏感的，所以`The`不会匹配`the`。

[在线练习](https://regex101.com/r/1paXsy/1)

In [48]:
import re
print(re.search('The', ' The fat cat sat on the mat.').span())

(1, 4)


## 2.元字符
正则表达式主要依赖于元字符。 元字符不代表他们本身的字面意思，他们都有特殊的含义。一些元字符写在方括号中的时候有一些特殊的意思。以下是一些元字符的介绍：

|元字符|	描述|
|----|----|
|.|	句号匹配任意单个字符除了换行符。|
|[ ]|	字符种类。匹配方括号内的任意字符。|
|[^ ]|	否定的字符种类。匹配除了方括号里的任意字符|
|*|	匹配>=0个重复的在*号之前的字符。|
|+|	匹配>=1个重复的+号前的字符。|
|?|	标记?之前的字符为可选.|
|{n,m}|	匹配num个大括号之间的字符 (n <= num <= m).|
|(xyz)|	字符集，匹配与 xyz 完全相等的字符串.|
|\||	或运算符，匹配符号前或后的字符.|
|\\|	转义字符,用于匹配一些保留的字符 [ ] ( ) { } . * + ? ^ $ \ ||
|^|	从开始行开始匹配.|
|\$|	从末端开始匹配.|


### 2.1 点运算符`.`

`.`是元字符中最简单的例子。 `.`匹配任意单个字符，但不匹配换行符。 例如，表达式`.ar`匹配一个任意字符后面跟着是`a`和`r`的字符串。

".ar" => The **car** **par**ked in the **gar**age.

[在线练习](https://regex101.com/r/xc9GkU/1)

In [52]:
import re
pattern = re.compile(r'.ar')                    # 用于匹配至少一个数字
m = pattern.findall('The car parked in the garage.')        # 查找头部，没有匹配
print(m)

['car', 'par', 'gar']


### 2.2 字符集

字符集也叫做字符类。 方括号用来指定一个字符集。 在方括号中使用连字符来指定字符集的范围。 在方括号中的字符集不关心顺序。 例如，表达式`[Tt]he` 匹配 `the` 和 `The`。

"[Tt]he" => **The** car parked in **the** garage.

In [53]:
import re
pattern = re.compile(r'[Tt]he')                    # 用于匹配至少一个数字
m = pattern.findall('The car parked in the garage.')        # 查找头部，没有匹配
print(m)

['The', 'the']


方括号的句号就表示句号。 表达式 `ar[.]` 匹配 `ar.`字符串

"ar[.]" => A garage is a good place to park a c**ar.**

In [55]:
import re
pattern = re.compile(r'ar[.]')                    # 用于匹配至少一个数字
m = pattern.findall('A garage is a good place to park a car.')        # 查找头部，没有匹配
print(m)

['ar.']


### 2.2.1 否定字符集
一般来说 `^` 表示一个字符串的开头，但它用在一个方括号的开头的时候，它表示这个字符集是否定的。 例如，表达式`[^c]ar` 匹配一个后面跟着ar的除了c的任意字符。

"[^c]ar" => The car **par**ked in the **gar**age.

In [56]:
import re
pattern = re.compile(r'[^c]ar')                    # 用于匹配至少一个数字
m = pattern.findall('The car parked in the garage.')        # 查找头部，没有匹配
print(m)

['par', 'gar']


## 2.3 重复次数

后面跟着元字符 `+` `，` `*` `or` `?` 的，用来指定匹配子模式的次数。 这些元字符在不同的情况下有着不同的意思。

### 2.3.1 `*` 号

`*`号匹配 在`*`之前的字符出现大于等于0次。 例如，表达式 `a*` 匹配0或更多个以a开头的字符。表达式`[a-z]*` 匹配一个行中所有以小写字母开头的字符串。

"[a-z]\*" => T**he car parked in the garage** #21.

In [57]:
import re
pattern = re.compile(r'[a-z]*')                    # 用于匹配至少一个数字
m = pattern.findall('The car parked in the garage.')        # 查找头部，没有匹配
print(m)

['', 'he', '', 'car', '', 'parked', '', 'in', '', 'the', '', 'garage', '', '']


`*`字符和`.`字符搭配可以匹配所有的字符`.*`。 `*`和表示匹配空格的符号`\s`连起来用，如表达式`\s*cat\s*`匹配0或更多个空格开头和0或更多个空格结尾的cat字符串。

"\s\*cat\s\*" => The fat **cat** sat on the con**cat**enation.

In [62]:
import re
pattern = re.compile(r'\s*cat\s*')                    # 用于匹配至少一个数字
m = pattern.findall('The fat cat sat on the concatenation.')        # 查找头部，没有匹配
print(m)

[' cat ', 'cat']


### 2.3.2 + 号

`+`号匹配`+`号之前的字符出现 `>=1` 次。 例如表达式`c.+t` 匹配以首字母c开头以t结尾，中间跟着至少一个字符的字符串。

"c.+t" => The fat **cat sat on the mat**.

In [64]:
import re
pattern = re.compile(r'c.+t*')                    # 用于匹配至少一个数字
m = pattern.findall('The fat cat sat on the concatenation.')        # 查找头部，没有匹配
print(m)

['cat sat on the concatenation.']


### 2.3.3 ? 号

在正则表达式中元字符 `?` 标记在符号前面的字符为可选，即出现 0 或 1 次。 例如，表达式 `[T]?he` 匹配字符串 he 和 The。

"[T]he" => **The** car is parked in the garage.

"[T]?he" => **The** car is parked in t**he** garage.

In [65]:
import re
pattern = re.compile(r'[T]he')                    # 用于匹配至少一个数字
m = pattern.findall('The fat cat sat on the concatenation.')        # 查找头部，没有匹配
print(m)

['The']


In [66]:
import re
pattern = re.compile(r'[T]?he')                    # 用于匹配至少一个数字
m = pattern.findall('The fat cat sat on the concatenation.')        # 查找头部，没有匹配
print(m)

['The', 'he']


### 2.4 {} 号

在正则表达式中 `{}` 是一个量词，常用来一个或一组字符可以重复出现的次数。 例如， 表达式 `[0-9]{2,3}` 匹配最少 2 位最多 3 位 0~9 的数字。

"[0-9]{2,3}" => The number was 9.**999**7 but we rounded it off to **10**.0.