# 使用正则表达式进行匹配

使用正则表达式进行文本提取、分隔、搜索、替换之前，需要了解如何使用正则表达式如何匹配字符串。

In [1]:
import re

## 字面字符匹配

最简单的正则表达式就是如何匹配字面意义的字符。例如下面使用 `re.search()` 来演示如何在文本中匹配字符 `re`：

In [2]:
s = 'Re is a Python regexes library'
match = re.match('re', s)
match is None

True

如果匹配成功 `re.search()` 函数会返回一个匹配对象，否则会返回`None`对象。使用自省函数`type()`来查看返回对象：

In [3]:
print(type(match))

<class 'NoneType'>


匹配对象有如下属性与方法来检查匹配结果：
- `m.re`，产生匹配对象的正则表达式对象
- `m.string`，产生匹配对象对应的文本
- `m.pos`，搜索起始位置
- `m.endpos()`，搜索结尾索引位置
- `m.group()`，匹配结果组
- `m.span()`，匹配结果起始索引与结尾索引位置
- `m.start()`，匹配结果在文本中初始位置
- `m.end()`，匹配结果在文本中终点位置

In [4]:
# 字符串与正则表达式
print(match.string, match.re)
# 搜索的起始与结尾索引未知
print(match.pos, match.endpos)

AttributeError: 'NoneType' object has no attribute 'string'

In [None]:
# 匹配结果
print(match.group(), match.span())
# 
print(match.start(), match.end())

由上述结果可知，在此正则表达式模式下，匹配结果位于文本的$[15,17)$处，结果字符串是`re`。

### 标记符

在正则表达式中可以用一些标记符来控制匹配的模式，使用位运算(`|`)可以指定多个标志符。例如，对于上面的例子，通过指定`re.I`标记符，使得在文本匹配时大小写不敏感，代码如下：

In [None]:
s = 'Re is a Python regexes library'
match = re.search('re', s, re.I)

In [None]:
# 匹配结果
print(match.group(), match.span())
# 
print(match.start(), match.end())

由上述结果可知，在此正则表达式模式下，匹配结果位于文本的$[0,2)$处，结果字符串是`Re`。

### 匹配函数的差别

`re.match()`函数会从文本起始处开始进行匹配，`re.match()` 函数则从文本的任意位置成匹配，二者只返回一个匹配结果；`re.findall()`与`re.finditer()`函数则会返回所有匹配结果，即返回列表或迭代器。

例如，在上面示例中，如果调用`re.match()`函数，则匹配会失败：

In [None]:
s = 'Re is a Python regexes library'
match = re.match('re', s)
match is None

在使用正则表达式`re`且用大小写不敏感模式，`re.findall()`函数会得到多个匹配结果：

In [None]:
s = 'Re is a Python regexes library'
match_list = re.findall('re', s, re.I)
match_iterator = re.finditer('re', s, re.I)
print(type(match_list), type(match_iterator))

`re.findall()`返回匹配字符串组成的列表，`re.finditer()`返回由匹配对象组成的迭代器：

In [None]:
for m in match_list:
    print(m)

In [None]:
for m in match_iterator:
    print(m.group(), m.span())
    print(m.start(), m.end())

## 字符与字符类匹配

### 特殊字符

如果正则表达式只会使用字面字符来进行匹配，那与字符串对象的操作不会差太多。正则表达式作为一种迷你语言，有些字符是有特殊意义的，称之为特殊字符。正则表达式的特殊字符包括如下：
1. `\`
2. `.`
3. `^`
4. `$`
5. `?`
6. `+`
7. `*`
8. `()`
9. `[]`
10. `{}`
11. `|`

如果要用正则表达式来匹配这些特殊字符，需要在这些特殊符号前面加上反斜杠`\`进行转义。这带来了另外一个问题，正则表达式用字符串来表示，而反斜杠`\` 是 Python 字符串的转义符，故而正则表达式字符串通常用原始字符串来表达。例如，要在文本中匹配是否有`({`，正则表达式可以表示如下：

In [None]:
s = """t0 = ({'x': 1, 'y': 2}, {'x': 3, 'y': 4})"""
pattern = r'\(\{'
match = re.search(pattern, s)
match

In [None]:
# 匹配结果
print(match.group(), match.span())

### 字符类

大多数情况下，正则表达式要匹配的不是某个特定字符，而是某个字符集中的任意一个。可以使用字符类来实现，即使用特殊字符方括号`[]`，包含 1 个或多个字符。例如，正则表达式`x[13579]`会在文本查找是否有`x1`, `x3`, `x5`, `x7`, `x9`，代码如下所示：

In [None]:
string = 'x0, x1, x2, x3, x4, x5, x6, x7, x8, x9'
pattern = r'x[13579]'
matchs = re.finditer(pattern, string)
for m in matchs:
    print(m.group(), m.span())

为了方便起见，可以使用连字符`-`来指定某个范围的字符，例如`[a-zA-Z0-9_]`用来表示字母数字与下划线字符。在下面实例中，使用`x[1-5]`来表示从`x1`到`x5`：

In [None]:
string = 'x0, x1, x2, x3, x4, x5, x6, x7, x8, x9'
pattern = r'x[1-5]'
matchs = re.finditer(pattern, string)
for m in matchs:
    print(m.group(), m.span())

还可以使用特殊符号`^`用来对字符类求非。例如`[^0-5]`，表示可以匹配除了从0到5之外的数字或字符，参见如下代码：

In [None]:
string = 'x0, x1, x2, x3, x4, x5, x6, x7, x8, x9, xa, xb'
pattern = r'x[^0-5]'
matchs = re.finditer(pattern, string)
for m in matchs:
    print(m.group(), m.span())

在正则表达式中，常常会用到一些字符集，如数字，字面等字符集，可以使用如下速记符来表示这些字符集：

|符号     |   含义 |
|:-------:|:-------|
| `.`   |匹配换行符之外的任意字符 |
| `\d`  | 匹配一个数字字符（Unicode）|
| `\D`	| 匹配一个非数字字符（Unicode）| 
| `\s`  | 匹配任何空白字符（Unicode）|
| `\S`  | 匹配任何非空白字符（Unicode）|
| `\w`  | 匹配一个单词字符（Unicode）|
| `\W`  | 匹配一个非单词字符（Unicode） |

在 Python 3 中，字符串都是 Unicode 编码，这里速记符表示的也是 Unicode 编码的字符集。在下面实例中，`\w`表示单词字符，中文的每个字都是一个单词字符：

In [None]:
string = '中文'
pattern = r'\w'
matchs = re.finditer(pattern, string)
for m in matchs:
    print(m.group(), m.span())

通过指定标记符 `re.ASCII`，上述速记符则用来表示 ASCII 编码对应的字符。例如`\w`相当于`[a-zA-Z0-9_]`，即匹配字母、数字、下划线。对于上面示例的中文来说，匹配不会成功：

In [None]:
string = '中文'
pattern = r'\w'
match = re.search(pattern, string, re.ASCII)
print(match)

使用正则表达式`'x[\w]'`则会匹配到如下结果：

In [None]:
string = 'x0, x1, x2, x3, x4, x5, x6, x7, x8, x9, xa, xb'
pattern = r'x[\w]'
matchs = re.finditer(pattern, string)
for m in matchs:
    print(m.group(), m.span())

## 限定符

在前面的正则表达式中，没有显式指定限定符（也称为量词），默认为匹配一次。正则表达式的限定符形式为`{m,n}`，表示使用该限定符的表达式必须匹配的最小次数与最大次数。例如对于正则表达式`fe{2,4}ling`，可以匹配的文本为`feeling`，`feeeling`或`feeeeling`。这种限定符`{m,n}`相对来说比较麻烦，正则表达式提供有一些简答写法，限定符方法包括如下：
- `*`，匹配次数为 0 或多次；
- `+`，匹配次数为 1 或多次；
- `?`，匹配次数为 0 或 1 次；
- `{n}`，匹配`n`次，`n` 是非负整数；
- `{n,}`，匹配最小次数为 `n`，最多次数不限；
- `{{n,m}}`，匹配最小次数为 `n`，最大次数为 `m`。

下面的实例来演示正则表达式限定符的使用方法：

In [None]:
# *   匹配次数 >=0 
for string in ['b', 'ab', 'aab']:
    match = re.search(r'a*', string)
    if match is not None:
        print(string, match.group(), match.span())
    else:
        print(string, match)

In [None]:
# +   匹配次数 >=1 
for string in ['b', 'ab', 'aab']:
    match = re.search(r'a+', string)
    if match is not None:
        print(string, match.group(), match.span())
    else:
        print(string, match)

In [None]:
# ?   匹配0或1次
for string in ['b', 'ab', 'aab']:
    match = re.search(r'a?b', string)
    if match is not None:
        print(string, match.group(), match.span())
    else:
        print(string, match)

In [None]:
# {n}   匹配n次
for string in ['b', 'ab', 'aab', 'aaab']:
    match = re.search(r'a{2}b', string)
    if match is not None:
        print(string, match.group(), match.span())
    else:
        print(string, match)

In [None]:
# {n, m}   匹配n到m次
for string in ['b', 'ab', 'aab', 'aaab']:
    match = re.search(r'a{1,2}b', string)
    if match is not None:
        print(string, match.group(), match.span())
    else:
        print(string, match)

In [None]:
# {n, }   匹配n到多次
for string in ['b', 'ab', 'aab', 'aaab']:
    match = re.search(r'a{1,}b', string)
    if match is not None:
        print(string, match.group(), match.span())
    else:
        print(string, match)

在匹配数字，空格，或一个单词时，使用限定符`+`可以很方便地写出正则表达式。如下实例：

In [5]:
# \d   匹配数字
for string in ['a123d', 'a1b3', 'abd', '1\t2\n']:
    match = re.search(r'\d+', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'a123d' 123 (1, 4)
'a1b3' 1 (1, 2)
'abd' None
'1\t2\n' 1 (0, 1)


In [6]:
# \D   匹配非数字
for string in ['a123d', 'a1b3', 'abd', '1\t2\n']:
    match = re.search(r'\D+', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'a123d' a (0, 1)
'a1b3' a (0, 1)
'abd' abd (0, 3)
'1\t2\n' 	 (1, 2)


In [7]:
# \s   匹配空白字符
for string in ['a  b', 'a\tb', 'ab\n', 'ac\r\fd', 'abadf']:
    match = re.search(r'\s+', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'a  b'    (1, 3)
'a\tb' 	 (1, 2)
'ab\n' 
 (2, 3)
'ac\r\x0cd'  (2, 4)
'abadf' None


In [8]:
# \S   匹配非空白字符
for string in ['a  b', 'a\tb', 'ab\n', 'ac\r\fd', 'abadf']:
    match = re.search(r'\S+', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'a  b' a (0, 1)
'a\tb' a (0, 1)
'ab\n' ab (0, 2)
'ac\r\x0cd' ac (0, 2)
'abadf' abadf (0, 5)


In [9]:
# \w   匹配单词
for string in ['aA912', 'a\tb', '012\n', '\t123']:
    match = re.search(r'\w+', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'aA912' aA912 (0, 5)
'a\tb' a (0, 1)
'012\n' 012 (0, 3)
'\t123' 123 (1, 4)


In [10]:
# \W   匹配非单词
for string in ['aA912', 'a\tb', '012\n', '\t123']:
    match = re.search(r'\W+', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'aA912' None
'a\tb' 	 (1, 2)
'012\n' 
 (3, 4)
'\t123' 	 (0, 1)


## 替换与分组

在使用正则表达式进行文本提取、搜索或替换时，有时需要可以匹配两个或多个方案中的任意一种正则表达式，可以使用交替字符`|`。有时需要把限定符应用到多个表达式上，则可以使用`()`来进行组合完成。

在下面实例中，想匹配具有不同后缀的文本：

In [11]:
# 交替字符|  
for string in ['x.py', 'x.r', 'x.jpg', 'x.cpp']:
    match = re.search(r'\.py|\.r|\.cpp', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'x.py' .py (1, 4)
'x.r' .r (1, 3)
'x.jpg' None
'x.cpp' .cpp (1, 5)


## 定位符

在正则表达式中，还可以使用定位符来限定匹配在文本中的位置。正则表达式的定位符有如下：
- `^`，字符串或行的开头
- `$`，字符串或行的末尾
- `\A`，字符串开头
- `\Z`，字符串末尾
- `\b`，单词开头或末尾
- `\B`，非单词开头或末尾

In [12]:
# ^  字符串或行的开头
for string in ['abc', 'a\nbc', 'bc\na']:
    match = re.search(r'^b', string, re.M)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'abc' None
'a\nbc' b (2, 3)
'bc\na' b (0, 1)


In [13]:
# $  字符串或行的末尾
for string in ['aba', 'ab\na', 'aa\nb']:
    match = re.search(r'a$', string, re.M)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'aba' a (2, 3)
'ab\na' a (3, 4)
'aa\nb' a (1, 2)


In [14]:
# \A   匹配字符串开头
for string in ['abc', 'a\nbc', 'bc\na']:
    match = re.search(r'\Ab', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'abc' None
'a\nbc' None
'bc\na' b (0, 1)


In [15]:
# \Z   匹配字符串结尾
for string in ['aba', 'ab\na', 'aa\nb']:
    match = re.search(r'a\Z', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'aba' a (2, 3)
'ab\na' a (3, 4)
'aa\nb' None


In [16]:
# \b   匹配单词
for string in ['Chapter 01', 'a Chapter', 'aChapter']:
    match = re.search(r'\bCha', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'Chapter 01' Cha (0, 3)
'a Chapter' Cha (2, 5)
'aChapter' None


In [17]:
# \B   匹配非单词
for string in ['Chapter 01', 'aptter', 'a Chapter']:
    match = re.search(r'\Bapt', string)
    if match is not None:
        print(repr(string), match.group(), match.span())
    else:
        print(repr(string), match)

'Chapter 01' apt (2, 5)
'aptter' None
'a Chapter' apt (4, 7)
