## re模块

https://blog.csdn.net/guo_qingxia/article/details/113979135

In [None]:
import re
print(dir(re))

### 匹配规则

#### 匹配单个字符

| 字符    | 功能	                      | 位置            |
|-------|--------------------------|---------------|
| .     | 匹配任意1个字符（除了\n）           |               |
| []    | 	匹配[ ]中列举的字符             |               |
| \d    | 匹配数字，即0-9	               | 可以写在字符集[...]中 |
| \D    | 匹配⾮数字，即不是数字	             | 可以写在字符集[...]中 |
| \s    | 匹配空⽩，即空格，tab键	           | 可以写在字符集[...]中 |
| \S    | 匹配⾮空⽩字符	                 | 可以写在字符集[...]中 |
| \w    | 匹配单词字符，即a-z、A-Z、0-9、_	   | 可以写在字符集[...]中 |
| \W    | 匹配⾮单词字符	                 | 可以写在字符集[...]中 |
| \w    | \w 匹配单词字符，即a-z、A-Z、0-9、_ |               |
| \W    | 匹配⾮单词字符                  |               |


#### 匹配多个字符

| 字符	    | 功能	                                        | 位置	           | 表达式实例	    | 完整匹配的字符串 |
|--------|--------------------------------------------|---------------|-----------|----------|
| *	     | 匹配前⼀个字符出现0次或者⽆限次，即可有可⽆	                    | 用在字符或(...)之后	 | abc*	     | abccc    |
| +	     | 匹配前⼀个字符出现1次或者⽆限次，即⾄少有1次	                   | 用在字符或(...)之后	 | abc+	     | abccc    |
| ?	     | 匹配前⼀个字符出现1次或者0次，即要么有1次，要么没有	               | 用在字符或(...)之后	 | abc?	     | ab,abc   |
| {m}	   | 匹配前⼀个字符出现m次	                               | 用在字符或(...)之后	 | ab{2}c	   | abbc     |
| {m,n}	 | 匹配前⼀个字符出现从m到n次，若省略m，则匹配0到n次，若省略n，则匹配m到无限次	 | 用在字符或(...)之后	 | ab{1,2}c	 | abc,abbc |


#### 匹配开头结尾

| 字符	 | 功能      |
|-----|---------|
| ^	  | 匹配字符串开头 |
| $	  | 匹配字符串结尾 |


#### 匹配分组

| 字符	         | 功能                               |
|-------------|----------------------------------|
| \|          | 匹配左右任意⼀个表达式                      |
| (ab)	       | 将括号中字符作为⼀个分组                     |
| \num	       | 引⽤分组num匹配到的字符串                   |
| (?P<name>)	 | 分组起别名，匹配到的子串组在外部是通过定义的 name 来获取的 |
| (?P=name)	  | 引⽤别名为name分组匹配到的字符串               |

In [None]:
labels = ["<html><h1>www.itcast.cn</h1></html>", "<html><h1>www.itcast.cn</h2></html>"]
for label in labels:
    ret = re.match(r"<(\w*)><(\w*)>.*</\2></\1>", label)
    if ret:
        print("%s 是符合要求的标签" % ret.group())
    else:
        print("%s 不符合要求" % label)

In [None]:
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>","<html><h1>www.itcast.cn</h1></html>")
print(ret.group())
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>","<html><h1>www.itcast.cn</h2></html>")
# print(ret.group())

### match()

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 none。

函数语法

```python
re.match(pattern, string, flags=0)
```

| *参数*    | *描述*                                                      |
|:--------|:----------------------------------------------------------|
| pattern | 匹配的正则表达式                                                  |
| string  | 要匹配的字符串                                                   |
| flags   | 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等<br />re.I 忽略大小写<br/>re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境<br/>re.M 多行模式<br/>re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）<br/>re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库<br/>re.X 为了增加可读性，忽略空格和 # 后面的注释 |

匹配成功 re.match 方法返回一个匹配的对象，否则返回 None。

我们可以使用 group(num) 或 groups() 匹配对象函数来获取匹配表达式。

| 匹配对象方法	       | 描述                                                        |
|---------------|-----------------------------------------------------------|
| group(num=0)	 | 匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。 |
| groups()	     | 返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。                            |

In [None]:
print(re.match('www', 'www.runoob.com'))  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

### search()

re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法：

```python
re.search(pattern, string, flags=0)
```

In [None]:
print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.search('com', 'www.runoob.com').span())  # 不在起始位置匹配

In [None]:
res = re.search(r'[a-z0-9A-Z]*\@(163|qq|126)\.(cn|com)',"????abc898989@163.com675876fhffgdhc@qq.com")
print(res.group())
print(res.group(1))
print(res.group(2))

### re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；

而re.search匹配整个字符串，直到找到一个匹配。

### sub()
检索和替换

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

函数语法：

```python
re.sub(pattern, repl, string, count=0, flags=0)
```

| 参数      | 功能                           |
|---------|------------------------------|
| pattern | 正则中的模式字符串。                   |
| repl    | 替换的字符串，也可为一个函数。              |
| string  | 要被查找替换的原始字符串。                |
| count   | 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。 |

In [None]:
phone = "2004-959-559 # 这是一个国外电话号码"

# 删除字符串中的 Python注释
num = re.sub(r'#.*$', "", phone)
print("电话号码是: ", num)

# 删除非数字(-)的字符串
num = re.sub(r'\D', "", phone)
print("电话号码是 : ", num)

#### repl 参数是一个函数

以下实例中将字符串中的匹配的数字乘以 2：

In [None]:
# 将匹配的数字乘以 2
def fun(matched):
    value = int(matched.group('value'))
    return str(value * 2)

s = 'A23G4HFD567'
print(re.sub(r'(?P<value>\d+)', fun, s))