我们在处理字符串时经常会遇到要在一段文本中查找或替换符合特定模式的字符串的需求，在Python中我们可以使用正则表达式来定义字符串的匹配模式. Python正则表达式中常用的特殊字符如下

|   符号    |      描述         |
| ----------- | ----------------------- |
|   `.`    |  匹配除换行符以外的任意字符  |
|   `^`    |  匹配字符串的开头  |
|   `$`    |  匹配字符串的末尾  |
|   `*`    |  匹配0次或多次，默认贪婪匹配  |
|   `+`    |  匹配1次或多次，默认贪婪匹配  |
|   `?`    |  匹配0次或1次，默认贪婪匹配 |
|   `*?`    |  匹配0次或多次，非贪婪匹配  |
|   `+?`    |  匹配1次或多次，非贪婪匹配  |
|   `??`    |  匹配0次或1次，非贪婪匹配  |
|  `{m}`   |   匹配m次出现  |
|  `{m,}`   |  匹配至少m次出现  |
|  `{,n}`   |  匹配最多n次  |
|  `{m,n}`  |  匹配m到n次出现，贪婪匹配  |
|  `{m,n}`  |  匹配m到n次出现，非贪婪匹配  |
|  `[]`   |  匹配集合内的任意元素，如[a-zA-Z]，[0-9]等  |
|  `[^]`  |  匹配除集合以外的元素  |
|  `A|B`  |  A和B为两个任意正则表达式，匹配A或者B，一旦A匹配成功就不会再去匹配B  |
|  `\d`   |  匹配任意十进制数字，等价于[0-9]  |
|  `\D`   |  匹配任意非数字，等价于[^0-9]  |
|  `\s`   |  匹配任意空白符，等价于[ \t\n\r\f\v]  |
|  `\S`   |  匹配任意非空白符，等价于[^ \t\n\r\f\v]  |
|  `\w`   |  匹配任意字母和数字，等价于[a-zA-Z0-9_]  |
|  `\W`   |  匹配任意非字母和数字，等价于[^a-zA-Z0-9_]  |
|  `()`   |  通过括号可以进行匹配分组，后续可以通过\number获取分组内容  |
|  `(?P<name>)` | 命名分组匹配，后续可以通过组名获取分组内容 |

建议总是用**原始字符串**作为模式字符串，这样可以避免转义特殊字符，也更容易避免出错.

In [1]:
import re

### 1. 查找一个匹配

- `search(pattern, string, flags=0)`：扫描整个字符串以查找匹配，如果找到则返回匹配对象，否则返回`None`
- `match(pattern, string, flags=0)`：只从字符串开头位置开始查找匹配，如果找到返回匹配对象，否则返回`None`
- `fullmatch(pattern, string, flags=0)`：如果整个字符串能完整的匹配则返回匹配对象，否则返回`None`

In [2]:
txt = "张三是女装大佬，李四也是女装大佬"
pattern = r"女装大佬"

# 扫描整个字符串查找匹配
s_ret = re.search(pattern, txt)
# 只从字符串开头位置查找匹配
m_ret = re.match(pattern, txt)
# 查找完全匹配
fm_ret = re.fullmatch(pattern, txt)

if s_ret:
    print("search匹配结果: {}".format(s_ret.group()))
else:
    print("search未找到匹配")
    
if m_ret:
    print("match匹配结果: {}".format(m_ret.group()))
else:
    print("match未找到匹配")
    
if fm_ret:
    print("fullmatch匹配结果：{}".format(fm_ret.group()))
else:
    print("fullmatch未找到匹配")

search匹配结果: 女装大佬
match未找到匹配
fullmatch未找到匹配


In [3]:
txt = "女装大佬是张三，张三就是女装大佬"
pattern = r"女装大佬"

# 扫描整个字符串查找匹配
s_ret = re.search(pattern, txt)
# 只从字符串开头位置查找匹配
m_ret = re.match(pattern, txt)
# 查找完全匹配
fm_ret = re.fullmatch(pattern, txt)

if s_ret:
    print("search匹配结果: {}".format(s_ret.group()))
else:
    print("search未找到匹配")
    
if m_ret:
    print("match匹配结果: {}".format(m_ret.group()))
else:
    print("match未找到匹配")
    
if fm_ret:
    print("fullmatch匹配结果：{}".format(fm_ret.group()))
else:
    print("fullmatch未找到匹配")

search匹配结果: 女装大佬
match匹配结果: 女装大佬
fullmatch未找到匹配


In [4]:
txt = "张三是女装大佬"
pattern = r"张三是女装大佬"

# 扫描整个字符串查找匹配
s_ret = re.search(pattern, txt)
# 只从字符串开头位置查找匹配
m_ret = re.match(pattern, txt)
# 查找完全匹配
fm_ret = re.fullmatch(pattern, txt)

if s_ret:
    print("search匹配结果: {}".format(s_ret.group()))
else:
    print("search未找到匹配")
    
if m_ret:
    print("match匹配结果: {}".format(m_ret.group()))
else:
    print("match未找到匹配")
    
if fm_ret:
    print("fullmatch匹配结果：{}".format(fm_ret.group()))
else:
    print("fullmatch未找到匹配")

search匹配结果: 张三是女装大佬
match匹配结果: 张三是女装大佬
fullmatch匹配结果：张三是女装大佬


在`Python`正则表达式很多接口中都有一个`flags`参数，我们可以在匹配的时候设置这个参数，其中最常用的是`re.I`，即以忽略大小写的方式匹配.

In [5]:
txt = "Python CPlusPlus Javascript Go"
pattern = r"python"

# 默认匹配的时候考虑大小写
s1 = re.search(pattern, txt)
# 设置re.I标志，匹配的时候忽略大小写
s2 = re.search(pattern, txt, flags=re.I)

if s1:
    print("考虑大小写找到匹配结果: {}".format(s1.group()))
else:
    print("考虑大小写未找到匹配")
    
if s2:
    print("忽略大小写找到匹配结果: {}".format(s2.group()))
else:
    print("忽略大小写未找到匹配")

考虑大小写未找到匹配
忽略大小写找到匹配结果: Python


### 2. 查找多个匹配

- `findall(pattern, string, flags=0)`：扫描整个字符串，以列表的形式返回所有匹配结果
- `finditer(pattern, string, flags=0)`：扫描整个字符串，以迭代器的形式返回所有匹配结果

In [6]:
txt = "张三123，李四456，王五789"
# 匹配数字
pattern = r"\d+"

ret_list = re.findall(pattern, txt)
print("findall: {}".format(ret_list))

for ret in re.finditer(pattern, txt):
    print("finditer: {}".format(ret.group()))

findall: ['123', '456', '789']
finditer: 123
finditer: 456
finditer: 789


### 3. 分割

- `split(pattern, string, maxsplit=0, flags=0)`：通过给定模式的分隔符分割字符串

`re.split()`与`str.split()`区别是`str.split()`只能以固定的字符作为分隔符，而`re.split()`以正则表达式做为分隔符

In [7]:
txt =  "张三2李四4王五5赵六6女装大佬a华为b小米"
# 以数字或者给定的字符集合作为分隔符
pattern = r"\d|[abc]"

ret = re.split(pattern, txt)
print("split后的结果为: {}".format(ret))

split后的结果为: ['张三', '李四', '王五', '赵六', '女装大佬', '华为', '小米']


### 4. 替换

- `sub(pattern, repl, string, count=0, flags=0)`：用`repl`替换`string`中符合`pattern`的文本并返回替换结果
- `subn(pattern, repl, string, count=0, flags=0)`：用`repl`替换`string`中符合`pattern`的文本并以元组的形式返回替换结果和替换次数

注意`repl`参数既可以是字符串也可以是函数

In [8]:
txt =  "张三3李四4王五5赵六6女装大佬"
pattern = r"\d"
# 将数字替换为#
repl = "#"

s = re.sub(pattern, repl, txt)
print("替换后的结果为：{}".format(s))

# 指定替换次数，这里最多替换两次
ss = re.sub(pattern, repl, txt, count=2)
print("指定替换次数的结果为: {}".format(ss))

def simple_repl(m):
    """将5替换为#，其它的替换为@"""
    if m.group(0) == "5":
        return "#"
    else:
        return "@"

sss = re.sub(pattern, simple_repl, txt)
print("repl为函数时替换结果为：{}".format(sss))

替换后的结果为：张三#李四#王五#赵六#女装大佬
指定替换次数的结果为: 张三#李四#王五5赵六6女装大佬
repl为函数时替换结果为：张三@李四@王五#赵六@女装大佬


In [9]:
txt =  "张三3李四4王五5赵六6女装大佬"
pattern = r"\d"
# 将数字替换为#
repl = "#"

s = re.subn(pattern, repl, txt)
print("替换后的结果为：{}".format(s))

# 指定替换次数，这里最多替换两次
ss = re.subn(pattern, repl, txt, count=2)
print("指定替换次数的结果为: {}".format(ss))

def simple_repl(m):
    """将5替换为#，其它的替换为@"""
    if m.group(0) == "5":
        return "#"
    else:
        return "@"

sss = re.subn(pattern, simple_repl, txt)
print("repl为函数时替换结果为：{}".format(sss))

替换后的结果为：('张三#李四#王五#赵六#女装大佬', 4)
指定替换次数的结果为: ('张三#李四#王五5赵六6女装大佬', 2)
repl为函数时替换结果为：('张三@李四@王五#赵六@女装大佬', 4)


如果要多次重复使用正则表达式的话，我们可以事先使用`re.compile()`获取正则对象，然后通过正则对象进行匹配将会更加高效，如果只是一次性使用的话直接使用`re`中的接口则更简单.

```python
# 获取正则对象
patt = re.compile(pattern)
# 获取匹配对象
mat = patt.search(string)

# 以上两行代码效果等同于如下这行代码
mat = re.search(pattern, string)
```

正则对象中的接口与re中对应接口使用方法基本上是一样的. 这里不再赘述. 下面我们再看一下匹配对象上的操作.

### 5. 匹配对象

- group()：获取分组匹配结果，如果不传递参数或参数为0则返回整个匹配结果，传递对应组号则返回对应匹配组的结果
- groups()：以元组的形式返回分组匹配结果
- groupdict()：以字典的形式返回命名分组匹配的结果

In [10]:
txt = r"Qian Xuesen: 1911/12/11"
pattern = r"(\w+) (\w+): (\d+)/(\d+)/(\d+)"

m = re.search(pattern, txt, re.I)
if m:
    print("整个匹配结果: {}".format(m.group()))
    print("姓: {}".format(m.group(1)))
    print("名: {}".format(m.group(2)))
    print("年：{}".format(m.group(3)))
    print("月: {}".format(m.group(4)))
    print("日: {}".format(m.group(5)))

整个匹配结果: Qian Xuesen: 1911/12/11
姓: Qian
名: Xuesen
年：1911
月: 12
日: 11


In [11]:
txt = r"Qian Xuesen: 1911/12/11"
# 以命名组的方式匹配
pattern = r"(?P<xing>\w+) (?P<ming>\w+): (?P<year>\d+)/(?P<month>\d+)/(?P<day>\d+)"

m = re.search(pattern, txt, re.I)
if m:
    print("姓: {}".format(m.group("xing")))
    print("名字: {}".format(m.group("ming")))
    print("年：{}".format(m.group("year")))
    print("月: {}".format(m.group("month")))
    print("日: {}".format(m.group("day")))

姓: Qian
名字: Xuesen
年：1911
月: 12
日: 11


In [12]:
txt = r"Qian Xuesen: 1911/12/11"
# 以命名组的方式匹配
pattern = r"(?P<xing>\w+) (?P<ming>\w+): (?P<year>\d+)/(?P<month>\d+)/(?P<day>\d+)"

m = re.search(pattern, txt, re.I)
if m:
    # 还可以以字典形式获取命名分组匹配结果
    md = m.groupdict()
    print("姓: {}".format(md["xing"]))
    print("名字: {}".format(md["ming"]))
    print("年：{}".format(md["year"]))
    print("月: {}".format(md["month"]))
    print("日: {}".format(md["day"]))

姓: Qian
名字: Xuesen
年：1911
月: 12
日: 11


In [13]:
# QQ号验证，QQ号是5到12位的数字且首位不能是0

qq = input("请输入QQ号: ")
pattern = r"[1-9]\d{4,11}"

m = re.fullmatch(pattern, qq)
if m:
    print("QQ号匹配OK")
else:
    print("您输入的是无效的QQ号: {}".format(qq))

请输入QQ号: 3133095778
QQ号匹配OK


In [14]:
# 将脏话替换为*

txt = "我操，你个煞笔"
pattern = r"[操艹]|fuck|shit|[傻煞沙][笔比屄逼叉缺吊屌碉雕]"

s = re.sub(pattern, "*", txt, re.I)
print("清洗后的字符串为: {}".format(s))

清洗后的字符串为: 我*，你个*
