##  正则表达式

Python通过标准库中的re模块来支持正则表达式操作。


关于正则表达式的相关知识，大家可以阅读一篇非常有名的博客叫[正则表达式30分钟入门教程》](https://deerchao.net/tutorials/regex/regex.htm)这篇文章后你就可以看懂下面的表格，这是我们对正则表达式中的一些基本符号进行的扼要总结。


Python提供了re模块来支持正则表达式相关操作，下面是re模块中的核心函数。



|函数 |说明
|:--:|:--:|
compile(pattern, flags=0) |	编译正则表达式返回正则表达式对象
match(pattern, string, flags=0) |	用正则表达式匹配字符串 成功返回匹配对象 否则返回None
search(pattern, string, flags=0) 	|搜索字符串中第一次出现正则表达式的模式 成功返回匹配对象 否则返回None
split(pattern, string, maxsplit=0, flags=0) |	用正则表达式指定的模式分隔符拆分字符串 返回列表
sub(pattern, repl, string, count=0, flags=0) |	用指定的字符串替换原字符串中与正则表达式匹配的模式 可以用count指定替换的次数
fullmatch(pattern, string, flags=0) |	match函数的完全匹配（从字符串开头到结尾）版本
findall(pattern, string, flags=0) |	查找字符串所有与正则表达式匹配的模式 返回字符串的列表
finditer(pattern, string, flags=0) |	查找字符串所有与正则表达式匹配的模式 返回一个迭代器
purge() |	清除隐式编译的正则表达式的缓存
re.I / re.IGNORECASE |	忽略大小写匹配标记
re.M / re.MULTILINE 	|多行匹配标记

In [2]:
"""
验证输入用户名和QQ号是否有效并给出对应的提示信息

要求：用户名必须由字母、数字或下划线构成且长度在6~20个字符之间，QQ号是5~12的数字且首位不能为0
"""
import re


def main():
    username = input('请输入用户名: ')
    qq = input('请输入QQ号: ')
    # match函数的第一个参数是正则表达式字符串或正则表达式对象
    # 第二个参数是要跟正则表达式做匹配的字符串对象
    m1 = re.match(r'^[0-9a-zA-Z_]{6,20}$', username)
    if not m1:
        print('请输入有效的用户名.')
    m2 = re.match(r'^[1-9]\d{4,11}$', qq)
    if not m2:
        print('请输入有效的QQ号.')
    if m1 and m2:
        print('你输入的信息是有效的!')


if __name__ == '__main__':
    main()

请输入用户名: ddfd
请输入QQ号: 0122200
请输入有效的用户名.
请输入有效的QQ号.


In [3]:
# 从一段文字中提取出国内手机号码
import re


def main():
    # 创建正则表达式对象 使用了前瞻和回顾来保证手机号前后不应该出现数字
    pattern = re.compile(r'(?<=\D)1[34578]\d{9}(?=\D)')
    pattern_ok = re.compile(r'(?<=\D)(1[38]\d{9}|14[57]\d{8}|15[0-35-9]\d{8}|17[678]\d{8})(?=\D)')
    sentence = '''
    重要的事情说8130123456789遍，我的手机号是13512346789这个靓号，
    不是15600998765，也是110或119，王大锤的手机号才是15600998765。
    '''
    # 查找所有匹配并保存到一个列表中
    mylist = re.findall(pattern, sentence)
    print(mylist)
    print('--------华丽的分隔线--------')
    # 通过迭代器取出匹配对象并获得匹配的内容
    for temp in pattern.finditer(sentence):
        print(temp.group())
    print('--------华丽的分隔线--------')
    # 通过search函数指定搜索位置找出所有匹配
    m = pattern.search(sentence)
    while m:
        print(m.group())
        m = pattern.search(sentence, m.end())


if __name__ == '__main__':
    main()

['13512346789', '15600998765', '15600998765']
--------华丽的分隔线--------
13512346789
15600998765
15600998765
--------华丽的分隔线--------
13512346789
15600998765
15600998765
