### 使用正则表达式

&nbsp;

| 符号 | 解释 | 实例 | 说明 |
| ---- | ---- | ---- | ---- |
| . | 匹配任意一个字符 | b.t | 可以匹配bat / but / b\$t / b1t |
| \\w | 匹配字母/数字/下划线 | b\\wt | 可以匹配bat / but / b2t <br> 但不能匹配b*t |
| \\s | 匹配空白字符(包括\\r、\\n、\\t等 | love\\syou | 可以匹配love you |
| \\d | 匹配数字 | /d/d | 可以匹配02、33、65等 |
| \\b | 匹配单词的边界 | \\bThe\\b |  |
| ^ | 匹配字符串的开始 | ^The | 可以匹配The开头的字符串，如They |
| \$ | 匹配字符串结尾 | .exe$ | 可以匹配.ext结尾的字符串，如Python.exe |
| \\W | 匹配非字母/数字/下划线 | b\\Wt | 可以匹配b^t、b(t等，但不能匹配b2t/brt/b_t等 |
| \\S | 匹配非空白字符 | love\\Syou | 可以匹配love,you，但不能匹配love you |
| \\D | 匹配非数字 | \\d\\D | 可以匹配2d、5\%，但不能匹配23等 |
| \\B | 匹配非单词边界 | \\Bio\\B |  |
| [] | 匹配来自字符串的任意一个字符 | [aeiou] | 可以匹配任一元音字母 | 
| [^] | 匹配不在字符集中的任意单一字符 | [^aeiou] | 可以匹配任一非原因字母 |
| * | 匹配0次或多次 | \\w* |  |
| + | 匹配1次或多次 | \\w+ |  |
| ? | 匹配0次或1次 | \\w? |  |
| {N} | 匹配N次 | \\w{3} |  |
| {M, } | 匹配M次至少M次 | \w{3, } |  |
| {M, N} | 匹配M到N次 | \W{3, 5} |  |
| \| | 分支 | foo\|bar | 可以匹配到foo或bar |
| (?#) | 注释 |  |  |
| (exp) | 匹配exp并捕获到自动命名组中 |  |  |
| (?<name>exp) | 匹配exp并捕获到名为name的组中 |  |  |
| (?:exp) | 匹配exp但不捕获文本 |  |  |
| (?=exp) | 匹配exp前面的位置 | \\b\\w+(?=ing) | 可以匹配到I'm dancing中的danc |
| (?<=exp) | 匹配后面是exp的位置 | (?<=\\bdanc)\w+\b | 可以匹配到I love dancing and reading.中的第一个ing |
| (?!exp) | 匹配到后面不是exp的位置 |  |  |
| (?<!exp) | 匹配前面不是exp的位置 |  |  |
| *? | 重复任意次，但尽可能少重复 | a.\*b <br> a.\*?b | aabab, 前者会匹配到整个字符串aabab，后者会匹配到aab和ab两个字符串 |
| +? | 重复1次或多次，但尽可能少重复 |  |  |
| ?? | 重复0次或一次，但尽可能少重复 |  |  |
| {M, N}? | 重复M到N次，但尽可能少重复 |  |  |
| {M， }? | 重复M次以上，但尽可能少重复 |  |  |

&nbsp;
>如果需要匹配的字符是正则表达式中的特殊字符，那么可以使用\进行转义处理，例如想匹配小数点可以写成\.就可以了，因为直接写.会匹配任意字符；同理，想匹配圆括号必须写成\(和\)，否则圆括号被视为正则表达式中的分组。

### Python对正则表达式的支持
Python提供了re模块来支持正则表达式的相关操作，re模块的核心函数如下。

<br> 

| 函数 | 说明 |
| ---- | ---- |
| compile(pattern, flags=0) | 编译正则表达式返回正则表达式对象 |
| match(pattern, string, flags=0) | 用正则表达式匹配字符串，成功返回匹配对象，失败返回None |
| search(pattern, string, flags=0) | 搜索字符串中第一次出现正则表达式的模式，成功返回匹配对象，失败返回None |
| split(patter, string, maxsplit=0, flags=0 | 用正则表达式指定的模式分隔拆分字符串 返回列表 |
| sub(patter, repl, string, flags=0 | 用指定的字符串替换原字符串中的正则表达式匹配的模式，可以用count指定替换的次数 |
| fullmatch(pattern, string, flags=0 | match函数的完全匹配（从字符串开头到结尾）版本 |
| findall(pattern, string, flags=0 | 查找字符串所有与正则表达式匹配的模式，返回字符串列表 |
| finditer(pattern, string, flags=0 | 查找字符串所有与正则表达式匹配的模式，返回一个迭代器 |
| purge() | 清除隐式编译的正则表达式的缓存 |
| re.I/re.IGNORGECASE | 忽略大小写匹配标志 |
| re.M/re.MULTILINE | 多行匹配标志 |

&nbsp;

> **说明：** 上面提到的re模块中的这些函数，实际开发中也可以用正则表达式对象的方法替代对这些函数的使用，如果一个正则表达式需要重复的使用，那么先通过compile函数编译正则表达式并创建出正则表达式对象无疑是更为明智的选择。

#### 例1：验证输入用户名和QQ号是否有效并给出对应的提示信息

In [6]:
'''
    验证输入的用户名和QQ号是否有效并给出提示信息
    
    要求：用户名必须由字母、数字和下划线构成且长度为6~20个字符之间，QQ号是5~12位的数字且首位不能为0
'''
import re


def main():
    username = input('请输入用户名: ')
    qq = input('请输入QQ号：')
    # match函数的第一个参数是正则表达式字符串或正则表达式对象
    # 第二个参数是要跟正则表达式做匹配的字符串对象
    m1 = re.match(r'^[0-9a-zA-Z_]{6,20}$', username)
    if not m1:
        print('请输入有效的用户名.')
    m2 = re.match(r'^[1-9]\d{4,11}$', qq)
    if not m2:
        print('请输入有效的QQ号.')
    if m1 and m2:
        print('你输入的是有效信息!')
        
        
if __name__ == '__main__':
    main()

请输入用户名: 234234
请输入QQ号：234234234
你输入的是有效信息!


#### 练习2.从一段文字中提取出国内的手机号码

In [18]:
import re


def main():
    # 创建正则表达式对象，使用了前瞻和后顾来保证手机号码前后不应该出现数字
    # (?<=\D)(1[38]\d{9}|14[57]\d{8}|15[0-35-9]\d{8}|17[678]\d{8})(?=\D)
    pattern = re.compile(r'(?<=\D)1[34578]\d{9}(?=\D)')
    try:
        with open('./res/FindPhoneNumber.txt', 'r', encoding='utf-8') as f:
            sentence = f.read()
        # 查找所有匹配并保存到一个列表中
        mylist = re.findall(pattern, sentence)
        print(mylist)
        print('----------华丽的分割线----------')
        # 通过迭代器去除匹配对象并获得匹配内容
        for temp in pattern.finditer(sentence):
            print(temp.group())
        # 通过search函数指定搜索位置找出所有匹配
        print('--------华丽的分隔线--------')
        m = pattern.search(sentence)
        while m:
            print(m.group())
            m = pattern.search(sentence, m.end())
    except FileNotFoundError as e:
        print(e)
        print("file not found")
    except LookupError as e:
        print(e)
        print('指定编码错误！')
    except UnicodeDecodeError:
        print('unicode decode error')

        
if __name__ == '__main__':
    main()

['13512346789', '15600998765', '15600998765']
----------华丽的分割线----------
13512346789
15600998765
15600998765
--------华丽的分隔线--------
13512346789
15600998765
15600998765


#### 例子3：替换字符串中的不良内容

In [21]:
import re


def main():
    sentence = '你丫是傻叉吗? 我操你大爷的. Fuck you.'
    purified = re.sub('[操肏艹]|fuck|shit|傻[比屄逼叉缺吊屌]|煞笔',
            '*', sentence, flags=re.I)
    print(purified)
    
    
if __name__ == '__main__':
    main()

你丫是*吗? 我*你大爷的. * you.


> 说明： re模块的正则表达式相关函数中都有一个flags参数，它代表了正则表达式的匹配标记，可以通过该标记来指定匹配时是否忽略大小写、是否进行多行匹配、是否显示调试信息等。如果需要为flags参数指定多个值，可以使用按位或运算符进行叠加，如flags=re.I | re.M。

#### 练习4. 拆分字符串

In [1]:
import re


def main():
    poem = '床前明月光，疑是地上霜。举头望明月，低头思故乡。'
    sentence_list = re.split(r'[,.，。]', poem)
    while '' in sentence_list:
        sentence_list.remove('')
    print(sentence_list)
    
    
if __name__ == '__main__':
    main()

['床前明月光', '疑是地上霜', '举头望明月', '低头思故乡']
