[正则表达式的讲解](https://www.cnblogs.com/yyds/p/6913550.html)


# re模块
- re模块提供了一个正则表达式引擎接口

## 正则表达式对象中的方法和属性
- 通过re模块的compile()函数编译得到的正则表达式对象支持的方法
- 下列方法的参数说明
    - string：要匹配或处理的字符串
    - pos：可选参数，表示从string字符串的哪个位置开始，相当于先对字符串做切片处理string[pos:]
    - endpos：可选参数，表示到string字符串的哪个位置开始结束（不包含该位置）
    - maxsplit：regex.split()方法的可选参数，表示最大切割次数，默认值为0，表示能切割多少次就尽可能多的切割多少次
    - count：regex.sub()和regex.subn()方法的可选参数，表示最大替换次数，默认为0，表示能替换多少次就尽可能替换多少次
    - repl：sub和subn函数中的repl表示replacement，用于指定将匹配到的子串替换成什么内容，可以为字符串或函数
![](img/re_1.png)

- 调用正则表达式对象的regex.match()，regex.fullmatch()和regex.search()得到的结果就是一个匹配对象，匹配对象支持以下方法和属性
- 下面函数说明：
    - template：模板字符串
    - default：m.groups()与m.groupdict()方法中的default都是未匹配成功的捕获组提供默认匹配值的
    - group：m.group()、m.start()、m.end()和m.span()方法中的group参数都表示要选择的分组索引值，1表示第一个分组，2表示第二个分组，默认为0，表示整个正则表达式所匹配的内容
![](img/re_2.png)

- re模块级别的函数
- 参数
    - string：需要用正则表达式来匹配的字符串对象
    - flags：一个标志为，会影响正则表达式对象匹配行为
    - repl：用于指定将匹配到的字符串替换成什么内容
    - count：sub和subn函数中的count表示最多可替换次数
    - maxsplit：split函数中的maxsplit表示最大分隔次数
![](img/re_3.png)

- flags标志位
![](img/re_4.png)

## re模块的使用
- 匹配测试
    - 通过特定的正则表达式对一个指定的字符串进行匹配来判断该字符串是否符合这个正则表达式所要求的格式
    - 使用的函数或方法：
        - re模块的match()和fullmatch()函数
        - 正则表达式对象的match()和fullmatch()方法

In [1]:
import re

# 定义一个函数来对匹配结果进行展示 
def display_match_obj(match_obj):
    if match_obj is None:
        print('Regex Match Fail!')
    else:
        print('Regex Match Success!', match_obj)

if __name__ == '__main__':
    p = re.compile(r'[a-z]+')
    display_match_obj(p.match('hello'))
    display_match_obj(p.match('hello123'))
    display_match_obj(p.fullmatch('hello'))
    display_match_obj(p.fullmatch('hello123'))
    
    display_match_obj(p.match('123hello'))
    display_match_obj(p.match('123hello', 3))

Regex Match Success! <re.Match object; span=(0, 5), match='hello'>
Regex Match Success! <re.Match object; span=(0, 5), match='hello'>
Regex Match Success! <re.Match object; span=(0, 5), match='hello'>
Regex Match Fail!
Regex Match Fail!
Regex Match Success! <re.Match object; span=(3, 8), match='hello'>


- 内容查找
    - 通过特定的正则表达式对一个指定的字符串的内容进行扫描来判断该字符串中是否包含与换这个正则表达式相匹配的内容
    - 使用的函数或方法
        - re模块级别的search()、findall()和finditer()函数
        - 正则表达式对象的search()、findall()和finditer()方法

In [2]:
'''
re.match()：该函数仅是在字符串的开始位置进行匹配检测
re.search()：该函数会在字符串的任意位置进行匹配检测
'''
import re

string = 'abcdef'
print(re.match(r'c', string))
print(re.search(r'c', string))

None
<re.Match object; span=(2, 3), match='c'>


In [3]:
'''
findall和finditer用来查找一个字符串中与正则表达式相匹配的内容，会找到所有与正则表达式匹配的内容
findall返回的是所有匹配到的子串所组成的列表，finditer返回的是一个迭代器对象，该迭代器对象会将每次匹配到的结果作为一个匹配对象返回
'''
#获取一个字符串中所有副词以及它们各自在字符串中的切片位置
import re

text = "He was carefully disguised but captured quickly by police."

for m in re.finditer(r"\w+ly", text):
    print("%02d-%02d: %s" % (m.start(), m.end(), m.group()))

07-16: carefully
40-47: quickly


- 内容替换：
    - 默认对一个字符串中所有与正则表达式相匹配的内容进行替换，也可以指定替换次数
    - 函数和方法
        - re模块sub()和subn()函数
        - 正则表达式对象的sub和subn()方法
        - sub返回被替换后的字符串，没有相匹配的时候，返回原始字符串
        - subn返回除了被替换后的字符串，还返回一个替换次数，以元组形式返回

In [4]:
def dashrepl(match_obj):
    if match_obj.group() == '-':
        return ' '
    else:
        return ''

if __name__ == '__main__':
    text = 'pro----gram-files'
    print(re.sub(r'-+', dashrepl, text))
    print(re.subn(r'-+', dashrepl, text))

program files
('program files', 2)


- 字符串分隔
    - 查找与正则表达式匹配的内容，然后以该内容作为分隔符对字符串进行分隔，最终返回被分隔后的子串列表
    - 函数和方法
        - re模块的split函数
        - 正则表达式对象的split方法

In [5]:
print(re.split(r'\W+', 'Words, words, words.'))
# 限制最大的分隔次数
print(re.split(r'\W+', 'Words, words, words.', 1))
# 不区分大小写
print(re.split(r'[a-f]+', '0a3B9', flags=re.IGNORECASE))

['Words', 'words', 'words', '']
['Words', 'words, words.']
['0', '3', '9']
