# re模块中的一些函数

In [2]:
import re

## Match对象

Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。

| 属性 | 含义 |
| ---- | ----  |
| string | 匹配时用的文本 |
| re | 匹配时用的Pattern对象 |
| pos | 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。 |
| endpos | 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。 |
| lastindex | 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。 |
| lastgroup | 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。 |

| 方法 | 功能 |
| --- | --- |
| group([group1, …]) | 获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。|
| groups([default]) | 以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。 |
| groupdict([default]) | 返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。 |
| start([group]) | 返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。 |
| end([group]) | 返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。 |
| span([group]) | 返回(start(group), end(group))。 |
| expand(template) |将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。\id与\g<id>是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使用\g<1>0。 |

## re.compile(strPattern, flag) 

第一个参数时字符串形式编译的正则表达式，第二个参数是flag的匹配模式，取值可以用按位或|表示同时生效，如re.M|re.I

返回一个pattern对象

使用compile的一个好处是可以提高效率，如果同一个正则表达式要被重复使用多次，那么使用compile只要解释一次规则就可以了，而直接将规则写在findall等函数里则每次匹配都要重新解释规则，浪费时间。

正则表达式的模式：

| 写法表示 | 功能 |
| re.I(re.IGNORECASE) | 忽略大小写 |
| re.M(re.MULTILINE) | 多行模式。主要用于改变"^" 和"$"的行为 |
| re.S(re.DOTALLL) | 点任意匹配模式，改变"."的行为，使得"."也可以匹配\n |
| re.L(re.LOCAL) | 字符集本地化。使预定字符类 \w \W \b \B \s \S 取决于当前区域设定 |
| re.U(re.UNICODE) | 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性 |
| re.X(re.VERBOSE) | 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。 |

MULTILINE 多行模式下"^"和"$"可以匹配行首和行尾的字符串

In [7]:
s='123 456\n789 012\n345 678'
a = re.compile(r'^\d+')
a.findall(s)

['123']

In [8]:
b = re.compile(r'^\d+', re.M)
b.findall(s)

['123', '789', '345']

In [9]:
c = re.compile(r'\d+$')
c.findall(s)

['678']

In [10]:
d = re.compile(r'\d+$', re.M)
d.findall(s)

['456', '012', '678']

VERBOSE详细模式。由于忽略空白字符，那么空格只能用"\ "来表示。以下两个等价：

In [3]:
a = re.compile(r"""\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")

## re.search()方法用于在字符串中搜索正则表达式模式匹配的第一次出现的位置

In [2]:
re.search(r'python', 'I love python!')

<_sre.SRE_Match object; span=(7, 13), match='python'>

In [3]:
print(re.search(r'Python', 'I love python!'))

None


## Regex.findall() 返回一组字符串列表，包含被查找字符串中的所有匹配

In [4]:
regex = re.compile(r'(\d{4}-)?(\d{8})')
regex.findall("1:0510-82149457 2:82593018")

[('0510-', '82149457'), ('', '82593018')]

(?: ) 表示无捕获组

In [5]:
regex = re.compile(r'(?:\d{4}-)?(?:\d{8})')
regex.findall("1:0510-82149457 2:82593018")

['0510-82149457', '82593018']

## Regex.sub() 替换字符串，接收两个参数，第一个是替换成的新字符串，第二个是被查找的字符串

In [6]:
regex = re.compile(r'dog')
regex.sub('cat', 'This is a dog.')

'This is a cat.'