# re模块中的一些函数

In [2]:
import re

## re.compile(strPattern, flag) 

第一个参数时字符串形式编译的正则表达式，第二个参数是flag的匹配模式，取值可以用按位或|表示同时生效，如re.M|re.I

返回一个pattern对象

使用compile的一个好处是可以提高效率，如果同一个正则表达式要被重复使用多次，那么使用compile只要解释一次规则就可以了，而直接将规则写在findall等函数里则每次匹配都要重新解释规则，浪费时间。

正则表达式的模式：

| 写法表示 | 功能 |
| re.I(re.IGNORECASE) | 忽略大小写 |
| re.M(re.MULTILINE) | 多行模式。主要用于改变"^" 和"$"的行为 |
| re.S(re.DOTALLL) | 点任意匹配模式，改变"."的行为，使得"."也可以匹配\n |
| re.L(re.LOCAL) | 字符集本地化。使预定字符类 \w \W \b \B \s \S 取决于当前区域设定 |
| re.U(re.UNICODE) | 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性 |
| re.X(re.VERBOSE) | 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。 |

MULTILINE 多行模式下"^"和"$"可以匹配行首和行尾的字符串

In [7]:
s='123 456\n789 012\n345 678'
a = re.compile(r'^\d+')
a.findall(s)

['123']

In [8]:
b = re.compile(r'^\d+', re.M)
b.findall(s)

['123', '789', '345']

In [9]:
c = re.compile(r'\d+$')
c.findall(s)

['678']

In [10]:
d = re.compile(r'\d+$', re.M)
d.findall(s)

['456', '012', '678']

VERBOSE详细模式。由于忽略空白字符，那么空格只能用"\ "来表示。以下两个等价：

In [3]:
a = re.compile(r"""\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")

## re.search()方法用于在字符串中搜索正则表达式模式匹配的第一次出现的位置

In [2]:
re.search(r'python', 'I love python!')

<_sre.SRE_Match object; span=(7, 13), match='python'>

In [3]:
print(re.search(r'Python', 'I love python!'))

None


## Regex.findall() 返回一组字符串列表，包含被查找字符串中的所有匹配

In [4]:
regex = re.compile(r'(\d{4}-)?(\d{8})')
regex.findall("1:0510-82149457 2:82593018")

[('0510-', '82149457'), ('', '82593018')]

(?: ) 表示无捕获组

In [5]:
regex = re.compile(r'(?:\d{4}-)?(?:\d{8})')
regex.findall("1:0510-82149457 2:82593018")

['0510-82149457', '82593018']

## Regex.sub() 替换字符串，接收两个参数，第一个是替换成的新字符串，第二个是被查找的字符串

In [6]:
regex = re.compile(r'dog')
regex.sub('cat', 'This is a dog.')

'This is a cat.'