# 正则表达式

\d  可以匹配一个数字 (==1)<br/>
\w  可以匹配一个字母或数字 (==1)<br/>
\s 可以匹配一个空格，包括Tab等空白符<br/>
.  可以匹配任意一个字符 (==1)<br/>
\*  可以匹配任意个字符 (>=0)<br/>
\+  可以匹配至少一个字符 (>=1)<br/>
?  可以匹配0个或1个字符 (==0 || ==1)<br/>
{n} 可以匹配n个字符 (==n)<br/>
{n,m}可以匹配n-m个字符 (>=n && <=m)<br/>
[] 可以匹配精确的范围 (==1)<br/>
| 表示2选1 (==1)<br/>
^ 表示行的开头<br/>
$ 表示行的结束<br/>

例1：<br/>
\d{3}\s+\d{3,8}<br/>
\d{3}表示匹配3个数字，例如'010'；<br/>

\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，例如匹配' '，' '等；<br/>

\d{3,8}表示3-8个数字，例如'1234567'。<br/>

综合起来，上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码。

例2：<br/>
[0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线；

例3：<br/>
[0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如'a100'，'0_Z'，'Py3000'等等

例4：<br/>
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）

例5：<br/>
A|B可以匹配A或B，所以(P|p)ython可以匹配'Python'或者'python'。

例6：<br/>
^\d表示必须以数字开头<br/>
\d$表示必须以数字结束<br/>

**使用re.match匹配**

In [3]:
import re
test = '010-12345'

#正则表达式使用r前缀
if re.match(r'\d{3}\-\d{3,8}', test):#如果匹配成功，返回一个Match对象
    print('ok')
else:#否则返回None
    print('failed')

ok


**切分字符串**

In [4]:
'a b   c'.split(' ')#无法识别连续的空格

['a', 'b', '', '', 'c']

In [5]:
re.split(r'\s+', 'a b   c')#\s+表示至少有一个空格

['a', 'b', 'c']

In [6]:
re.split(r'[\s\,]+', 'a,b, c  d')#\s\,表示一个空格或者逗号

['a', 'b', 'c', 'd']

In [7]:
re.split(r'[\s\,\;]+', 'a,b;; c  d')#\s\,\;表示一个空格或者逗号或者分号

['a', 'b', 'c', 'd']

**分组（提取子串）**

除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组（Group）<br/>

如果正则表达式中定义了组，就可以在Match对象上用group()方法提取出子串来。<br/>
^(\d{3})-(\d{3,8})$分别定义了两个组，可以直接从匹配的字符串中提取出区号和本地号码：

In [9]:
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
#groups()返回子串组成的tuple
print(m.groups())
#group(0)永远是原始字符串，group(1)、group(2)……表示第1、2、……个子串。
print(m.group(0))
print(m.group(1))
print(m.group(2))


('010', '12345')
010-12345
010
12345


**编译**

如果一个正则表达式要重复使用几千次，出于效率的考虑，我们可以预编译该正则表达式，接下来重复使用时就不需要编译这个步骤了，直接匹配：

In [10]:
import re
#编译
re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
#使用
re_telephone.match('010-12345').groups()

('010', '12345')