# 正则表达式

# 基础语法

## 精准匹配
\d  匹配一个数字    
'00\d'匹配所有00开头下一个为数字的，如007、008等

\w  匹配一个字母或数字

.   匹配任意字符    
'pyc'、'py1'、'py!'

## 可变长
\*  表示任意数量的字符，包括0个

\+   表示至少一个字符

\s  表示一个空格

?   表示0或1个字符

{n} 表示n个字符     
{n,m}   表示n到m个字符


\d{3}\s+\d{3,8}     
三个数字、至少一个空格、三到八个数字

## 进阶
[ ]  表示范围    
[0-9a-zA-Z\_]   此一字符可为数字/大小写字母/下划线      
[0-9a-zA-Z\_]+  此一字符串，至少由一个数字/大小写字母/下划线组成    
[a-zA-Z\_][0-9a-zA-Z\_]*    此一字符串，由一个数字/大小写字母/下划线组成    
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}    此一字符串，由一个数字/大小写字母/下划线组成，长度0-19  

A|B     匹配A或者B  
(P|p)ython

^   表示行的开头
^\d     表示必须以一个数字开头

\$   表示行结束  
\d \$     表示必须以一个数字结束      

# re模块
python中的所有正则表达式功能模块。  
python字符串中也用\转义，因而有时要注意加两个\

In [2]:
import re

#使用r字符串会省去转义的麻烦考虑
#匹配成果会返回一个match对象
re.match(r'^\d{3}\-\d{3,8}$','010-12345')

<re.Match object; span=(0, 9), match='010-12345'>

# 切分字符串
用正则表达式可以做到更加灵活地切分字符串

In [3]:
#将带有空格的字符串切除，使用传统方式不太好识别
'a b    c'.split(' ')

['a', 'b', '', '', '', 'c']

In [6]:
#使用正则表达式
#分割符为至少一个空格（实现切割连续空格）
re.split(r'\s+','a b   c')

['a', 'b', 'c']

In [7]:
#匹配至少一个，可为空格或逗号
re.split(r'[\s\,]+', 'a,b, c  d')

['a', 'b', 'c', 'd']

# 分组
使用()实现分组，可以在匹配的内容中提取特定分组内容

In [None]:
#区号-本地号码，3位数字开头，3-8位数字结尾
m=re.match(r'^(\d{3})-(\d{3,8})$','010-12345')
m

<re.Match object; span=(0, 9), match='010-12345'>

In [10]:
#元匹配串
print(m.group(0))

#提取区号
print(m.group(1))

#提取本地号码
print(m.group(2))


010-12345
010
12345


# 贪婪匹配
正则匹配默认是贪婪匹配，即匹配尽可能多的字符

In [None]:
#第一个分组中匹配完了所有内容，导致第二分组没有分到内容
re.match(r'^(\d+)(0*)$', '102300').groups()

('102300', '')

In [12]:
#使用?实现非贪婪匹配
re.match(r'^(\d+?)(0*)$', '102300').groups()

('1023', '00')

# 编译
使用re时，会进行先编译再匹配，如果一次式子多次使用，可以先预编译，以节省资源

In [15]:
import re

#编译
re_telephone=re.compile(r'^(\d{3})-(\d{3,8})$')

#使用
re_telephone.match('010-12345').groups()

('010', '12345')