# Regular Expression

**+:前面的字符必须至少出现一次（1次或多次）**<br>
runoo+b:runoob,runooob,runoooob

***:前面的字符可以不出现，也可以出现一次或者多次（0次、或1次、或多次）**<br>runoo*b:runob,runoob,runoooooob

**?:前面的字符最多只可以出现1次(0次或1次)**<br>
colou?r:color,colour

**{n}:n 是一个非负整数。匹配确定的n次**<br>
例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。

**{n,}:n是一个非负整数。至少匹配n次**<br>
例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

**{n,m}:m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次**<br>
例如，"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

**\d : 一个数字**<br>
**\w : 一个数字或字母**<br>
**. : 可以匹配任意字符**<br>
**\* : 表示任意个字符(包括0个)**<br>
**\s : 一个空格(也包括Tab等空白符)**<br>
**\s+ : 至少有一个空格，例如' '**<br>
**+ : 表示至少一个字符**<br>
**? : 表示0个或1个字符**<br>
**{n} : 表示n个字符**<br>
**{n,m} : 表示n-m个字符**<br>

[]表示范围，比如：<br>
**[0-9a-zA-Z\_]** : 可以匹配一个数字、字母或者下划线<br>
**[0-9a-zA-Z\_]+** : 可以匹配至少由一个数字、字母或者下划线组成的字符串<br>
**[a-zA-Z\_][0-9a-zA-Z\_]\*** : 可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量。
**A|B** : 可以匹配A或B<br>
**\^** : 表示行的开头，^\d表示以数字开头<br>
**\$** : 表示行的结束，\d$表示以数字结束<br> 

py可以匹配'python'<br>
^py$只能匹配'py'<br>

## Re模块

如何判断是否匹配？

In [3]:
import re

In [26]:
def re_match(re_expr, test):
    if re.match(re_expr, test):
        print ('ok')
    else:
        print ('failed')

In [27]:
re_expr = '00\d'
test = '008'
re_match(re_expr, test)

ok


In [35]:
re_expr = 'ABC\\-001'
test = 'ABC\-001'
re_match(re_expr,test)

failed


In [36]:
re_expr = 'ABC\\-001'
test = 'ABC-001'
re_match(re_expr,test)

ok


In [28]:
re_expr = r'^\d{3}\-\d{3,8}$' #加上r前缀，可以不考虑\转义的问题
test = '010-12345'
re_match(re_expr,test)

ok


In [1]:
'a b   c'.split(' ')

['a', 'b', '', '', 'c']

In [4]:
#将字符串按空格分隔成一个单词列表
re.split(r'\s+','a b   c') 

['a', 'b', 'c']

**re.split()**

In [6]:
import re
line = 'aaa bbb ccc;ddd  eee,fff'

In [7]:
#单字符切割
re.split(r';',line)

['aaa bbb ccc', 'ddd  eee,fff']

In [8]:
#两个字符以上切割放在[]中
re.split(r'[;,]',line)

['aaa bbb ccc', 'ddd  eee', 'fff']

In [9]:
#所有空白字符切割
re.split(r'[;,\s]',line)

['aaa', 'bbb', 'ccc', 'ddd', '', 'eee', 'fff']

In [11]:
#使用括号捕获分组，默认保留分隔符
re.split(r'([;])',line)

['aaa bbb ccc', ';', 'ddd  eee,fff']

In [12]:
#不想保留分隔符
re.split(r'(?:[;])',line)

['aaa bbb ccc', 'ddd  eee,fff']

**分组(group)**

In [13]:
m = re.match(r'^(\d{3})-(\d{3,8})$','010-12345')

In [14]:
m

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

In [15]:
m.group(0)

'010-12345'

In [16]:
m.group(1)

'010'

In [17]:
m.group(2)

'12345'

In [18]:
#更凶残的例子:时间
t = '19:05:30'
m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$',t)

In [20]:
m.groups()

('19', '05', '30')

**编译:re.compile(pattern[,flags])**

In [1]:
import re

In [2]:
re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')

In [3]:
re_telephone.match('010-12345').groups()

('010', '12345')

**re.findall(pattern,string,flags=0)**<br>
pattern - 正则表达式<br>
string - 需要处理的字符串<br>
flags - 标志位，用于控制正则表达式的匹配方式，如是否区分大小写re.l

In [4]:
#第一种
pattern = re.compile(r'\d+')
pattern.findall('one1two2three3four4')

['1', '2', '3', '4']

In [7]:
#第二种
pattern = re.compile(r'\d+')
re.findall(pattern,"one123")

['123']