## 正则表达式
- 正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

In [31]:
import re

rs = re.match(r'\d{3,8}\-\d{3,8}', '0210-2124')
print(rs.group())

0210-2124


- match()方法判断是否匹配，如果匹配成功，返回一个Match对象，否则返回None。常见的判断方法就是：

In [32]:
test = '用户输入的字符串'
if re.match(r'用户', test):
    print('ok')
else:
    print('failed')

ok


#### 切分字符串
- 用正则表达式切分字符串比用固定的字符更灵活

In [39]:
print('a b   c'.split(' '))
print(re.split(r'\s+', 'a b   c'))
print(re.split(r'[\s,\;]+', 'a,b;; c   d'))

['a', 'b', '', '', 'c']
['a', 'b', 'c']
['a', 'b', 'c', 'd']


#### 分组
- 除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组(Group)。
- 如果正则表达式中定义了组，就可以在Match对象上用group()方法提取出子串来。
- 注意到group(0)永远是原始字符串，group(1)、group(2)……表示第1、2、……个子串。
- groups()返回子串组成的元组。

In [50]:
m = re.match(r'^(\d{3})-(\d{3,8})$', '020-56546')
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.groups())

020-56546
020
56546
('020', '56546')


In [56]:
t = '19:05:30'
m = re.match(r'(0[0-9]|1[0-9]|2[0-3]|[0-9]):([0-5][0-9]|[0-9]):([0-5][0-9]|[0-9])', t)
print(m.groups())

('19', '05', '30')


#### 贪婪匹配
- 正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。
- 在“+”、“*”、“?”后面加“?”使用非贪婪匹配，也就是尽可能少匹配。

In [63]:
m = re.match(r'^(\d+?)(0*)$', '10023001000')
m1 = re.match(r'^(\d+?)(0*)$', '10023001000')
print(m.groups(),m1.groups())

('10023001', '000') ('10023001', '000')


#### 编译
- 当我们在Python中使用正则表达式是，re模块内部会干两件事：
 1. 编译正则表达式，如果正则表达式的字符串本身不合法，会报错；
 2. 用编译后的正则表达式去匹配字符串。

In [64]:
import re

re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
print(re_telephone.match('010-515144').groups())
print(re_telephone.match('020-221651').groups())

('010', '515144')
('020', '221651')


### 练习
请尝试写一个验证Email地址的正则表达式。版本一应该可以验证出类似的Email：
- someone@gmail.com
- bill.gates@microsoft.com

In [87]:
import re

def is_valid_email(addr):
    re_addr = re.compile(r'([\w]+_?[\w]+\.)*(\w+?)@(\w+)(\.\w+)+')
    return re_addr.match(addr)

In [88]:
# 测试:
assert is_valid_email('someone@gmail.com')
assert is_valid_email('bill.gates@microsoft.com')
assert not is_valid_email('bob#example.com')
assert not is_valid_email('mr-bob@example.com')
print('ok')

ok


提取出带名字的Email地址：
- <Tom Paris> tom@voyager.org => Tom Paris
- bob@example.com => bob

In [120]:
import re

def name_of_email(addr):
    re_addr = re.compile(r'^(?:<(.*?)>\s?\w+)?(\w+)@(?:\w+)(?:\.\w+)+$')
    return re_addr.match(addr).group(1) if re_addr.match(addr).group(1) else re_addr.match(addr).group(2)

In [121]:
# 测试:
assert name_of_email('<Tom Paris> tom@voyager.org') == 'Tom Paris'
assert name_of_email('tom@voyager.org') == 'tom'
print('ok')

ok
