# 正则表达式
正则表达式是**匹配字符串**的工具

设计思想:
使用描述性语言给字符串定义一个规则，符合规则的字符串被认定为匹配，否则字符串不合法

匹配符合其功能:

|匹配符|功能|示例|
|:-|:-|:-|
|\d|匹配一个数字|  00\d --- 007|
|\w|匹配一个数字或字母| \w\w\d --- py3|
|\s|匹配一个空格(包括Tab等空白符)| a\sa --- a  a|
|.|匹配任意字符| py. --- pyc|
|*| 表示任意个字符(包括0个)| \d* --- 000|
|+|表示至少1个字符| \d+ --- 7|
|?|表示0个或1个字符| \d? --- 7|
|{n}|表示n个字符| \d{3} --- 123|
|{n,m}|表示n~m个字符| \d{1,7} --- 456|
|-|特殊字符需要\\转义|\\- --- -|

更精确的匹配使用`[]`划分范围，范围里的表达式至少有一个成立:
- `[0-9a-zA-Z\_]`匹配一个数字、字母或下划线(可选的，满足一个就行)
- `[0-9a-zA-Z\_]+`匹配至少一个数字、字母或下划线组成的字符串，如a100、_py、Py3，同样`+`位置可以使用`*`，`{n,m}`等来控制字符串的个数
- `[a-zA-Z\_][0-9a-zA-Z\_]*`匹配字母或下划线开头，后接任意个数数字、字母或下划线组成的字符串，命名的规则
- `A|B`可以匹配A或B，所以(P|p)ython可以匹配'python'或'Python'，用`()`可以分组
- `^`表示行的开头，`$`表示行的结尾，所以`^\d`表示以数字开头，`\d$`表示以数字结尾，`^py$`只能匹配`py`


### 1. re模块匹配
re模块包含所以正则表达式的功能，`re.match(r'Regular Expression', test_str)`

In [1]:
# 注意python字符串总 \ 也要用转义
s = 'ABC\\-001'   # 对应正则表达式的ABC\-001，\用来对-转义
print('1.使用转义符的结果:', s)
# 使用r'string'来解决该问题
s = r'ABC\-001'
print('2.使用raw字符串:',s)

1.使用转义符的结果: ABC\-001
2.使用raw字符串: ABC\-001


In [2]:
# 使用re模块进行字符串匹配
import re 
result = re.match(r'^\d{3}\-\d{3,8}$', '010-123456') # 开头3个数字 + '-' + 结尾3~8个数字
print('1.匹配成功:', result, type(result))     # 匹配成功后返回一个mathc对象
result = re.match(r'^\d{3}\-\d{3,8}$', '010 12345') 
print('1.匹配成功:', result, type(result))     # 匹配失败后返回None

1.匹配成功: <_sre.SRE_Match object; span=(0, 10), match='010-123456'> <class '_sre.SRE_Match'>
1.匹配成功: None <class 'NoneType'>


In [3]:
result = re.match(r'[a-z0-9]{2}', '0abc')
print('1.字符串开头要有使正则表达式成立的部分:', result[0])

1.字符串开头要有使正则表达式成立的部分: 0a


In [4]:
# 匹配的步骤:
import re
test = '用户输入的字符串'
if re.match(r'正则表达式', test):
    print('ok')
else:
    print('failed')

failed


### 2. 切分字符串
`re.split(r'Regular Expression', test_str)`任意切分字符串

In [5]:
split_list = 'a b   c'.split(' ')
print('1.一般字符串的切分结果:', split_list)          # 无法切分连续的空格

1.一般字符串的切分结果: ['a', 'b', '', '', 'c']


In [6]:
# 1. 使用正则表达式切分字符串
split_list = re.split(r'[\s]+', 'a b   c')          # 使用至少1个空格的字符串来切分，这里的[]可以省略
print('1.正则表达式切分字符串的结果:', split_list) 
split_list = re.split(r'[\s\,]+', 'a,b, c , d')     # 使用至少1个空格或1个逗号，组成的字符串
print('2.正则表达式切分字符串的结果:', split_list) 
split_list = re.split(r'[\s\,\;]+', 'a,b;; c  d')   # 使用至少1个空格的字符串来切分 
print('3.正则表达式切分字符串的结果:', split_list) 

1.正则表达式切分字符串的结果: ['a', 'b', 'c']
2.正则表达式切分字符串的结果: ['a', 'b', 'c', 'd']
3.正则表达式切分字符串的结果: ['a', 'b', 'c', 'd']


### 3. 分组
`()`定义要提取的分组，`group()`方法提取子串

In [7]:
result = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')  # ^和 $ 要在()外部，这里共定义了两个组
print('1.分组的结果:')
print(result.groups())
print(result.group(0))   # 0表示所有的字符串，1表示第一组，2表示第二组，用()标注的代表一个组
print(result.group(1))
print(result.group(2))

1.分组的结果:
('010', '12345')
010-12345
010
12345


In [8]:
# 识别时间的例子
t = '19:05:30'
expression = r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:\
(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:\
(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$'   # 注意\:\第二个\是为了换行用的，写一行就去掉它
# | 管道符表示可以取任意一个
result = re.match(expression, t)
print(result.groups())

('19', '05', '30')


### 4. 贪婪匹配
正则匹配默认是贪婪匹配，尽可能多的匹配字符

In [9]:
result = re.match(r'^(\d+)(0*)$', '102300')    # \d+把1023后的00也匹配到了，所以0*没有匹配的字符串
result.groups()

('102300', '')

使用`?`可以使匹配符采用非贪婪匹配法

In [10]:
result = re.match(r'^(\d+?)(0*)$', '112300')    # \d+?只匹配了1023
result.groups()

('1123', '00')

### 5. 编译
1. 编译正则表达式，如果字符串本身不合法，会报错
2. 用编译后的正则表达式匹配字符串

In [11]:
# 可以预先编译正则表达式，然后直接匹配即可
re_telephone = re.compile(r'^(\d{3})\-(\d{3,8})$')
print(type(re_telephone))
print(re_telephone.match('010-12345').groups())   # 编译后的表达式可以直接匹配
print(re_telephone.match('010-8086').groups())

<class '_sre.SRE_Pattern'>
('010', '12345')
('010', '8086')


正则表达式练习

In [12]:
# 1. 写一个验证Email地址的正则表达式，someone@gmail.com，bill.gates@microsoft.com
import re
def is_valid_email(addr):
#     expression = r'^([a-zA-Z\.]+)@([a-zA-Z]+)(\.com)'    # 这里的\.直接写 . 也可以@不是特殊字符，不用转义
    expression = r'^(\w+\.?\w+)@(\w+)(\.\w+)'
    result = re.match(expression, addr)
#     print(result)
    return True if result else False

assert is_valid_email('someone@gmail.com')
assert is_valid_email('bill.gates@microsoft.com')
assert not is_valid_email('bob#example.com')
assert not is_valid_email('mr-bob@example.com')
print('ok')

ok


In [13]:
# 2. 以提取出带名字的Email地址，<Tom Paris> tom@voyager.org => Tom Paris，bob@example.com => bob
def name_of_email(addr):
#     expression = r'^<?(\w+\s*\w+)?>?\s*\w*@\w+\.\w+$'   # 太难看了，但能用
    expression = r'<*(\w*\s*\w*)>*\s*\w*@\w+\.\w+'        # 可用, *表示任意个，包括0
    result = re.match(expression, addr)   
    print(result.groups())
    return (result.group(1))   
assert name_of_email('<Tom Paris> tom@voyager.org') == 'Tom Paris'
assert name_of_email('tom@voyager.org') == 'tom'
print('ok')

('Tom Paris',)
('tom',)
ok


In [14]:
result = re.match(r'^\w+\s*\s*', 'a = ')         # 匹配开头字母与结尾的空格
print('1.匹配成功:', result, type(result))        # 输出匹配到的字符串部分

1.匹配成功: <_sre.SRE_Match object; span=(0, 2), match='a '> <class '_sre.SRE_Match'>


小结:
- 正则匹配时，字符串中需要匹配的字符要在正则表达式中，否则会报错`TypeError: 'NoneType' object is not subscriptable`
- 正则表达式处理字符串从左边开始
- 字符串从左边起只要满足正则表达式，就算匹配成功，不需要字符串的所有部分匹配