正则表达式是一个针对字符串的规则，如果一个字符串满足某个正则表达式设计的规则，那么就称这个字符串和正则表达式匹配

最严格的限定是直接指定字符，如python，只有一个字符串内容就是python才匹配。

放松限定：

### ‘一个’：

\d 一个数字

\w 一个字母或者数字

例子：

'00\d'  可以匹配001而不能是00A

'\d\d\d' 可以匹配000但不能是01a

'\w\w\d' 可以匹配py3

. 可以匹配任何字符

例子：

'py.'可以匹配py1，pyd，py！等等

### ‘多个’：

\* 任意多个任意字符

\+ 至少一个字符，字符类型由前面的规则决定

? 0或1个任意字符，字符类型由前面的规则决定

{n} n个字符，字符类型由前面的规则决定

{n-m} n到m个字符，字符类型由前面的规则决定

例子：

\d{3}\s+\d{3,8} :匹配以任意个空格隔开的带区号的电话号码

3个数字，至少一个空格，3到8个数字

如果是用-隔开: \d{3}\\-\d{3,8}


### 范围限制

前面的\d或者\w可以换成[], []内的东西表示范围，一个[]表示一个字符，后面加上\+或者{}等就可以表示多个

如[0-9a-zA-Z\\_]可以用于匹配一个 数字，或者大小写字母，或者下划线

[0-9a-zA-Z\\_]+可以用于匹配至少一个 数字，或者大小写字母，或者下划线

\[a-zA-Z\\\_\][0-9a-zA-Z\\\_]{0,19} 第一个字符是字母或者下划线，后面的字符可以是数字字母下划线，个数从0到19个都可以


如果想要排除某个字符，可以用[^A],在[]中，^表示否定

A|B：匹配A或B，如[P|p]ython 匹配Python或者python

^匹配的开头，\$表示匹配的结束，^\d就是以数字开头，\d\$就是以数字结尾。

例子：正则表达式如果是py，那么python也满足要求，但是如果是^py$，则python就无法匹配，因为不是以y结束


### 实际应用

字符串自带转义，所以表示字符串的时候先加上r前缀

a本身没问题，print的时候有问题

In [20]:
a = 'ABC\\-001'

In [21]:
print(a)

ABC\-001


In [22]:
a

'ABC\\-001'

In [23]:
a=r'ABC\\-001'

In [24]:
print(a)

ABC\\-001


In [25]:
import re #正则表达式处理模块
re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
# 表达式为 000-000到000-00000000

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

In [27]:
re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
#如果满足就返回一个match对象（可当作True用于判断），
#如果不符合没有返回（返回None）

### 切分字符串

In [28]:
# 直接切分无法识别连续的切分点
'a b   c'.split(' ')

['a', 'b', '', '', 'c']

In [29]:
# 用正则表达式
re.split(r'\s+', 'a b   c')
#表达式为至少一个空格作为切分点

['a', 'b', 'c']

In [34]:
#多个切分标志
re.split(r'[\s\,]+', 'a,b,  c,   d')

['a', 'b', 'c', 'd']

In [32]:
re.split(r'[\s|\,]+', 'a,b, c   ,d')

['a', 'b', 'c', 'd']

### 分组（提取）

In [35]:
# ^(\d{3})-(\d{3,8})$中加入了()，()内的作为一个组，这个表达式有2组
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
m

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

In [36]:
m.group(0) #0的意思是提取原始字符串

'010-12345'

In [37]:
m.group(1) #提取第一组字符串

'010'

In [38]:
m.group(2) #提取第二组字符串

'12345'

In [40]:
t = '19:05:30'
m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
#分成3组，第一组限定只能是2位数，第二位0-9，第一位1-2，或者只有一位数
# 第二组限定只能是2位数，第二位0-9，第一位0-6，或者只有一位数
# 第二=三组限定只能是2位数，第二位0-9，第一位0-6，或者只有一位数
m.groups()

('19', '05', '30')

In [42]:
t2 = '1:5:7'
m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t2)
m.groups()

('1', '5', '7')

In [43]:
t3 = '1:65:7'
m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t3)
m.groups()

AttributeError: 'NoneType' object has no attribute 'groups'

### 贪婪匹配

In [49]:
#第一组是从数字开始，匹配至少一个数字
#第二组是匹配末尾任意多个0（包括没有
#默认采用贪婪算法，第一组匹配掉了全部数字
re.match(r'^(\d+)(0*)$','102300').groups()

('102300', '')

In [62]:
# 第一组是数字开始，匹配至少一个数字
# 但是加了？后不再贪婪匹配，匹配到可以让第二组进行匹配的时候就停止
# 第二组匹配结尾的所有0
# ？这里应该是个特殊用法，和+互换后出错
re.match(r'^(\d+?)(0*)$','102300').groups()

('1023', '00')

### 提前（预）编译正则表达式

In [64]:
import re
re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')

In [65]:
# 使用
re_telephone.match('010-12345').groups()

('010', '12345')

### 练习
请尝试写一个验证Email地址的正则表达式。版本一应该可以验证出类似的Email：

someone@gmail.com

bill.gates@microsoft.com


In [132]:
import re
re_email_ver1 = re.compile(r'(.+)@(.+)\.(.+)$')

In [141]:
re_email_ver1.match('someone@gmail.com').group(0)

'someone@gmail.com'

In [142]:
re_email_ver1.match('bill.gates@microsoft.com').group(0)

'bill.gates@microsoft.com'

In [143]:
re_email_ver1.match('bill.gates').group(0)

AttributeError: 'NoneType' object has no attribute 'group'

版本二可以验证并提取出带名字的Email地址：

<Tom Paris> tom@voyager.org

In [173]:
import re
re_email_ver2 = re.compile(r'(<.*>)*\s*(.*[^\s]@.+\..+$)')

In [174]:
re_email_ver2.match('<Tom Paris> tom@voyager.org').group(2)

'tom@voyager.org'

In [175]:
re_email_ver2.match('bill.gates@microsoft.com').group(2)

'bill.gates@microsoft.com'

In [176]:
re_email_ver2.match('<Tom Paris> @voyager.org').group(2)

AttributeError: 'NoneType' object has no attribute 'group'