# 正则表达式 

## 1. 正则表达式中字符 

- 正则表达式是一种字符串，正则表达式字符串是由普通字符和元字符（Metacharacters） 组成。
    - 普通字符。是按照字符字面意义表示的字符。如图 1-1 所示是验证域名为 zhijieketang.com的邮箱的正则表达式，其中标号②的字符（@zhijieketang和com） 都属于普通字符，这里他们都表示字符本身的字面意义。
    - 元字符。是预先定义好的一些特定字符，如图 1-1 所示其中标号①的字符（\w+ 和\.）都属于元字符.

### 1.1 元字符 

元字符（Metacharacters）是用来描述其他字符的特殊字符，它是由基本元字符+普通 字符构成。 


-  \ 转义符，表示转义 
- . 表示任意一个字符 
- \+ 表示重复一次或多次 
- \* 表示重复零次或多次 
- ? 表示重复零次或一次 
- | 选择符号，表示“或关系”，例如：A | B 表示匹配 A 或 B 
- { } 定义量词 
- \[ \] 定义字符类 
- ( ) 定义分组 
- \^ 可以表示取反，或匹配一行的开始 
- \$ 匹配一行的结束 

### 1.2 字符转义 

不仅可以对普通字符进行转义，还可以对基本元字符进行转义，  
如图 1 所示其中点 （.）字符是希望按照点（.）字面意义使用，  
作为.com 域名的一部分，而不是作为“.”基 本元字符使用，  
所以需要加反斜杠（\）进行转义，即“\.”才是表示点（.）字面意义。 

### 1.3 开始与结束字符 

当以^开始时，要求一行字符串的开始位置匹配；  
当以$结束时，要求一行字符串的 结束位置匹配。  

所以正则表达式\\w+@zhijieketang\.com 和^\\w+@zhijieketang\.com$是不同的。 

In [1]:
import re

p1 = r'\w+@zhijieketang\.com'
p2 = r'^\w+@zhijieketang\.com$'

In [8]:
text = "Tony's email is tony_guan588@zhijieketang.com."
m = re.search(p1, text)
print(m)  # 匹配

m = re.search(p2, text)
print(m)  # 不匹配

email = 'tony_guan588@zhijieketang.com'
m = re.search(p2, email)
print(m)  # 匹配

<re.Match object; span=(16, 45), match='tony_guan588@zhijieketang.com'>
None
<re.Match object; span=(0, 29), match='tony_guan588@zhijieketang.com'>


## 2. 字符类

### 2.1 定义字符类

定义一个普通的字符类需要使用“[”和“]”元字符类

In [9]:
import re

p = r'[Jj]ava'
# p = r'Java|java|JAVA' #或

m = re.search(p, 'I like Java and Python.')
print(m)  # 匹配

m = re.search(p, 'I like JAVA and Python.')
print(m)  # 不匹配

m = re.search(p, 'I like java and Python.')
print(m)  # 匹配

<re.Match object; span=(7, 11), match='Java'>
None
<re.Match object; span=(7, 11), match='java'>


### 2.2 字符类取反 

有时需要在正则表达式中指定不想出现的字符，可以在字符类前加“^”符号

In [12]:
import re

p = r'[^0123456789]'

m = re.search(p, '1000')
print(m)  # 不匹配

m = re.search(p, '1000Python 3')
print(m)  # 匹配P

None
<re.Match object; span=(4, 5), match='P'>


### 2.3 区间 

区间是用连字符（-）表示的，[0123456789]采用区间表示为[0-9]，[^0123456789]采用区间表示为[^0-9]。  
区间还可以表示连续的英文字母字符类，  
例如[a-z]表示所有小写字母字符类，[A-Z]表示所有大写字母字符类。    
[A-Za-z0-9]表示所有英文字母和数值字符类，[0-25-7]表示 0、1、2、5、6、7 几个字符组成的字符类。

In [14]:
import re

m = re.search(r'[A-Za-z0-9]', 'python3.7')
print(m)  # 匹配

m = re.search(r'[0-25-7]', 'A3489C')
print(m)  # 不匹配

<re.Match object; span=(0, 1), match='p'>
None


### 2.4 预定义字符类 

有些字符类很常用，例如[0-9]等，为了书写方便正则表达式提供了预定义的字符类， 例如预定义字符类\d 等价于[0-9]字符类

- . 匹配任意一个字符   
- \\ 匹配反斜杠\字符 
- \n 匹配换行 
- \r 匹配回车 
- \f 匹配一个换页符 
- \t 匹配一个水平制表符 
- \v 匹配一个垂直制表符 
- \s 匹配一个空格符，等价于[\t\n\r\f\v] 
- \S 匹配一个非空格符，等价于[^\s] 
- \d 匹配一个数字字符，等价于[0-9] 
- \D 匹配一个非数字字符，等价于[^0-9] 
- \w 匹配任何语言的单词字符（如：英文字母、亚洲文字等）、数字和下划线(_)等字符，
    如果正则表达式编译标志设置为 ASCII，则只匹配[a-zA-Z0-9_] 
- \W 等价于[^\w] 
 
 

In [19]:
import re

# p = r'[^0123456789]'
p = r'\D'

m = re.search(p, '1000')
print(m)  # 不匹配

m = re.search(p, 'Python 3')
print(m)  # 匹配

text = '你们好Hello'
m = re.search(r'\w', text)
print(m)  # 匹配

text = '你们好sayHello'
m = re.search(r'\w', text,flags = re.A)
print(m)  # 匹配

text = '你们好Hello'
m = re.search(r'\w', text,flags = re.ASCII)
print(m)  # 匹配

None
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='你'>
<re.Match object; span=(3, 4), match='s'>
<re.Match object; span=(3, 4), match='H'>


## 3. 量词

### 3.1 使用量词 

量词是表示字符或字符串重复的次数。 

- ? 出现零次或一次 0,1
- \* 出现零次或多次 >=0
- \+ 出现一次或多次 >=1
- {n} 出现 n 次 n
- {n,m} 至少出现 n 次但不超过 m 次   n=< <=m
- {n,} 至少出现 n 次 >=n

In [20]:
import re

m = re.search(r'\d?', '87654321')  # 出现数字一次
print(m)  # 匹配字符'8'

<re.Match object; span=(0, 1), match='8'>


In [21]:
m = re.search(r'\d?', 'ABC')  # 出现数字零次
print(m)  # 匹配字符''

<re.Match object; span=(0, 0), match=''>


In [22]:
m = re.search(r'\d*', '87654321')  # 出现数字多次
print(m)  # 匹配字符'87654321'

<re.Match object; span=(0, 8), match='87654321'>


In [23]:
m = re.search(r'\d*', 'ABC')  # 出现数字零次
print(m)  # 匹配字符''

<re.Match object; span=(0, 0), match=''>


In [24]:
m = re.search(r'\d+', '87654321')  # 出现数字多次
print(m)  # 匹配字符'87654321'

<re.Match object; span=(0, 8), match='87654321'>


In [30]:
m = re.search(r'\d+', 'ABC')
print(m)  # 不匹配

<re.Match object; span=(3, 4), match='2'>


In [26]:
m = re.search(r'\d{8}', '87654321')  # 出现数字8次
print('8765432', m)  # 匹配字符'87654321'

8765432 <re.Match object; span=(0, 8), match='87654321'>


In [27]:
m = re.search(r'\d{8}', 'ABC')
print(m)  # 不匹配

None


In [28]:
m = re.search(r'\d{7,8}', '87654321')  # 出现数字8次
print(m)  # 匹配字符'87654321'

<re.Match object; span=(0, 8), match='87654321'>


In [32]:
m = re.search(r'\d{9,}', '87653321')
print(m)  # 不匹配

None


### 3.2 贪婪量词和懒惰量词 

量词还可以细分为贪婪量词和懒惰量词，贪婪量词会尽可能多地匹配字符，懒惰量词会尽可能少地匹配字符。  
大多数计算机语言的正则表达式量词默认是贪婪的，要想使用懒惰量词可以在量词后面加“?”即可 

In [35]:
import re

# 使用贪婪量词
m = re.search(r'\d{5,8}', '87654321')  # 出现数字8次
print(m)  # 匹配字符'87654321'

<re.Match object; span=(0, 8), match='87654321'>


In [34]:
# 使用惰性量词
m = re.search(r'\d{5,8}?', '87654321')  # 出现数字5次
print(m)  # 匹配字符'87654'

<re.Match object; span=(0, 8), match='87654321'>
<re.Match object; span=(0, 5), match='87654'>


In [36]:
# Ctrl-Shift-Minus : split cell

# 4. 分组 

在此之前学习量词只能重复显示一个字符，如果想让一个字符串作为整体使用量词，  
可将这个字符串放到一对小括号中，这就是分组（也称子表达式）。 

## 4.1 使用分组 

对正则表达式进行分组不仅可以对一个字符串整体使用量词，还可以在正则表达式 中引用已经存在的分组。 

In [38]:
import re

p = r'(121){2}'
m = re.search(p, '121121abcabc')
print(m)  # 匹配
print(m.group())  # 返回匹配字符串
print(m.group(1))  # 获得第一组内容

<re.Match object; span=(0, 6), match='121121'>
121121
121


In [46]:
p = r'(\d{3,4})-(\d{7,8})'
m = re.search(p, '010-321077777850-8889998')
print(m)  # 匹配
print(m.group())  # 返回匹配字符串
print(m.groups())  # 获得所有组内容

<re.Match object; span=(0, 12), match='010-32107777'>
010-32107777
('010', '32107777')
