# 正则表达式 

## 1. 正则表达式中字符 

- 正则表达式是一种字符串，正则表达式字符串是由普通字符和元字符（Metacharacters） 组成。
    - 普通字符。是按照字符字面意义表示的字符。如图 1-1 所示是验证域名为 zhijieketang.com的邮箱的正则表达式，其中标号②的字符（@zhijieketang和com） 都属于普通字符，这里他们都表示字符本身的字面意义。
    - 元字符。是预先定义好的一些特定字符，如图 1-1 所示其中标号①的字符（\w+ 和\.）都属于元字符.

### 1.1 元字符 

元字符（Metacharacters）是用来描述其他字符的特殊字符，它是由基本元字符+普通 字符构成。 


-  \ 转义符，表示转义 
- . 表示任意一个字符 
- \+ 表示重复一次或多次 
- \* 表示重复零次或多次 
- ? 表示重复零次或一次 
- | 选择符号，表示“或关系”，例如：A | B 表示匹配 A 或 B 
- { } 定义量词 
- [ \] 定义字符类 
- ( ) 定义分组 
- \^ 可以表示取反，或匹配一行的开始 
- \$ 匹配一行的结束 

### 1.2 字符转义 

不仅可以对普通字符进行转义，还可以对基本元字符进行转义，  
如图 1 所示其中点 （.）字符是希望按照点（.）字面意义使用，  
作为.com 域名的一部分，而不是作为“.”基 本元字符使用，  
所以需要加反斜杠（\）进行转义，即“\.”才是表示点（.）字面意义。 

### 1.3 开始与结束字符 

当以^开始时，要求一行字符串的开始位置匹配；  
当以$结束时，要求一行字符串的 结束位置匹配。  

所以正则表达式\\w+@zhijieketang\.com 和^\\w+@zhijieketang\.com$是不同的。 

In [1]:
import re

p1 = r'\w+@zhijieketang\.com'
p2 = r'^\w+@zhijieketang\.com$'

In [8]:
text = "Tony's email is tony_guan588@zhijieketang.com."
m = re.search(p1, text)
print(m)  # 匹配

m = re.search(p2, text)
print(m)  # 不匹配

email = 'tony_guan588@zhijieketang.com'
m = re.search(p2, email)
print(m)  # 匹配

<re.Match object; span=(16, 45), match='tony_guan588@zhijieketang.com'>
None
<re.Match object; span=(0, 29), match='tony_guan588@zhijieketang.com'>


## 2. 字符类

### 2.1 定义字符类

定义一个普通的字符类需要使用“[”和“]”元字符类

In [9]:
import re

p = r'[Jj]ava'
# p = r'Java|java|JAVA' #或

m = re.search(p, 'I like Java and Python.')
print(m)  # 匹配

m = re.search(p, 'I like JAVA and Python.')
print(m)  # 不匹配

m = re.search(p, 'I like java and Python.')
print(m)  # 匹配

<re.Match object; span=(7, 11), match='Java'>
None
<re.Match object; span=(7, 11), match='java'>


### 2.2 字符类取反 

有时需要在正则表达式中指定不想出现的字符，可以在字符类前加“^”符号

In [12]:
import re

p = r'[^0123456789]'

m = re.search(p, '1000')
print(m)  # 不匹配

m = re.search(p, '1000Python 3')
print(m)  # 匹配P

None
<re.Match object; span=(4, 5), match='P'>


### 2.3 区间 

区间是用连字符（-）表示的，[0123456789]采用区间表示为[0-9]，[^0123456789]采用区间表示为[^0-9]。  
区间还可以表示连续的英文字母字符类，  
例如[a-z]表示所有小写字母字符类，[A-Z]表示所有大写字母字符类。    
[A-Za-z0-9]表示所有英文字母和数值字符类，[0-25-7]表示 0、1、2、5、6、7 几个字符组成的字符类。

In [14]:
import re

m = re.search(r'[A-Za-z0-9]', 'python3.7')
print(m)  # 匹配

m = re.search(r'[0-25-7]', 'A3489C')
print(m)  # 不匹配

<re.Match object; span=(0, 1), match='p'>
None


### 2.4 预定义字符类 

有些字符类很常用，例如[0-9]等，为了书写方便正则表达式提供了预定义的字符类， 例如预定义字符类\d 等价于[0-9]字符类

- . 匹配任意一个字符   
- \\ 匹配反斜杠\字符 
- \n 匹配换行 
- \r 匹配回车 
- \f 匹配一个换页符 
- \t 匹配一个水平制表符 
- \v 匹配一个垂直制表符 
- \s 匹配一个空格符，等价于[\t\n\r\f\v] 
- \S 匹配一个非空格符，等价于[^\s] 
- \d 匹配一个数字字符，等价于[0-9] 
- \D 匹配一个非数字字符，等价于[^0-9] 
- \w 匹配任何语言的单词字符（如：英文字母、亚洲文字等）、数字和下划线(_)等字符，
    如果正则表达式编译标志设置为 ASCII，则只匹配[a-zA-Z0-9_] 
- \W 等价于[^\w] 
 
 

In [1]:
import re

# p = r'[^0123456789]'
p = r'\D'

m = re.search(p, '1000')
print(m)  # 不匹配

m = re.search(p, 'Python 3')
print(m)  # 匹配

text = '你们好Hello'
m = re.search(r'\w', text)
print(m)  # 匹配

text = '你们好sayHello'
m = re.search(r'\w', text,flags = re.A)
print(m)  # 匹配

text = '你们好Hello'
m = re.search(r'\w', text,flags = re.ASCII)
print(m)  # 匹配

None
<re.Match object; span=(0, 1), match='P'>
<re.Match object; span=(0, 1), match='你'>
<re.Match object; span=(3, 4), match='s'>
<re.Match object; span=(3, 4), match='H'>


## 3. 量词

### 3.1 使用量词 

量词是表示字符或字符串重复的次数。 

- ? 出现零次或一次 0,1
- \* 出现零次或多次 >=0
- \+ 出现一次或多次 >=1
- {n} 出现 n 次 n
- {n,m} 至少出现 n 次但不超过 m 次   n=< <=m
- {n,} 至少出现 n 次 >=n

In [20]:
import re

m = re.search(r'\d?', '87654321')  # 出现数字一次
print(m)  # 匹配字符'8'

<re.Match object; span=(0, 1), match='8'>


In [21]:
m = re.search(r'\d?', 'ABC')  # 出现数字零次
print(m)  # 匹配字符''

<re.Match object; span=(0, 0), match=''>


In [22]:
m = re.search(r'\d*', '87654321')  # 出现数字多次
print(m)  # 匹配字符'87654321'

<re.Match object; span=(0, 8), match='87654321'>


In [23]:
m = re.search(r'\d*', 'ABC')  # 出现数字零次
print(m)  # 匹配字符''

<re.Match object; span=(0, 0), match=''>


In [24]:
m = re.search(r'\d+', '87654321')  # 出现数字多次
print(m)  # 匹配字符'87654321'

<re.Match object; span=(0, 8), match='87654321'>


In [30]:
m = re.search(r'\d+', 'ABC')
print(m)  # 不匹配

<re.Match object; span=(3, 4), match='2'>


In [26]:
m = re.search(r'\d{8}', '87654321')  # 出现数字8次
print('8765432', m)  # 匹配字符'87654321'

8765432 <re.Match object; span=(0, 8), match='87654321'>


In [27]:
m = re.search(r'\d{8}', 'ABC')
print(m)  # 不匹配

None


In [28]:
m = re.search(r'\d{7,8}', '87654321')  # 出现数字8次
print(m)  # 匹配字符'87654321'

<re.Match object; span=(0, 8), match='87654321'>


In [32]:
m = re.search(r'\d{9,}', '87653321')
print(m)  # 不匹配

None


### 3.2 贪婪量词和懒惰量词 

量词还可以细分为贪婪量词和懒惰量词，贪婪量词会尽可能多地匹配字符，懒惰量词会尽可能少地匹配字符。  
大多数计算机语言的正则表达式量词默认是贪婪的，要想使用懒惰量词可以在量词后面加“?”即可 

In [35]:
import re

# 使用贪婪量词
m = re.search(r'\d{5,8}', '87654321')  # 出现数字8次
print(m)  # 匹配字符'87654321'

<re.Match object; span=(0, 8), match='87654321'>


In [34]:
# 使用惰性量词
m = re.search(r'\d{5,8}?', '87654321')  # 出现数字5次
print(m)  # 匹配字符'87654'

<re.Match object; span=(0, 8), match='87654321'>
<re.Match object; span=(0, 5), match='87654'>


In [36]:
# Ctrl-Shift-Minus : split cell

## 4. 分组 

在此之前学习量词只能重复显示一个字符，如果想让一个字符串作为整体使用量词，  
可将这个字符串放到一对小括号中，这就是分组（也称子表达式）。 

### 4.1 使用分组 

对正则表达式进行分组不仅可以对一个字符串整体使用量词，还可以在正则表达式 中引用已经存在的分组。 

In [38]:
import re

p = r'(121){2}'
m = re.search(p, '121121abcabc')
print(m)  # 匹配
print(m.group())  # 返回匹配字符串
print(m.group(1))  # 获得第一组内容

<re.Match object; span=(0, 6), match='121121'>
121121
121


In [46]:
p = r'(\d{3,4})-(\d{7,8})'
m = re.search(p, '010-321077777850-8889998')
print(m)  # 匹配
print(m.group())  # 返回匹配字符串
print(m.groups())  # 获得所有组内容

<re.Match object; span=(0, 12), match='010-32107777'>
010-32107777
('010', '32107777')


### 4.2 命名分组 

在 Python 程序中访问分组时，除了可以通过组编号进行访问，还可以通过组名进行访问，  
前提是要在正则表达式中为组命名。  
组命名语法是在分组的左小括号后添加?P<分 组名>实现。 

In [47]:
import re

p = r'(?P<area_code>\d{3,4})-(?P<phone_code>\d{7,8})'
m = re.search(p, '010-87654321')
print(m)  # 匹配
print(m.group())  # 返回匹配字符串
print(m.groups())  # 获得所有组内容

<re.Match object; span=(0, 12), match='010-87654321'>
010-87654321
('010', '87654321')


In [49]:
# 通过组编号返回组内容
print(m.group(1))
print(m.group(2))

010
87654321


In [50]:
# 通过组名返回组内容
print(m.group('area_code'))
print(m.group('phone_code'))

010
87654321


### 4.3 反向引用分组 

除了可以在程序代码中访问正则表达式匹配之后的分组内容，还可以在正则表达式 内部引用之前的分组。 

In [51]:
import re

# p = r'<([\w]+)>.*</([\w]+)>' #不能保证前后两个标签是一致的 比如<a>mdzz</a>和a>mdzz</b>都被匹配到

p = r'<([\w]+)>.*</\1>'  # 使用反向引用

m = re.search(p, '<a>abc</a>')
print(m)  # 匹配

m = re.search(p, '<a>abc</b>')
print(m)  # 不匹配


<re.Match object; span=(0, 10), match='<a>abc</a>'>
None


### 4.4 非捕获分组

前面介绍的分组称为捕获分组，就是匹配子表达式结果被暂时保存到内存中，  
以备表达式或其他程序引用，这称之为“捕获”，  
捕获结果可以通过组编号或组名进行引用。   
但是有时并不想引用子表达式的匹配结果，不想捕获匹配结果，  
只是将小括号作为一个整体进行匹配，此时可以使用非捕获分组，非捕获分组在组开头使用“?:”实现。 

In [52]:
import re

s = 'img1.jpg,img2.jpg,img3.bmp'

#捕获分组
p = r'\w+(\.jpg)'
mlist = re.findall(p, s)
print(mlist)

# 只返回匹配字符串，但我们真正需要的是含有匹配字符串的整个文件名

['.jpg', '.jpg']


In [53]:
#非捕获分组
p = r'\w+(?:\.jpg)'
mlist = re.findall(p, s)
print(mlist)

['img1.jpg', 'img2.jpg']


## 5. re 模块 

### 5.1 search()和 match()函数 

- search()和 match()函数非常相似，他们的区别如下：
    - search()。在输入字符串中查找，返回第一个匹配内容。如果找到一个 match 对象，如果没有找到返回 None。
    - match()。在输入字符串开始处查找匹配内容，如果找到一个 match 对象，如果没有找到返回 None。 
 
 

In [54]:
import re

p = r'\w+@zhijieketang\.com'

text = "Tony's email is tony_guan588@zhijieketang.com."
m = re.search(p, text)
print(m)  # 匹配

m = re.match(p, text)
print(m)  # 不匹配

<re.Match object; span=(16, 45), match='tony_guan588@zhijieketang.com'>
None


In [55]:
email = 'tony_guan588@zhijieketang.com'
m = re.search(p, email)
print(m)  # 匹配

m = re.match(p, email)
print(m)  # 匹配

<re.Match object; span=(0, 29), match='tony_guan588@zhijieketang.com'>
<re.Match object; span=(0, 29), match='tony_guan588@zhijieketang.com'>


In [56]:
# match对象几个方法
print('match对象几个方法:')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

match对象几个方法:
tony_guan588@zhijieketang.com
0
29
(0, 29)


### 5.2 findall()和 finditer()函数 

- findall()和 finditer()函数非常相似，他们的区别如下：
    - findall()。在输入字符串中查找所有匹配内容。如果匹配成功，则返回 match 列表对象；如果匹配失败则返回 None。
    - finditer()。在输入字符串中查找所有匹配内容，如果匹配成功，则返回容纳 match 的可迭代对象，通过迭代对象每次可以返回一个 match 对象。如果匹配失败则返回 None。 
 
 

In [58]:
import re

p = r'[Jj]ava'
text = 'I like Java and java.'

match_list = re.findall(p, text)
print(match_list)  # 匹配

['Java', 'java']


In [64]:
match_iter = re.finditer(p, text)
print(type(match_iter))
print(match_iter)
for m in match_iter:
    print(m.group())

<class 'callable_iterator'>
<callable_iterator object at 0x0000022EB0087588>
Java
java


### 5.3 字符串分割

字符串分割使用 split()函数，该函数按照匹配的子字符串进行分割字符串，返回字符串列表对象。 

>re.split(pattern, string, maxsplit=0, flags=0) 

In [66]:
import re

p = r'\d+'
text = 'AB12CD34EF'

clist = re.split(p, text)
print(clist)

['AB', 'CD', 'EF']


In [67]:
clist = re.split(p, text, maxsplit=1)
print(clist)

clist = re.split(p, text, maxsplit=2)
print(clist)

['AB', 'CD34EF']
['AB', 'CD', 'EF']


### 5.4 字符串替换 

字符串替换使用 sub()函数，该函数替换匹配的子字符串，返回值是替换之后的字符 串。 

>re.sub(pattern, repl, string, count=0, flags=0) 
 

In [68]:

import re

p = r'\d+'
text = 'AB12CD34EF'

repace_text = re.sub(p, ' ', text)
print(repace_text)

repace_text = re.sub(p, ' ', text, count=1)
print(repace_text)

repace_text = re.sub(p, ' ', text, count=2)
print(repace_text)

AB CD EF
AB CD34EF
AB CD EF


## 6. 编译正则表达式 

但是为了提高效率，还可以对 Python 正则表达式进行编译。  
编译的正则表达式可以重复使用，减少正则表达式解析和验证，提高效率。  
在 re 模块中的 compile()函数可以编译正则表达式，compile()函数语法如下： 

    re.compile(pattern[, flags=0])  
 

### 6.1 已编译正则表达式对象 

<center>已编译正则表达式对象方法与 re 模块函数对照 </center>   

常用函数|已编译正则表达式对象方法 |re 模块函数
 :-----: | :--------------------: | :-------:   
search()| regex.search(string[, pos[, endpos]])|re.search(pattern, string, flags=0) 
match()| regex.match(string[, pos[, endpos]])| re.match(pattern, string, flags=0) 
findall()| regex.findall(string[, pos[, endpos]]) |re.findall(pattern, string, flags=0) 
finditer() |regex.finditer(string[, pos[, endpos]]) |re.finditer(pattern, string, flags=0) 
sub()| regex.sub(repl, string, count=0) |re.sub(pattern, repl, string, count=0, flags=0) 
split()| regex.split(string, maxsplit=0) |re.split(pattern, string, maxsplit=0, flags=0) 

In [1]:
import re

p = r'\w+@zhijieketang\.com'
regex = re.compile(p)

In [2]:
text = "Tony's email is tony_guan588@zhijieketang.com."
m = regex.search(text)
print(m)  # 匹配

m = regex.match(text)
print(m)  # 不匹配

<re.Match object; span=(16, 45), match='tony_guan588@zhijieketang.com'>
None


In [5]:
p = r'[Jj]ava'
regex = re.compile(p)
text = 'I like Java and java.'

match_list = regex.findall(text)
print(match_list)  # 匹配

match_iter = regex.finditer(text)
for m in match_iter:
    print(m.group())

['Java', 'java']
Java
java


In [6]:
p = r'\d+'
regex = re.compile(p)
text = 'AB12CD34EF'

clist = regex.split(text)
print(clist)

repace_text = regex.sub(' ', text)
print(repace_text)

['AB', 'CD', 'EF']
AB CD EF


### 6.2 编译标志 

compile()函数编译正则表达式对象时，还可以设置编译标志。编译标志可以改变正则表达式引擎行为。

<center>几个常用的编译标志</center>

                                                            1. ASCII 和 Unicode 
                                                            2. 忽略大小写 
                                                            3. 点（.）元字符匹配换行符 
                                                            4. 多行模式 
                                                            5. 详细模式 
 

### 6.1 ASCII 和 Unicode 

可以通过编译标志re.ASCII（或re.A）设置ASCII编码；  
编译标志re.UNICODE（或re.U）设置Unicode编码。

In [7]:
import re

text = '你们好Hello'

p = r'\w+'
regex = re.compile(p, re.U)

m = regex.search(text)
print(m)  # 匹配

m = regex.match(text)
print(m)  # 匹配

<re.Match object; span=(0, 8), match='你们好Hello'>
<re.Match object; span=(0, 8), match='你们好Hello'>


In [8]:
regex = re.compile(p, re.A)

m = regex.search(text)
print(m)  # 匹配

m = regex.match(text)
print(m)  # 不匹配

<re.Match object; span=(3, 8), match='Hello'>
None


### 6.2 忽略大小写 

默认情况下正则表达式引擎室大小写敏感的，但有时在匹配过程中需要忽略大小写，  
可以通过编译标志re.IGNORECASE（或re.I）实现。

In [11]:
import re

p = r'(java).*(python)'
regex = re.compile(p, re.I)

m = regex.search('I like Java and Python.')
print(m)  # 匹配

m = regex.search('I like JAVA and Python.')
print(m)  # 匹配

m = regex.search('I like java and Python.')
print(m)  # 匹配

None
None
None


### 6.3 点（.）元字符匹配换行符 

默认情况下正则表达式引擎中点（.）元字符可以匹配除换行符外的任何字符，  
但是有时需要点（.）元字符也能匹配换行符，可以通过编译标志re.DOTALL（或re.S）实现。

In [14]:
import re

p = r'.+'
regex = re.compile(p)

m = regex.search('Hello\n World.')
print(m)  # 匹配

regex = re.compile(p, re.DOTALL)

m = regex.search('Hello\n World.')
print(m)  # 匹配

<re.Match object; span=(0, 5), match='Hello'>
<re.Match object; span=(0, 13), match='Hello\n World.'>


### 6.4 多行模式 

编译标志re.MULTILINE（或re.M）可以设置多行模式， 

多行模式对于元字符^和\$行为会产生影响。  

默认情况下^和\$匹配字符串的开始和结束，

而在多行模式下^和$匹配任意一行的开始和结束。

In [15]:
import re

p = r'^World'
regex = re.compile(p)

m = regex.search('Hello\nWorld.')
print(m)  # 不匹配

regex = re.compile(p, re.M)

m = regex.search('Hello\nWorld.')
print(m)  # 匹配

None
<re.Match object; span=(6, 11), match='World'>


### 6.5 详细模式

编译表示re.VERBOSE（或re.X）可以设置详细模式，  
详细模式情况下可以在正则表达式中添加注释，可以有空格和换行，  
这样编写的正则表达式非常便于阅读。

In [16]:
import re

p = """(java)     #匹配java字符串
        .*        #匹配任意字符零或多个
        (python)  #匹配python字符串
    """

regex = re.compile(p, re.I | re.VERBOSE)

m = regex.search('I like Java and Python.')
print(m)  # 匹配

m = regex.search('I like JAVA and Python.')
print(m)  # 匹配

m = regex.search('I like java and Python.')
print(m)  # 匹配

<re.Match object; span=(7, 22), match='Java and Python'>
<re.Match object; span=(7, 22), match='JAVA and Python'>
<re.Match object; span=(7, 22), match='java and Python'>
