# 正则表达式

正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。

正则表达式的大致匹配过程是：
1. 依次拿出表达式和文本中的字符比较，
2. 如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。
3. 如果表达式中有量词或边界，这个过程会稍微有一些不同。

## 正则表达式的语法规则

**字符**    

|语法|<center>说明</center>|表达式实例|完整匹配的字符串|   
|---|:---|------|---------|
|一般字符|匹配自身|abc|abc|
|**.**|匹配任意除换行符"\n"外的字符|a.c|abc|
|\\ |转义字符|a\\.b|a\b|
|\\ |如果有\*需要匹配可以使用\\\*或者字符集[\*] |a\\c|a\c|
|[...]|字符集，对应位置可以是字符集中的任意字符。<br>字符集中的字符可逐个列出，也可写范围，也可写^表示非运算|a[^c-z]c|abc<br>aac|


**预定字符集(可以写在字符集[...]中)**

|语法|  说明  |表达式实例|完整匹配的字符串|   
| ---|----|------|---------|
|\d|数字：[0-9]|a\dc|a1c|
|\D|非数字：[^\d]|a\Dc|abc|
|\s|空白字符：[<空格>\t \r \n \f \v]|a\sc|a c|
|\S|非空白字符：[^\s]|a\Sc|abc|
|\w|单词字符：[A-Za-z0-9_]|a\wc|abc|
|\W|非单词字符：[^\w]|a\Wc|a c|

**数量词(用在字符或(...)之后)**   

|语法|  <center>说明<center>  |表达式实例|完整匹配的字符串|   
| ---|----|------|---------|
|\*|匹配前一个字符0次或无限次|abc\*|ab<br>abcccc|
|+|匹配前一个字符1次或无限次|abc+|abc<br>abcccc|
|?|匹配前一个字符0次或无限次|abc?|ab<br>abc|
|{m}|匹配前一个字符m次|ab{2}c|abbc|
|{m,n}|匹配前一个字符m至n次<br>m省略表示从0开始，n省略表示可以匹配至无限次|ab{1,2}c|abc<br>abbc|
|\*? +?<br>{m,n}?|使 * + {m,n}变成非贪婪模式|

**边界匹配(不消耗待匹配字符串中的字符)**

|语法|  说明  |表达式实例|完整匹配的字符串|   
| ---|----|------|---------|
|^|匹配字符串开头<br>在多行模式中匹配每一行的开头|^abc|abc|
|\$|匹配字符串末尾<br>在多行模式中匹配每一行的末尾|abc\$|abc|
|\A|仅匹配字符串开头|\Aabc|abc|
|\Z|仅匹配字符串末尾|abc\Z|abc|
|\b|匹配\w和\W之间|a\b!bc|a!bc|
|\B|[^\b]|a\Bbc|abc|

**逻辑、分组**

|语法|  <center>说明<center>  |表达式实例|完整匹配的字符串|   
| -------------|----|------|---------|
|\||\|代表左右表达式任意匹配一个<br>它总是先尝试左边，失败再尝试右边，成功则跳过右边<br>如果\|没有被包括在()中，那么它的范围是整个正则表达式|abc\|def|abc<br>def|
|(...)|被括起来的表达式将作为分组<br>从表达式左边开始每遇到一个分组的左括号'('，编号+1<br>分组表达式作为一个整体，可以接数量词，<br>表达式中的\|仅在该组有效|(abc){2}<br>a(123\|456)c|abcabc<br>a123c  a456c|
|(?P&lt;name&gt;...)|分组，除了原有的编号外再制定一个额外的别名|(?P&lt;id&gt;abc){2}|abcabc|
|\\&lt;number&gt;|引用编号为number的分组匹配到的字符串|(\d)abc\1|1abc1<br>5abc5|
|(?P=name)|引用别名为&lt;name&gt;的分组匹配到的字符串|(?P&lt;ii&gt;\d)abc(?P=ii)|1abc1<br>5abc5|

此处插播小技巧，如何在markdowm里面打出<>括号呢，因为默认的<>会被识别为html语法，我们只需要用 **&lt ;和&gt ;**来代替就好了

**特殊构造(不作为分组)**

|语法|  说明  |表达式实例|完整匹配的字符串|   
| ---|----|------|---------|
|(?:...)|(...)的不分组版本，用于使用'\|'或后接数量词|(?:abc){2}|abcabc|
|(?iLmsux)|iLmsux的每个字符代表一个匹配模式<br>只能在正则表达式的开头，可选多个|(?i)abc|AbC|
|(?#...)|#后的内容将作为注释被忽略|abc(?#comment)123|abc123|
|(?=...)|=后的字符串内容需要匹配表达式才能成功匹配<br>不消耗字符串内容|a(?=\d)|后面是数字的a|
|(?!...)|后面的字符串内容需要不匹配表达式才能成功匹配<br>不消耗字符串内容|a(?!\d)|后面不是数字的a|
|(?<=...)|前面的字符串内容需要匹配表达式才能成功匹配<br>不消耗字符串内容|(?<=\d)a|前面是数字的a|
|(?<!...)|前面的字符串内容需要不匹配表达式才能成功匹配<br>不消耗字符串内容|(?<!\d)a|前面不是数字的a|
|(?(id/name)yes-pattern\|no-pattern)|如果编号为id/别名为name的组匹配到字符<br>则需要匹配yes-pattern，否则需要匹配no-pattern<br>no-pattern可以省略|(\d)abc(?(1)\d\|abc)|1abc2<br>abcabc|

## 正则表达式的相关注解

**数量词的贪婪模式与非贪婪模式**    

Python里的正则表达式默认是贪婪模式，总是尝试尽可能多的匹配字符。    

例如正则表达式 " ab\* "，如果用于查找 "abbb"，将会找到"abbb"    

如果使用非贪婪模式的数量词 " ab\*? "，将会找到 "a"    

为了准确度，我们一般都是用非贪婪模式来提取字符串

**反斜杠的问题**  

与大多数变成语言一样，\ 作为转义字符，有时候会造成反斜杠困扰    

例如需要匹配文本中的字符 "\\"，那么变成语言里表示的正则表达式里将需要4个反斜杠 "\\\\\\\\"    

前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠之后再在正则表达式里转义成一个反斜杠

Python里的**原生字符串**很好的解决了这个问题，这个例子中的正则表达式可以用 r"\\\\"表示，同理，匹配一个数字的正则表达式 "\\\\d" 可以写成 r"\d"

## Python re模块
Python自带了re模块，它提供了对正则表达式的支持。主要用到的方法如下：

In [1]:
import re

In [None]:
#返回pattern对象
re.compile(string[,flag])

#以下为匹配所用函数
re.match(pattern, string[,flags])
re.search(pattern, string[,flags])
re.split(pattern, string[,flags])
re.findall(pattern, string[,flags])
re.finditer(pattern, string[,flags])
re.sub(pattern, repl, string[,flags])
re.subn(pattern, repl, string[,flags])

In [2]:
#pattern可以理解为一个匹配模式，获得pattern的方法：
pattern = re.compile(r'hello') #将原声字符串对象'hello'编译为pattern对象

**参数flag是匹配模式**，取值可以使用或运算'|'表示同时生效：re.l|re.M    
* re.I (ignorecase)：忽略大小写    
* re.M (multiline)：多行模式，改变'^'和'\$'的行为
* re.S (dotall)：点任意匹配模式，改变 ' . '的行为    
* re.L (locale)：使预定字符类 \w \W \b \B \s \S 取决于当前区域设定    
* re.U (unicode)：使预定字符类 \w \W \b \B \s \S 取决于unicode定义的字符属性
* re.X (verbose)：详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释


**如果在pattern生成时已经指明了flags，那么在下面的方法中就不需要传入这个参数了**

### （1） re.match(pattern, string[, flags])   
这个方法从string的头开始，尝试匹配pattern，一直向后匹配    
如果遇到无法匹配的字符，立即返回None，如果匹配未结束已经到达string末尾，也会返回None。两个结果均表示匹配失败，否则匹配pattern成功，同时匹配终止，不再对string向后匹配

In [5]:
#导入re模块
import re

#将正则表达式编译成pattern对象，hello前面的r的意思表示原生字符串
pattern = re.compile(r'hello')

#使用re.math匹配文本，获得匹配结果，无法匹配时将返回None
result1 = re.match(pattern, 'hello')
result2 = re.match(pattern, 'helloo jjkanka')
result3 = re.match(pattern, 'hell ads')
result4 = re.match(pattern, 'helo asd')

print(result1.group()) if result1 else print('匹配1失败')
print(result2.group()) if result2 else print('匹配2失败')
print(result3.group()) if result3 else print('匹配3失败')
print(result4.group()) if result4 else print('匹配4失败')

hello
hello
匹配3失败
匹配4失败


In [38]:
# match函数只检测re是不是在string的0位置匹配！
result5 = re.match(pattern, 'as hello')
print(result5.group()) if result5 else print('匹配5失败')

匹配5失败


re.compile(r'hello', re.UNICODE)

In [8]:
#注意re.match()函数返回的是re.Match 对象
print(result2)

<re.Match object; span=(0, 5), match='hello'>


#### Match对象
Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以用Match提供的可读属性或方法来获取这些信息。

**属性**

1. string  ：匹配时使用的文本
2. re  ：匹配时使用的pattern对象
3. pos  ：文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同
4. endpos  ：文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.search()方法的同名参数形同
5. lastindex  ：最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None
6. lastgroup  ：最后一个被捕获的分组的别名。如果这个分组没有别名或没有被捕获的分组，将为None



**方法**

1. group(group1,...)  ：获得一个或多个分组截取的字符串，指定多个参数时将以元组形式返回
2. groups(default)  ：以元组形式返回全部分组截获的字符串。相当于调用 group(1,2,...last)。default表示没有截获字符串的组以这个值替代，默认为None
3. groupdict(default)  ：返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内
4. start(group)  ：返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)。group默认值为0
5. end(group)  ：返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)。group默认值为0
6. span(group)  ：返回 (start(group), end(group))
7. expand(template)  ：将匹配到的分组代入template中，然后返回。template中可以使用\id或\g、\g引用分组，但不能使用编号0。\id与\g时等价的，但\10将被认为是第10个分组，如果要表达\1之后是字符 '0' ，只能使用 \g0

In [25]:
import re
# 匹配如下内容：单词+空格+单词+任意字符
m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!!')
 
print("m.string :", m.string)
print("m.re :", m.re)
print("m.pos :", m.pos)
print("m.endpos :", m.endpos)
print("m.lastindex :", m.lastindex)
print("m.lastgroup :", m.lastgroup)
print("m.group() :", m.group())
print("m.group(1,2) :", m.group(1, 2))
print("m.groups() :", m.groups())
print("m.groupdict() :", m.groupdict())   #注意只返回有别名的组的键值对
print("m.start(2) :", m.start(2))    
print("m.end(2) :", m.end(2))    #注意返回的是结束索引+1
print("m.span(2) :", m.span(2))
print(r"m.expand(r'\g \g\g') :", m.expand(r'\2 \1\3'))

m.string : hello world!!
m.re : re.compile('(\\w+) (\\w+)(?P<sign>.*)')
m.pos : 0
m.endpos : 13
m.lastindex : 3
m.lastgroup : sign
m.group() : hello world!!
m.group(1,2) : ('hello', 'world')
m.groups() : ('hello', 'world', '!!')
m.groupdict() : {'sign': '!!'}
m.start(2) : 6
m.end(2) : 11
m.span(2) : (6, 11)
m.expand(r'\g \g\g') : world hello!!


In [35]:
m.group(1,2,3)

('hello', 'world', '!!')

### (2) re.search(pattern, string[,flags])    

search 方法与 match 方法极其类似，区别在于 **match() 函数只检测 re 是不是在string的开始位置匹配，search() 会扫描整个string查找匹配**，match() 只有在0位置匹配成功才会有返回，如果表示0位置匹配成功的话，match()就会返回None。

search方法的返回对象同样有match()返回对象的属性和方法

In [39]:
#导入re模块
import re
 
# 将正则表达式编译成Pattern对象
pattern = re.compile(r'world')
# 使用search()查找匹配的子串，不存在能匹配的子串时将返回None
# 这个例子中使用match()无法成功匹配
search = re.search(pattern,'hello world!')
match = re.match(pattern, 'hello world!')

print('search匹配成功：',search.group()) if search else print('search匹配失败！')
print('match匹配成功：',match.group()) if match else print('match匹配失败！')

search匹配成功： world
match匹配失败！


### (3) re.split(pattern, string[,maxsplit])

按照能够匹配的子串将string分割后返回列表    
maxsplit用于指定最大分割次数，不指定将全部分割

In [41]:
import re

#正则表达式为数字 匹配1次到无数次
pattern = re.compile(r'\d+')
print(re.split(pattern,'one1two2three3four44'))

['one', 'two', 'three', 'four', '']


### (4) re.findall(pattern, string[,flags])

搜索string，以列表形式返回全部能匹配的子串

In [42]:
import re

pattern = re.compile(r'\d+')
print(re.findall(pattern, 'one1two2three3four44'))

['1', '2', '3', '44']


### (5) re.finditer(pattern, string[,flags])

搜索string，返回一个顺序访问每一个匹配结果(match对象)的迭代器

In [43]:
import re
 
pattern = re.compile(r'\d+')
for m in re.finditer(pattern,'one1two2three3four44'):
    print(m.group())

1
2
3
44


### (6) re.sub(pattern, repl, string[, count])

使用repl替换string中每一个匹配的子串后返回替换后的字符串。    
当repl是一个字符串时，可以使用\id或\g、\g引用分组，但不能使用编号0。    
当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。    
count用于指定最多替换次数，不指定时全部替换。    

In [2]:
import re
 
pattern = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
 
print(re.sub(pattern,r'\2 \1', s))
 
def func(m):
    return m.group(1).title() + ' ' + m.group(2).title()
 
print(re.sub(pattern,func, s))

say i, world hello!
I Say, Hello World!


## Python re模块的另一种使用方式

在上面介绍的7个工具方法，例如match，search等等，调用方式都是 **re.match，re.search**的方式，其实还有另外一种调用方式，可以通过**pattern.match，pattern.search**调用，这样调用便不用将pattern作为第一个参数传入了

In [None]:
match(string[, pos[, endpos]])     re.match(pattern, string[, flags])
search(string[, pos[, endpos]])     re.search(pattern, string[, flags])
split(string[, maxsplit])                 re.split(pattern, string[, maxsplit])
findall(string[, pos[, endpos]])     re.findall(pattern, string[, flags])
finditer(string[, pos[, endpos]])   re.finditer(pattern, string[, flags])
sub(repl, string[, count])              re.sub(pattern, repl, string[, count])
subn(repl, string[, count])            re.sub(pattern, repl, string[, count])

In [6]:
# match 函数
import re
pattern = re.compile(r'hello')
s1 = 'i say, hello world'
s2 = 'helloooo'
print(pattern.match(s1))
print(pattern.match(s1,7).group())
print(pattern.match(s2).group())

None
hello
hello


In [10]:
# search 函数
import re
pattern = re.compile(r'hello')
s = 'i say, hello world'

print(pattern.search(s).group())
print(pattern.search(s,8))

hello
None


In [12]:
# split 函数
import re
pattern = re.compile(r'\d+')
s = 'one1two22three33333'

print(pattern.split(s))
print(pattern.split(s,2))   #split(string, maxsplit) 指定最大分割次数(而不是分割组数) 

['one', 'two', 'three', '']
['one', 'two', 'three33333']


In [24]:
# findall 函数
import re
pattern = re.compile(r'\d')
s = 'one1two22three333'

print(pattern.findall(s))
print(pattern.findall(s,4,8))

['1', '2', '2', '3', '3', '3']
['2']


In [28]:
# finditer 函数
import re
pattern = re.compile(r'\d')
s = 'one1two22three333'

m = pattern.finditer(s)
for item in m:
    print(item.group())

1
2
2
3
3
3


In [31]:
# sub 函数
import re
pattern = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
 
print(pattern.sub(r'\2 \1', s))
print(pattern.sub(r'\2 \1', s,1))

say i, world hello!
say i, hello world!
