# Python 正则 Re模块
| 参数 | 描述|
|---|------------------------------------------------------------------|
| re.match函数| re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 none。|
| re.search | re.search 扫描整个字符串并返回第一个成功的匹配|
| re.match与re.search的区别 | re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配 |
| re.sub| re 模块提供了re.sub用于替换字符串中的匹配项 |
| re.compile | compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用 |
| re.findall | 在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表.<br/>注意： match 和 search 是匹配一次 findall 匹配所有。|
| re.finditer | 和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。 |
| re.split | split 方法按照能够匹配的子串将字符串分割后返回列表 |

In [110]:
import re

# 1、re.match函数
## re.search(pattern, string, flags=0)
| 参数      | 描述    |
|---------|-------|
| pattern | 匹配的正则表达式 |
| string  | 要匹配的字符串|
| flags   | 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等|


### 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 none。

In [111]:
# 在起始位置匹配
print(re.match('dxy', 'dxy.com'))

<re.Match object; span=(0, 3), match='dxy'>


In [112]:
print(re.match('dxy', 'dxy.com').span())  # 在起始位置匹配

(0, 3)


In [113]:
print(re.match('dxy', 'www.dxy.com')) # 不在起始位置匹配

None


In [114]:
# re.match()方法返回一个匹配的对象，而不是匹配的内容。通过调用span()可以获得匹配结果的位置。
# 而如果从起始位置开始没有匹配成功，即便其他部分包含需要匹配的内容，re.match()也会返回None。

## 分组捕获
### 一般一个小括号括起来就是一个捕获组。我们可以使用group()来提取每组匹配到的字符串。
### group()会返回一个包含所有小组字符串的元组，从 0 到 所含的小组号。
### 0：表示正则表达式中符合条件的字符串。
### 1：表示正则表达式中符合条件的字符串中的第一个() 中的字符串。
### 2：表示正则表达式中符合条件的字符串中的第二个() 中的字符串。
### 以此类推....

In [115]:
msg = 'name:Alice,age:6'
obj = re.match('name:(\w+),age:(\d+)', msg)

In [116]:
print(obj.group(0))    # name:Alice,age:6  原始字符

name:Alice,age:6


In [117]:
print(obj.group(1))    # Alice   第一匹配

Alice


In [118]:
print(obj.group(2))    # 6

6


In [119]:
print(obj.groups())    # ('Alice', '6')

('Alice', '6')


| 参数      | 描述    |
|---------|-------|
| group(num=0) | 	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。 |
| groups()  | 	返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。|

# 2、re.search方法
## re.search(pattern, string, flags=0)
| 参数      | 描述                                         |
|---------|--------------------------------------------|
| pattern | 匹配的正则表达式                                   |
| string  | 要匹配的字符串                                    |
| flags   | 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等<br/>re.L 表示特殊字符集 w, W, , B, s, S 依赖于当前环境 <br/>re.M 多行模式<br/>re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）<br/>re.U 表示特殊字符集 w, W, , B, d, D, s, S 依赖于 Unicode 字符属性数据库<br/>re.X 为了增加可读性，忽略空格和 # 后面的注释|

## re.search 扫描整个字符串并返回第一个成功的匹配。

In [120]:
content = "abcabcabc"
rex = re.search("c",content)

In [121]:
rex

<re.Match object; span=(2, 3), match='c'>

In [122]:
rex.span()

(2, 3)

In [123]:
# re.I 大小写忽略的匹配
rex = re.search("C",content,re.I)

In [124]:
rex

<re.Match object; span=(2, 3), match='c'>

In [125]:
content = "abc123def"
# 预先编译
rex_compile = re.compile("([a-z]*)([0-9]*)([a-z]*)")

In [126]:
rex = rex_compile.search(content)
print(rex.group())
print(rex.group(0))  # group()和group(0) 一样匹配的是整体
print(rex.group(1))  # 匹配第一个小括号的内容
print(rex.group(2))  # 匹配第二个小括号的内容
print(rex.group(3))  # 匹配第三个小括号的内容

abc123def
abc123def
abc
123
def


In [127]:
rex.groups()

('abc', '123', 'def')

| 参数      | 描述    |
|---------|-------|
| group(num=0) | 	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。 |
| groups()  | 	返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。|

# 3、re.match与re.search的区别
## re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

In [128]:
#!/usr/bin/python
import re

line = "Cats are smarter than dogs";

matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
   print ("match --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

No match!!


In [129]:
matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
   print ("search --> searchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

search --> searchObj.group() :  dogs


# 4、检索和替换
## re.sub(pattern, repl, string, count=0, flags=0)
| 参数      | 描述  |
|---------|-----|
| pattern | 正则中的模式字符串 |
| repl   | 替换的字符串，也可为一个函数|
| string    | 要被查找替换的原始字符串|
| count     | 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配|

### Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

In [130]:
phone = "2004-959-559 # 这是一个国外电话号码"

# 删除字符串中的 Python注释
num = re.sub(r'#.*$', "", phone)
print ("电话号码是: ", num)

电话号码是:  2004-959-559 


In [131]:
# 删除非数字(-)的字符串
num = re.sub(pattern= r'\D', repl="", string= phone)
print ("电话号码是 : ", num)

电话号码是 :  2004959559


In [132]:
s = 'A23G4HFD567'
re.search('(?P<value>\d+)',s)

<re.Match object; span=(1, 3), match='23'>

In [133]:
# 将匹配的数字乘以 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
re.sub(pattern= '(?P<value>\d+)', repl= double, string=s)

'A46G8HFD1134'

# 5、re.compile 函数
## re.compile(pattern[, flags])
pattern : 一个字符串形式的正则表达式

flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和 # 后面的注释

### compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

In [134]:
# 用于匹配至少一个数字
pattern = re.compile(r'\d+')

In [135]:
# re.match只匹配字符串的开始
m = pattern.match('one12twothree34four')

In [136]:
print(m)

None


In [137]:
# re.search匹配整个字符串，直到找到一个匹配
m = pattern.search('one12twothree34four')

In [138]:
m

<re.Match object; span=(3, 5), match='12'>

In [139]:
m.start()

3

In [140]:
m.end()

5

In [141]:
m.span()

(3, 5)

In [142]:
m.group()

'12'

In [143]:
pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)   # re.I 表示忽略大小写

In [144]:
m = pattern.match('Hello World Wide Web')

In [145]:
m # 匹配成功，返回一个 Match 对象

<re.Match object; span=(0, 11), match='Hello World'>

In [146]:
 # 返回匹配成功的整个子串,等价于group()
m.group(0)

'Hello World'

In [147]:
print(m.group(1))  # 返回第一个分组匹配成功的子串
print(m.span(1))   # 返回第一个分组匹配成功的子串的索引

Hello
(0, 5)


In [148]:
print(m.group(2)) # 返回第二个分组匹配成功的子串
print(m.span(2))   # 返回第二个分组匹配成功的子串索引

World
(6, 11)


In [149]:
m.groups() #等价于 (m.group(1), m.group(2), ...)

('Hello', 'World')

# 6、findall
## findall(string[, pos[, endpos]])
| 参数       | 描述    |
|----------|-------|
| string   | 待匹配的字符串 |
| pos      | 可选参数，指定字符串的起始位置，默认为 0|
| endpos   | 可选参数，指定字符串的结束位置，默认为字符串的长度。|


#### 在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。

### 注意： match 和 search 是匹配一次 findall 匹配所有。

In [150]:
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)

print(result1)
print(result2)

['123', '456']
['88', '12']


# 7、re.finditer
## re.finditer(pattern, string, flags=0)
| 参数      | 描述    |
|---------|-------|
| pattern | 匹配的正则表达式 |
| string  | 要匹配的字符串|
| flags   | 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等|

### 和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

In [151]:
it = re.finditer(r"\d+","12a32bc43jf3")

In [152]:
it

<callable_iterator at 0x22293bc90a0>

In [153]:
for match in it:
    print (match.group())

12
32
43
3


# 8、re.split
## re.split(pattern, string[, maxsplit=0, flags=0])
| 参数      | 描述                                   |
|---------|--------------------------------------|
| pattern | 匹配的正则表达式                             |
| string  | 要匹配的字符串                              |
| maxsplit   | 分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。    |
| flags   | 标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。 |

### split 方法按照能够匹配的子串将字符串分割后返回列表

In [154]:
re.split('\W+', 'runoob, runoob, runoob.')

['runoob', 'runoob', 'runoob', '']

In [155]:
re.split('(\W+)', ' runoob, runoob, runoob.')

['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']

In [156]:
re.split('\W+', ' runoob, runoob, runoob.', 1)

['', 'runoob, runoob, runoob.']

In [157]:
re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割

['', 'h', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd', '']