# 正则： re 模块的使用

## re.match

函数原型：re.match(pattern, string, flags=0)

如果 string **开始**的0或者多个字符匹配到了正则表达式样式，就返回一个相应的 匹配对象 。 如果没有匹配，就返回 None ；注意它跟零长度匹配是不同的。
注意即便是 MULTILINE 多行模式， re.match() 也只匹配字符串的开始位置，而不匹配每行开始。
如果你想定位 string 的任何位置，使用 search() 来替代（也可参考 search() vs. match() ）



## 匹配对象
[匹配对象-官方文档](https://docs.python.org/zh-cn/3.9/library/re.html?highlight=re#match-objects)



## group 是什么？

In [1]:
import re
print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

(0, 3)
None


In [6]:
line = "Cats are smarter than dogs"
# .* 表示任意匹配除换行符（\n、\r）之外的任何单个或多个字符
# (.*?) 表示"非贪婪"模式，只保存第一个匹配到的子串
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
 
if matchObj:
   print ("matchObj.group() : ", matchObj.group())
   print ("matchObj.group(1) : ", matchObj.group(1))
   print ("matchObj.group(2) : ", matchObj.group(2))
else:
   print ("No match!!")

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter


In [8]:
import re
line = "aaa/ccc/bbb/fff.www"
m = re.match(r'(.*)ccc/(\w+)/', line)
print(m.group(2))

bbb


## re.match与re.search的区别
re.match 只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回 None，而 re.search 匹配整个字符串，直到找到一个匹配。  
re.match 相当于默认在匹配模式中添加 `^`，如果在匹配模式前后分别添加 `^`,`$`，则表示完全匹配整个字符串。
> 顾名思义，一个匹配，一个搜索
## re.sub
用于替换字符串中的匹配项。
```python
re.sub(pattern, repl, string, count=0, flags=0)
```
**使用实例：** 改变日期的格式，如中国格式 2017-11-27 改为美国格式 11/27/2017

In [14]:
s = '2022-10-19'
ret = re.sub(r'(\d{4})-(\d{2})-(\d{2})', r'\2/\3/\1', s)
print(ret)

10/19/2022


### flag 参数
- re.I 忽略大小写
- re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
- re.M 多行模式
- re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符）
- re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
- re.X 为了增加可读性，忽略空格和' # '后面的注释

## re.compile

In [11]:
pattern = re.compile(r'\d+')
m = pattern.match('one2three4five')
print(m)
m = pattern.match('one2three4five', 3, 10)
print(m)
m.group(0)
m.start(0)
m.end(0)
m.span(0)

None
<re.Match object; span=(3, 4), match='2'>


(3, 4)

在上面，当匹配成功时返回一个 Match 对象，其中：

- `group([group1, …])` 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
- `start([group])` 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
- `end([group])` 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引**+1**），参数默认值为 0；
- `span([group])` 方法返回 (start(group), end(group))。

In [25]:
pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)
m = pattern.match('Hello World Wide Web')
print(m)
# ------- #
m.group()
m.span()

m.group(1)
m.span(1)

m.group(2)
m.span(2)

m.groups()

# m.group(3)

m.start()
m.start(1)
m.start(2)
# m.start(3)

<re.Match object; span=(0, 11), match='Hello World'>


6

## re.findall
> match 和 search 是匹配一次 findall 匹配所有。

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。
```python
re.findall(pattern, string, flags=0)
# 或
pattern.findall(string[, pos[, endpos]])
```

In [2]:
import re

ret = re.findall(r'\d+', 'runnoob 123 google 456')
print(ret)

pattern = re.compile(r'\d+')
ret = pattern.findall('runn00b123google456', 0, 8)
print(ret)

['123', '456']
['00', '1']


> 注意，范围一般都是左闭右开的。

re.findall 的多个匹配模式，返回元组列表：

In [3]:
ret = re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
print(ret)

[('width', '20'), ('height', '10')]


## re.finditer
和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

In [4]:
it = re.finditer(r'\d+', '12a34s56f7')
for match in it:
    print(match.group())

12
34
56
7


## re.split
使用匹配的字符串作为分隔符，来分隔字符串。

In [12]:
ret = re.split('\W+', "Hello, World!")
print(ret)
ret = re.split('(\W+)', "Hello, World!") # ???
print(ret)
ret = re.split('\W+', "Hello, World!", 1)
print(ret)
ret = re.split('a.*', "Hello, World!") # 对于一个找不到匹配的字符串而言，split 不会对其作出分割
print(ret)

['Hello', 'World', '']
['Hello', ', ', 'World', '!', '']
['Hello', 'World!']
['Hello, World!']
