## re模块

### 常见的匹配模式

| 模式| 描述|
|----|----|
| \w	| 匹配字母数字及下划线 |
| \W	| 匹配非字母数字下划线 |
| \s	| 匹配任意空白字符，等价于 [\t\n\r\f]. |
| \S	| 匹配任意非空字符 |
| \d	| 匹配任意数字，等价于 [0-9] |
| \D	| 匹配任意非数字 |
| \A	| 匹配字符串开始 |
| \Z	| 匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串 |
| \z	| 匹配字符串结束 |
| \G	| 匹配最后匹配完成的位置 |
| \n | 匹配一个换行符 |
| \t | 匹配一个制表符 |
| ^	| 匹配字符串的开头 |
| $	| 匹配字符串的末尾。|
| .	| 匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。|
| [...]	| 用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k' |
| [^...]	| 不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。| 
| *	| 匹配0个或多个的表达式。|
| +	| 匹配1个或多个的表达式。|
| ?	| 匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式| 
| {n}	| 精确匹配n个前面表达式。|
| {n, m} | 匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式| 
| a&#124;b | 匹配a或b |
| ( )	| 匹配括号内的表达式，也表示一个组 |

### re.match
尝试从字符串的起始位置进行模式匹配，如果不是起始位置匹配成功 return none

```python
re.match(pattern, str, flags=0)
```

In [6]:
import re
content = "lychiyu 1229 _jgsu Cs end"

### 常规模式

In [8]:
rlt = re.match('^lychiyu\s\d{4}\s\w{5}.*end$', content)
print(rlt)
print(rlt.group()) # group() 匹配的结果
print(rlt.span()) # span() 匹配的范围

<_sre.SRE_Match object; span=(0, 25), match='lychiyu 1229 _jgsu Cs end'>
lychiyu 1229 _jgsu Cs end
(0, 25)


### 泛匹配

In [9]:
rlt = re.match('^lychiyu.*end$', content)
print(rlt)
print(rlt.group()) # group() 匹配的结果
print(rlt.span()) # span() 匹配的范围

<_sre.SRE_Match object; span=(0, 25), match='lychiyu 1229 _jgsu Cs end'>
lychiyu 1229 _jgsu Cs end
(0, 25)


### 获取匹配目标

In [11]:
rlt = re.match('^lychiyu\s(\d+)\s\w{5}.*end$', content) # (\d+)匹配目标
print(rlt)
print(rlt.group(1))
print(rlt.span())

<_sre.SRE_Match object; span=(0, 25), match='lychiyu 1229 _jgsu Cs end'>
1229
(0, 25)


### 贪婪匹配

In [16]:
rlt = re.match('^ly.*(\d+).*end$', content) # .* 贪婪匹配会匹配尽可能多的目标知道匹配不到为止
print(rlt)
print(rlt.group(1))
print(rlt.span())

<_sre.SRE_Match object; span=(0, 25), match='lychiyu 1229 _jgsu Cs end'>
9
(0, 25)


### 非贪婪匹配

In [17]:
rlt = re.match('^ly.*?(\d+).*end$', content) # .*? 非贪婪匹配会匹配尽可能少的目标
print(rlt)
print(rlt.group(1))
print(rlt.span())

<_sre.SRE_Match object; span=(0, 25), match='lychiyu 1229 _jgsu Cs end'>
1229
(0, 25)


### 转义

In [19]:
content = "price is $500"
rlt = re.match('price is \$500', content) # 使用 \ 来进行转义
print(rlt)

<_sre.SRE_Match object; span=(0, 13), match='price is $500'>


### re.search
扫描整个字符串并返回第一个成功的匹配

In [22]:
content = "lychiyu 1229 _jgsu Cs end"
rlt = re.search('\d{4}', content)
print(rlt)
print(rlt.group())

<_sre.SRE_Match object; span=(8, 12), match='1229'>
1229


### re.findall
扫描整个字符串并返回所有成功的匹配结果列表

In [25]:
rlt = re.findall('\d{2}', content)
print(rlt)

['12', '29']


### re.sub
替换字符串中的每一个匹配的子串后返回替换后的字符串

In [29]:
rlt = re.sub('(\d{2})', r'\1 substr', content) # r'\1 可以获取匹配到的group的值
print(rlt)

lychiyu 12 substr29 substr _jgsu Cs end


### re.compile
将正则字符串编译成正则表达式对象

In [30]:
pattern = re.compile('\d{2}')
rlt = re.findall(pattern, content)
print(rlt)

['12', '29']


### 练习

In [None]:
import requests, re
content = requests.get('https://book.douban.com/').text

In [None]:
print(content)

In [None]:
pattern = re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?author">(.*?)</div>.*?</li>', re.S)
rlt = re.findall(pattern, content)
print(rlt)