# 第一章 正则表达式

## 1.1 特殊符号和字符

### 1.1.1 符号
1. `literal`：文本字符串的字面值literal
2. `re1|re2`：正则表达式re1或者re2
3. `.`:任何字符（除了`\n`以外）
4. `^`:字符串起始部分
5. `*`：0次或者多次前面出现的正则表达式
6. `+`：1次或者多次前面出现的正则表达式
7. `?`：0次或者1次前面出现的正则表达式
8. `{N}`：N次前面出现的正则表达式
9. `{M,N}`：M~N次前面出现的正则表达式
11. `[...]`：来自字符集的任意单一字符
12. `[...x-y...]`：x~y范围中的任意单一字符
13. `[^...]`：不匹配次字符集中出现的任何一个字符，包括某一范围的字符（如果再次字符集中出现）
14. `(*|+|?|{})?`：用于匹配上面频繁出现/重复出现符号的费贪婪版本（* 、+ 、? 、{}）
15. `(...)`：匹配封闭的正则表达式，然后另存为子组

### 1.1.2 特殊字符
1. `\d`：任何十进制数字，与`[0-9]`一致（`\D`相反）
2. `\w`：任务字母数字字符，与`[A-Za-z0-9_]`相同（`\W`相反）
3. `\s`：任何空格字符，与`[\n\t\r\v\f]`相同（`\S`相反）
4. `\b`：任何单次边界（`\B`相反）
5. `\N`：已保存的子组N（参见上面的`(...)`）
6. `\c`：逐字匹配任何特殊字符c（即，仅按照字面意义匹配，不匹配特殊含义）
7. `\A(\Z)`：匹配字符换的起始（结束）（另见上面介绍的`^`和`$`）


### 1.1.3 扩展表示法
1. `(?iLmsux)`：在正则表达式中嵌入一个或者多个特殊“标记”参数（或者通过函数/方法）
2. `(?:...)`：表示一个匹配不用保存的分组
3. `(?P<name>)`：像一个仅由name表示而不是数字ID标识的正则分组匹配
4. `(?P=name)`：在同一个字符串中匹配由(?P=name)分组的之前文本
5. `(?#...)`：表示注释，所有内容都被忽略
6. `(?=...)`：匹配条件是如果...出现在之后的位置，而不是用输入字符串：称作正向前视断言
7. `(?!...)`：匹配条件是如果...不出现在之后的位置，而不是用输入字符串：称作负向前视断言
8. `(?<=...)`：匹配条件是如果...出现在之前的位置，而不是用输入字符串：称作正向后视断言
9. `(?<!...)`：匹配条件是如果...不出现在之后的位置，而不是用输入字符串：称作负向前视断言
10. `(?(id/name)Y|N)`：如果分组所提供的id或者name（名称）存在，就返回正则表达式的条件匹配Y，如果不存在，就返回N：|N是可选项

### 1.1.4 使用择一匹配符号匹配多个正则表达式模式
表示择一匹配的管道符号（`|`）,也就是键盘上的竖线

In [19]:
# 择一匹配符号示例
import re
re_str = 'at|home'
pattern = re.compile(re_str)
s = ['at', 'home', 'athome']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['at']
['home']
['at', 'home']


### 1.1.5 匹配任意单个字符
点号或者句点（`.`）符号匹配除了换行符`\n`以外的任何字符（Python正则表达式有一个编译标记`[S或者DOTALL]`）,该标记能够推翻这个限制，使点号能够匹配换行符）

In [20]:
# 点号匹配符示例
import re
re_str = 'f.o'
pattern = re.compile(re_str)
s = ['foo', 'f8o', 'f#o', 'fxxo']
# fxxo 由于间隔两个字符，因此匹配不上
for i in s:
    d = re.findall(pattern, i)
    print(d)

['foo']
['f8o']
['f#o']
[]


### 1.1.6 从字符串起始或者结尾或者单词边界匹配
1. 脱字符`^` 或者 `\A` ：起始位置
2. 美元符号`$` 或者 `\Z` : 末尾位置

In [21]:
# 1. 起始位置示例
import re
re_str = '^From'
pattern = re.compile(re_str)
s = ['From China', 'From USA', 'I am From Zhuhai']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['From']
['From']
[]


In [22]:
# 2. 末尾位置示例
import re
re_str = '/bin/tcsh$'
pattern = re.compile(re_str)
s = ['/usr/bin/tcsh', '/bin/tcsh', '/usr/bin/tcsh/src']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['/bin/tcsh']
['/bin/tcsh']
[]


### 1.1.7 创建字符集
方括号`[...]`指定字符匹配

In [23]:
# 字符集示例
import re
re_str = 'a[bcd]e'
pattern = re.compile(re_str)
s = ['abe', 'ace', 'ade', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
['ace']
['ade']
[]


### 1.1.8 限定范围和否定
1. 连字符(`-`)：方括号内使用连字符连接表示指定字符范围
2. 脱字符(`^`)：方括号内使用脱字符标识否定，不匹配给定字符集中的任何一个字符

In [24]:
# 1.限定范围示例
import re
re_str = 'a[b-d]e'
pattern = re.compile(re_str)
s = ['abe', 'ace', 'ade', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
['ace']
['ade']
[]


In [25]:
# 1.限定范围示例
import re
re_str = 'a[^b-d]e'
pattern = re.compile(re_str)
s = ['abe', 'ace', 'ade', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

[]
[]
[]
['aae']


### 1.1.9 使用闭包操作符实现存在性和频数匹配
1. `?`：0次或者1次前面出现的正则表达式
2. `*`：0次或者多次前面出现的正则表达式
3. `+`：1次或者多次前面出现的正则表达式
4. `{N}`：N次前面出现的正则表达式
5. `{M,N}`：M~N次前面出现的正则表达式

In [26]:
# 1. ?问号（0-1次）匹配示例
import re
re_str = 'a[b-d]?e'
pattern = re.compile(re_str)
s = ['abe', 'ace', 'ade', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
['ace']
['ade']
['ae']


In [27]:
# 2. *星号（0-n次）匹配示例
import re
re_str = 'a[b-d]*e'
pattern = re.compile(re_str)
s = ['abe', 'ace', 'ade', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
['ace']
['ade']
['ae']


In [28]:
# 3. +加号（1-n次）匹配示例
import re
re_str = 'a[b-d]+e'
pattern = re.compile(re_str)
s = ['abe', 'ace', 'ade', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
['ace']
['ade']
[]


In [29]:
# 4. {N}花括号（N次）匹配示例
import re
re_str = 'a[b-d]{1}e'
pattern = re.compile(re_str)
s = ['abe', 'ace', 'ade', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
['ace']
['ade']
[]


In [30]:
# 5. {}花括号（M-N次）匹配示例
import re
re_str = 'a[b-d]{1,3}e'
pattern = re.compile(re_str)
s = ['abe', 'ace', 'ade', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
['ace']
['ade']
[]


### 1.1.10 表示字符集的特殊字符
1. `\d`：表示十进制数字，`\D`相反
2. `\w`：表示字母数字下划线，`\W`相反

In [31]:
# 1. 十进制数字匹配示例
import re
re_str = 'a\de'
pattern = re.compile(re_str)
s = ['abe', 'a1e', 'a2e', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

[]
['a1e']
['a2e']
[]


In [32]:
# 2. \w匹配示例
import re
re_str = 'a\we'
pattern = re.compile(re_str)
s = ['abe', 'a1e', 'a2e', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
['a1e']
['a2e']
['aae']


In [33]:
# 3. \D匹配示例
import re
re_str = 'a\De'
pattern = re.compile(re_str)
s = ['abe', 'a1e', 'a2e', 'aae']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['abe']
[]
[]
['aae']


### 1.1.11 使用圆括号指定分组
圆括号`(...)`：
1. 对正则表达式进行分组
2. 匹配子组

In [34]:
# 指定分组示例
import re
re_str = '\d+(\.\d*)?'
pattern = re.compile(re_str)
s = ['0.321', '123', '24124.555', '.5123']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['.321']
['']
['.555']
['']


### 1.1.12 扩展表示法
格式：`(?...)`:通常用于判断匹配之前提供标记，实现一个前视（或者后视）匹配，或者条件检查

注意：尽管用了圆括号`()`，但是只有`(?P<name>)`标书一个分组匹配，其他的都没有创建分组。

In [35]:
# 扩展示例
import re
# 以据点作为结尾的字符串
re_str = '(?:\w+\.)*'
pattern = re.compile(re_str)
s = ['goole.', 'twitter.', 'facebook.', '321.1213']
for i in s:
    d = re.findall(pattern, i)
    print(d)

['goole.', '']
['twitter.', '']
['facebook.', '']
['321.', '', '', '', '', '']


In [36]:
# (?=...)示例
import re
# 如果一个字符串后面跟着 `.com` 才做匹配操作，并不使用任何目标字符串
re_str = 'baidu|163(?=.com)'
pattern = re.compile(re_str)
s = ['abc.com', 'baidu.com', '163.com', '163.com/index']
for i in s:
    d = re.findall(pattern, i)
    print(d)

[]
['baidu']
['163']
['163']
