In [2]:
import re
from IPython.core.interactiveshell import InteractiveShell
from IPython.display import display              # 美化输出数组
InteractiveShell.ast_node_interactivity = 'all'  # 打印所有单行变量

## 正则表达式
正则表达式(regular expression)主要功能是从字符串(string)中通过特定的模式(pattern)，搜索想要找到的内容。

### re.compile(string[, flag]) 
pattern = re.compile(string[, flag]) 返回pattern对象

In [3]:
re.compile('python')

re.compile(r'python', re.UNICODE)

### match
re.match(pattern, string[, flags=0])

从头开始检查字符串是否符合正则表达式。必须从字符串的第一个字符开始就相符。

* 传入pattern对象

In [4]:
pattern = re.compile('python')
re.match(pattern, 'python markdown')  # -->

<_sre.SRE_Match object; span=(0, 6), match='python'>

* 直接传入字符串

In [5]:
re.match('python', 'python markdown')

<_sre.SRE_Match object; span=(0, 6), match='python'>

In [6]:
re.match('markdown', 'python markdown')  # --> None

### search
re.search(pattern, string[, flags=0])

搜索整个字符串，直到发现符合的子字符串。

In [7]:
r = re.search(r'(a.*)(fu)', 'www.baidu.baefu.com')  # 字符串前面的`r` 是指原始字符串，不转译反斜杠`\`
r

<_sre.SRE_Match object; span=(5, 15), match='aidu.baefu'>

In [8]:
r.start()  # --> 匹配到的字符起始位置
r.end()    # --> 匹配到的字符串结尾位置

5

15

In [9]:
r.group()   # --> 缺省为0，返回匹配的字符串
r.groups()  # --> 以元组形式返回全部分组截获的字符串
r.group(1)  # --> 组中第一个字符串
r.group(2)  # --> 组中第二个

'aidu.baefu'

('aidu.bae', 'fu')

'aidu.bae'

'fu'

In [10]:
r.span() # --> 匹配的字符串起始到结尾

(5, 15)

### sub
re.sub(pattern, replacement, string[, count=0])

在string中利用正则变换pattern进行搜索，对于搜索到的字符串，用另一字符串replacement替换。`返回替换后的字符串`。  
参数：  
pattern: 正则中的模式字符串。  
repl:    替换的字符串，也可为一个函数。  
string:  要被查找替换的原始字符串。  
count:   模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。  

In [11]:
name = 'aab12bcc11'
re.sub(r'\d+', '333', name)

'aab333bcc333'

### split

re.split(pattern, string[, maxsplit])

按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数，不指定将全部分割。

In [12]:
re.split(r'\d+','one1two22three34four4')

['one', 'two', 'three', 'four', '']

### findall

re.findall(pattern, string[, flags])

根据正则表达式搜索字符串，将所有符合的子字符串放在一给表(list)中返回

In [13]:
re.findall(r'\d+','one1two22three34four4')

['1', '22', '34', '4']

## flags
正则表达式修饰符(可选标志)  
多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志

| 修饰符 | 描述|
| :---: | :---: |
|re.I(IGNORECASE) | 忽略大小写（括号内是完整写法，下同）
|re.M(MULTILINE) | 多行模式，改变 '^' 和 '$' 的行为
|re.S(DOTALL) | 点任意匹配模式，改变 '.' 的行为
|re.L(LOCALE) | 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
|re.U(UNICODE) | 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
|re.X(VERBOSE) | 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。
|re.A使预定字符类 | \w \W \b \B \s \S \d \D 取决于ascii定义的字符属性

## 正则表达式模式

### 单个字符

| 标题 | 标题 |
| :---: | :---: |
| .     | 匹配除 `\n` 之外的任何单个字符  
| [.\n] | 匹配所有单个字符  
| a<span style="border-left:solid 1px;margin:0px 5px"></span>b | 字符a或字符b  
| [afg] | a或者f或者g的一个字符
| [0-4] | 0-4范围内的一个字符
| [a-f] | a-f范围内的一个字符
| [^m]  | 不是m的一个字符
| \w    | 匹配字母数字，等价于 `[A-Za-z0-9_]`
| \W    | 匹配非字母数字，等价于 `[^A-Za-z0-9_]`
| \s    | 匹配任意空白字符，等价于 `[\t\n\r\f]`
| \S    | 匹配任意非空字符，等价于 `[^ \f\n\r\t\v]`
| \d    | 匹配任意数字，等价于 `[0-9]`
| \D    | 匹配任意非数字，等价于 `[^0-9]`

> 因为markdown表格中`a|b`的`|`会转义，所以这里用html代替

### 边界匹配

|||
| :---: | :---: |
| \A    | 匹配字符串开始
| \Z    | 匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
| \z    | 匹配字符串结束

### 重复
紧跟在单个字符之后，表示多个这样类似的字符

| | |
| :---: | :---: |
| *      | 重复 >=0 次
| +      | 重复 >=1 次
| ?      | 重复 0或者1 次
| {m}    | 重复m次。比如说 a{4}相当于aaaa，再比如说[1-3]{2}相当于[1-3][1-3]
| {m,n} | 重复m到n次，小于m次的重复，或者大于n次的重复都不符合条件，中间不能有空格

#### 贪婪与非贪婪
正则匹配默认是贪婪匹配

贪婪：尽可能多的匹配

In [17]:
re.search(r'w.*4', 'one1two22three34four4')

<_sre.SRE_Match object; span=(5, 21), match='wo22three34four4'>

In [23]:
re.search(r'1{2,5}', '11111111')

<_sre.SRE_Match object; span=(0, 5), match='11111'>

非贪婪：尽可能少的匹配

In [24]:
re.search(r'w.*?4', 'one1two22three34four4')  # 比.*就多了个？号

<_sre.SRE_Match object; span=(5, 16), match='wo22three34'>

### 位置

| | |
| :---: | :---: |
| ^ | 字符串的起始位置
| $ | 字符串的结尾位置

### 其他

| | |
| :---: | :---: |
| (re) | 匹配括号内的表达式，也表示一个组
| `\n` | 匹配一个换行符
| `\t` | 匹配一个制表符

其他转义字符等等

### 前向否定界定符

In [16]:
re.search(r'(?!a).*', 'afwfw')
re.search(r'(?!www)\S', 'https://www.baidu.com/')
re.search(r'((?!www)\S)+', 'https://www.baidu.com/')

<_sre.SRE_Match object; span=(1, 5), match='fwfw'>

<_sre.SRE_Match object; span=(0, 1), match='h'>

<_sre.SRE_Match object; span=(0, 8), match='https://'>

* 正则中的(?P<name>…)

和普通的用括号分组类似，不同在于这里给匹配的组命名，后续（同一正则表达式内和搜索后得到的Match对象中），都可以通过此group的名字而去引用此group。
虽然此处group内命名了，但是其仍然和普通的中一样，可以通过索引号，即group(1),group(2)等等，去引用对应的group的。

    group(1)==group(name1)  
    group(2)==group(name2)  
    