## 使用正则表达式

### Background Knowledge

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要，正则表达式就是用于描述这些规则的工具，换句话说正则表达式是一种工具，它定义了字符串的匹配模式. 今天几乎所有的编程语言都提供了对正则表达式操作的支持，Python通过标准库中的re模块来支持正则表达式操作。

关于正则表达式的相关知识，大家可以阅读一篇非常有名的博客叫[《正则表达式30分钟入门教程》](https://deerchao.net/tutorials/regex/regex.htm)

### Notes of 《正则表达式30分钟入门教程》

用hi来查找的话，这里边的hi也会被找出来。如果要精确地查找hi这个单词的话，我们应该使用`\bhi\b`。

`\b`是正则表达式规定的一个特殊代码（好吧，某些人叫它元字符，metacharacter），代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格，标点符号或者换行来分隔的，但是`\b`并不匹配这些单词分隔字符中的任何一个，它只匹配一个位置。如果需要更精确的说法，`\b`匹配这样的位置：它的前一个字符和后一个字符不全是(一个是,一个不是或不存在)`\w`。

假如你要找的是hi后面不远处跟着一个Lucy，你应该用`\bhi\b.*\bLucy\b`。

`0\d\d-\d\d\d\d\d\d\d\d`匹配这样的字符串：以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字,这里的`\d`是个新的元字符，匹配一位数字(0，或1，或2，或……)。-不是元字符，只匹配它本身——连字符(或者减号，或者中横线，或者随你怎么称呼它)。
为了避免那么多烦人的重复，我们也可以这样写这个表达式：`0\d{2}-\d{8}`。这里`\d`后面的`{2}`(`{8}`)的意思是前面\d必须连续重复匹配2次(8次)。

#### 元字符

`\s`匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等。`\w`匹配字母或数字或下划线或汉字等。

下面来看看更多的例子：

`\ba\w*\b`匹配以字母a开头的单词——先是某个单词开始处(`\b`)，然后是字母a,然后是任意数量的字母或数字(`\w*`)，最后是单词结束处(`\b`)。

`\d+`匹配1个或更多连续的数字。_这里的`+`是和`*`类似的元字符，不同的是`*`匹配重复任意次(可能是0次)，而`+`则匹配重复1次或更多次_。

`\b\w{6}\b` 匹配刚好6个字符的单词。

元字符`^`和`$`都匹配一个位置，这和`\b`有点类似。`^`匹配你要用来查找的字符串的开头，`$`匹配结尾。这两个代码在验证输入的内容时非常有用，比如一个网站如果要求你填写的QQ号必须为5位到12位数字时，可以使用：`^\d{5,12}$`。
这里的`{5,12}``和前面介绍过的`{2}`是类似的，只不过``{2}`匹配只能不多不少重复2次，`{5,12}`则是重复的次数不能少于5次，不能多于12次，否则都不匹配。有些正则表达式处理工具还有一个处理多行的选项。如果选中了这个选项，`^`和`$`的意义就变成了匹配行的开始处和结束处。

如果不使用`^`和`$`的话，对于`\d{5,12}`而言，使用这样的方法就只能保证字符串里包含5到12连续位数字，而不是整个字符串就是5到12位数字。

下面的表格是对正则表达式中的一些基本符号进行的扼要总结。



| Symbol        | Expanation                       | Example          | Information                                                  |
| ------------- | -------------------------------- | ---------------- | ------------------------------------------------------------ |
| .             | 匹配任意字符                     | b.t              | 可以匹配bat / but / b#t / b1t等                              |
| \w            | 匹配字母/数字/下划线             | b\wt             | 可以匹配bat / b1t / b_t等但不能匹配b#t                       |
| \s            | 匹配空白字符（包括\r、\n、\t等） | love\syou        | 可以匹配love you                                             |
| \d            | 匹配数字                         | \d\d             | 可以匹配01 / 23 / 99等                                       |
| \b            | 匹配单词的边界                   | \bThe\b          | .                                                            |
| ^             | 匹配字符串的开始                 | ^The             | 可以匹配The开头的字符串                                      |
| $             | 匹配字符串的结束                 | .exe$            | 可以匹配.exe结尾的字符串                                     |
| \W            | 匹配非字母/数字/下划线           | b\Wt             | 可以匹配b#t / b@t等,但不能匹配but / b1t / b_t等              |
| \S            | 匹配非空白字符                   | love\Syou        | 可以匹配love#you等,但不能匹配love you                        |
| \D            | 匹配非数字                       | \d\D             | 可以匹配9a / 3# / 0F等                                       |
| \B            | 匹配非单词边界                   | \Bio\B           |                                                              |
| \[\]            | 匹配来自字符集的任意单一字符     | \[aeiou\]          | 可以匹配任一元音字母字符                                     |
| \[^]           | 匹配不在字符集中的任意单一字符   | \[^aeiou\]         | 可以匹配任一非元音字母字符                                   |
| *             | 匹配0次或多次                    | \w*              |                                                              |
| +             | 匹配1次或多次                    | \w+              |                                                              |
| ?             | 匹配0次或1次                     | \w?              |                                                              |
| {N}           | 匹配N次                          | \w{3}            |                                                              |
| {M,N}         | 匹配至少M次至多N次               | \w{3,6}          |                                                              |
| \|            | 分支                             | foo\|bar         | 可以匹配foo或者bar                                           |
| (?#)          | 注释                             |                  |                                                              |
| (exp)         | 匹配exp并捕获到自动命名的组中    |                  |                                                              |
| (? <name>exp) | 匹配exp并捕获到名为name的组中    |                  |                                                              |
| (?:exp)       | 匹配exp但是不捕获匹配的文本      |                  |                                                              |
| (?=exp)       | 匹配exp前面的位置                | \b\w+(?=ing)     | 可以匹配I'm dancing中的danc                                  |
| (?<=exp)      | 匹配exp后面的位置                | (?<=\bdanc)\w+\b | 可以匹配I love dancing and reading中的第一个ing              |
| (?<!exp)      | 匹配前面不是exp的位置            |                  |                                                              |
| *?            | 重复任意次，但尽可能少重复       | a.*b<br/>a.*?b   | 将正则表达式应用于aabab，前者会匹配整个字符串aabab，后者会匹配aab和ab两个字符串 |
| +?            | 重复1次或多次，但尽可能少重复    |                  |                                                              |
| ??            | 重复0次或1次，但尽可能少重复     |                  |                                                              |
| {M,N}?        | 重复M到N次，但尽可能少重复       |                  |                                                              |
| {M,}?         | 重复M次以上，但尽可能少重复      |                  |                                                              |



#### 字符转义

如果你想查找元字符本身的话，这时你就得使用`\`来取消这些字符的特殊意义。因此，你应该使用`\.`和`\*`。当然，要查找`\`本身，你也得用`\\`.

#### 重复

下面是正则表达式中所有的限定符(指定数量的代码，例如*,{5,12}等)：
  
  
| Codes/Grammer | Expanation       |
| ------------- | ---------------- |
| *             | 重复零次或更多次 |
| +             | 重复一次或更多次 |
| ?             | 重复零次或一次   |
| {n}           | 重复n次          |
| {n,}           | 重复n次或更多次  |
| {n,m}         | 重复n到m次       |

下面是一些使用重复的例子：
  
`Windows\d+`匹配Windows后面跟1个或更多数字
`^\w+`匹配一行的第一个单词(或整个字符串的第一个单词，具体匹配哪个意思得看选项设置)
  
#### 字符类
  
  想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u),只需要在方括号里列出它们就行了，像`[aeiou]`就匹配任何一个英文元音字母，`[.?!]`匹配标点符号(.或?或!)。
  
  下面是一个更复杂的表达式：`\(?0\d{2}[) -]?\d{8}`。(“(”和“)”也是元字符，后面的分组节里会提到，所以在这里需要使用转义。)
  
  这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678等。我们对它进行一些分析吧：首先是一个转义字符\(,它能出现0次或1次(?),然后是一个0，后面跟着2个数字(\d{2})，然后是)或-或空格中的一个，它出现1次或不出现(?)，最后是8个数字(\d{8})。
  
#### 分枝条件
  
  正则表达式里的分枝条件指的是有几种规则，如果满足其中任意一种规则都应该当成匹配，具体方法是用`|`把不同的规则分隔开。A relevant example to demonstrate this point:
  
  The above expression will generate some wrong results such as: 010)12345678 or (010-1234567. Now we will rewrite the above expression to generate our desired phone number.
  
  `0\d{2}-\d{8}|0\d{3}-\d{7}`: 这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。
  
  `\(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}`这个表达式匹配3位区号的电话号码，其中区号可以用小括号括起来，也可以不用，区号与本地号间可以用连字号或空格间隔，也可以没有间隔。你可以试试用分枝条件把这个表达式扩展成也支持4位区号的。
  
  `\d{5}-\d{4}|\d{5}`这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题：使用分枝条件时，要注意各个条件的顺序。如果你把它改成`\d{5}|\d{5}-\d{4}`的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。
  
#### 分组
  
  你可以用小括号来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了.
  
  `(\d{1,3}\.){3}\d{1,3}`是一个简单的IP地址匹配表达式。要理解这个表达式，请按下列顺序分析它：\d{1,3}匹配1到3位的数字，`(\d{1,3}\.){3}`匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(`\d{1,3}`)。
  
  不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话，或许能简单地解决这个问题，但是正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组，选择，字符类来描述一个正确的IP地址：`((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)`。
  
#### 反义
  
  有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义：
  
  | Codes/ Grammers | Expanations                                |
| --------------- | ------------------------------------------ |
| \W              | 匹配任意不是字母，数字，下划线，汉字的字符 |
| \S              | 匹配任意不是空白符的字符                   |
| \D              | 匹配任意非数字的字符                       |
| \B              | 匹配不是单词开头或结束的位置               |
| \[^x]           | 匹配除了x以外的任意字符                    |
| \[^aeiou]       | 匹配除了aeiou这几个字母以外的任意字符      |


例子：`\S+`匹配不包含空白符的字符串。
`<a[^>]+>`匹配用尖括号括起来的以a开头的字符串。
  
#### 后向引用
  
  使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。
  
__分组规则__:
  
- 分组0对应整个正则表达式
  
- 实际上组号分配过程是要从左向右扫描两遍的：第一遍只给未命名组分配，第二遍只给命名组分配.因此所有命名组的组号都大于未命名的组号
  
- 你可以使用`(?:exp)`这样的语法来剥夺一个分组对组号分配的参与权．
  
  __后向引用__用于重复搜索前面某个分组匹配的文本。例如，`\1`代表分组1匹配的文本。See the example below:
  
  `\b(\w+)\b\s+\1\b`可以用来匹配重复的单词，像go go, 或者kitty kitty。这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字`(\b(\w+)\b)`，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符`(\s+)`，最后是分组1中捕获的内容（也就是前面匹配的那个单词）`(\1)`。
  
  你也可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：`(?<Word>\w+)`(或者把尖括号换成`'`也行：`(?'Word'\w+))`,这样就把`\w+`的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用`\k<Word>`,所以上一个例子也可以写成这样：`\b(?<Word>\w+)\b\s+\k<Word>\b`。
  
  使用小括号的时候，还有很多特定用途的语法。下面列出了最常用的一些：