* 单词：`r'\b\hello\b'`
* 小数：`r'\d+(\.\d*)?'`
* 运算符：`r'[+-*/]'`

In [1]:
import re
from re import compile


* `re`中的正则表达式与Perl中的正则表达式匹配操作类似；
* 在正则表达式匹配中，要搜索的模式字符串和被匹配的字符串可以是Unicode字符串(str)或者8位字节码(8-bit)字符串(bytes),但是两种类型不能混合使用，即搜索的字符串和被匹配的字符串必须是上面两种类型中的一种；
* 正则表达式中的反义字符：`\`
    - `\`: `\\\\`
    - `\`: `r'\'`
    - `\n`: `r'\n'`

# 1. 正则表达式语法

## 1.1 语法

* 正则表达式可以进行合并
    - `A`是一个正则表达式，`B`也是一个正则表达式，合并起来的`AB`同样也是一个正则表达式；
    - 如果一个字符串`p`能够与正则表达式`A`匹配，字符串`q`能够与正则表达式`B`匹配，那么字符串`pq`一般也能与正则表达式`AB`匹配，除非`A`或`B`包含低优先级操作；
    - 复杂的正则表达式可以用简单的正则表达式构造；
* 正则表达式元字符可以包含特殊字符和普通字符
    - 普通字符：只匹配自己，可以连接普通字符
        - `A`
        - `a`
        - `0`
        - `last`
    - 特殊字符：代表普通字符的类，影响普通字符周围的正则表达式的解释方式
        - `|`
        - `(`
        * 重复限定符：不能直接嵌套，避免非贪婪修饰符后缀(`?`)的模糊性,以及其他修饰符，为了对内部重复应用第二次重复，可以使用括号。
            - `*`
            - `+`
            - `?`
            - `{m, n}`
* 正则表达式模式
    - 默认模式
    - 贪婪模式
    - 非贪婪模式

## 1.2 元字符

|一般字符 |含义     |解释   |
|---------|-----------|--------|
| `.`    |匹配除换行符之外的任何字符|re.DOTALL模式下匹配包括换行符在内的任何字符|
| `\`|转义字符，使后一个字符改变原来(正则表达式)的意思|
| `[...]`|字符集，对应的位置可以是字符集中任意字符，字符集中的字符可以逐个列出，也可以给出范围，第一个字符如果是`^`则取反||

|预定义字符 |含义     |解释   |
|---------|-----------|--------|
| `\d`|数字`[0-9]`||
| `\D`|非数字`[^0-9]`||
| `\s`|空白字符`[<空格>\t\r\n\f\v]`||
| `\S`|非空白字符`[^\s]`||
| `\w`|字母，数字，汉字`[a-zA-Z0-9]`||
| `\W`|非单词字母`[^\w]`||
| `\b`|匹配单词的开始或结束||
| `\B`|匹配不是单词开头或结束的位置||

|边界匹配符|含义    |解释   |
|--------|---------|--------|
| `^`|匹配字符串的开头|re.MULTILINE模式下匹配每一行的开头|
| `$`|匹配字符串的结尾|re.MULTILINE模式下匹配每一行的结尾|

| 重复限定符|含义|解释|
|:----------|:----|:----|
| `?`|匹配前面的正则表达式0或1次|重复限定符|
| `*`|匹配前面的正则表达式0次或多次|重复限定符|
| `+`|匹配前面的正则表达式1次或多次|重复限定符|
| `{m}`|匹配前面的正则表达式m次||
| `{m,}`|匹配前面的正则表达式m次或更多次||
| `{m, n}`|匹配前面的正则表达式m至n次||
| `??`|`?`的非贪婪模式||
| `*?`|`*`的非贪婪模式||
| `+?`|`+`的非贪婪模式||
| `{m}?`|`{m}`的非贪婪模式||
| `{m,}?`|`{m,}`的非贪婪模式||
| `{m, n}?`|`{m, n}`的非贪婪模式||

| 逻辑或（分支条件）   |含义|解释|
|-----------|----|----|
|竖杆     | 先尝试匹配左边的表达式，匹配成功后则跳过右边的表达式，否则尝试匹配右边的表达式||

| 分组   |含义|解释|
|-----------|----|----|
| `(...)`| 被括号括起来的表达式将作为分组，从表达式左边开始每遇到一个分组的左括号，编号+1||
| `\<number>`|引用编号为<number>的分组匹配到的字符串||

| 万能匹配字符   |含义|解释|
|-----------|----|----|
| `.*`| 万能匹配贪婪模式||
| `.*?`|万能匹配非贪婪模式||

# 2.`re`模块

## 2.1 模块内容

* 匹配修饰符
    - re.A
         - re.ASCII
    - re.DEBUG
    - re.I
        - re.IGNORECASE
    - re.L
        - re.LOCALE
    - re.M
        - re.MULTILINE
    - re.S
        - re.DOTALL
    - re.X
        - re.VERBOSE
* 匹配函数
    - `re.match()`
    - `re.search()`
    - re.fullmatch()
    - `re.split()`
    - `re.findall()`
    - `re.finditer()`
    - `re.sub()`
    - `re.subn()`
    - re.escape()
    - re.purge()
* exception 
    - re.error(msg, pattern = None, pos = None)
        - msg
        - pattern
        - pos
        - lineno
        - colno
* 正则表达式对象
    - Pattern对象
        - Pattern = re.compile(pattern, flags = 0)
    - Pattern对象属性
        - Pattern.flags
        - Pattern.groups
        - Pattern.groupindex
        - Pattern.pattern
    - Pattern对象方法
        - MatchObj = Pattern.search(string, pos, endpos)
        - MatchObj = Pattern.match(string, pos, endpos)
        - MatchObj = Pattern.fullmatch(string, pos, endpos)
        - MatchObj = Pattern.split(string, maxsplit = 0)
        - MatchObj = Pattern.findall(string, pos, endpos)
        - MatchObj = Pattern.finditer(string, pos, endpos)
        - MatchObj = Pattern.sub(repl, string, count = 0)
        - MatchObj = Pattern.subn(repl, string, count = 0)
            - Match Object
                - 方法
                    - Match.expand(template)
                    - Match.group()
                    - `Match.__getitem__(g)`
                    - Match.groups()
                    - Match.groupdict()
                    - Match.start()
                    - Match.end()
                    - Match.span()
                - 属性
                    - Match.pos
                    - Match.endpos
                    - Match.lastindex
                    - Match.lastgroup
                    - Match.re
                    - Match.string






# 3.函数，方法

## 3.1 `re.match()`, `re.search()`

* 单行模式
    * re.match()
        - 仅从字符串开头进行匹配，开头匹配不到就返回None
    * re.search()
        - 可以在字符串中的任意位置进行匹配
    * re.search('^')
        - 同re.match()
* 多行模式
    * re.match(re.MULTILINE)
        - 多行模式下，仅从第一行字符串开头进行匹配，开头匹配不到就返回None
    * re.search('', re.MULTILINE)
        - 多行模式下，可以从多行的字符串的任意位置进行匹配
    * re.search('^', re.MULTILINE)
        - 多行模式下，可以从多行的字符串的开头进行匹配

# 4. 例子