In [1]:
import re

# re - Support for regular expressions (RE)

**DESCRIPTION**

这个模块提供类似 Perl 中的正则表达式的匹配操作；其支持 8 bit 和 Unicode 字符串，其处理的 pattern 和字符串都可以包含空字节和 ASCII 范围之外的字符；正则表达式可以包含特殊字符和普通字符，例如 `"A"`、`"a"`、`"0"` 等是最简单正则表达式，他们直接和他们自己匹配，这些普通字符也可以进行拼接，即 `"last"` 和 last 匹配；更多内容详见 [here](https://docs.python.org/3.7/library/re)
    
特殊字符有：

- "."：与除换行符以外的所有字符匹配
- "^"：与字符串开头匹配
- "$"：与字符串结尾或换行符前的字符串结尾进行匹配
- "*"：与前面的 0 个或多个重复的正则表达式进行贪婪式匹配
- "+"：与前面的 1 个或多个重复的 RE 进行贪婪式匹配
- "?"：与前面的 0 个或 1 个重复的 RE 进行贪婪式匹配
- *?,+?,??：`"*"`、`"+"`、`"?"`的非贪婪模式
- {m,n}：与前面的 m 到 n 个重复的 RE 匹配
- {m,n}?：`{m,n}`的非贪婪模式
- "\\"：用于转义特殊字符或标识一个特殊序列
- []：用于表示一个字符集合，以"^"作为第一个字符时用于指示这是一个补集
- "|"：A|B 表示该 RE 与 A 或 B 匹配
- (...)：与括号中的 RE 匹配，The contents can be retrieved or matched later in the string.
- (?aiLmsux)：为 RE 设置A、I、L、M、S、U 或 X 标志（见下）
- (?:...)：Non-grouping version of regular parentheses.
- (?P<name>...)：The substring matched by the group is accessible by name.
- (?P=name)：Matches the text matched earlier by the group named name.
- (?#...)：表示一个注释，或被忽略的部分
- (?=...)：Matches if ... matches next, but doesn't consume the string.
- (?!...)  Matches if ... doesn't match next.
- (?<=...) Matches if preceded by ... (must be fixed length).
- (?<!...) Matches if not preceded by ... (must be fixed length).
- (?(id/name)yes|no)：若含有 `id/name` 的群组匹配，则该字符与`yes`匹配；否则与`no`匹配

若这个特殊字符组成的序列包含`"\\"`和以下一个字符，同时列表中没有普通字符，则最终的 RE 将会与第二个字符匹配

- \number：与具有相同编号的组的内容匹配
- \A：只在字符串开头处进行匹配
- \Z：只在字符串末尾处进行匹配
- \b：与空字符串匹配，但只在一个单词的开头和结尾进行
- \B：与空字符串匹配，但不在一个单词的开头和结尾进行
- \d：Matches any decimal digit; equivalent to the set [0-9] in bytes patterns or string patterns with the ASCII flag. In string patterns without the ASCII flag, it will match the whole range of Unicode digits.
- \D：与非数字字符匹配，等价于`[^\d]`
- \s：与空格字符相匹配，等价于字节模式下的`[ \t\n\r\f\v]`，或有着 ASCII 标识的字符串模式，没有 ASCII 标识的字符串模式下，其与 Unicode 空格字符的整个范围匹配
- \S：与任何非空格字符匹配，等价于`[^\s]`
- \w：与任何字母和数字匹配，等价于字节模式下的`[a-zA-Z0-9_]`或带有 ASCII 标识的字符串模式；在不带有 ASCII 标识的字符串模式下，其与 Unicode 中字母和数字字符所在范围均匹配，即字母、数字、下划线等；With LOCALE, it will match the set [0-9_] plus characters defined as letters for the current locale.
- \W：与`\w`补集匹配
- \\：与文字中的反斜杠匹配

此模块中一些函数将以下标志作为可选参数：

- A：ASCII；对于字符串模式，将`\w, \W, \b, \B, \d, \D`与 ASCII 字符相应的类别匹配，而不是默认的整个 Unicode 类别；对于字节模式，该标识是唯一可用标识
- I：IGNORECASE；执行不区分大小写的匹配
- L：LOCALE；使`\w, \W, \b, \B`独立于当前的本地环境
- M：MULTILINE；`"^"`与一行的开头或字符串的开头匹配；`"$"`与一行的结尾或字符串的结尾匹配
- S：DOTALL；`"."`与所有字符匹配，包括换行符
- X：VERBOSE；忽略空白和注释以获得更美观的RE
- U：UNICODE；提供兼容性，在字符串模式下是默认标识，不允许在字节模式下使用

**CLASSES**
- builtins.Exception(builtins.BaseException)
    - error
- builtins.object
    - Match
    - Pattern
    

**FUNCTIONS**
- compile(pattern, flags=0)
- escape(pattern)
- findall(pattern, string, flags=0)
- finditer(pattern, string, flags=0)
- fullmatch(pattern, string, flags=0)
- match(pattern, string, flags=0)
- purge()
- search(pattern, string, flags=0)
- split(pattern, string, maxsplit=0, flags=0)
- sub(pattern, repl, string, count=0, flags=0)
- subn(pattern, repl, string, count=0, flags=0)
- template(pattern, flags=0)

**DATA**
- A = <RegexFlag.ASCII: 256>
- ASCII = <RegexFlag.ASCII: 256>
- DOTALL = <RegexFlag.DOTALL: 16>
- I = <RegexFlag.IGNORECASE: 2>
- IGNORECASE = <RegexFlag.IGNORECASE: 2>
- L = <RegexFlag.LOCALE: 4>
- LOCALE = <RegexFlag.LOCALE: 4>
- M = <RegexFlag.MULTILINE: 8>
- MULTILINE = <RegexFlag.MULTILINE: 8>
- S = <RegexFlag.DOTALL: 16>
- U = <RegexFlag.UNICODE: 32>
- UNICODE = <RegexFlag.UNICODE: 32>
- VERBOSE = <RegexFlag.VERBOSE: 64>
- X = <RegexFlag.VERBOSE: 64>
- __all__ = ['match', 'fullmatch', 'search', 'sub', 'subn', 'split', 'fi...



**FILE**：\lib\re.py

# re.sub()
`re.sub(pattern, repl, string, count=0, flags=0)`

**Docstring**
**Args**

- pattern: 将`string`中最左边那些`pattern`不重复出现的字符替换为`repl`，再将替换后的字符串返回，若没有找到`pattern`，则以原输入返回；

- repl: `repl`可以是字符串或者可调用函数，若为字符串，则其内部的反斜杠视作转义字符；未知的 ASCII 转义字符将保留以供未来使用，并视作错误进行处理；其他未知转义字符如`\&`等将不作处理；反向引用(如`\6`)被替换为`pattern`中由 group 6 匹配的子字符串；`repl`若为可调用函数，则其对于每个不重复出现的`pattern`均会被调用，该函数每次接收一个所匹配的对象作为参数，并返回用于替换字符的字符串；

- count：若指明了`count`则只替换字符串前`count`个出现的匹配字符，默认或为 0 的情况下替换所有匹配字符；Empty matches for the pattern are replaced only when not adjacent to a previous empty match, so sub('x*', '-', 'abxd') returns '-a-b--d-'.

In string-type repl arguments, in addition to the character escapes and backreferences described above, \g<name> will use the substring matched by the group named name, as defined by the (?P<name>...) syntax. \g<number> uses the corresponding group number; \g<2> is therefore equivalent to \2, but isn’t ambiguous in a replacement such as \g<2>0. \20 would be interpreted as a reference to group 20, not a reference to group 2 followed by the literal character '0'. The backreference \g<0> substitutes in the entire substring matched by the RE.

**Type**:      function

In [41]:
lines = ["I should study.",
         "I should be studying.",
         "I should go to bed."]
def clean_text(lines):  #@save
    return [re.sub('[^A-Za-z]+', '\n', line, count=3) for line in lines]

lines = clean_text(lines)
print(lines)

['I\nshould\nstudy\n', 'I\nshould\nbe\nstudying.', 'I\nshould\ngo\nto bed.']


#  

#  

# re.compile()
`re.compile(pattern, flags=0)`

**Docstring**: 编译一个正则表达式模式，返回一个`Pattern`对象

**File**:      d:\programfiles\miniconda3\lib\re.py

**Type**:      function