## 正则表达式

正则表达式（regular expression，简称 regex）是一种用来描述字符串模式的工具，可以用来查找、替换、提取或验证文本中的特定模式。它由一系列字符和特殊符号组成，能够灵活地处理文本数据。


### re 模块

`re` 是 Python 内置的正则表达式模块，提供了多种方法来进行正则匹配和文本处理。

### search

`re.search(pattern, string)` 方法会扫描整个字符串 `string`，寻找第一个匹配正则表达式 `pattern` 的位置，并返回相应的匹配结果。如果没有匹配的结果，则返回 `None`。

In [1]:
import re
text = "hello world"
result = re.search(r"hello", text)
print(result)

<re.Match object; span=(0, 5), match='hello'>


### match

`re.match(pattern, string)` 方法会检查字符串 `string` 的开始部分是否符合正则表达式 `pattern`，如果匹配成功，返回匹配结果；否则返回 `None`。

In [2]:
import re
text = "hello world"
result = re.match(r"hello", text)
print(result)

<re.Match object; span=(0, 5), match='hello'>


### findall

`re.findall(pattern, string)` 方法会返回一个列表，包含所有匹配正则表达式 `pattern` 的非重叠部分。结果按顺序返回。

In [3]:
import re
text = "ab1cd2ef3"
result = re.findall(r"\d", text)
print(result)


['1', '2', '3']


### sub

`re.sub(pattern, repl, string)` 方法用 `repl` 替换掉字符串 `string` 中所有匹配正则表达式 `pattern` 的部分。如果正则表达式没有匹配到，字符串保持不变。

In [4]:
import re
text = "hello world"
result = re.sub(r"world", "Python", text)
print(result)

hello Python


### split

`re.split(pattern, string)` 方法使用正则表达式 `pattern` 将字符串 `string` 分割成多个部分，返回一个列表。

In [5]:
import re
text = "apple,banana,orange"
result = re.split(r",", text)
print(result)

['apple', 'banana', 'orange']


### 表示字符

正则表达式中有许多字符和符号用来表示不同的匹配规则。

| 字符       | 描述                                    |
| -------- | ------------------------------------- |
| `.`      | 匹配除换行符 `\n` 之外的任何单个字符。                |
| `\d`     | 匹配一个数字字符，等价于 `[0-9]`。                 |
| `\D`     | 匹配一个非数字字符，等价于 `[^0-9]`。               |
| `\w`     | 匹配一个字母数字字符（包括下划线），等价于 `[A-Za-z0-9_]`。 |
| `\W`     | 匹配一个非字母数字字符，等价于 `[^A-Za-z0-9_]`。      |
| `\s`     | 匹配任何空白字符，包括空格、制表符等。                   |
| `\S`     | 匹配任何非空白字符。                            |
| `[xyz]`  | 匹配括号内的任意字符。                           |
| `[^xyz]` | 匹配不在括号内的字符。                           |
| `[a-z]`  | 匹配所有小写字母。                             |


### 表示数量

正则表达式中的数量符号表示对某个模式的匹配次数。

| 字符      | 描述                    |
| ------- | --------------------- |
| `*`     | 匹配前面的子表达式零次或多次。       |
| `+`     | 匹配前面的子表达式一次或多次。       |
| `?`     | 匹配前面的子表达式零次或一次。       |
| `{n}`   | 精确匹配前面子表达式 `n` 次。     |
| `{n,}`  | 匹配前面子表达式至少 `n` 次。     |
| `{n,m}` | 匹配前面子表达式 `n` 到 `m` 次。 |
| `?`     | 非贪心量化符号，尽可能少地匹配字符。    |


### 表示边界

边界符号用于匹配文本的位置，而不是字符本身。

| 字符   | 描述                  |
| ---- | ------------------- |
| `^`  | 匹配字符串的开头位置。         |
| `$`  | 匹配字符串的结尾位置。         |
| `\b` | 匹配单词边界，即单词与空格之间的位置。 |
| `\B` | 匹配非单词边界。            |


### 匹配分组

通过分组，可以将正则表达式中的部分模式进行分组，以便捕获和引用。

| 字符                  | 描述                              |               |
| ------------------- | ------------------------------- | ------------- |
| `x                  | y`                              | 匹配 `x` 或 `y`。 |
| `(pattern)`         | 匹配 `pattern`，并捕获匹配的内容。          |               |
| `(?P<name>pattern)` | 匹配 `pattern`，并使用 `name` 作为分组名称。 |               |
| `(?P=name)`         | 引用命名分组 `name`。                  |               |
| `\num`              | 向后引用第 `num` 个捕获组的内容。            |               |


### 原始字符串

Python中的原始字符串通过在字符串前加上 `r` 来定义，这样可以避免反斜杠带来的转义问题。

In [6]:
import re
text = "abcdef123456"
print(re.search(r"\w+", text))

<re.Match object; span=(0, 12), match='abcdef123456'>


### 案例

#### 匹配电话号码

In [7]:
import re

test = [
    "13812345678",  # 合法
    "11456817239",  # 非法
    "19912345678",  # 合法
    "17138412356",  # 合法
    "1234567890",   # 非法
    "14752345673",  # 合法
    "1800123456",   # 非法
]

pattern = r"^1[345789]\d{9}$"
for i in test:
    print(f"{i:20} {'合法' if re.match(pattern, i) else '非法'}")

13812345678          合法
11456817239          非法
19912345678          合法
17138412356          合法
1234567890           非法
14752345673          合法
1800123456           非法


#### 匹配邮箱

In [8]:
import re

test = [
    "example@example.com",
    "user.name@subdomain.example.co",
    "username@.com",
    "@missingusername.com",
    "-dasd@qq.com",
]

pattern = r"[\w!#$%&'*+-/=?^`{|}~.]+@[\w!#$%&'*+-/=?^`{|}~.]+\.[a-zA-Z]{2,}$"
for i in test:
    print(f"{i:40} {'合法' if re.match(pattern, i) else '非法'}")

example@example.com                      合法
user.name@subdomain.example.co           合法
username@.com                            非法
@missingusername.com                     非法
-dasd@qq.com                             合法


#### 匹配0-255之间的数字

In [9]:
import re

test = ["0", "9", "50", "100", "199", "200", "255", "256", "-1", "01", "001"]
pattern = r"^([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])$"
for num in test:
    print(f"{num:5} {'合法' if re.match(pattern, num) else '非法'}")

0     合法
9     合法
50    合法
100   合法
199   合法
200   合法
255   合法
256   非法
-1    非法
01    非法
001   非法


#### 从标签中获取网址

In [10]:
import re

test = """<link rel="alternate" hreflang="zh" href="https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F">
<link rel="alternate" hreflang="zh-Hans" href="https://zh.wikipedia.org/zh-hans/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F">
<link rel="alternate" hreflang="zh-Hans-CN" href="https://zh.wikipedia.org/zh-cn/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F">
...
"""

pattern = r"href=\"(.+?)\""
for i in re.findall(pattern, test):
    print(i)

https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F
https://zh.wikipedia.org/zh-hans/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F
https://zh.wikipedia.org/zh-cn/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F


#### 替换文本中的所有数字为对应的词

In [11]:
import re

test = "I have 2 apples and 3 oranges."
num_map = {"1": "one", "2": "two", "3": "three", "4": "four", "5": "five"}
print(re.sub(r"\d", lambda x: num_map[x.group(0)], test))  # I have two apples and three oranges.

I have two apples and three oranges.
