### 正则表达式（Regular Expression 或 RegEx）用于搜索 字符串（String） 中特定的 模式（Pattern）。

## 元字符
---
- `[]` 代表一组字符。
- 例：
    
    `[a-m]` 表示字母 a-m 中的任何一个字符。
    
    `[^arn]` 表示除 a、r 和 n 之外的任何字符。
    
    `[0-5][0-9]` 表示从 00 到 59 的任意两位数字。
---
- `.` 代表任何字符（换行符除外）。
---
- `^` 代表以...起始。
- 例如：`^hello` 代表以 `hello` 起始。
---
- `$` 代表以...结尾 。
- 例：
    
    `planet$` 代表以 `planet` 结尾 。
---
- `*` 代表出现 0 次或 多次。
- 例：
    
    `he.*o` 代表 `he` 后面跟任何字符（`.`）0 次或 多次（`*`）最后跟字母 `o`。
    
    `[ACTGactg]*` 代表一条 DNA 序列。
---
- `+` 代表出现 1 次 或 多次。
- 例：
    
    `he.+o` 代表  `he` 后面跟任何字符（`.`）1 次 或 多次（`+`）最后跟字母 `o`。
---
- `?` 代表出现 0 次 或 1 次。
- 例：
    
    `he.?o` 代表  `he` 后面跟任何字符（`.`）出现 0 次 或 1 次（`?`）最后跟字母 `o`。
---
- `{n}` ：代表出现指定的次数。
- 例：
    
    `he.{2}o` 代表  `he` 后面跟任何字符（`.`）出现 2 次（`{2}`）最后跟字母 `o`。
---
- `{m,n}` 表示在 m 次 和 n 次之间重复，其中 m 和 n 是整数，且 n>= m。
- 例：
    
    `[ACDEFGHIKLMNPQRSTVWY]{100,200}` ****表示长度为 `100` 到 `200` 个氨基酸序列。
---
- `|`  表示 “或”。
- 例：
    
    `falls|stays` 表示 `falls` 或 `stays`。
---
- `()` 表示捕获符合某个模式的字符串。
- 例：
    
    `(S.*n)`  捕获以大写字母 `S` 开始，后面跟任何字符（`.`）出现 0 次 或 多次（`*`）并以 小写字母 `n` 结尾的字符串。

## 转义操作符
---
- `\A` 表示出现在字符串开头的字符。
- 例：
    
    `\AThe` 表示字符串以 `The` 开头。
---
- `\b` 表示出现在单词开头或结尾的字符。
- 例：
    
    `\bain` 表示出现在单词开头的字符为 `ain`。
    
    `ain\b` 表示出现在单词结尾的字符为 `ain`。
---
- `\B` 表示指定的字符不出现在单词的开头或结尾。
- 例：
    
    `\Bain` 表示指定的字符“`ain`”不出现在单词的开头。
---
- \d 代表数字 0 到 9。
---
- \D 表示不包含数字。
---
- \s 代表空格。
---
- \w 代表从 a 到 Z、从 0-9 和 下划线 _ 在内的任何字符。
---
- \W 代表不包含从 a 到 Z、从 0-9 和 下划线 _ 在内的任何字符。
---
- `\Z` 代表出现在字符串末尾的字符。
- 例：
    
    `Spain\Z` 表示字符串以 `Spain` 结尾 。

## 正则表达式模块（re）

- Python 内置包 `re` 用于处理正则表达式。
- 导入 `re` 模块：
    
    ```python
    import re
    ```
    
- `re` 模块提供多种 正则表达式方法。

- re.search() 搜索字符串中第一个出现的正则表达式模式。

In [1]:
import re

pattern = r"Python \d"
string = "Now, I use Python 3, but I once used Python 2."

obj = re.search(pattern, string)

if obj:
    print("Match found:", obj.group())
else:
    print("No match found.")

Match found: Python 3


- 本例中，正则表达式的模式是 `Python \d`，它匹配 字符串 Python 后面跟一个空格 和 一个数字（`\d`）。
- 正则表达式前的字母 “`r`” 表示“原始字符串（raw string）”。 原始字符串完全按其出现的方式使用。
- `re.search()` 方法搜索字符串中模式的第一次出现。如果找到匹配项，则 result 变量将包含一个 `obj` 对象；如果未找到匹配项，则包含 None 。
- 如果找到匹配项，使用 `obj` 对象的 `group()` 方法获取匹配的子字符串，然后将其打印出来。

- re.match() 查找指定模式是否出现在给定字符串的开头。

In [2]:
import re

pattern = "You"
string = "You are welcome."
obj = re.match("You", string)
print(obj)

<re.Match object; span=(0, 3), match='You'>


- 如果只想输出 span 和 match 信息：

In [3]:
import re

pattern = "You"
string = "You are welcome."
obj = re.match("You", string)

if obj:
    print("Match found:", obj.group())
    print("Span:", obj.span())
else:
    print("No match found.")

Match found: You
Span: (0, 3)


- findall() 函数返回一个包含所有匹配项的列表。

In [4]:
import re

# Return a list containing every occurrence of "ai":
string = "books in bookstore"
pattern = "book"
result_list = re.findall(pattern, string)
print(result_list)

['book', 'book']


In [5]:
# 统计出现的次数：
print(len(result_list))

2


In [7]:
# 如果没有找到匹配项，则返回一个空列表。
import re

string = "cars in parking lot"
pattern = "book"
result_list = re.findall(pattern, string)
print(result_list)

if result_list:
  print("Yes, there is at least one match!")
else:
  print("No match")

[]
No match


- `re.finditer()` 函数返回目标字符串中所有匹配项的迭代器对象。

- 例：查找 DNA 序列中的酶切位点。

In [8]:
import re

cutting_site = "GAATTC"
dna = "ATGCTGAATTCTAGAATTCTTT"
cutting_site_obj = re.finditer(cutting_site, dna)

print(cutting_site_obj)

<callable_iterator object at 0x0000021F33892020>


In [9]:
import re

cutting_site = "GAATTC"
dna = "ATGCTGAATTCTAGAATTCTTT"
cutting_site_obj = re.finditer(cutting_site, dna)

for match in cutting_site_obj:
    print(match)

<re.Match object; span=(5, 11), match='GAATTC'>
<re.Match object; span=(13, 19), match='GAATTC'>


In [10]:
import re

cutting_site = "GAATTC"
dna = "ATGCTGAATTCTAGAATTCTTT"
cutting_site_obj = re.finditer(cutting_site, dna)

for match in cutting_site_obj:
    print("Cutting site found at position", match.start(), "-", match.end())

Cutting site found at position 5 - 11
Cutting site found at position 13 - 19


- `re.split()` 方法按指定字符或表达式分割字符串，返回一个列表，其中字符串在每次匹配时都被拆分。
- 例：在每个空白字符处拆分。

In [11]:
import re

txt = "The rain in Spain"
x = re.split("\s", txt)
print(x)

['The', 'rain', 'in', 'Spain']


- 可以通过指定 `maxsplit` 参数来控制出现次数。
    
    例：仅在第一次出现时拆分字符串。

In [12]:
import re

#Split the string at the first white-space character:

txt = "The rain in Spain"
x = re.split("\s", txt, 1)
print(x)

['The', 'rain in Spain']


- `sub()` 方法用正则表达式替换匹配项。
    - `sub` 是 `substitute`（取代）的简写。

In [13]:
import re

text = "The quick brown fox jumps over the lazy dog"
pattern = r"fox"
replacement = "cat"
new_text = re.sub(pattern, replacement, text)

print(new_text)

The quick brown cat jumps over the lazy dog


- 通过指定 `count` 参数控制替换次数。
- 例：替换前 2 次出现。

In [15]:
import re

#Replace the first two occurrences of a white-space character with the digit 9:

txt = "The rain in Spain"
x = re.sub("\s", "9", txt, 2)
print(x)

The9rain9in Spain
