这里是对您提供的正则表达式特殊字符和它们各自描述的整理，以便更好地理解和参考：

### 字符类
- `\d` - 代表任意数字，等价于 `[0-9]`。
- `\D` - 匹配非数字字符，与 `\d` 相反，等价于 `[^0-9]`。
- `\w` - 匹配字母、数字、下划线，等价于 `[a-zA-Z0-9_]`。
- `\W` - 匹配非字母、非数字、非下划线的字符，与 `\w` 相反，等价于 `[^a-zA-Z0-9_]`。
- `\s` - 匹配所有空白字符，包括空格、制表符、换页符等，等价于 `[ \t\n\r\f\v]`。
- `\S` - 匹配所有非空白字符，与 `\s` 相反，等价于 `[^ \t\n\r\f\v]`。
- `\n` - 匹配一个换行符。
- `\r` - 匹配一个回车符。
- `\f` - 匹配一个换页符。
- `\t` - 匹配一个制表符（Tab）。

### 定位符
- `^` - 匹配输入字符串的开始位置。
- `$` - 匹配输入字符串的结束位置。
- `\A` - 匹配字符串的开始（不受多行模式的影响）。
- `\Z` - 匹配字符串的结束或字符串的最后一个换行符之前（不受多行模式的影响）。
- `\b` - 匹配一个单词边界，即字与空格间的位置。
- `\B` - 匹配非单词边界。

### 量词
- `*` - 匹配前面的子表达式零次或多次，等价于 `{0,}`。
- `+` - 匹配前面的子表达式一次或多次，等价于 `{1,}`。
- `?` - 匹配前面的子表达式零次或一次，等价于 `{0,1}`。
- `{n}` - 匹配前面的子表达式恰好 `n` 次。
- `{n,}` - 匹配前面的子表达式至少 `n` 次。
- `{n,m}` - 匹配前面的子表达式至少 `n` 次，但不超过 `m` 次。

### 字符类（括号表达式）
- `[abc]` - 匹配任何一个包含的字符（如 'a', 'b', 或 'c'）。
- `[^abc]` - 匹配任何不包含在括号中的字符。
- `[a-z]` - 匹配指定范围内的任何小写字母。
- `[A-Z]` - 匹配指定范围内的任何大写字母。
- `[0-9]` - 匹配指定范围内的任何数字。

### 逻辑运算符
- `|` - 匹配左边的表达式或右边的表达式（或运算）。
- `(expr)` - 匹配 `expr` 并捕获这一匹配。被捕获的子表达式可以在表达式中被调用，或从生成的Matches集合中得到。

这些是正则表达式中常用的特殊字符和操作符，掌握这些将有助于构建有效的模式匹配和数据提取表达式。

In [2]:
import re

{n}：在Python的正则表达式中，`{n}`是一个量词，用来表示前面的元素必须恰好出现 `n` 次。例如，如果你使用正则表达式 `a{3}`，它将匹配包含恰好三个连续的 'a' 的字符串部分，如在 "aaaaa" 中匹配 "aaa"。

这种用法允许你精确指定某个字符或模式应该出现的次数，从而使匹配更具体。

In [4]:
text = "I am soooo happy to see you soon in the zoo."
pattern = re.compile(r'o{3}')
matches = pattern.findall(text)
print(matches)

['ooo', 'ooo']


In [1]:

# 示例字符串
text = "fooooooood"

# 正则表达式
pattern = r'o{1,3}'

# 搜索匹配项
matches = re.findall(pattern, text)

print("Matches in 'fooooood':", matches)  # 输出: Matches in 'fooooood': ['ooo', 'ooo']


Matches in 'fooooood': ['ooo', 'ooo', 'oo']


In [23]:
content = 'Xiaoshuaib has 100s bananas'

匹配'Xiaoshuaib has 100s bananas'里的数字

使用re.match

In [29]:
# 使用贪婪匹配方法
# '^Xi.*(\d+)s.*s$' 解释：
#   '^Xi' - 字符串开始的位置匹配'Xi'
#   '.*' - 贪婪匹配任意字符（除换行符之外），尽可能多地匹配
#   '(\d+)' - 捕获一个或多个数字（尽可能多地匹配）
#   's' - 匹配字母's'
#   '.*s$' - 继续贪婪匹配任意字符直到字符串的最后一个's'为止
res = re.match('^Xi.*(\d+)s.*s$', content)
if res:
    print(res.group(1))  # 输出匹配到的数字
else:
    print("未找到匹配项")

0


由于 .* 的贪婪性质。它会匹配尽可能多的字符，包括数字，直到满足表达式的最后一部分，即以 's' 结束的要求。在字符串 "Xiaoshuaib has 100s bananas" 中，.* 贪婪地匹配了从 "Xiaoshuaib has 100" 一直到 "s bananas"，留下最后一个 s 符合模式的 s。这意味着，(\d+) 并没有机会匹配到 100，因为当它尝试匹配时，100 已经被 .* 包含在内了。

In [28]:
# 使用非贪婪匹配方法
# '^Xi.*?(\d+)s.*s$' 解释：
#   '^Xi' - 字符串开始的位置匹配'Xi'
#   '.*?' - 非贪婪匹配任意字符（除换行符之外），尽可能少地匹配，直到遇到后续表达式可以匹配的文本
#   '(\d+)' - 捕获一个或多个数字
#   's' - 匹配字母's'
#   '.*s$' - 继续贪婪匹配任意字符直到字符串的最后一个's'为止
res = re.match('^Xi.*?(\d+)s.*s$', content)
if res:
    print(res.group(1))  # 输出匹配到的数字
else:
    print("未找到匹配项")

100


使用re.search

In [20]:
# 使用 search 而不是 match，因为我们的匹配模式不一定从字符串的开头开始
res = re.search(r'Xi.*?(\d+)s.*s$', content)
print(res.group(1))  # 输出第一个括号中的匹配



100


## 如果字符串里面有换行符
使用re.S解决

In [31]:
content = """Xiaoshuaib has 100s
bananas"""
res = re.match('^Xi.*?(\d+)s.*s$',content,re.S)
print(res.group(1))

100


## re.findall
匹配所有符合要求的内容

在 Python 的 `re` 模块中，标志 `re.S` 和 `re.M` 用来修改正则表达式的行为，以便更灵活地处理字符串。这两个标志经常一起使用来处理包含多行文本的字符串。下面是它们各自的含义及组合使用时的效果：

### `re.S`（`re.DOTALL`）
- **描述**：使得正则表达式中的点号（`.`）可以匹配任何字符，包括换行符。默认情况下，点号不匹配换行符。
- **用途**：当你想让一个模式跨越多行匹配时使用，例如，匹配包含换行符的整段文本。

### `re.M`（`re.MULTILINE`）
- **描述**：使得锚字符（`^` 和 `$`）不仅匹配字符串的开头和结尾，还匹配每一行的开头和结尾。
- **用途**：当你需要在多行字符串中单独匹配每一行的开始或结束时使用。

### `re.S | re.M`
- **组合使用**：将 `re.S` 和 `re.M` 一起使用时，你的正则表达式既能让点号匹配换行符，也能让 `^` 和 `$` 在每行的开始和结束进行匹配。
- **示例**：假设你有一个包含多段文本的字符串，每段文本之间由换行符分隔。如果你想匹配每段文本中的某种模式，同时这种模式可能包含段落内的换行，这时使用 `re.S | re.M` 就非常适合。


In [50]:
content = """Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;
Xiaoshuaib has 100 bananas;"""

# 使用正则表达式 '\d+' 来匹配数字，并确保多行匹配是有效的
res = re.findall('Xi.*?(\d+).*?s;', content, re.S | re.M)
print(res)


['100', '100', '100', '100']


In [51]:
content = re.sub('\d+','250',content)
print(content)

Xiaoshuaib has 250 bananas;
Xiaoshuaib has 250 bananas;
Xiaoshuaib has 250 bananas;
Xiaoshuaib has 250 bananas;


In [52]:
pattern = re.compile('Xi.*?(\d+).*?s;',re.S)
res = re.match(pattern,content)
print(res.group(1))

250
