在正则表达式中，​​分组捕获​​是通过圆括号 () 实现的，它不仅能将多个字符组合成一个整体进行匹配，还能在匹配后提取括号内的内容。这是正则表达式中非常强大的功能，下面我会详细解释它的用法和常见场景。

`请记住，只有分组捕获的时候，匹配的结果才能使用group,反过来说，你都没分组，group个屁啊😂`
# 1. 分组捕获的基本语法​​
​​(1) 简单分组​​：用 (pattern) 包裹需要捕获的部分：

In [7]:
import re

text = "Date: 2023-10-05"
pattern = r"Date: (\d{4})-(\d{2})-(\d{2})"  # 捕获年、月、日

match = re.search(pattern, text)
if match:
    print(match.groups())  # 输出: ('2023', '10', '05')
    print(match.group(0)) # 索引为0时是整个匹配的文本
    print(match.group(1))
    print(match.group(2))
    print(match.group(3))

('2023', '10', '05')
Date: 2023-10-05
2023
10
05


​​- match.groups()​​：返回所有捕获组的元组（按顺序）。

​​- match.group(n)​​：获取第 n 个分组（group(0) 是整个匹配文本）。

上述例子中，因为是分组捕获，分组分组，肯定是被分成了一组组的，所以可以通过group(n)来访问，🔎详见例子

# 2. 分组捕获的常见用途​​
​​(1) 提取关键信息​

In [9]:
text = "Name: Alice, Age: 25"
match = re.search(r"Name: (\w+), Age: (\d+)", text)
print(match.groups())  # 输出: ('Alice', '25')
print(match.group(1)) 
print(match.group(2))  

('Alice', '25')
Alice
25


(2) 结合 findall 批量提取​

In [10]:
text = "user_id=123, user_id=456, user_id=789"
ids = re.findall(r"user_id=(\d+)", text)  # 注意括号位置
print(ids)  # 输出: ['123', '456', '789']

['123', '456', '789']


(3) 替换时引用分组（反向引用）​

In [11]:
text = "2023-10-05"
new_text = re.sub(r"(\d{4})-(\d{2})-(\d{2})", r"\2/\3/\1", text)  # 月/日/年
print(new_text)  # 输出: 10/05/2023

10/05/2023


# 3. 非捕获分组（高级用法）​​
如果只需要分组但不捕获（不占用 groups() 的返回），可以用 (?:pattern)：

In [26]:
text = "apple orange banana strawberry"
match = re.findall(r"(?:\w+)(\w+)", text)  # 第一个 `\w+` 不捕获
print(match)  # 输出: ['e', 'e', 'a', 'y']
match2 = re.search(r"(?:\w+) (\w+) (\w+)", text)  # 第一个 `\w+` 不捕获
print(match2.groups())  # 输出: ('orange', 'banana')

['e', 'e', 'a', 'y']
('orange', 'banana')


​- ​适用场景​​：当分组仅用于逻辑组合（如 | 或量词）时，避免不必要的捕获。

🤔疑问：
上面的match中，(\w+) 只捕获最后一个字母，为什么呢？

因为 (?:\w+) 会贪婪匹配，先匹配尽可能多的字符，只留下最后一个字符给后面的 (\w+) 捕获。比如对于 "apple"：

(?:\w+) 匹配 "appl"

(\w+) 只能匹配剩下的 "e"


# 4. 命名分组（更易读）​​
通过 (?P<name>pattern) 给分组命名，便于后续引用：

In [27]:
text = "Date: 2023-10-05"
pattern = r"Date: (?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2})"

match = re.search(pattern, text)
print(match.group("year"))   # 输出: '2023'
print(match.groupdict())     # 输出: {'year': '2023', 'month': '10', 'day': '05'}

2023
{'year': '2023', 'month': '10', 'day': '05'}


# 5. 分组与量词的结合​​
分组可以配合量词（*、+、?、{n,m}）使用：

In [28]:
text = "abbbcc"
match = re.search(r"(a)(b+)(c+)", text)
print(match.groups())  # 输出: ('a', 'bbb', 'cc')

('a', 'bbb', 'cc')


# 6. 常见问题​​
​​(1) 分组 vs. 字符集 []​​
- (\d+) → ​​捕获​​数字序列（如 '123'）。
- [\d]+ → ​​仅匹配​​数字序列，不捕获（等价于 \d+）。

​​(2) 贪婪匹配问题​​：默认情况下，分组是贪婪的（匹配尽可能多的字符）：

In [29]:
text = "<div>hello</div><div>world</div>"
match = re.search(r"<div>(.*)</div>", text)  # 贪婪匹配
print(match.group(1))  # 输出: 'hello</div><div>world'

hello</div><div>world


- 改为非贪婪​​:<div>(.*?)</div> → 输出 'hello'。

## **总结**

|       功能       |        语法         |                    示例                    |
| :--------------: | :-----------------: | :----------------------------------------: |
| **普通捕获分组** |     `(pattern)`     |            `r"(\d{4})-(\d{2})"`            |
|  **非捕获分组**  |    `(?:pattern)`    |           `r"(?:\d{3})-(\d{4})"`           |
|   **命名分组**   | `(?P<name>pattern)` |            `r"(?P<year>\d{4})"`            |
|   **反向引用**   |     `\1`, `\2`      | `re.sub(r"(\d)", r"\1\1", "a1")` → `'a11'` |

分组捕获是正则表达式的核心功能之一，熟练掌握后可以高效处理文本提取、替换等任务！ 🚀

