### **第三阶段：进阶技巧与场景**
#### **1. 零宽断言（Lookaround Assertions）**
零宽断言不匹配字符，只匹配**位置**，是高级文本处理的王牌技巧！

`(?=...)` 是正则表达式中的**正向先行断言（Positive Lookahead Assertion）**，是一种特殊的语法结构。

它的作用是：
- 匹配某个位置，该位置后面**紧跟着**`...`中定义的内容
- 但**不包含**`...`中的内容在匹配结果里

简单说，就是"检查后面是否有指定内容，但不把这个内容算进匹配结果"。

例如在 `Python(?=元)` 中：
- 只会匹配后面紧跟着"元"字的"Python"
- 最终匹配结果只包含"Python"，不包含"元"

类似的还有：
- `(?!...)`：负向先行断言（后面**不能**是指定内容）
- `(?<=...)`：正向后行断言（前面**必须**是指定内容）
- `(?<!...)`：负向后行断言（前面**不能**是指定内容）

这些断言都属于"零宽断言"，只用来判断位置，不会消耗字符串中的字符。
##### **(1) 正向先行断言（Positive Lookahead）** `(?=pattern)`
匹配后面跟着特定模式的位置


In [None]:
# 匹配后面跟着"元"的"Python"
text = "Python元编程 Python基础 Python进阶"
result = re.findall(r"Python(?=元)", text)
print(result)  # 输出: ['Python'] (匹配"Python元"中的Python)



##### **(2) 负向先行断言（Negative Lookahead）** `(?!pattern)`
匹配后面不跟着特定模式的位置


In [None]:
# 匹配后面不是"元"的"Python"
result = re.findall(r"Python(?!元)", text)
print(result)  # 输出: ['Python', 'Python'] (匹配"Python基础"和"Python进阶"中的Python)



##### **(3) 正向后行断言（Positive Lookbehind）** `(?<=pattern)`
匹配前面是特定模式的位置


In [None]:
# 匹配前面是"￥"的数字
price_text = "价格: ￥100, $50, ￥200"
result = re.findall(r"(?<=￥)\d+", price_text)
print(result)  # 输出: ['100', '200']



##### **(4) 负向后行断言（Negative Lookbehind）** `(?<!pattern)`
匹配前面不是特定模式的位置


In [None]:
# 匹配前面不是"￥"的数字
result = re.findall(r"(?<!￥)\d+", price_text)
print(result)  # 输出: ['50'] (匹配$50中的50)



**实战应用：提取不含扩展名的文件名**


In [None]:
filenames = "report.pdf, data.xlsx, presentation.pptx"
# 匹配后面没有字母（即扩展名结束位置）的点之前的内容
results = re.findall(r".*?(?=\.\w+$)", filenames)
print(results)  # 输出: ['report', 'data', 'presentation']



---

#### **2. 复杂模式设计实战**
##### **(1) 精准邮箱验证**


In [None]:
email_pattern = r"""
    [a-zA-Z0-9._%+-]+      # 用户名：字母、数字、特殊字符
    @                       # @符号
    [a-zA-Z0-9.-]+          # 域名部分
    \.                      # 点号(需要转义)
    [a-zA-Z]{2,}            # 顶级域名(2个以上字母)
"""

emails = "联系: user.name+tag@example.com, 无效邮箱: user@.com"
valid_emails = re.findall(email_pattern, emails, re.VERBOSE)
print(valid_emails)  # 输出: ['user.name+tag@example.com']


`re.VERBOSE` 是 Python 正则表达式模块中的一个标志（flag），也可以简写为 `re.X`，它的主要作用是**允许编写更易读的正则表达式**。

当使用 `re.VERBOSE` 时，正则表达式中会忽略：
1. 空格（除非空格被转义或放在字符类中）
2. `#` 后面的注释（直到行尾）

这让你可以像示例中那样，把复杂的正则表达式拆分成多行，并添加注释说明每个部分的作用，大大提高可读性。

### 对比示例：
如果不使用 `re.VERBOSE`，示例中的邮箱正则需要写成一行，且不能加注释：
```python
email_pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
```

而使用 `re.VERBOSE` 后，就可以写成带格式和注释的多行形式，逻辑更清晰：
```python
email_pattern = r"""
    [a-zA-Z0-9._%+-]+      # 用户名：字母、数字、特殊字符
    @                       # @符号
    [a-zA-Z0-9.-]+          # 域名部分
    \.                      # 点号(需要转义)
    [a-zA-Z]{2,}            # 顶级域名(2个以上字母)
"""
```

### 注意：
- 使用 `re.VERBOSE` 时，正则表达式字符串通常用三引号 `"""` 包裹，方便换行
- 如果需要匹配空格，必须用 `\ `（转义空格）或放在字符类 `[]` 中（如 `[ ]`）

这个标志特别适合编写复杂的正则表达式，让代码更易于维护和理解。


##### **(2) URL解析器**


In [None]:
url_pattern = r"""
    (https?)://             # 协议（http或https）
    ([\w.-]+)               # 域名
    (:\d+)?                 # 端口（可选）
    (/[\w./?%&=]*)?         # 路径和参数（可选）
"""

url = "访问 https://www.example.com:8080/api/data?id=123 和 http://sub.domain.com/path"
results = re.findall(url_pattern, url, re.VERBOSE)
for protocol, domain, port, path in results:
    print(f"协议: {protocol}, 域名: {domain}, 端口: {port or '默认'}, 路径: {path or '/'}")



##### **(3) 中文文本处理**


In [2]:
import re  # 导入正则表达式模块

text = "中文English混合文本123！@#"
# 提取中文字符
chinese_chars = re.findall(r"[\u4e00-\u9fff]", text)
print("中文字符:", chinese_chars)  # 输出: ['中', '文', '混', '合', '文', '本']

# 提取中文单词（连续的中文字符）
chinese_words = re.findall(r"[\u4e00-\u9fff]+", text)
print("中文词语:", chinese_words)  # 输出: ['中文', '混合文本']

中文字符: ['中', '文', '混', '合', '文', '本']
中文词语: ['中文', '混合文本']



---

#### **3. Flags深度应用**


In [11]:
text = "Line ONE\nline two\nLINE THREE"


| Flag | 作用 | 示例 | 结果 |
|------|------|------|------|
| `re.IGNORECASE` (`re.I`) | 忽略大小写 | `re.findall(r"line", text, re.I)` | `['Line', 'line', 'LINE']` |
| `re.MULTILINE` (`re.M`) | 多行模式（影响^和$） | `re.findall(r"^line", text, re.I|re.M)` | `['Line', 'line']` |
| `re.DOTALL` (`re.S`) | 让`.`匹配换行符 | `re.findall(r"ONE.*LINE", text, re.S)` | `['ONE\nline two\nLINE']` |
| `re.VERBOSE` (`re.X`) | 允许注释和空格 | 如上邮箱示例 | 提高复杂正则可读性 |

**多Flag组合使用**：


In [12]:
# 同时忽略大小写且多行匹配
results = re.findall(r"^line", text, re.I | re.M)
print(results)  # 输出: ['Line', 'line']


['Line', 'line', 'LINE']



---

#### **4. 高级替换技巧**
##### **(1) 使用函数进行动态替换**


In [13]:
def encrypt_match(match):
    text = match.group(0)
    return "#" * len(text)

text = "信用卡号: 1234-5678-9012-3456, 电话: 400-800-1234"
# 将数字替换为相同长度的#号
encrypted = re.sub(r"\d+", encrypt_match, text)
print(encrypted)  # 输出: "信用卡号: ####-####-####-####, 电话: ###-###-####"


信用卡号: ####-####-####-####, 电话: ###-###-####



##### **(2) 条件性替换**


In [14]:
text = "价格: $19.99, 折扣: 5%, 运费: $2.50"
# 只替换美元金额，保留百分比
result = re.sub(r"\$(\d+\.\d{2})", r"[价格: \1]", text)
print(result)  # 输出: "价格: [价格: 19.99], 折扣: 5%, 运费: [价格: 2.50]"


价格: [价格: 19.99], 折扣: 5%, 运费: [价格: 2.50]



---

### **⚡ 性能优化与最佳实践**
#### **1. 避免回溯灾难**


In [7]:
# 危险模式：嵌套量词导致指数级回溯
danger_pattern = r"(a+)+b"  # 多个a后跟b

# 安全替代：使用原子分组或占有量词
safe_pattern = r"(?>a+)+b"  # 原子分组，防止回溯



#### **2. 预编译加速**


In [None]:
import 
# 在循环外预编译正则
pattern = re.compile(r"\d{3}-\d{3}-\d{4}")

for document in large_document_collection:
    phones = pattern.findall(document)  # 快速执行


NameError: name 'large_document_collection' is not defined


#### **3. 使用更高效的替代方案**


In [None]:
# 当只需要简单匹配时，考虑字符串方法
if "error" in log_message:  # 比re.search(r"error", log_message)更快
    print("发现错误")



---

### **🔧 实战项目：日志分析系统**


In [None]:
log_data = """
[INFO] 2023-10-01 12:30:45 - User login from 192.168.1.100
[ERROR] 2023-10-01 12:31:22 - Database connection failed at 10.0.0.1
[WARN] 2023-10-01 12:32:10 - High memory usage on server 192.168.1.200
"""

log_pattern = r"""
    \[(\w+)\]                 # 日志级别
    \s+(\d{4}-\d{2}-\d{2})    # 日期
    \s+(\d{2}:\d{2}:\d{2})    # 时间
    .*?                       # 中间内容
    (\d+\.\d+\.\d+\.\d+)      # IP地址
"""

for match in re.finditer(log_pattern, log_data, re.VERBOSE):
    level, date, time, ip = match.groups()
    print(f"{level} at {time} from {ip}")



---

### **📌 第三阶段挑战任务**
1. 使用零宽断言提取「价格：￥100.00」中的数字（100.00），但不包括货币符号
2. 编写正则验证强密码：至少8位，包含大小写字母、数字和特殊字符
3. 解析复杂字符串「姓名:张三,年龄:30,技能:Python|Java|Go」为字典格式
4. 优化正则性能：将`r".*@.*\..*"`邮箱验证改为更高效的形式

你已经进入了正则表达式的专家领域！这些技巧将让你在文本处理中所向披靡。接下来可以开始实战项目，将这些技术应用到真实场景中！
