好的！以下是**第一阶段：正则表达式基础概念**的详细知识讲解，包含核心概念、语法示例和代码实践。

---

### **第一阶段：正则表达式基础概念**
#### **1. 正则表达式是什么？**
- **定义**：一种用特定语法规则描述字符串模式的工具，用于文本的搜索、匹配和替换。
- **Python中的应用**：通过`re`模块实现（Python内置库）。
- **典型使用场景**：
  - 验证数据（如邮箱、电话号码格式）
  - 提取文本中的特定内容（如日志中的日期）
  - 批量替换字符串（如删除多余空格）

---

#### **2. 基本元字符（Metacharacters）**
元字符是正则表达式中具有特殊含义的字符，以下是核心分类：

##### **（1）字符匹配**
| 元字符 | 含义                          | 示例代码                     | 匹配示例         |
|--------|-------------------------------|------------------------------|------------------|
| `.`    | 匹配**任意单个字符**（除换行符） | `re.findall("a.c", text)`    | "abc", "aac"     |
| `\d`   | 匹配数字（等价于`[0-9]`）       | `re.findall("\d+", text)`    | "123", "0"       |
| `\w`   | 匹配单词字符（字母、数字、下划线） | `re.findall("\w+", text)`    | "hello", "123_a" |
| `\s`   | 匹配空白符（空格、制表符、换行）  | `re.split("\s+", text)`      | 按空格分割文本   |
| `[ ]`  | 匹配括号内**任意一个字符**       | `re.findall("[aeiou]", text)`| "a", "e"         |
| `[^ ]` | 匹配**不在**括号内的字符         | `re.findall("[^aeiou]", text)` | "b", "1", " "   |

##### **（2）位置锚点**
| 元字符 | 含义                     | 示例代码                   | 匹配场景               |
|--------|--------------------------|----------------------------|------------------------|
| `^`    | 匹配字符串的**开始位置** | `re.findall("^Hello", text)` | 仅匹配开头的"Hello"   |
| `$`    | 匹配字符串的**结束位置** | `re.findall("world$", text)` | 仅匹配结尾的"world"   |
| `\b`   | 匹配单词边界（起始或结束） | `re.findall(r"\bcat\b", text)` | 匹配独立的单词"cat"   |

> ⚠️ 注意：在Python中，`\b`在字符串中可能被解释为退格符，建议使用原始字符串（如`r"\b"`）。

---

#### **3. 重复匹配（量词）**
用于控制字符重复出现的次数：

| 量词    | 含义             | 示例代码            | 匹配示例                |
|---------|------------------|---------------------|-------------------------|
| `*`     | 0次或多次        | `re.findall("a*b", text)` | "b", "ab", "aab"      |
| `+`     | 1次或多次        | `re.findall("a+b", text)` | "ab", "aab"（不匹配"b"）|
| `?`     | 0次或1次         | `re.findall("a?b", text)` | "ab", "b"             |
| `{n}`   | 精确匹配n次      | `re.findall("a{2}b", text)` | "aab"                |
| `{n,}`  | 至少n次          | `re.findall("a{2,}b", text)` | "aab", "aaab"       |
| `{n,m}` | 匹配n到m次       | `re.findall("a{2,3}b", text)` | "aab", "aaab"       |

---

#### **4. 贪婪 vs 非贪婪模式**
- **贪婪模式**（默认）：量词会尽可能匹配更长的字符串。
  - 示例：`r"a.*b"` 匹配 "axxxxbxxxxb" 中的整个字符串。
- **非贪婪模式**：在量词后加`?`，尽可能匹配最短字符串。
  - 示例：`r"a.*?b"` 匹配 "axxxxbxxxxb" 中的 "axxxxb"。

---

### **代码实践示例**


In [None]:
import re
text = "My phone number is 123-456-7890, and my email is user@example.com"
# 匹配数字序列
numbers = re.findall(r"\d+",text)
print(numbers)

['123', '456', '7890']


In [6]:
# 匹配邮箱（简易模式）
email =  re.findall(r"\w+@\w+\.\w+",text)
print(email)

['user@example.com']


In [7]:
# 分割字符串（按非单词字符）
words = re.split(r'\W+',text)
print(words)

['My', 'phone', 'number', 'is', '123', '456', '7890', 'and', 'my', 'email', 'is', 'user', 'example', 'com']


In [8]:
# 替换操作（隐藏电话号码）
hidden_text = re.sub(r"\d{3}-\d{3}-\d{4}", "XXX-XXX-XXXX", text)
print("Hidden text:", hidden_text)

Hidden text: My phone number is XXX-XXX-XXXX, and my email is user@example.com


In [None]:
import re

text = "My phone number is 123-456-7890, and my email is user@example.com."

# 匹配数字序列
numbers = re.findall(r"\d+", text)
print("Numbers:", numbers)  # Output: ['123', '456', '7890']

# 匹配邮箱（简易模式）
email = re.findall(r"\w+@\w+\.\w+", text)
print("Email:", email)  # Output: ['user@example.com']

# 分割字符串（按非单词字符）
words = re.split(r"\W+", text)
print("Words:", words)  # Output: ['My', 'phone', 'number', 'is', '123', '456', '7890', 'and', ...]

# 替换操作（隐藏电话号码）
hidden_text = re.sub(r"\d{3}-\d{3}-\d{4}", "XXX-XXX-XXXX", text)
print("Hidden text:", hidden_text)



---

### **第一阶段练习任务**
1. 编写正则表达式匹配以下内容：
   - 所有连续的数字（如"123"）
   - 以大写字母开头的单词（如"Hello"）
   - 日期格式（如"2023-10-01"）
2. 尝试用`re.sub()`将文本中所有数字替换为"#"。
3. 理解贪婪与非贪婪的区别：尝试用`.*`和`.*?`匹配`<div>content</div>`中的内容。

---

### **注意事项**
- 在Python中使用正则时，建议使用**原始字符串**（如`r"\d"`），避免反斜杠转义问题。
- 如果匹配特殊字符（如`.`、`*`），需要用反斜杠转义（如`\.`、`\*`）。
