### 正则表达式详细讲解

**正则表达式**（Regular Expression，简称 **RegEx**）是一种用于匹配字符串的强大工具。它允许我们通过定义一个特定的模式来查找、替换、提取或验证文本数据。在数据处理、爬虫、文本解析等领域，正则表达式是不可或缺的。

正则表达式由普通字符（如字母、数字）和特殊符号组成，用于定义要匹配的字符序列。下面是正则表达式的详细讲解，帮助学生更好地理解和掌握其使用。

---

### **1. 基本概念**

- **字符**：在正则表达式中，每一个字符本身都有特殊含义。例如，`a` 匹配字符串中的字符 "a"。
- **元字符**：正则表达式的特殊符号，具有特殊的含义，如 `.`，`*`，`+`，`[]` 等。

### **2. 元字符和其作用**

#### **`.` （点）**
`.` 匹配除换行符外的任意一个字符。

**例子：**
- 正则表达式：`h.t`
- 匹配：`hat`，`hot`，`hit` 等

#### **`*` （星号）**
`*` 表示匹配前面的字符 0 次或更多次。

**例子：**
- 正则表达式：`ca*t`
- 匹配：`ct`，`cat`，`caaat` 等

#### **`+` （加号）**
`+` 表示匹配前面的字符 1 次或更多次。

**例子：**
- 正则表达式：`ca+t`
- 匹配：`cat`，`caat`，但不匹配 `ct`

#### **`?` （问号）**
`?` 表示匹配前面的字符 0 次或 1 次。

**例子：**
- 正则表达式：`ca?t`
- 匹配：`ct` 或 `cat`

#### **`[]` （方括号）**
`[]` 表示字符集，匹配方括号内的任意一个字符。

**例子：**
- 正则表达式：`[ch]at`
- 匹配：`cat` 或 `hat`

#### **`^` 和 `$`**
- `^` 用于匹配字符串的开头。
- `$` 用于匹配字符串的结尾。

**例子：**
- 正则表达式：`^abc` 匹配以 `abc` 开头的字符串。
- 正则表达式：`xyz$` 匹配以 `xyz` 结尾的字符串。

#### **`|` （管道符）**
`|` 表示 "或" 的关系，匹配左边或右边的任意表达式。

**例子：**
- 正则表达式：`a|b`
- 匹配：`a` 或 `b`

---

### **3. 转义字符**

有时我们需要匹配正则表达式中的元字符本身（如 `.`、`*`、`+` 等），这时就需要使用 **转义字符** `\`。

**例子：**
- 正则表达式：`\.` 匹配实际的点字符 `.`，而不是任意字符。

---

### **4. 捕获组 `()`**

捕获组通过 `()` 将匹配的部分括起来，以便后续处理或使用。它也可以用于重复匹配特定的模式。

**例子：**
- 正则表达式：`(ab)+`
- 匹配：`ab`，`abab`，`ababab` 等

**捕获组提取例子：**

```python
import re

text = "John's phone number is 123-456-7890."
pattern = r"(\d{3})-(\d{3})-(\d{4})"
match = re.search(pattern, text)
if match:
    print(f"区号: {match.group(1)}, 中间号码: {match.group(2)}, 末尾号码: {match.group(3)}")
```

**输出：**
```
区号: 123, 中间号码: 456, 末尾号码: 7890
```

---

### **5. 特殊字符 `\d`，`\w`，`\s` 等**

- `\d`：匹配任意数字，等价于 `[0-9]`。
- `\w`：匹配任意字母、数字或下划线字符，等价于 `[A-Za-z0-9_]`。
- `\s`：匹配任意空白字符（包括空格、制表符等）。

**例子：**
- 正则表达式：`\d{3}` 匹配任意三个数字。

---

### **6. 贪婪与非贪婪匹配**

正则表达式中的元字符 `*` 和 `+` 默认是 **贪婪匹配**，即它们会尽可能多地匹配字符。为了实现 **非贪婪匹配**，可以在元字符后面加 `?`。

**例子：**
- 正则表达式：`<.*>` 会贪婪地匹配 `<div>hello</div>text` 中的所有内容，包括整个 `<div>hello</div>`。
- 正则表达式：`<.*?>` 则是非贪婪匹配，它只会匹配 `<div>`。

---

### **7. 正则表达式在 Python 中的使用**

Python 提供了 `re` 模块来使用正则表达式。常用函数如下：

- `re.search()`：在整个字符串中搜索正则表达式的匹配项。
- `re.findall()`：返回所有非重叠的匹配项。
- `re.sub()`：替换字符串中匹配的部分。
- `re.split()`：根据正则表达式匹配项拆分字符串。

**例子：**

```python
import re

# 示例文本
text = "My email is student@example.com, and my phone number is 123-456-7890."

# 匹配 email
email_pattern = r"\w+@\w+\.\w+"
email = re.search(email_pattern, text)
print("匹配的 Email:", email.group())

# 替换电话号码
phone_pattern = r"\d{3}-\d{3}-\d{4}"
masked_text = re.sub(phone_pattern, "XXX-XXX-XXXX", text)
print("替换后的文本:", masked_text)
```

---

### **8. 正则表达式的应用场景**

1. **爬虫数据解析**：从 HTML 数据中提取关键信息，如标题、链接、价格等。
2. **数据清洗**：用于识别和清理特定格式的数据，如删除特殊字符、替换格式等。
3. **日志分析**：从系统日志中提取时间戳、错误消息等有用信息。
4. **文本搜索**：查找文本中的特定模式，如电子邮件地址、电话号码等。

---

### 总结：

正则表达式是一种非常强大且灵活的工具，广泛应用于文本处理和数据解析领域。通过以上讲解，学生可以掌握正则表达式的基本概念、常用的匹配规则，以及如何在 Python 中实际使用正则表达式进行数据处理。

In [1]:
import re

text = "John's phone number is 010-8809-5926."
pattern = r"(\d{3})-(\d{4})-(\d{4})"
match = re.search(pattern, text)
if match:
    print(f"区号: {match.group(1)}, 中间号码: {match.group(2)}, 末尾号码: {match.group(3)}")


区号: 010, 中间号码: 8809, 末尾号码: 5926


In [2]:
import re

# 示例文本
text = "My email is student@example.com, and my phone number is 123-456-7890."

# 匹配 email
email_pattern = r"\w+@\w+\.\w+"
email = re.search(email_pattern, text)
print("匹配的 Email:", email.group())

# 替换电话号码
phone_pattern = r"\d{3}-\d{3}-\d{4}"
masked_text = re.sub(phone_pattern, "XXX-XXX-XXXX", text)
print("替换后的文本:", masked_text)

匹配的 Email: student@example.com
替换后的文本: My email is student@example.com, and my phone number is XXX-XXX-XXXX.


In [5]:
import requests
import re

# 设置请求的 URL
url = "https://movie.douban.com/top250"

# 定义请求头，模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 发送 GET 请求，获取页面内容
response = requests.get(url, headers=headers)

# 检查请求是否成功
if response.status_code == 200:
    html_content = response.text  # 获取网页 HTML 内容
    # print(html_content)
    # 正则表达式匹配电影标题
    title_pattern = re.compile(r'<span class="title">([^<]+)</span>')
    titles = title_pattern.findall(html_content)

    # 正则表达式匹配电影评分
    rating_pattern = re.compile(r'<span class="rating_num" property="v:average">([\d.]+)</span>')
    ratings = rating_pattern.findall(html_content)

    # 正则表达式匹配导演信息（从< p >标签中的 "导演: " 后开始）
    director_pattern = re.compile(r'导演: ([^<]+)')
    directors = director_pattern.findall(html_content)

    # 正则表达式匹配电影的简短描述（可能存在，不一定有）
    quote_pattern = re.compile(r'<span class="inq">([^<]+)</span>')
    quotes = quote_pattern.findall(html_content)

    # 确定可迭代的最小长度，避免超出索引范围
    min_length = min(len(titles), len(ratings), len(directors))

    # 打印提取的信息
    for i in range(min_length):
        print(f"电影: {titles[i]}")
        # print(f"评分: {ratings[i]}")
        # print(f"导演: {directors[i]}")
        # if i < len(quotes):
        #     print(f"简评: {quotes[i]}")
        # else:
        #     print("简评: 暂无")
        print("-" * 40)

else:
    print(f"请求失败，状态码: {response.status_code}")


电影: 肖申克的救赎
----------------------------------------
电影: &nbsp;/&nbsp;The Shawshank Redemption
----------------------------------------
电影: 霸王别姬
----------------------------------------
电影: 泰坦尼克号
----------------------------------------
电影: &nbsp;/&nbsp;Titanic
----------------------------------------
电影: 阿甘正传
----------------------------------------
电影: &nbsp;/&nbsp;Forrest Gump
----------------------------------------
电影: 千与千寻
----------------------------------------
电影: &nbsp;/&nbsp;千と千尋の神隠し
----------------------------------------
电影: 美丽人生
----------------------------------------
电影: &nbsp;/&nbsp;La vita è bella
----------------------------------------
电影: 这个杀手不太冷
----------------------------------------
电影: &nbsp;/&nbsp;Léon
----------------------------------------
电影: 星际穿越
----------------------------------------
电影: &nbsp;/&nbsp;Interstellar
----------------------------------------
电影: 盗梦空间
----------------------------------------
电影: &nbsp;/&nbsp;Inception
----------------------

### 解析正则表达式匹配规则

在这段代码中，我们通过正则表达式从 `html_content` 中提取电影的标题、评分、导演以及简短描述。下面详细解释每个正则表达式的构造和匹配逻辑。

---

### **1. 匹配电影标题**

```python
title_pattern = re.compile(r'<span class="title">([^<]+)</span>')
titles = title_pattern.findall(html_content)
```

#### **解释：**
- **正则表达式**：`<span class="title">([^<]+)</span>`
- **匹配内容**：电影标题，如 `<span class="title">电影名</span>`
  
**具体解释：**
- `<span class="title">`：这是固定的字符串，表示我们要找到 `span` 标签，且 `class` 属性为 `title`。这个部分用于定位网页中的电影名称。
- `([^<]+)`：这是一个捕获组，用于提取 `span` 标签中的内容。`[^<]` 表示 **匹配任意不是 `<` 的字符**，`+` 表示 **匹配 1 次或多次**。所以这个部分会提取标签内的文字内容（即电影标题）。
- `</span>`：表示 `span` 标签的关闭部分。

**工作原理**：该表达式从每个包含电影标题的 `span` 标签中提取出文字部分。捕获组 `([^<]+)` 用于抓取标题，防止其他 HTML 标签干扰。

---

### **2. 匹配电影评分**

```python
rating_pattern = re.compile(r'<span class="rating_num" property="v:average">([\d.]+)</span>')
ratings = rating_pattern.findall(html_content)
```

#### **解释：**
- **正则表达式**：`<span class="rating_num" property="v:average">([\d.]+)</span>`
- **匹配内容**：电影评分，如 `<span class="rating_num" property="v:average">8.9</span>`

**具体解释：**
- `<span class="rating_num" property="v:average">`：这部分用于精确定位包含电影评分的 `span` 标签，`class` 为 `rating_num`，并且 `property` 属性为 `v:average`。这些标签都表明这部分内容是评分。
- `([\d.]+)`：这是一个捕获组，`[\d.]` 表示数字 `0-9` 或 `.`（小数点），`+` 表示 **匹配 1 次或多次**。因此它可以提取评分数据（包括整数和小数部分）。
- `</span>`：关闭 `span` 标签。

**工作原理**：该表达式会从评分的 HTML 片段中提取数字部分。`[\d.]+` 可以匹配评分的数值部分，确保能够抓取整数和小数的评分（如 8.7、9.1 等）。

---

### **3. 匹配导演信息**

```python
director_pattern = re.compile(r'导演: ([^<]+)')
directors = director_pattern.findall(html_content)
```

#### **解释：**
- **正则表达式**：`导演: ([^<]+)`
- **匹配内容**：导演的名字，如 `导演: 张艺谋`

**具体解释：**
- `导演: `：表示导演信息在网页中的固定部分，帮助我们定位到含有导演名字的地方。
- `([^<]+)`：捕获组，表示匹配除 `<` 以外的任意字符，`+` 表示匹配 1 次或多次。这意味着我们会提取 `导演: ` 后面的一段文字，直到遇到 `<` 标签为止。这部分正好对应了导演的名字。

**工作原理**：该表达式从 HTML 结构中找到包含 "导演" 字样的文本，提取名字部分。`[^<]+` 确保我们只抓取导演名字，而不会包括 HTML 标签。

---

### **4. 匹配简短电影描述**

```python
quote_pattern = re.compile(r'<span class="inq">([^<]+)</span>')
quotes = quote_pattern.findall(html_content)
```

#### **解释：**
- **正则表达式**：`<span class="inq">([^<]+)</span>`
- **匹配内容**：简短描述，如 `<span class="inq">这是一个简短的描述。</span>`

**具体解释：**
- `<span class="inq">`：表示 `span` 标签的起始部分，`class` 为 `inq`。这通常是豆瓣电影中显示简短评论的地方。
- `([^<]+)`：捕获组，匹配除了 `<` 以外的任意字符，`+` 表示 1 次或多次。用于提取评论文本。
- `</span>`：关闭 `span` 标签。

**工作原理**：该表达式从网页中提取简短的电影描述。通过 `([^<]+)` 来确保提取 `span` 标签内的内容，而不是其他 HTML 结构。

---

### 正则表达式的选择原因

- **结构化 HTML**：豆瓣电影页面使用非常规则的 HTML 标签，因此我们可以通过匹配固定的标签来提取信息。这些标签中包含的内容（如标题、评分、导演等）都可以通过正则表达式来精确匹配。
  
- **避免匹配不必要的内容**：通过使用 `([^<]+)` 来提取内容，确保匹配的只是我们需要的信息（如电影名称、评分、导演等），而不是 HTML 标签或其他非文本内容。

---

### 总结：

通过上述正则表达式，我们可以从网页的 HTML 结构中提取出有用的关键信息，如电影标题、评分、导演和简评。使用捕获组 `()` 提取特定的内容，结合 `[^<]` 来避免 HTML 标签的干扰是这些正则表达式设计的核心。