# 正则表达式练习题（Python 实现）

## Q1：匹配中国大陆手机号
**要求**：以 `13-19` 开头，共 11 位数字。

```python
text = "张三手机号是13912345678，李四的是17899998888，王五填错成12912345678"
# TODO: 使用 re.findall() 提取手机号
```

## Q2：提取所有电子邮箱地址
```python
text = "请发邮件给 abc@pku.edu.cn 或 tom.zhang@finance.org，谢谢！"
# TODO: 提取邮箱地址
```

## Q3：提取日期（两种格式）
**支持格式**：`2024年4月22日` 和 `2024-04-22`
```python
text = "项目启动于2024年4月22日，预计在2024-10-31前完成，最迟不晚于 2024-11-9。"
# TODO: 提取两种日期格式
```

## Q4：提取网页链接（URL）
```python
text = "详情见官网：https://abc.gov.cn/info/2025.html 或 http://news.cn"
# TODO: 提取所有 URL
```

## Q5：从 HTML 中提取标签内容
**目标**：提取 `<title>` 和 `<h1>` 标签中的文本
```python
html = "<html><head><title>我的报告</title></head><body><h1>政策摘要</h1></body></html>"
# TODO: 提取 <title> 和 <h1> 内容
```

## Q6（进阶）：匹配重复单词
**提示**：使用反向引用 `\1`
```python
text = "hello hello world, good good morning"
# TODO: 匹配重复单词
```


<br>
<br>

--- - --

## 📝 答案参考

### Q1 匹配中国大陆手机号


In [None]:
import re
text = "张三手机号是13912345678，李四的是17899998888，王五填错成12912345678"
re.findall(r"1[3-9]\d{9}", text)

['13912345678', '17899998888']

简要解释：
- 使用 `re` 模块的 `findall` 方法来提取符合条件的手机号。
- 正则表达式中的 `1[3-9]` 表示以 `1` 开头，第二位数字在 `3-9` 之间。
- `\d{9}` 表示后面跟着 9 位数字，其中，`\d` 表示数字，`{9}` 表示数量。

### Q2 提取所有电子邮箱地址

In [7]:
text = "请发邮件给 abc@pku.edu.cn，tom.zhang@finance.org，Tom@mailcom，Jack@163.cn.com 谢谢！"
re.findall(r"[\w.-]+@[\w.-]+\.[a-zA-Z]{2,}", text)

['abc@pku.edu.cn', 'tom.zhang@finance.org', 'Jack@163.cn.com']

简要解释：
- 电子邮箱地址的特点是包含 `@` 符号，前面是用户名，后面是域名，且域名中会包含 `.`。
- 使用 `re` 模块的 `findall` 方法来提取符合条件的邮箱地址。
- `[\w.-]+` 表示可以包含字母、数字、下划线、点和连字符，`+` 表示至少一个字符。
- `[a-zA-Z]{2,}` 表示匹配至少两个字母 (大写或小写均可)。

### Q3 提取日期（两种格式）


In [17]:
# 方案 1：哪里有问题？
import re
text = "项目启动于2024年4月22日，预计在2024-10-31前完成，最迟不晚于 2024-11-9。"
re.findall(r"\d{4}年\d{1,2}月\d{1,2}日|\d{4}-\d{2}-\d{2}", text)

['2024年4月22日', '2024-10-31']

In [18]:
# 方案 2

text = "项目启动于2024年4月22日，预计在2024-10-31前完成，最迟不晚于 2024-11-9。"
m1 = r'\d{4}年\d{1,2}月\d{1,2}日' 
m2 = r'\d{4}-\d{1,2}-\d{1,2}'     # 更宽松的匹配
dates = re.findall(m1, text) + re.findall(m2, text)
print(dates)

['2024年4月22日', '2024-10-31', '2024-11-9']


在方案 2 中，我们首先将用于两种日期格式的正则表达式分别存入 `m1` 和 `m2` 变量中，然后使用 `re.findall()` 方法提取符合条件的日期。最后，我们将两种格式的日期合并到一个列表中。这使得代码更加简洁易读。

### Q4
```python
text = "详情见官网：https://abc.gov.cn/info/2025.html 或 http://news.cn"
re.findall(r"https?://[^\s]+", text)
# ['https://abc.gov.cn/info/2025.html', 'http://news.cn']
```

### Q5
```python
html = "<html><head><title>我的报告</title></head><body><h1>政策摘要</h1></body></html>"
title = re.search(r"<title>(.*?)</title>", html).group(1)
h1 = re.search(r"<h1>(.*?)</h1>", html).group(1)
# title: '我的报告'; h1: '政策摘要'
```

### Q6
```python
text = "hello hello world, good good morning"
re.findall(r"\b(\w+)\s+\1\b", text)
# ['hello', 'good']
```