In [1]:
import re

text = "Email me at test@example.com and admin@openai.com"

pattern = r"\b[\w.-]+@[\w.-]+\.\w+\b"
matches = re.findall(pattern, text)

print("匹配的邮箱地址:", matches)


匹配的邮箱地址: ['test@example.com', 'admin@openai.com']


# Python 正则表达式基础

正则表达式（Regex）用于在字符串中进行模式匹配，非常适合处理文本数据。

## 常用函数

- `re.match()`: 从字符串开头开始匹配
- `re.search()`: 搜索整个字符串
- `re.findall()`: 返回所有匹配项
- `re.sub()`: 替换匹配内容

## 示例

```python
import re
text = "Call me at 123-456-7890"
pattern = r"\d{3}-\d{3}-\d{4}"
re.search(pattern, text)



#### 字符匹配
- 普通字符：普通字符按照字面意义进行匹配，例如匹配字母 "a" 将匹配到文本中的 "a" 字符。
- 元字符：元字符具有特殊的含义，例如 \d 匹配任意数字字符，\w 匹配任意字母数字字符，. 匹配任意字符（除了换行符）等。
#### 量词
- *：匹配前面的模式零次或多次。
- +：匹配前面的模式一次或多次。
- ?：匹配前面的模式零次或一次。
- {n}：匹配前面的模式恰好 n 次。
- {n,}：匹配前面的模式至少 n 次。
- {n,m}：匹配前面的模式至少 n 次且不超过 m 次。
#### 字符类
- [ ]：匹配括号内的任意一个字符。例如，[abc] 匹配字符 "a"、"b" 或 "c"。
- [^ ]：匹配除了括号内的字符以外的任意一个字符。例如，[^abc] 匹配除了字符 "a"、"b" 或 "c" 以外的任意字符。
#### 边界匹配
- ^：匹配字符串的开头。
- $：匹配字符串的结尾。
- \b：匹配单词边界。
- \B：匹配非单词边界。
#### 分组和捕获
- ( )：用于分组和捕获子表达式。
- (?: )：用于分组但不捕获子表达式。
#### 特殊字符
- \：转义字符，用于匹配特殊字符本身。
- .：匹配任意字符（除了换行符）。
- |：用于指定多个模式的选择。

In [2]:
import re
# 创建正则表达式对象
phone_number_regex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')   # 传递原始字符串前边加 r
mo = phone_number_regex.search("My number is 123-456-7890")
print('Phone number found: ' + mo.group())

Phone number found: 123-456-7890


In [4]:
import re
# 利用括号分组
phone_number_regex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')   # 传递原始字符串前边加 r
mo = phone_number_regex.search("My number is 123-456-7890")
print(mo.group(1))
print(mo.group(2))
print(mo.group(0))
print(mo.group())

123
456-7890
123-456-7890
123-456-7890


In [8]:
import re
# 匹配区号前的括号要转义
phone_number_regex = re.compile(r'(\(\d\d\d\)) (\d\d\d-\d\d\d\d)')   # 传递原始字符串前边加 r
mo = phone_number_regex.search("My number is (123) 456-7890")
print(mo.group(1))
print(mo.group(2))

(123)
456-7890


In [9]:
import re
# 用管道符号|匹配多个分组
hero_regex = re.compile(r'Batman|Tina Fey')
mo1 = hero_regex.search('Batman and Tina Fey')
print(mo1.group())
mo2 = hero_regex.search('Tina Fey and Batman')
print(mo2.group())

Batman
Tina Fey


In [11]:
import re 
# ? 实现可选匹配
bat_regex = re.compile(r'Bat(wo)?man')
mo1 = bat_regex.search('The Adventures of Batman')
mo2 = bat_regex.search('The Adventures of Batwoman')
print(mo1.group())
print(mo2.group())

Batman
Batwoman


In [12]:
import re
# 用 * 匹配零次或多次
bat_regex = re.compile(r'Bat(wo)*man')
mo1 = bat_regex.search('The Adventures of Batman')
mo2 = bat_regex.search('The Adventures of Batwowowoman')
print(mo1.group())
print(mo2.group())

Batman
Batwowowoman


In [13]:
import re 
# 用 {} 匹配特定次数
bat_regex = re.compile(r'Bat(wo){3}man')
mo1 = bat_regex.search('The Adventures of Batman')
mo2 = bat_regex.search('The Adventures of Batwowowoman')
print(mo1==None)
print(mo2.group())

True
Batwowowoman


In [15]:
# Python默认贪心匹配，即尽可能匹配最长的字符串
import re
greedy_ha_regex = re.compile(r'(ha){3,5}')
mo1 = greedy_ha_regex.search('hahahahaha')
nongreedy_ha_regex = re.compile(r'(ha){3,5}?')
mo2 = nongreedy_ha_regex.search('hahahahaha')
print(mo1.group())
print(mo2.group())

hahahahaha
hahaha
