In [2]:
import re

In [3]:
# 二、re模块常用函数演示（核心基础）
# 1. compile：编译正则表达式（复用pattern时推荐）
pattern_num = re.compile(r'\d+')  # 匹配1个及以上数字
print("=== compile + findall 示例 ===")
text = "runoob 123 google 456"
result = pattern_num.findall(text)
print(f"原始文本：{text}")
print(f"提取数字：{result}\n")

=== compile + findall 示例 ===
原始文本：runoob 123 google 456
提取数字：['123', '456']



In [4]:
print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配 
print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配

(0, 3)
None


In [5]:
print("=== search 示例 ===")
match_www = re.search('www', 'www.runoob.com')
match_com = re.search('com', 'www.runoob.com')
print(re.search('www', 'www.runoob.com'))
print(re.search('com', 'www.runoob.com'))
print(f"匹配'www'的位置：{match_www.span()}")
print(f"匹配'com'的位置：{match_com.span()}\n")

=== search 示例 ===
<re.Match object; span=(0, 3), match='www'>
<re.Match object; span=(11, 14), match='com'>
匹配'www'的位置：(0, 3)
匹配'com'的位置：(11, 14)



In [6]:
# 4. sub：替换匹配项
print("=== sub 示例（替换数字）===")
text_with_num = "runoob123google456"
result_sub = re.sub(r'\d+', '', text_with_num)  # 把所有数字替换为空字符串
print(f"替换前：{text_with_num}")
print(f"替换后：{result_sub}\n")

=== sub 示例（替换数字）===
替换前：runoob123google456
替换后：runoobgoogle



In [7]:
# 5. split：按匹配项分割字符串
print("=== split 示例（按数字分割）===")
pattern_num = re.compile(r'\d+')
result_split = pattern_num.split('runoob123google456hhh')
print(f"分割结果：{result_split}\n")

=== split 示例（按数字分割）===
分割结果：['runoob', 'google', 'hhh']



In [8]:
# 6. finditer：返回匹配项迭代器（含详细信息）
pattern = re.compile(r'\d+') # 查找数字 
result1 = pattern.findall('runoob 123 google 456') 
result2 = pattern.findall('run88oob123google456', 0, 10) 
print(result1) 
print(result2)


['123', '456']
['88', '12']


In [9]:
# 三、正则元字符与语法演示
print("=== 元字符使用示例 ===")
# 1. 字符类与范围
pattern_char = re.compile(r'[A-Za-z]')  # 匹配任意字母
print(f"提取字母：{pattern_char.findall('Abc123!@#')}")

# 2. 特殊元字符
pattern_special = re.compile(r'\w+')  # 匹配单词字符（字母/数字/下划线）
print(f"匹配单词字符：{pattern_special.findall('Hello_World 123!')}")

pattern_space = re.compile(r'\s+')  # 匹配空白字符
print(f"空白字符位置：{pattern_space.search('Hello   World').span()}\n")

# 3. 量词演示
print("=== 量词使用示例 ===")
pattern_quant = re.compile(r'a{2,3}')  # 匹配2-3个连续的a
print(f"匹配2-3个a：{pattern_quant.findall('aa aaa aaaaa')}")

pattern_plus = re.compile(r'a+')  # 匹配1个及以上a
print(f"匹配1个及以上a：{pattern_plus.findall('aaa  bb a')}")

pattern_question = re.compile(r'a?')  # 匹配0个或1个a
print(f"匹配0个或1个a：{pattern_question.findall('aa b')}")  # 空字符串也是匹配结果

=== 元字符使用示例 ===
提取字母：['A', 'b', 'c']
匹配单词字符：['Hello_World', '123']
空白字符位置：(5, 8)

=== 量词使用示例 ===
匹配2-3个a：['aa', 'aaa', 'aaa', 'aa']
匹配1个及以上a：['aaa', 'a']
匹配0个或1个a：['a', 'a', '', '', '']


In [10]:
# 四、贪婪模式 vs 非贪婪模式
print("=== 贪婪模式 vs 非贪婪模式 ===")
text_greedy = "aabbb"

# 贪婪模式：尽可能多匹配
pattern_greedy = re.compile(r'a.*b')
print(f"贪婪模式匹配（a.*b）：{pattern_greedy.search(text_greedy).group()}")

# 非贪婪模式：尽可能少匹配（量词后加?）
pattern_non_greedy = re.compile(r'a.*?b')
print(f"非贪婪模式匹配（a.*?b）：{pattern_non_greedy.search(text_greedy).group()}")

=== 贪婪模式 vs 非贪婪模式 ===
贪婪模式匹配（a.*b）：aabbb
非贪婪模式匹配（a.*?b）：aab


In [11]:
# 五、实际应用案例：提取文本中的URL链接
def extract_urls(text):
    # 匹配http/https开头，直到空白字符结束
    pattern_url = r'https?://[^\s]+'
    return re.findall(pattern_url, text)

print("=== 实际案例：提取URL ===")
text_url = "Visit my website at https://www.example.com or check out http://blog.example.net"
urls = extract_urls(text_url)
print(f"原始文本：{text_url}")
print(f"提取的URL：{urls}")



=== 实际案例：提取URL ===
原始文本：Visit my website at https://www.example.com or check out http://blog.example.net
提取的URL：['https://www.example.com', 'http://blog.example.net']
