# Python 正则表达式详解

本教程将深入学习Python中的正则表达式，包括常用模式、匹配方法和实际应用。

## 1. 正则表达式基础

正则表达式是用于匹配文本模式的强大工具。


In [None]:
import re

# 基本匹配
text = "Python是一种编程语言"

# 匹配字符串
pattern = "Python"
match = re.search(pattern, text)
if match:
    print(f"找到匹配: '{match.group()}' 在位置 {match.start()}-{match.end()}")
else:
    print("未找到匹配")

print("\n常用元字符:")
print("  . : 匹配任意字符（除换行符）")
print("  ^ : 匹配字符串开头")
print("  $ : 匹配字符串结尾")
print("  * : 匹配前面的字符0次或多次")
print("  + : 匹配前面的字符1次或多次")
print("  ? : 匹配前面的字符0次或1次")
print("  [] : 字符集，匹配其中任意一个字符")
print("  | : 或运算符")
print("  () : 分组")


In [None]:
# 字符类
import re

text = "The price is $99.99 and the date is 2024-01-15"

# 匹配数字
numbers = re.findall(r'\d+', text)
print(f"所有数字: {numbers}")

# 匹配单词
words = re.findall(r'\w+', text)
print(f"所有单词: {words[:5]}...")  # 只显示前5个

# 匹配空白字符
spaces = re.findall(r'\s', text)
print(f"空白字符数量: {len(spaces)}")

print("\n常用字符类:")
print("  \\d : 数字 [0-9]")
print("  \\D : 非数字")
print("  \\w : 单词字符 [a-zA-Z0-9_]")
print("  \\W : 非单词字符")
print("  \\s : 空白字符（空格、制表符等）")
print("  \\S : 非空白字符")
print("  \\b : 单词边界")
print("  \\B : 非单词边界")


In [None]:
# 量词（重复）
import re

text = "a aa aaa aaaa aaaaa"

# 匹配2-4个a
matches = re.findall(r'a{2,4}', text)
print(f"匹配2-4个a: {matches}")

# 匹配至少2个a
matches2 = re.findall(r'a{2,}', text)
print(f"匹配至少2个a: {matches2}")

# 匹配恰好3个a
matches3 = re.findall(r'a{3}', text)
print(f"匹配恰好3个a: {matches3}")

print("\n量词说明:")
print("  * : {0,} - 0次或多次")
print("  + : {1,} - 1次或多次")
print("  ? : {0,1} - 0次或1次")
print("  {n} : 恰好n次")
print("  {n,} : 至少n次")
print("  {n,m} : n到m次")


## 2. 分组和捕获

使用括号可以创建分组，提取匹配的部分。


In [None]:
import re

# 分组示例
text = "联系电话: 138-1234-5678, 邮箱: zhangsan@example.com"

# 分组匹配电话号码
phone_pattern = r'(\d{3})-(\d{4})-(\d{4})'
match = re.search(phone_pattern, text)
if match:
    print(f"完整匹配: {match.group()}")
    print(f"第一个分组（区号）: {match.group(1)}")
    print(f"第二个分组（中间）: {match.group(2)}")
    print(f"第三个分组（末尾）: {match.group(3)}")
    print(f"所有分组: {match.groups()}")

# 命名分组
email_pattern = r'(?P<username>\w+)@(?P<domain>\w+\.\w+)'
match = re.search(email_pattern, text)
if match:
    print(f"\n命名分组:")
    print(f"  完整匹配: {match.group()}")
    print(f"  用户名: {match.group('username')}")
    print(f"  域名: {match.group('domain')}")
    print(f"  字典格式: {match.groupdict()}")


In [None]:
# 非捕获分组
import re

text = "张三25岁, 李四30岁, 王五28岁"

# 使用非捕获分组 (?:...)
pattern = r'(?:姓名|(\w+))(\d+)岁'
matches = re.findall(pattern, text)
print(f"使用非捕获分组: {matches}")

# 替换中使用分组引用
text2 = "日期: 2024-01-15"
new_text = re.sub(r'(\d{4})-(\d{2})-(\d{2})', r'\3/\2/\1', text2)
print(f"\n替换示例（日期格式转换）:")
print(f"  原文本: {text2}")
print(f"  新文本: {new_text}")

# 命名分组替换
text3 = "姓名: 张三, 年龄: 25"
new_text2 = re.sub(r'姓名: (?P<name>\w+), 年龄: (?P<age>\d+)', 
                   r'\g<name>今年\g<age>岁', text3)
print(f"\n使用命名分组替换:")
print(f"  原文本: {text3}")
print(f"  新文本: {new_text2}")


## 3. 常用正则表达式模式

一些实际应用中常用的正则表达式模式。


In [None]:
import re

# 邮箱验证
def validate_email(email):
    """验证邮箱格式"""
    pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    return bool(re.match(pattern, email))

# 手机号验证（中国）
def validate_phone(phone):
    """验证中国手机号"""
    pattern = r'^1[3-9]\d{9}$'
    return bool(re.match(pattern, phone))

# 身份证号验证（18位）
def validate_id_card(id_card):
    """验证身份证号（简化版）"""
    pattern = r'^[1-9]\d{5}(18|19|20)\d{2}(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])\d{3}[\dXx]$'
    return bool(re.match(pattern, id_card))

# 测试
print("邮箱验证:")
print(f"  zhangsan@example.com: {validate_email('zhangsan@example.com')}")
print(f"  invalid.email: {validate_email('invalid.email')}")

print("\n手机号验证:")
print(f"  13812345678: {validate_phone('13812345678')}")
print(f"  1234567890: {validate_phone('1234567890')}")

print("\n提取信息示例:")
text = "联系方式: 电话138-1234-5678, 邮箱zhangsan@example.com"
phone_pattern = r'1[3-9]\d-?\d{4}-?\d{4}'
email_pattern = r'\w+@\w+\.\w+'

phone = re.search(phone_pattern, text)
email = re.search(email_pattern, text)

print(f"  电话号码: {phone.group() if phone else '未找到'}")
print(f"  邮箱: {email.group() if email else '未找到'}")
