### '|' 用法

In [1]:
import re

text = "The cat jumped over the moon"

# 匹配 "cat" 或 "dog"
match = re.search(r'cat|dog', text)

if match:
    print("Match found:", match.group())
else:
    print("No match found")


Match found: cat


In [18]:
import re

#需求 1: 匹配从0到100的数字(包括100)

# 我们通过中括号，[限定十位上为1到9之间的正整数]，使用？号限定前面的数是0或1个，\d表示0到9之间任意的数字

# 通过判断筛选数字为'8'
ret = re.match("[1-9]?\d","8")
print(ret.group())
# 输出: 8

# 通过判断筛选数字为'0'，这里我们十位上的判断失效，使用\d判断值为'0'
ret = re.match("[1-9]?\d","08")
print(ret.group())
# 输出: 0

# ? 匹配零次或一次前面的字符 
# \d 匹配的是任意一个十进制数字 0 到 9
# [1-9] 匹配任意一个十进制数字 1 到 9


ret = re.match("[1-9]?\d","78")
print(ret.group())
# 输出: 78

ret = re.match("[1-9]?\d$","08")
# print(ret.group())
# AttributeError: 'NoneType' object has no attribute 'group'



ret = re.match("[1-9]?\d$|100","100")
print(ret.group())

ret = re.match("[1-9]?\d$|100","08")
# print(ret.group())
# 输出: AttributeError: 'NoneType' object has no attribute 'group'

# 遇到错误的原因是，如果在输入字符串中找不到匹配项，则“re.match”函数将返回“None”。
# 当您尝试在“None”上调用“.group（）”时，它会引发“AttributeError”，因为“None”类型没有“group（）”方法。



8
0
78
100


### '()'的用法

In [19]:
# 分组捕获
import re

text = "apple orange banana"
pattern = r"(apple) (orange) (banana)"

match = re.search(pattern, text)
if match:
    # 获取整个匹配的字符串
    print("整个匹配:", match.group(0))
    # 获取第一个分组（圆括号内的第一个表达式）
    print("第一个分组:", match.group(1))
    # 获取第二个分组
    print("第二个分组:", match.group(2))
    # 获取第三个分组
    print("第三个分组:", match.group(3))


整个匹配: apple orange banana
第一个分组: apple
第二个分组: orange
第三个分组: banana


In [20]:
# 优先级控制

import re

text = "catdog"
pattern = r"cat(dog|fish)"

match = re.search(pattern, text)
if match:
    # 匹配整个字符串
    print("整个匹配:", match.group(0))
    # 获取第一个分组（圆括号内的内容）
    print("第一个分组:", match.group(1))


整个匹配: catdog
第一个分组: dog


In [21]:
# 后向引用

import re

text = "repeat repeat"
pattern = r"(\b\w+\b) \1"

match = re.search(pattern, text)
if match:
    # 获取整个匹配的字符串
    print("整个匹配:", match.group(0))
    # 获取第一个分组，即 (\b\w+\b)
    print("第一个分组:", match.group(1))


整个匹配: repeat repeat
第一个分组: repeat


In [29]:
import re
# 需求2: 匹配网易邮箱,163.com也可以是126.com

emails = '''
    awhahlf@163.com
affafafafaaaaaaaaaaaaaaaa@163.com
afa_@163.com
225afafaf@163.com
test10086@qq.com
aaaa____@126.com
aaaa____@163.com
'''

# 这里常规测试邮箱，无边界限定，匹配正常
print(re.search('^[a-zA-Z][\w]{5,17}@163\.com$', emails, re.MULTILINE).group())
# 输出: aaaa____@163.com

# 在括弧中加入了分支进行判断，根据结果判断，也匹配到结果，
print(re.search('^[a-zA-Z][\w]{5,17}@(163|126)\.com$', emails, re.MULTILINE).group())
# 输出: aaaa____@126.com

# 如法炮制在匹配对应的分支判断下，在小括号中的分支，留下对应的其中一组结果。
print(re.search('^[a-zA-Z][\w]{5,17}@(163|126|qq)\.com$', emails, re.MULTILINE).group())
# 输出: test10086@qq.com

aaaa____@163.com
aaaa____@126.com
test10086@qq.com


###  '\number' 用法

In [46]:
import re

text = "apple orange orange apple"

# 正则表达式模式，捕获重复的单词
pattern = r"(\b\w+\b) (\1)"

'''
1. (\b\w+\b): 这是第一个捕获组。

\b 表示单词的边界，确保匹配的是完整的单词。
\w+ 匹配一个或多个单词字符。
\b 再次表示单词的边界。
这个部分的整体含义是捕获一个完整的单词。\b\w+\b 模式用于匹配单词。

2. (\1): 这是第二个捕获组，是对第一个捕获组的引用。

\1 表示引用先前捕获的第一个组（即 (\b\w+\b)）。
它在模式中寻找与第一个捕获组所捕获内容相同的文本。
这个部分的含义是匹配之前捕获的单词，因为它引用了第一个捕获组。
'''

match = re.search(pattern, text)
if match:
    # 获取整个匹配的字符串
    print("整个匹配:", match.group(0))
    # 获取第一个分组，即第一个捕获的单词
    print("第一个单词:", match.group(1))
    # 获取第二个分组，即对第一个单词的引用，应该与第一个单词相同
    print("第二个单词:", match.group(2))



整个匹配: orange orange
第一个单词: orange
第二个单词: orange


In [41]:
# 需求3: 匹配 <h1> xxxx </h1>

import re

# 进行匹配，首先是首位的标签，头部 <[a-zA-Z]*> 中间 \w* 尾部 <[a-zA-Z]*>，完成匹配
print(re.match('<[a-zA-Z]+>\w*</[a-zA-Z]+>','<HTML>hello</HTML>'))
# 输出: <re.Match object; span=(0, 12), match='<HTML>hello</HTML>'>

print(re.match('<[a-zA-Z]+>\w*</[a-zA-Z]+>','<p>hello</p>'))
# 输出: <re.Match object; span=(0, 12), match='<p>hello</p>'>

print(re.match('<[a-zA-Z]+>\w*</[a-zA-Z]+>','<div>hello</div>'))
# 输出: <re.Match object; span=(0, 16), match='<div>hello</div>'>

print(re.match('<[a-zA-Z]+>\w*</[a-zA-Z]+>','<h5>hello</h5>'))
# 输出: None

# -------------------------------------------------------------------------------------------------------------------------------------------

# 进行匹配，首先是首位的标签，头部 <[a-zA-Z]*> 中间 \w* 尾部 <[a-zA-Z]*>，
# 但是匹配中我们发现，最后一个标签存在一定的问题，无法满足前后一致

# 注意: <p>  </div> 属于不合法配对
print(re.match('<[a-zA-Z]+>\w*</[a-zA-Z]+>','<p>hello</div>').group())
# 输出: <p>hello</div>

# 那此时我们明白，无论你的前面是何种类型的标签，后方结束标签理论上是需要一致的匹配结构
# 那这里就引出一个分组的概念，每个括号是一个组合，组合从1开始编号，那我们将操作范围限定我们的头部标签，尾部进行选择编号
# <([a-zA-Z]*)>\w*</\1> 这里面的\1 既是对应标签的一种

print(re.match(r'<([a-zA-Z]+)>\w*</\1>','<p>hello</div>'))
# 输出: none

# 可以看到经过组合编号进行同步的操作，完全避免了标签不同的情况


<re.Match object; span=(0, 18), match='<HTML>hello</HTML>'>
<re.Match object; span=(0, 12), match='<p>hello</p>'>
<re.Match object; span=(0, 16), match='<div>hello</div>'>
None
<p>hello</div>
None


### ( ? P < name > ) 用法

In [42]:
import re

text = "John has 10 apples, Jane has 15 oranges."

pattern = r"(?P<name>\b\w+\b) has (?P<number>\d+) (?P<fruit>\w+)"
matches = re.finditer(pattern, text)

for match in matches:
    # 获取整个匹配的字符串
    print("整个匹配:", match.group(0))
    # 获取命名为 'name' 的分组
    print("名称为 'name' 的分组:", match.group('name'))
    # 获取命名为 'number' 的分组
    print("名称为 'number' 的分组:", match.group('number'))
    # 获取命名为 'fruit' 的分组
    print("名称为 'fruit' 的分组:", match.group('fruit'))



整个匹配: John has 10 apples
名称为 'name' 的分组: John
名称为 'number' 的分组: 10
名称为 'fruit' 的分组: apples
整个匹配: Jane has 15 oranges
名称为 'name' 的分组: Jane
名称为 'number' 的分组: 15
名称为 'fruit' 的分组: oranges


In [55]:
import re 

# 第二种写法, 匹配一个网页的嵌套标签
line = '<div><p> hellp</p></div>'

print(re.match(r'<(?P<outer>\w*)><(?P<inner>\w*)>.*</(?P=inner)></(?P=outer)>', line).group())
# 输出: <div><p> hellp</p></div>
print()

s = '<html><h1>我是一号字体</h1></html>'
# pattern = r'<(.+)><(.+)>.+</\2></\1>'
#如果分组比较多的话，数起来比较麻烦，可以使用起别名的方法?P<要起的名字> 以及使用别名(?P=之前起的别名)
pattern = r'<(?P<key1>.+)><(?P<key2>.+)>.+</(?P=key2)></(?P=key1)>'
v = re.match(pattern,s)
print(v)
# 输出: <re.Match object; span=(0, 28), match='<html><h1>我是一号字体</h1></html>'>
print(v.group())
# 输出: <html><h1>我是一号字体</h1></html>
print()


# 进行通过别名的方法解决问题
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1> www.google.com </h1></html>")
print(ret.group())
# 输出:  <html><h1> www.mashibin.com </h1></html>


# 这里起了别名，但是针对匹配的对应的字符串并没有对应的内容，无法完成匹配，所以错误
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1> www.google.com </h2></html>")
# print(ret.group())
# 输出:  AttributeError: 'NoneType' object has no attribute 'group'

<div><p> hellp</p></div>

<re.Match object; span=(0, 28), match='<html><h1>我是一号字体</h1></html>'>
<html><h1>我是一号字体</h1></html>

<html><h1> www.google.com </h1></html>
