In [1]:
import re
content = '''苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的'''

p = re.compile(r'.色')  # .匹配任意一个字符
for one in p.findall(content):
    print(one)

绿色
橙色
黄色
黑色


In [2]:
content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.*')  # *匹配前面的子式任意次
for one in  p.findall(content):
    print(one)

，是绿色的
，是橙色的
，是黄色的
，是黑色的
，


In [4]:
p = re.compile(r'，.+')  # +匹配前面的子式至少一次
for one in  p.findall(content):
    print(one)

，是绿色的
，是橙色的
，是黄色的
，是黑色的


In [5]:
p = re.compile(r'，.?')  # ?匹配前面的子式0-1次
for one in  p.findall(content):
    print(one)

，是
，是
，是
，是
，


In [9]:
content = '''苹果，是是是是绿色的
橙子，是是是橙色的
'''

p = re.compile(r'，.{2}')  # {}匹配前面的子式n-m次
for one in  p.findall(content):
    print(one)
p = re.compile(r'，是{3,4}')  # {}匹配前面的子式n-m次
for one in  p.findall(content):
    print(one)

，是是
，是是
，是是是是
，是是是


In [10]:
source = '<html><head><title>Title</title>'
p = re.compile(r'<.*?>')  # 增加?改为非贪婪模式
print(p.findall(source))

['<html>', '<head>', '<title>', '</title>']


In [14]:
content = '''苹果.是绿色的
橙子.是橙色的
香蕉.是黄色的'''

p = re.compile(r'.*\.')  # \转义字符
for one in  p.findall(content):
    print(one)

苹果.
橙子.
香蕉.


In [18]:
content = 'a1b2c3d4e5'

p = re.compile(r'[^\d]')  # ^表示非, \d表示数字
print(p.findall(content))
p = re.compile(r'[abc]')
print(p.findall(content))
p = re.compile(r'[a-c]')
print(p.findall(content))

['a', 'b', 'c', 'd', 'e']
['a', 'b', 'c']
['a', 'b', 'c']


In [22]:
content = '''001-苹果价格-60
002-橙子价格-70
003-香蕉价格-80'''

p = re.compile(r'^\d+', re.M)  # ^表示匹配文本的开头位置, re.M表示多行模式
print(p.findall(content))
p = re.compile(r'^\d+')
print(p.findall(content))
p = re.compile(r'\d+$', re.M)
print(p.findall(content))  # $表示匹配文本的结尾位置, re.M表示多行模式

['001', '002', '003']
['001']
['60', '70', '80']


In [23]:
p = re.compile(r'苹|橙')  # |表示或
print(p.findall(content))

['苹', '橙']


In [24]:
content = '''苹果，苹果是绿色的
橙子，橙子是橙色的
香蕉，香蕉是黄色的'''

p = re.compile(r'^(.*)，', re.M)  # 括号可以分组, 提取我们需要的部分
for one in p.findall(content):
    print(one)

苹果
橙子
香蕉


In [25]:
content = '''张三，手机号码15945678901
李四，手机号码13945677701
王二，手机号码13845666901'''

p = re.compile(r'^(.+)，.+(\d{11})', re.M)  # 多次分组
for one in p.findall(content):
    print(one)

('张三', '15945678901')
('李四', '13945677701')
('王二', '13845666901')


In [33]:
content = '''张三，手机号码15945678901
李四，手机号码13945677701
王二，手机号码13845666901'''

p = re.compile(r'^(?P<name>.+)，.+(?P<phone>\d{11})', re.M)
for match in p.finditer(content):
    print(match.group('name'))
    print(match.group('phone'))
    print(match['name'])

张三
15945678901
张三
李四
13945677701
李四
王二
13845666901
王二


In [29]:
content = '''
<div class="el">
        <p class="t1">
            <span>
                <a>Python开发工程师</a>
            </span>
        </p>
        <span class="t2">南京</span>
        <span class="t3">1.5-2万/月</span>
</div>
<div class="el">
        <p class="t1">
            <span>
                <a>java开发工程师</a>
            </span>
		</p>
        <span class="t2">苏州</span>
        <span class="t3">1.5-2/月</span>
</div>
'''

p = re.compile(r'class=\"t1\">.*?<a>(.*?)</a>', re.DOTALL)  # re.DOTALL忽略换行
for one in p.findall(content):
    print(one)

Python开发工程师
java开发工程师


In [30]:
names = '关羽; 张飞, 赵云,   马超, 黄忠  李逵'

namelist = re.split(r'[;,\s]\s*', names)  # 以;,空白字符作为分割线
print(namelist)

['关羽', '张飞', '赵云', '马超', '黄忠', '李逵']


In [31]:
names = '''

下面是这学期要学习的课程：

<a href='https://www.bilibili.com/video/av66771949/?p=1' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是牛顿第2运动定律

<a href='https://www.bilibili.com/video/av46349552/?p=125' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是毕达哥拉斯公式

<a href='https://www.bilibili.com/video/av90571967/?p=33' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是切割磁力线
'''

newStr = re.sub(r'/av\d+?/', '/cn345677/', names)  # 正则替换
print(newStr)



下面是这学期要学习的课程：

<a href='https://www.bilibili.com/video/cn345677/?p=1' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是牛顿第2运动定律

<a href='https://www.bilibili.com/video/cn345677/?p=125' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是毕达哥拉斯公式

<a href='https://www.bilibili.com/video/cn345677/?p=33' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是切割磁力线



In [34]:
# 替换函数，参数是 Match对象
def sub_func(match_):
    # Match对象 的 group(0) 返回的是整个匹配上的字符串
    src = match_[0]

    # Match对象 的 group(1) 返回的是第一个group分组的内容
    number = int(match_[1]) + 6
    dest = f'/av{number}/'

    print(f'{src} 替换为 {dest}')

    # 返回值就是最终替换的字符串
    return dest

newStr = re.sub(r'/av(\d+?)/', sub_func , names)
print(newStr)

/av66771949/ 替换为 /av66771955/
/av46349552/ 替换为 /av46349558/
/av90571967/ 替换为 /av90571973/


下面是这学期要学习的课程：

<a href='https://www.bilibili.com/video/av66771955/?p=1' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是牛顿第2运动定律

<a href='https://www.bilibili.com/video/av46349558/?p=125' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是毕达哥拉斯公式

<a href='https://www.bilibili.com/video/av90571973/?p=33' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是切割磁力线

