正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。
- Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。
- re 模块使 Python 语言拥有全部的正则表达式功能。
- compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
- re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

In [2]:
# -*- coding: utf-8 -*-
import re

print("\n------ re.search ------")
# re.search(pattern, string, flags=0))返回match对象
match = re.search(r'[1-9]\d{5}', 'BIT 100081')  # raw string原生字符串
if match:
    print(match.group(0))  # 100081


------ re.search ------
100081


In [10]:
import re

'''
re.match函数
re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。
函数语法：
re.match(pattern, string, flags=0)
函数参数说明：
参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。
返回match对象, 从字符串起始位置匹配，如果不是起始位置匹配成功，返回none
匹配成功re.match方法返回一个匹配的对象，否则返回None。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。
'''

print("\n------ re.match ------")
print(re.match('www', 'www.xxx.com').span())  # 起始位置匹配
print(re.match('com', 'www.xxx.com'))  # 起始位置匹配失败

line = "Cats are smarter than dogs"
matchObj = re.match(r'(.*?) are (.*?) .*', line, re.M | re.I)

if matchObj:
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group(1) : ", matchObj.group(1))
    print("matchObj.group(2) : ", matchObj.group(2))
else:
    print("No match!!")


# match1 = re.match(r'[1-9]\d{5}', 'BIT 100081')
# print(match1.group(0)) # AttributeError: 'NoneType' object has no attribute 'group'。空变量无法调用group方法
match2 = re.match(r'[1-9]\d{5}', '100081 BIT')  # 返回match对象。
if match2:
    print(match2.group(0))


------ re.match ------
(0, 3)
None
matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter
100081


In [11]:
import re

# re.findall(pattern, string, flags=0))返回列表
ls = re.findall(r'[1-9]\d{5}', 'BIT100081 TSU100084')
print(ls)

['100081', '100084']


In [None]:
import re

# re.split(pattern, string, maxsplit=0, flags=0)返回列表， maxsplit最大分割数，剩余部分作为最后一个元素输出
print()
ls1 = re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084')
print(ls1)  # ['BIT', ' TSU', '']
ls2 = re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084', maxsplit=1)
print(ls2)  # ['BIT', ' TSU100084']

In [7]:
import re

# re.finditer(pattern, string, flags=0)返回匹配结果的迭代类型，每个迭代元素是match对象
print()
for m in re.finditer(r'[1-9]\d{5}', 'BIT100081 TSU100084'):
    if m:
        print(m.group(0))


100081
100084


In [6]:
import re

# re.sub(pattern, repl, string, count=0, flags=0)返回替换后的字符串
print()
str = re.sub(r'[1-9]\d{5}', ':zipcode', 'BIT100081 TSU100084')
print(str)  # BIT:zipcode TSU:zipcode


BIT:zipcode TSU:zipcode


In [8]:
# 等价用法
import re

# 函数式用法：一次性操作
rst = re.search(r'[1‐9]\d{5}', 'BIT 100081')
# 面向对象用法：编译后的多次操作
regex = re.compile(r'[1‐9]\d{5}')
rst = regex.search('BIT 100081')

In [11]:
# RE库的match对象
import re

# match对象的属性
m = re.search(r'[1-9]\d{5}', 'BIT100081 TSU100084')
print(type(m))
print(m.string)  # BIT 100081 待匹配的文本
print(m.re)  # re.compile('[1-9]\\d{5}') 匹配时使用的patter对象（正则表达式）
print(m.pos)  # 0 正则表达式搜索文本的开始位置
print(m.endpos)  # 19 正则表达式搜索文本的结束位置

# match对象的方法
print(m.group(0))  # 100081 等价于print(m.group())。match对象只包含一次匹配的结果，若要显示所有匹配结果使用finditer()
print(m.start())  # 3 匹配字符串在原始字符串的开始位置
print(m.end())  # 9 匹配字符串在原始字符串的结束位置
print(m.span())  # (3, 9) 返回(.start(), .end())

# RE库默认采用贪婪匹配，输出匹配最长的子串
m1 = re.search(r'PY.*N', 'PYANBNCNDN')
print(m1.group(0))
m2 = re.search(r'PY.*?N', 'PYANBNCNDN')  # 最小匹配（最小匹配操作符：*?、+?、??、{m,n}?）
print(m2.group(0))

m1 = re.findall(r"[\d.]*", '1345 193.20 12.0')
print(m1)  # ['1345', '', '193.20', '', '12.0', '']

<class '_sre.SRE_Match'>
BIT100081 TSU100084
re.compile('[1-9]\\d{5}')
0
19
100081
3
9
(3, 9)
PYANBNCNDN
PYAN
['1345', '', '193.20', '', '12.0', '']
