In [346]:
import re

### [...]举例

In [347]:
sb_1 = re.match('[aeiou]', 'abc')  # 匹配a 、e 、i 、o 或u任意一个字符
print(sb_1.group())

a


In [348]:
sb_2 = re.findall(r'[^aeiou]', 'abc779')  # 匹配除a 、e 、i 、o 、u之外的任意字符(以^开头)
print(sb_2)

['b', 'c', '7', '7', '9']


In [349]:
sb_3 = re.findall(r"1-[1-4]*", '1-1314+')  # "-"表示一组字符范围(若不是用在字符集“[...]”里,仅表示普通字符,即减号)
print(sb_3)

['1-1314']


### *举例

In [350]:
ak_1 = re.match('[^^]*', 'abc^abc')  # 匹配除字符^外的任何字符
print(ak_1.group())

abc


In [351]:
ak_2 = re.match('w.*w', 'wowoooow')
print(ak_2.group())

wowoooow


In [352]:
ak_3 = re.match('w.*?w', 'wowoooow')  # 取消*号贪婪模式
print(ak_3.group())

wow


### ?举例

In [353]:
qm_1 = re.match('good-?job', 'goodjob')  # 前一个正则(前一个字符)是可选的
print(qm_1.group())

goodjob


In [354]:
qm_2 = re.match('good-?job', 'goodjob')
print(qm_2.group())

goodjob


### |举例

In [355]:
print(re.findall('[a-z]+|[2-9]+', 'abcdefga'))

print(re.findall('[a-z]+|[2-9]+', '32456546545'))

print(re.findall('[a-z]+|[2-9]+', 'adfasf32456546545'))

print(re.findall('[a-z]+|[2-9]+', '2356safdsfa'))

['abcdefga']
['32456546545']
['adfasf', '32456546545']
['2356', 'safdsfa']


### 匹配次数限定符举例

In [356]:
limit = "a aAx aAAy bAAz cAAAk"
# {0,1} 等价于?
# {0,} 等价于*
# {1,} 等价于+
print(re.findall(r"A{1,3}", limit))
print(re.findall(r"A{1,3}?", limit))  # 非贪婪模式

['A', 'AA', 'AA', 'AAA']
['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A']


### 反斜杠(\\)举例

In [357]:
re.match('\\\\', '\\123').group()  # 匹配反斜杠(使用\进行转移)

'\\'

In [358]:
re.match(r'\\', '\\123').group()  # 匹配反斜杠(使用原始字符串)

'\\'

### 字符边界举例

In [359]:
by_1 = re.findall(r'^aaa', 'xxx aaa bbb')  # "aaa"位于字符串的开头的时候,"^aaa"才能匹配
print(by_1)

[]


In [360]:
by_2 = re.findall(r'aaa$', 'xxx aaa bbb')  # "aaa" 位于字符串的结尾的时候,"aaa$"才能匹配
print(by_2)

[]


In [361]:
by_3 = re.findall(r'\bend\b', 'weekend,endfor,end')
print(by_3)

['end']


In [362]:
by_4 = re.findall(r'^.+?\b', 'phone no : 12345')
print(by_4)

['phone']


In [363]:
by_5 = re.findall(r'.34\B', 'phone no : 12345')  # 非单词边界
print(by_5)

['234']


### 非匹配获取举例

In [364]:
# 匹配'学生'、'打工仔'前的'我是'
print(re.findall(re.compile(r"我是(?=学生|打工仔)"), "我是学生"))
print(re.findall(re.compile(r"我是(?=学生|打工仔)"), "我是打工仔"))
print(re.findall(re.compile(r"我是(?=学生|打工仔)"), "我是总统"))

['我是']
['我是']
[]


In [365]:
# 匹配'中国人'、'美国人'后的'很厉害'
print(re.findall(re.compile(r"(?<=中国人|美国人)很厉害"), "中国人很厉害"))
print(re.findall(re.compile(r"(?<=中国人|美国人)很厉害"), "美国人很厉害"))
print(re.findall(re.compile(r"(?<=中国人|美国人)很厉害"), "日本人很厉害"))

['很厉害']
['很厉害']
[]


In [366]:
# ?<=、?<!的可选匹配必须具有相同的长度
# print(re.findall(re.compile(r"(?<=中国人|俄罗斯人).*"), "中国人很厉害"))  # 报错;len('中国人') != len('俄罗斯人')

# 解决方法:
print(re.findall(re.compile(r"(?:(?<=中国人)|(?<=俄罗斯人))很厉害"), "中国人很厉害"))  # ?<!同理

['很厉害']


In [367]:
# 不匹配'苏联人'、'美国人'前的'SB'
print(re.findall(re.compile(r"SB(?!苏联人|美国人)"), "SB美国人"))
print(re.findall(re.compile(r"SB(?!苏联人|美国人)"), "SB苏联人"))
print(re.findall(re.compile(r"SB(?!苏联人|美国人)"), "SB日本人"))

[]
[]
['SB']


In [368]:
# 不匹配'苏联人'、'美国人'后的'吃屎'
print(re.findall(re.compile(r"(?<!苏联人|美国人)吃屎"), "美国人吃屎"))
print(re.findall(re.compile(r"(?<!苏联人|美国人)吃屎"), "苏联人吃屎"))
print(re.findall(re.compile(r"(?<!苏联人|美国人)吃屎"), "日本人吃屎"))

[]
[]
['吃屎']


In [369]:
print(re.findall(re.compile(r"industry|industries"), "industry"))
print(re.findall(re.compile(r"industry|industries"), "industries"))

# 与上等价,但更为简洁
print(re.findall(re.compile(r"industr(?:y|ies)"), "industry"))
print(re.findall(re.compile(r"industr(?:y|ies)"), "industries"))

['industry']
['industries']
['industry']
['industries']
