![](images/special_symbol_and_characters.png)

### re模块: 核心函数和方法
##### re模块函数:
- compile(pattern, flags=0) 使用任意可选的标记来编译正则表达式的模式(简称模式),返回正则表达式对象
##### re模块函数和正则表达式对象的方法
- match(pattern, string, flags=0) 使用模式来匹配字符串,成功返回匹配对象,否则返回None
- search(pattern, string, flags=0) 搜索字符串中第一次出现的模式,成功返回匹配对象,否则返回None
- findall(pattern, string\[,flags\]) 搜索字符串中所有和模式匹配的字符串(简称模式串),返回匹配对象的列表(没有则列表为空)
- finditer(pattern, string\[,flags\]) 和findall相同, 返回匹配对象的迭代器
- split(pattern, string, maxsplit=0) 以模式作为分隔符,分隔string最多进行maxsplit次, 返回分隔结果
- sub(pattern, repl, string, count=0) 用repl替换模式串,默认全部替换,否则进行count次, 返回替换结果,subn返回替换次数
- purge()清除隐式编译的正则表达式数目
##### 匹配对象的常用方法
匹配对象是成功调用match()或者search()返回的对象.
- group(num=0) 返回整个匹配对象或者编号为num的特定子组
- groups(default=None) 返回一个包含所有匹配子组的元组
- groupdict(default=None) 返回一个包含所有匹配的命名子组的字典,子组的名称作为字典的键,匹配不成功返回空
##### 常用的模块属性
- re.I, re.IGNORECASE 不区分大小写匹配
- re.L, re.LOCALE 根据本地语言环境通过\w, \W, \b, \B, \s, \S匹配
- re.M, re.MULTILINE ^\$ 分别匹配目标字符串中的起始和结尾,而不是严格匹配整个字符串本身的起始和结尾  
- re.S, re.DOTALL "." 匹配全部字符,包括'\n'
- re.X, re.VERBOSE 通过反斜线转义, 否则所有空格加上#都被忽略,除非在一个字符类中或者允许注释并且提高可读性

In [2]:
import re
a = 'abcdefgabcabcacbc'
p = re.compile('ca([a-z]+)c')
res = re.search(p, a)
print(res.group())
print(res.groups())
print(res.groupdict())

cabcacbc
('bcacb',)
{}


In [3]:
bt = 'bat|bet|bit'
m = re.match(bt, 'bat')
m

<re.Match object; span=(0, 3), match='bat'>

In [4]:
m = re.search(bt, 'He bit me')
if m is not None: print(m)

<re.Match object; span=(3, 6), match='bit'>


In [49]:
# 子组
p = re.compile(r'a(\d)c')
s = 'a1c,a3c,a9ca8c'
result = re.findall(p, s)
print(result)

['1', '3', '9', '8']


In [111]:
print('1', re.sub(r'hello', 'nihao', 'hello, world'))
print('2', re.subn(r'hello', 'nihao', 'hello, world'))
print('3', re.split(r'[,\.]', 'how,are,you?Pretty,good.Thanks'))
print('4', re.findall(r'(?:\.)(\w+.com)', 'www.google.com,www.baidu.com,mail.baidu.com,mp3.baidu.com'))    # (?:匹配但不输出....)
print('5', re.findall(r'(?:\.)(?P<hostname>\w+)(?P<suffiex>.com)', 'www.google.com,www.baidu.com,mail.baidu.com,mp3.baidu.com'))    # (?P<>子组命名....)

1 nihao, world
2 ('nihao, world', 1)
3 ['how', 'are', 'you?Pretty', 'good', 'Thanks']
4 ['google.com', 'baidu.com', 'baidu.com', 'baidu.com']
5 [('google', '.com'), ('baidu', '.com'), ('baidu', '.com'), ('baidu', '.com')]


In [82]:
print('1', re.findall('\w+(?=ef)', ',abcdef,abcefg,aaaadef'))
print('1', re.findall('(?!abc)\w+', ',abcdef,abcefg,aaaadef'))

1 ['abcd', 'abc', 'aaaad']
1 ['bcdef', 'bcefg', 'aaaadef']


In [84]:
# output of 'who'
s = 'yahu     tty2         2020-07-04 06:13 (tty2)'
p = re.compile('\s\s+')
re.split(p, s)[0]

'yahu'

In [17]:
# 1. 识别后续的字符串：“bat”、“bit”、“but”、“hat”、“hit”或者“hut”。
p = re.compile(r'([b|h][ai]t)|(but)')
string = 'bat, bit, but, hat, het, hht, hit'
result = re.search(p, string)
result_all = re.findall(p, string)
print(result.group())
print(result_all)

In [20]:
# 2. 匹配由单个空格分隔的任意单词对，也就是姓和名。
patt_fullname = re.compile(r'[A-Z]\w*\ [A-Z]\w*')
string = 'Xu Shu'
result = re.match(patt_fullname, string)
print(result)

<re.Match object; span=(0, 6), match='Xu Shu'>


In [26]:
# 3. 匹配由单个逗号和单个空白符分隔的任何单词和单个字母，如姓氏的首字母。
patt = re.compile('\w*,\s\*')
string = 'Shi, 3ao'
result = re.match(patt, string)
print(result)

<re.Match object; span=(0, 8), match='Shi, 3ao'>


In [None]:
# 4. 匹配所有有效Python标识符的集合.
keywords = ['False', 'None', 'True', 'and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'nonlocal', 'not', 'or', 'pass', 'raise', 'return', 'try', 'while', 'with', 'yield']
p = re.compile('^[a-zA-Z_][\w|\d]+')

In [None]:
''' 5. 根据读者当地的格式，匹配街道地
使你的正则表达式足够通用，来匹配任意数量的街道单词，包括类型名称
例如，美国街道地址使用如下格式：1180 Bordeaux Drive。
使你的正则表达式足够灵活，以支持多单词的街道名称
如3120 De la Cruz Boulevard
'''


In [86]:
'''
6. 匹配以“www”起始且以“.com”结尾的简单We b域名；
例如，www://www. yahoo.com/。
选做题  ：你的正则表达式也可以支持其他高级域名，如.edu、.net等（例如，http://www.foothill.edu）。
'''
p = re.compile('www.([\w|\d]+).[com|edu|net]')
s = 'http://www.foothill.edu'
re.findall(p, s)

['foothill']

In [87]:
# 7.匹配所有能够表示Python整数的字符串集
p = re.compile(r'^[1-9]\d+')
s = '452'
re.match(p, s)

<re.Match object; span=(0, 3), match='452'>

In [90]:
# 8. 匹配所有能够表示Python浮点数的字符串集。
p = re.compile(r'(^[1-9]\d+)|0\.\d*')
s = '0.123'
re.match(p, s)

<re.Match object; span=(0, 5), match='0.123'>

In [None]:
# 9. 匹配所有能够表示Python复数的字符串集

In [107]:
# 10. 匹配所有能够表示有效电子邮件地址的集合
p = re.compile('''([a-zA-Z0-9_]+@(163|126|\w+)\.com)''')
s = 'abc@def.com, abc@163.com,def_ghi@gmail.com,hijk@126.com'
print(re.match(p, s))
print(re.findall(p,s))

<re.Match object; span=(0, 11), match='abc@def.com'>
[('abc@def.com', 'def'), ('abc@163.com', '163'), ('def_ghi@gmail.com', 'gmail'), ('hijk@126.com', '126')]


In [108]:
# 11. 匹配所有能够表示有效的网站地址的合集(URL)
p = re.compile(r'(http[s]?://w{3}\.[a-zA-Z0-9]+\.(org|edu|gov)?\.(com|cn|net))')
s = 'https://www.ligong.edu.comhttp://www.caijing.org.com'
re.findall(p, s)

[('https://www.ligong.edu.com', 'edu', 'com'),
 ('http://www.caijing.org.com', 'org', 'com')]

In [112]:
# 12. type()内置函数type()返回一个类型对象, 创建一个能够从字符串中提取实际类型名称的正则表达式。函数将对类似于<type'int' >的字符串返回int
p = re.compile(r'(?:<type\s\')([a-zA-Z0-9_]{3,})(?:\'>)')
s = "<type 'builtin_function_or_method'><type 'float'><type 'int'>  "
re.findall(p,s)

['builtin_function_or_method', 'float', 'int']

In [116]:
# 13. 创建一个正则表达式来表示标准日历中12个月的数字。
p = re.compile(r'1[0-2]{1}|0?[1-9]')
s = "1,2,3,4,5,6,8,9,01,02,03,04,05,09, 10, 11,12"
re.findall(p,s)

['1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '8',
 '9',
 '01',
 '02',
 '03',
 '04',
 '05',
 '09',
 '10',
 '11',
 '12']

In [145]:
# 14. 信用卡号码
def is_credit_card_number(number: string):
    p = '([0-9]{15,16})|(([0-9]{4}-)(([0-9]{6}-[0-9]{5})|(([0-9]{4}-){2}[0-9]{4})))'
    result = re.match(p, number)
    if not result:
        return False
    card_number = result.group().replace('-','')[::-1]
    sum1 = sum([int(x) for x in card_number[0::2]])
    def double(x):
        x = int(x) * 2
        if x >= 10:
            x = x -9
        return x
    sum2 = sum([double(x) for x in card_number[1::2]])
    if (sum1 + sum2) % 10 == 0:
        return True
    return False
    
print(is_credit_card_number('5432123456788882'))
print(is_credit_card_number('5432-1234-5678-8881'))
print(is_credit_card_number('5432123456788883'))

False
True
False
