# 正则表达式regular express #
Python标准库re模块提供了正则表达式操作所需要的功能。document of regex on python: https://docs.python.org/3/howto/regex.html

* functions

| function                 | 功能                            |
|:-----------------------------------|:---------------------------------------------|
|findall(pattern, string\[, flags\]) |返回包含字符串中所有与给定模式匹配的项的列表 |
|match(pattern, string\[, flags\])  |从字符串的开始处匹配模式，返回match对象或None |
|search(pattern, string\[, flags\]) | 在整个字符串中寻找模式，返回match对象或None |
|split(pattern, string[, maxsplit=0])|根据模式匹配项分隔字符串|
|sub(pat, repl, string[, count=0])|将字符串中所有与pat匹配的项用repl替换，返回新字符串，repl可以是字符串或返回字符串的可调用对象，作用于每个匹配的match对象 |

> ___其中函数参数“flags”的值可以是下面几个的不同组合（使用“|”进行组合）：___
> - re.I（注意是大写字母I，不是数字1，表示忽略大小写）
> - re.L（支持本地字符集的字符）
> - re.M（多行匹配模式）
> - re.S（使元字符“.”匹配任意字符，包括换行符）
> - re.U（匹配Unicode字符）
> - re.X（忽略模式中的空格，并可以使用#注释）

>___pattern___
> - chinese online document [regexlab](http://www.regexlab.com/zh/regref.htm)
> - online syntax checker [regexpr](https://regexr.com/)

* regex compile

## Regex examples ##

最简单的正则表达式是普通字符串，可以匹配自身
1. '[pjc]ython'可以匹配'python'、'jython'、'cython'
2. '[a-zA-Z0-9]'可以匹配一个任意大小写字母或数字
3. '[^abc]'可以一个匹配任意除'a'、'b'、'c'之外的字符
4. 'python|perl'或'p(ython|erl)'都可以匹配'python'或'perl'
5. 子模式后面加上问号表示可选。r'(http://)?(www\.)?python\.org'只能匹配'http://www.python.org'、'http://python.org'、'www.python.org'和'python.org'
6. '^http'只能匹配所有以'http'开头的字符串
7. (pattern)*：允许模式重复0次或多次
8. (pattern)+：允许模式重复1次或多次
9. (pattern){m,n}：允许模式重复m~n次
10. '(a|b)*c'：匹配多个（包含0个）a或b，后面紧跟一个字母c。
11. 'ab{1,}'：等价于'ab+'，匹配以字母a开头后面带1个至多个字母b的字符串。
12. '^[a-zA-Z]{1}([a-zA-Z0-9._]){4,19}$'：匹配长度为5-20的字符串，必须以字母开头并且可带字母、数字、“_”、“.”的字符串。
13. '^(\w){6,20}$'：匹配长度为6-20的字符串，可以包含字母、数字、下划线。
14. '^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}$'：检查给定字符串是否为合法IP地址。
15. '^(13[4-9]\d{8})|(15[01289]\d{8})$'：检查给定字符串是否为移动手机号码。
16. '^[a-zA-Z]+$'：检查给定字符串是否只包含英文字母大小写。
17. '^\w+@(\w+\.)+\w+$'：检查给定字符串是否为合法电子邮件地址。
18. r'(\w)(?!.*\1)'：查找字符串中每个字符的最后一次出现。
19. r'(\w)(?=.*\1)'：查找字符串中所有重复出现的字符。
20. '^(\-)?\d+(\.\d{1,2})?$'：检查给定字符串是否为最多带有2位小数的正数或负数。
21. '[\u4e00-\u9fa5]'：匹配给定字符串中所有汉字。
22. '^\d{18}|\d{15}$'：检查给定字符串是否为合法身份证格式。
23. '\d{4}-\d{1,2}-\d{1,2}'：匹配指定格式的日期，例如2016-1-31。
24. '^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[,._]).{8,}$'：检查给定字符串是否为强密码，必须同时包含英语字母大写字母、英文小写字母、数字或特殊符号（如英文逗号、英文句号、下划线），并且长度必须至少8位。
25. "(?!.*[\'\"\/;=%?]).+"：如果给定字符串中包含’、”、/、;、=、%、?则匹配失败。
26. '(.)\\1+'：匹配任意字符的一次或多次重复出现。
27. '((?P<f>\b\w+\b)\s+(?P=f))'：匹配连续出现两次的单词。
28. '((?P<f>.)(?P=f)(?P<g>.)(?P=g))'：匹配AABB形式的成语或字母组合。


In [3]:
# example processing string by RE

import re                            #导入re模块
text = 'alpha. beta....gamma delta'  #测试用的字符串
re.split('[\. ]+', text)             #使用指定字符作为分隔符进行分隔


['alpha', 'beta', 'gamma', 'delta']

In [4]:

re.split('[\. ]+', text, maxsplit=2) #最多分隔2次


['alpha', 'beta', 'gamma delta']

In [5]:

re.split('[\. ]+', text, maxsplit=1) #最多分隔1次


['alpha', 'beta....gamma delta']

In [6]:

pat = '[a-zA-Z]+'
re.findall(pat, text)                #查找所有单词

['alpha', 'beta', 'gamma', 'delta']

In [7]:
pat = '{name}'
text = 'Dear {name}...'
print(re.sub(pat, 'Mr.Dong', text))        #字符串替换

s = 'a s d'
print(re.sub('a|s|d', 'good', s))          #字符串替换

s = "It's a very good good idea"
print(re.sub(r'(\b\w+) \1', r'\1', s))     #处理连续的重复单词

print(re.sub(r'((\w+) )\1', r'\2', s))

print(re.sub('a', lambda x:x.group(0).upper(), 'aaa abc abde'))
    

Dear Mr.Dong...
good good good
It's a very good idea
It's a very goodidea
AAA Abc Abde


In [8]:
print(re.sub('[a-z]', lambda x:x.group(0).upper(), 'aaa abc abde'))

print(re.sub('[a-zA-z]', lambda x:chr(ord(x.group(0))^32), 'aaa aBc abde'))
                                            #英文字母大小写互换
#result 'AAA AbC ABDE'

print(re.subn('a', 'dfg', 'aaa abc abde'))     #返回新字符串和替换次数
#result: ('dfgdfgdfg dfgbc dfgbde', 5)
print(re.sub('a', 'dfg', 'aaa abc abde'))
#result: 'dfgdfgdfg dfgbc dfgbde'

print(re.escape('http://www.python.org'))      #字符串转义


AAA ABC ABDE
AAA AbC ABDE
('dfgdfgdfg dfgbc dfgbde', 5)
dfgdfgdfg dfgbc dfgbde
http://www\.python\.org


In [2]:
import re
print(re.match('done|quit', 'done'))         #匹配成功，返回match对象

print(re.match('done|quit', 'done!'))        #匹配成功

print(re.match('done|quit', 'doe!'))         #匹配不成功，返回空值None

print(re.match('done|quit', 'd!one!'))       #匹配不成功

print(re.search('done|quit', 'd!one!done'))  #匹配成功


<re.Match object; span=(0, 4), match='done'>
<re.Match object; span=(0, 4), match='done'>
None
None
<re.Match object; span=(6, 10), match='done'>


***下面的代码使用不同的方法删除字符串中多余的空格，如果遇到连续多个空格则只保留一个，同时删除字符串两侧的所有空白字符***


In [None]:

import re

s = 'aaa      bb      c d e   fff    '

' '.join(s.split())                    #直接使用字符串对象的方法

' '.join(re.split('[\s]+', s.strip())) #同时使用re中的函数和字符串对象的方法

' '.join(re.split('\s+', s.strip()))   #与上一行代码等价

re.sub('\s+', ' ', s.strip())          #直接使用re模块的字符串替换方法


***下面的代码使用几种不同的方法来删除字符串中指定内容：***


In [4]:
import re

email = "tony@tiremove_thisger.net"
m = re.search("remove_this", email)    #使用search()方法返回的match对象
print(email[:m.start()] + email[m.end():])    #字符串切片

print(re.sub('remove_this', '', email))       #直接使用re模块的sub()方法

print(email.replace('remove_this', ''))       #直接使用字符串替换方法



tony@tiger.net
tony@tiger.net
tony@tiger.net


***下面的代码使用以“\”开头的元字符来实现字符串的特定搜索。***

In [6]:
#example of \b, \b, + AND +?

import re
example = 'Beautiful is better than ugly.'
print(re.findall('\\bb.+?\\b', example))    #以字母b开头的完整单词
                                         #此处问号?表示非贪心模式

print(re.findall('\\bb.+\\b', example))     #贪心模式的匹配结果

print(re.findall('\\bb\w*\\b', example))

print(re.findall('\\Bh.+?\\b', example))    #不以h开头且含有h字母的单词剩余部分


['better']
['better than ugly']
['better']
['han']


In [9]:
# CONTINUE OF EXAMPLE ABOVE
print(re.findall('\\b\w.+?\\b', example))           #所有单词

print(re.findall('\w+', example))                   #所有单词

print(re.findall(r'\b\w.+?\b', example))            #使用原始字符串

print(re.split('\s', example))                      #使用任何空白字符分隔字符串

print(re.findall('\d+\.\d+\.\d+', 'Python 2.7.13')) #查找并返回x.x.x形式的数字

print(re.findall('\d+\.\d+\.\d+', 'Python 2.7.13,Python 3.6.0'))

s = '<html><head>This is head.</head><body>This is body.</body></html>'
pattern = r'<html><head>(.+)</head><body>(.+)</body></html>'
result = re.search(pattern, s)
print(result.group(1))                              #第一个子模式

print(result.group(2))                              #第二个子模式



['Beautiful', 'is', 'better', 'than', 'ugly']
['Beautiful', 'is', 'better', 'than', 'ugly']
['Beautiful', 'is', 'better', 'than', 'ugly']
['Beautiful', 'is', 'better', 'than', 'ugly.']
['2.7.13']
['2.7.13', '3.6.0']
This is head.
This is body.


## match 对象 ##
正则表达式对象的`match`方法和`search`方法匹配成功后返回`match`对象。`match`对象的主要方法有：
- group()：返回匹配的一个或多个子模式内容
- groups()：返回一个包含匹配的所有子模式内容的元组
- groupdict()：返回包含匹配的所有命名子模式内容的字典
- start()：返回指定子模式内容的起始位置
- end()：返回指定子模式内容的结束位置的前一个位置
- span()：返回一个包含指定子模式内容起始位置和结束位置前一个位置的元组。

> 子模式group由查找模板pattern中的`(pattern)`产生。

In [11]:
#example match
m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
print(m.group(0))                   #返回整个模式内容
# 'Isaac Newton'
print(m.group(1))                   #返回第1个子模式内容
#'Isaac'
print( m.group(2))                   #返回第2个子模式内容.
#'Newton'
print(m.group(1, 2))                #返回指定的多个子模式内容
#('Isaac', 'Newton')
print(m.groups())
print(m.groupdict() )

Isaac Newton
Isaac
Newton
('Isaac', 'Newton')
('Isaac', 'Newton')
{}


In [16]:
#example group rename
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
print(m.group('first_name'))      #使用命名的子模式
#'Malcolm'
print(m.group('last_name'))
#'Reynolds'
m = re.match(r"(\d+)\.(\d+)", "24.1632")
print( m.groups())                 #返回所有匹配的子模式（不包括第0个）
#('24', '1632')
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
print( m.groupdict())              #以字典形式返回匹配的结果
#{'first_name': 'Malcolm', 'last_name': 'Reynolds'}


Malcolm
Reynolds
('24', '1632')
{'first_name': 'Malcolm', 'last_name': 'Reynolds'}


In [17]:
#example find the words with duplicated characters and list the charactor being dumplicated.
s = 'aabc abcd abbcd abccd abcdd'
print(re.findall(r'(\b\w*(?P<f>\w+)(?P=f)\w*\b)', s))
#[('aabc', 'a'), ('abbcd', 'b'), ('abccd', 'c'), ('abcdd', 'd')]


[('aabc', 'a'), ('abbcd', 'b'), ('abccd', 'c'), ('abcdd', 'd')]


In [26]:
#例8-1  使用正则表达式提取字符串中的电话号码。

import re

text = '''Suppose my Phone No. is 0535-1234567,
yours is 010-12345678,
his is 025-87654321.'''
#注意，下面的正则表达式中大括号内逗号后面不能有空格
matchResult = re.findall(r'(\d{3,4})-(\d{7,8})', text)
for item in matchResult:
    print(item[0], item[1], sep='-')

print("matchResult".center(20,'='))

print(matchResult)

try:
    print(matchResult[0].group(1))
except AttributeError as e:
    print("Error:",e)

print(matchResult[0][0])

0535-1234567
010-12345678
025-87654321
====matchResult=====
[('0535', '1234567'), ('010', '12345678'), ('025', '87654321')]
Error: 'tuple' object has no attribute 'group'
0535


In [27]:
#例8-3  将一句英语文本中的单词进行倒置，标点不倒置，假设单词之间使用一个或多个空格进行分割。比如I like beijing. 经过函数后变为：beijing. like I。
import re

def reverse(s):
    t = re.split('\s+', s.strip())
    t.reverse()
    return ' '.join(t)

print(reverse('I like beijing.'))
print(reverse('Simple is better than complex.'))



beijing. like I
complex. than better is Simple


## compile #

In [33]:
import re
p = re.compile('[a-z]+')

print(p.match(""))

print(p.match("Temp"))

print(p.match("temp"))

print(p.findall('temp'))

print(p.search('temp'))

None
None
<re.Match object; span=(0, 4), match='temp'>
['temp']
<re.Match object; span=(0, 4), match='temp'>


In [34]:
#example group rename
p=re.compile(r"(?P<first_name>\w+) (?P<last_name>\w+)")
m = p.match("Malcolm Reynolds")
print(m.group('first_name'))      #使用命名的子模式
#'Malcolm'
print(m.group('last_name'))

Malcolm
Reynolds
