# 正则表达式

正则表达式使用某种预定义的模式去匹配一类具有共同特征的字符串，主要用于处理字符串，可以快速、准确地完成复杂的查找、替换等处理要求，在文本编辑与处理、网页爬虫之类的场合中有重要应用

# 正则表达式语法

.
匹配除换行符以外的任意单个字符
*
匹配位于*之前的字符或子模式的0次或多次出现
+
匹配位于+之前的字符或子模式的1次或多次出现
-
在[]之内用来表示范围
|
匹配位于|之前或之后的字符
^
匹配行首，匹配以^后面的字符开头的字符串
$
匹配行尾，匹配以$之前的字符结束的字符串
?
匹配位于?之前的0个或1个字符。当此字符紧随任何其他限定符（*、+、?、{n}、{n,}、{n,m}）之后时，匹配模式是“非贪心的”。“非贪心的”模式匹配搜索到的、尽可能短的字符串，而默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。例如，在字符串“oooo”中，“o+?”只匹配单个“o”，而“o+”匹配所有“o”
\
表示位于\之后的为转义字符
\num
此处的num是一个正整数，表示子模式编号。
例如，“(.)\1”匹配两个连续的相同字符
\f
换页符匹配
\n
换行符匹配

\r
匹配一个回车符
\b
匹配单词头或单词尾
\B
与\b含义相反
\d
匹配任何数字，相当于[0-9]
\D
与\d含义相反，等效于[^0-9]
\s
匹配任何空白字符，包括空格、制表符、换页符，与 [ \f\n\r\t\v] 等效
\S
与\s含义相反
\w
匹配任何字母、数字以及下划线，相当于[a-zA-Z0-9_]
\W
与\w含义相反\w含义相反，与“[^A-Za-z0-9_]”等效
()
将位于()内的内容作为一个整体来对待
{m,n}
{}前的字符或子模式重复至少m次，至多n次
[]
表示范围，匹配位于[]中的任意一个字符
[^xyz]
反向字符集，匹配除x、y、z之外的任何字符
[a-z]
字符范围，匹配指定范围内的任何字符
[^a-z]
反向范围字符，匹配除小写英文字母之外的任何字符


# re模块主要方法

方法
功能说明
compile(pattern[, flags])
创建模式对象
escape(string)
将字符串中所有特殊正则表达式字符转义
findall(pattern, string[, flags])
返回包含字符串中所有与给定模式匹配的项的列表
finditer(pattern, string, flags=0)
返回包含所有匹配项的迭代对象，其中每个匹配项都是match对象
fullmatch(pattern, string, flags=0)
尝试把模式作用于整个字符串，返回match对象或None
match(pattern, string[, flags])
从字符串的开始处匹配模式，返回match对象或None
purge()
清空正则表达式缓存
search(pattern, string[, flags])
在整个字符串中寻找模式，返回match对象或None
split(pattern, string[, maxsplit=0])
根据模式匹配项分隔字符串
sub(pat, repl, string[, count=0])
将字符串中所有与pat匹配的项用repl替换，返回新字符串，repl可以是字符串或返回字符串的可调用对象，作用于每个匹配的match对象
subn(pat, repl, string[, count=0])
将字符串中所有pat的匹配项用repl替换，返回包含新字符串和替换次数的二元元组
repl可以是字符串或返回字符串的可调用对象，
作用于每个匹配的match对象

# 直接使用re模块

In [None]:
import re                            #导入re模块
text = 'alpha. beta....gamma delta'  #测试用的字符串
text.split('.')

In [None]:
re.split('[\. ]+', text)             #使用指定字符作为分隔符进行分隔

In [None]:
re.split('[\. ]+', text, maxsplit=2) #最多分隔2次

In [None]:
re.split('[\. ]+', text, maxsplit=1) #最多分隔1次

In [None]:
pat = '[a-zA-Z]+'
re.findall(pat, text)                #查找所有单词

把单词中间误写作大写的字母改为小写：

In [None]:
import re
def checkModify(s):
    return re.sub(r'\b(\w)(\w+)(\w)\b',\
                  lambda x: x.group(1)+x.group(2).lower()+x.group(3),\
                  s)
print(checkModify('aBc ABBC D eeee fFFFfF'))

In [None]:
pat = '{name}'
text = 'Dear {name}...'
re.sub(pat, 'Mr.Dong', text)        #字符串替换

In [None]:
s = 'a s d'
re.sub('a|s|d', 'good', s)          #字符串替换

In [None]:
s = "It's a very good good idea"
re.sub(r'(\b\w+) \1', r'\1', s)     #处理连续的重复单词

In [None]:
re.sub(r'((\w+) )\1', r'\2', s)

In [None]:
re.sub('a', lambda x:x.group(0).upper(),'aaa abc abde') #repl为可调用对象

In [None]:
example = 'Beautiful is better than ugly.'
re.findall('\\bb.+?\\b', example)  #以字母b开头的完整单词  #此处问号?表示非贪心模式

In [None]:
example = 'Beautiful is better than ugly.'
re.findall(r'\bb.+?\b', example)  #以字母b开头的完整单词  #此处问号?表示非贪心模式

In [None]:
re.findall('\\bb.+\\b', example)   #贪心模式的匹配结果

In [None]:
re.findall('\\bb\w*\\b', example)

In [None]:
re.findall('\\Bh.+?\\b', example)    #不以h开头且含有h字母的单词剩余部分

In [None]:
re.findall('\\b\w.+?\\b', example)   #所有单词

In [None]:
re.findall('\d+\.\d+\.\d+', 'Python 2.7.13')    #查找并返回x.x.x形式的数字

In [None]:
re.findall('\d+\.\d+\.\d+', 'Python 2.7.13,Python 3.6.0')

In [None]:
s = '<html><head>This is head.</head><body>This is body.</body></html>'
pattern = r'<html><head>(.+)</head><body>(.+)</body></html>'
result = re.search(pattern, s)
result.group(1)                 #第一个子模式

In [None]:
result.group(2)

将一句话的单词进行倒置，标点不倒置。比如 I like beijing. 经过函数后变为：beijing. like I

In [None]:
def rev3(s):
    '''考虑开头或结束有空格的情况'''
    import re
    t = re.split('\s+', s.strip())
    t.reverse()
    return ' '.join(t)

def rev4(s):
    '''考虑开头或结束有空格的情况'''
    import re
    t = re.split('\s+', s.strip())
    return ' '.join(reversed(t))

In [None]:
str1 = 'I like beijing.'
rev3(str1)

查找字符串中最长的数字子串

In [None]:
def longest1(s):
    '''查找所有连续数字'''
    import re
    t = re.findall('\d+', s)
    if t:
        return max(t, key=len)
    return 'No'

In [None]:
str2 = 'Regular expressions are used in search engines 1, search and replace dialogs of word processors and text editors 22, in text processing utilities such as sed and AWK and in lexical analysis 3. Many programming languages provide regex capabilities either built-in or via libraries. 4'
longest1(str2)

# 使用正则表达式对象

正则表达式对象的match(string[, pos[, endpos]])方法用于在字符串开头或指定位置进行搜索，模式必须出现在字符串开头或指定位置；
正则表达式对象的search(string[, pos[, endpos]])方法用于在整个字符串中进行搜索；
正则表达式对象的findall(string[, pos[, endpos]])方法用于在字符串中查找所有符合正则表达式的字符串并返回列表。

In [None]:
import re
example = 'Changsha Institute of Business and Technology'
pattern = re.compile(r'\bB\w+\b')   #查找以B开头的单词
pattern.findall(example)            #使用正则表达式对象的findall()方法

In [None]:
pattern = re.compile(r'\w+a\b')     #查找以字母a结尾的单词
pattern.findall(example)

In [None]:
pattern = re.compile(r'\b[a-zA-Z]{3}\b')   #查找3个字母长的单词
pattern.findall(example)

In [None]:
s = 'ab134ab98723jafjweoruiagab'
m = re.search(r'((ab).*){2}.*(ab)', s)     #在s中查找ab的第3次出现
m.group(3)

In [None]:
m.span(1)  #为什么第1组是ab98723jafjweoruiag？找到ab134还不算找到？因为{2}要求有两个？

In [None]:
s[5:24]

In [None]:
m.span(2)

In [None]:
m.group(2)

In [None]:
s[5:7]

In [None]:
print(pattern)

In [None]:
pattern.match(example)     #从字符串开头开始匹配，失败返回空值

In [None]:
pattern.search(example)    #在整个字符串中搜索，成功

In [None]:
pattern = re.compile(r'\b\w*a\w*\b') #查找所有含有字母a的单词

In [None]:
pattern.findall(example)

In [None]:
text = "He was carefully disguised but captured quickly by police."
re.findall(r"\w+ly", text) #查找所有以字母组合ly结尾的单词

正则表达式对象的sub(repl, string[, count = 0])和subn(repl, string[, count = 0])方法用来实现字符串替换功能，其中参数repl可以为字符串或返回字符串的可调用对象

In [None]:
example = '''Beautiful is better than ugly.
            Explicit is better than implicit.
            Simple is better than complex.
            Complex is better than complicated.
            Flat is better than nested.
            Sparse is better than dense.
            Readability counts.'''

In [None]:
pattern = re.compile(r'\bb\w*\b', re.I)  #匹配以b或B开头的单词
print(pattern.sub('*', example))         #将符合条件的单词替换为*

In [None]:
print(pattern.sub(lambda x: x.group(0).upper(), example))
                                     #把所有匹配项都改为大写

In [None]:
print(pattern.sub('*', example, 1))      #只替换1次

正则表达式对象的split(string[, maxsplit = 0])方法用来实现字符串分隔

In [None]:
example = r'one,two,three.four/five\six?seven[eight]nine|ten'
pattern = re.compile(r'[,./?\\[\]\|]')     #指定多个可能的分隔符
pattern.split(example)

In [None]:
example = r'one1two2three3four4five5six6seven7eight8nine9ten'
pattern = re.compile(r'\d+')               #使用数字作为分隔符
pattern.split(example)


In [None]:
example = r'one two    three  four,five.six.seven,eight,nine9ten'
pattern = re.compile(r'[\s,.\d]+')         #允许分隔符重复
pattern.split(example)

# 子模式与match对象

使用()表示一个子模式，括号中的内容作为一个整体处理，例如’(red)+’可以匹配’redred’、’redredred‘等多个重复’red’的情况。

In [None]:
telNumber = '''Suppose my Phone No. is 0535-1234567,
yours is 010-12345678, his is 025-87654321.'''

pattern = re.compile(r'(\d{3,4})-(\d{7,8})')
pattern.findall(telNumber)
#pattern.match(telNumber).groups()# AttributeError: 'NoneType' object has no attribute 'groups',因为匹配的结果为None

In [None]:
telNumber = '''010-12345678 is your Phone No, his is 025-87654321.'''

pattern = re.compile(r'(\d{3,4})-(\d{7,8})')
pattern.match(telNumber).groups()

子模式扩展语法：
(?P<groupname>)：为子模式命名
(?iLmsux)：设置匹配标志，可以是几个字母的组合，每个字母含义与编译标志相同
(?:...)：匹配但不捕获该匹配的子表达式
(?P=groupname)：表示在此之前的命名为groupname的子模式
(?#...)：表示注释
(?=…)：用于正则表达式之后，表示如果=后的内容在字符串中出现则匹配，但不返回=之后的内容
(?!...)：用于正则表达式之后，表示如果!后的内容在字符串中不出现则匹配，但不返回!之后的内容
(?<=…)：用于正则表达式之前，与(?=…)含义相同
(?<!...)：用于正则表达式之前，与(?!...)含义相同

正则表达式对象的match方法和search方法匹配成功后返回match对象。match对象的主要方法有：
group()：返回匹配的一个或多个子模式内容
groups()：返回一个包含匹配的所有子模式内容的元组
groupdict()：返回包含匹配的所有命名子模式内容的字典
start()：返回指定子模式内容的起始位置
end()：返回指定子模式内容的结束位置的前一个位置
span()：返回一个包含指定子模式内容起始位置和结束位置前一个位置的元组。

In [None]:
x = pattern.search(telNumber,43,70)
print(x)
print(x.groups())
print(x.group(0))
print(x.group(1))
print(x.group(2))

In [None]:
m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
m.group(0)                   #返回整个模式内容

In [None]:
m.group(1)                   #返回第1个子模式内容

In [None]:
m.group(2)                   #返回第2个子模式内容.

In [None]:
m.group(1, 2)                #返回指定的多个子模式内容

In [None]:
exampleString = '''There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than right now.'''

pattern = re.compile(r'(?<=\w\s)never')    #查找不是第一个单词的never
matchResult = pattern.search(exampleString)
matchResult.span()

In [None]:
exampleString[:matchResult.span()[0]]

In [None]:
pattern = re.compile(r'(?:is\s)better(\sthan)')
                                           #查找前面是is的better than组合
matchResult = pattern.search(exampleString)
matchResult.span()

matchResult.group(0)                       #组0表示整个模式

matchResult.group(1)

使用正则表达式提取字符串中的电话号码（方法一）

In [None]:
import re

telNumber = '''Suppose my Phone No. is 0535-1234567, yours is 010-12345678, his is 025-87654321.'''
pattern = re.compile(r'(\d{3,4})-(\d{7,8})')
index = 0
while True:
    matchResult = pattern.search(telNumber, index)  #从指定位置开始匹配
    if not matchResult:
        break
    print('-'*30)
    print('Success:')
    for i in range(3):
        print('Searched content:', matchResult.group(i), ' Start from:',
               matchResult.start(i), 'End at:', matchResult.end(i),
               ' Its span is:', matchResult.span(i))
    index = matchResult.end(2)               #指定下次匹配的开始位置

使用正则表达式提取字符串中的电话号码（方法二）

In [None]:
import re

text = '''Suppose my Phone No. is 0535-1234567,
yours is 010-12345678,
his is 025-87654321.'''
#注意，下面的正则表达式中大括号内逗号后面不能有空格
matchResult = re.findall(r'(\d{3,4})-(\d{7,8})', text)
for item in matchResult:
    print(item[0], item[1], sep='-')

In [None]:
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
m.group('first_name')      #使用命名的子模式

m.group('last_name')

m = re.match(r"(\d+)\.(\d+)", "24.1632")
m.groups()                #返回所有匹配的子模式（不包括第0个）

In [None]:
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
m.groupdict()                #以字典形式返回匹配的结果

In [None]:
exampleString = '''There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than right now.'''
pattern = re.compile(r'(?<=\w\s)never(?=\s\w)')  #查找不在句子开头和结尾的never
matchResult = pattern.search(exampleString)
matchResult.span()

In [None]:
exampleString[177:]

#查找以n或N字母开头的所有单词

In [None]:
pattern = re.compile(r'\b(?i)n\w+\b')

index = 0
while True:
    matchResult = pattern.search(exampleString, index)
    if not matchResult:
        break
    print(matchResult.group(0), ':', matchResult.span(0))
    index = matchResult.end(0)

#查找前面没有单词not的单词be

In [None]:
pattern = re.compile(r'(?<!not\s)be\b')

index = 0
while True:
    matchResult = pattern.search(exampleString, index)
    if not matchResult:
        break
    print(matchResult.group(0), ':', matchResult.span(0))
    index = matchResult.end(0)

#有连续相同字母的单词

In [None]:
pattern = re.compile(r'(\b\w*(?P<f>\w+)(?P=f)\w*\b)')

index = 0
while True:
    matchResult = pattern.search(exampleString, index)
    if not matchResult:
        break
    print(matchResult.group(0), ':', matchResult.group(2))
    index = matchResult.end(0) + 1

s = 'aabc abcd abbcd abccd abcdd'
pattern.findall(s)

# 正则表达式案例

查找ABAC和AABB形式的成语

In [None]:
from re import findall

text = '''行尸走肉、金蝉脱壳、百里挑一、金玉满堂、
背水一战、霸王别姬、天上人间、不吐不快、海阔天空、
情非得已、满腹经纶、兵临城下、春暖花开、插翅难逃、
黄道吉日、天下无双、偷天换日、两小无猜、卧虎藏龙、
珠光宝气、簪缨世族、花花公子、绘声绘影、国色天香、
相亲相爱、八仙过海、金玉良缘、掌上明珠、皆大欢喜\
浩浩荡荡、平平安安、秀秀气气、斯斯文文、高高兴兴'''

pattern = r'(((.).\3.)|((.)\5(.)\6))'
for item in findall(pattern, text):
    print(item[0])

python正则表达式，向前向后查找与回溯引用

# 向前向后查找 (断言)

In [None]:
import re 
key = r'<html><body><h1>hello world</h1></body></html>'       #这段是你要匹配的文本

#上面的一句也可以利用以下的实现，一般处理数据都是对文件进行操作的
#with open('/Users/Mr.Long/Desktop/data.txt', 'r') as f:
#key = f.read()

In [None]:
p1 = r"(?<=<h1>).+?(?=</h1>)"       
pattern1 = re.compile(p1)          
matcher1 = re.search(pattern1,key)  
print (matcher1.group(0))

In [None]:
# key = r'<h1>hello world</h1>'  
p1 = r"^<h1>(.+?)</h1>$"       
pattern1 = re.compile(p1)          
matcher1 = re.match(pattern1,key)  
print (matcher1)

In [None]:
import re 
  
address = re.compile( 
    ''' 
    ^   
    # An address: username@domain.tld   
    # Ignore noreply addresses 
    (?!noreply@.*$)  
    [\w\d.+-]+  # username 
    @ 
    ([\w\d.]+\.)+  # domain name prefix 
    (com|org|edu)  # limit the allowed top-level domains  
    $ 
    ''', 
    re.VERBOSE
) 
  
candidates = [ 
    u'first.last@example.com', 
    u'noreply@example.com', 
] 
  
for candidate in candidates: 
    print('Candidate:', candidate) 
    match = address.search(candidate) 
    if match: 
        print(' Match:', candidate[match.start():match.end()]) 
    else: 
        print(' No match')

# 回溯引用

In [None]:
import re 
key = r"<h1>hello world</h3>"
p1 = r"<h([1-6])>.*?</h\1>"
pattern1 = re.compile(p1)
m1 = re.search(pattern1,key)
print(m1.group(0))   # 这里是会报错，因为匹配不到，你如果将源字符串改成</h1>就能看出效果