### 正则表达式

1.常用元字符
* .   匹配除换行以外所有字符
* \b  匹配单词的开始或结束
* \d 匹配数字
* \w 匹配数字、字母、下划线或汉字
* \s 匹配任意空白符，包括空格、制表符、换行符、中文全角空格等
* ^ 匹配字符串的开始
* $ 匹配字符串的结束

2.重复
 * \* 重复零次或更多次  
 * \+ 重复一次或更多次  
 * ? 重复零次或一次  
 * {n} 重复n次  
 * {n,} 重复n次或更多次  
 * {n,m} 重复n到m次  

3.字符合集   
例如：   
\[abc\]:匹配abc中任意字符   
\[a-zA-Z0-9_\]:匹配26个字母大小写，0-9的数字或下划线的任意一个字符

4.反义    
  * \W   匹配任意不是字母，数字，下划线 的字符

  * \S  匹配任意不是空白符的字符

  * \D  匹配任意非数字的字符

  *  \B  匹配不是单词开头或结束的位置

  *  \[^abc\]  匹配除了abc以外的任意字符
  
  *  \[^(123 | abc)\]  匹配除了1、2、3和a、b、c以外的任意字符

5.后向引用   
* (exp)    匹配exp,并捕获文本到自动命名的组里   

* (?<name>exp)  匹配exp,并捕获文本到名称为name的组里   

* (?:exp)  匹配exp,不捕获匹配的文本，也不给此分组分配组号   

6.零宽断言

* (?=exp)  匹配exp前面的位置

>　如 "How are you doing" 正则"(?<txt>.+(?=ing))" 这里取ing前所有的字符，并定义了一个捕获分组名字为 "txt" 而"txt"这个组里的值为"How are you do";

* (?<=exp)  匹配exp后面的位置

>　如 "How are you doing" 正则"(?<txt>(?<=How).+)" 这里取"How"之后所有的字符，并定义了一个捕获分组名字为 "txt" 而"txt"这个组里的值为" are you doing";

* (?!exp)  匹配后面跟的不是exp的位置

>　　如 "123abc" 正则 "\d{3}(?!\d)"匹配3位数字后非数字的结果

* (?<!exp)  匹配前面不是exp的位置

>　　如 "abc123 " 正则 "(?<!\[0-9\])123" 匹配"123"前面是非数字的结果也可写成"(?!<\d)123"

7.贪婪和懒惰
* \* 重复零次或更多次，但尽可能少重复    
 * \+ 重复一次或更多次，但尽可能少重复    
 * ? 重复零次或一次，但尽可能少重复      
 * {n} 重复n次，但尽可能少重复      
 * {n,} 重复n次或更多次，但尽可能少重复      
 * {n,m} 重复n到m次，但尽可能少重复     

8.处理选项  
* (?i)：忽略大小写(CASE_INSENSITIVE)  
* (?x)：忽略空格字符(COMMENTS)  
* (?s)：.匹配任意字符，包括换行符（DOTALL）  
* (?m)：多行模式（MULTILINE）  
* (?u)：对Unicode符大小写不敏感（UNICODE_CASE），必须启用CASE_INSENSITIVE  
* (?d)：只有'\n'才被认作一行的中止（UNIX_LINES）  

### python和正则表达式

区别：
* \\A 仅匹配字符串开头
* \\Z 仅匹配字符串末尾

### re模块

处理选项
* re.I：忽略大小写   
* re.X：忽略空格字符  
* re.S：.匹配任意字符，包括换行符   
* re.M：多行模式  
* re.U：对Unicode符大小写不敏感  
  

In [4]:
# coding:'utf-8
import re
# 将正则表达式编译成pattern对象
pattern = re.compile(r'\d+')
# 使用re.match匹配文本，获得匹配结果，无法匹配时返回None
# re.match是从头开始匹配，开头就匹配不到则返回None
result1 = re.match(pattern,'192abc')
if result1:
    #  group() 同group（0）就是匹配正则表达式整体结果
    # group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分
    print(result1.group())
else:
    print('匹配失败1')
result2 = re.match(pattern,'abc192')
if result2:
    print(result2.group())
else:
    print('匹配失败2')

192
匹配失败2


In [6]:
# coding:'utf-8
import re
# 将正则表达式编译成pattern对象
pattern = re.compile(r'\d+')
# 使用re.search匹配文本，获得匹配结果，无法匹配时返回None
# re.search是扫描这个String，不必从头匹配
result1 = re.search(pattern,'192abc')
if result1:
    print(result1.group())
else:
    print('匹配失败1')
result2 = re.search(pattern,'abc192')
if result2:
    print(result2.group())
else:
    print('匹配失败2')

192
192


In [7]:
import re
pattern = re.compile(r'\d+')
# re.split按照能够匹配的子串将String分割后返回列表
print(re.split(pattern,'A1B2C3D4'))
print(re.split(pattern,'ab12c3de4'))
# maxsplit=可以指定最大分割次数，默认全部分割
print(re.split(pattern,'A1B2C3D4',maxsplit=2))

['A', 'B', 'C', 'D', '']
['ab', 'c', 'de', '']
['A', 'B', 'C3D4']


In [8]:
import re
pattern = re.compile(r'\d+')
# re.findall搜索整个string，以列表的形式返回所能匹配的所有字串
print(re.findall(pattern,'A1B2C3D4'))

['1', '2', '3', '4']


In [9]:
import re
pattern = re.compile(r'\d+')
# re.finditer搜索整个string，以迭代器的形式返回所能匹配的所有字串
matchiter = re.finditer(pattern,'A1B2C3D4')
for match in matchiter:
    print(match)

<re.Match object; span=(1, 2), match='1'>
<re.Match object; span=(3, 4), match='2'>
<re.Match object; span=(5, 6), match='3'>
<re.Match object; span=(7, 8), match='4'>


In [16]:
# re.sub 匹配后替换
import re
p = re.compile(r'(?P<word1>\w+) (?P<word2>\w+)')  # 使用名称引用
s = 'i say, hello world!'
print(p.sub(r'\g<word2> \g<word1>',s))
p = re.compile(r'(\w+) (\w+)')   # 使用编号
print(p.sub(r'\2 \1',s))
def func(m):
    return m.group(1).title() + ' ' + m.group(2).title()
print(p.sub(func,s))

say i, world hello!
say i, world hello!
I Say, Hello World!


In [17]:
# re.sub 匹配后替换,可以返回替换次数
import re
p = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
print(p.subn(r'\2 \1',s))
def func(m):
    return m.group(1).title() + ' ' + m.group(2).title()
print(p.subn(func,s))

('say i, world hello!', 2)
('I Say, Hello World!', 2)


match对象属性
* pos 搜索的开始位置
* endpos 搜索的结束位置
* string 搜索的字符串
* re 当前使用的正则表达式对象
* lastindex 最后匹配的组索引
* lastgroup 最后匹配的组名
* group(index) 某个组匹配的结果
* groups() 所有分组的匹配结果，每个分组组成的结果以列表返回
* groupdict() 返回组名作为key，每个分组的匹配结果作为value的字典
* start(\[group\]) 获取组的开始位置
* end(\[group\]) 获取组的结束位置
* span(\[group\]) 获取组的开始和结束位置
* expand(template) 使用组的匹配结果来替换template中的内容，并把替换后的字符串返回

In [22]:
import re
pattern = re.compile(r'(\w+) (\w+) (?P<word>.*)')
match = pattern.match('I Love You !')

print("match.sting:",match.string)
print("match.re:",match.re)
print("match.pos:",match.pos)
print("match.endpos:",match.endpos)
print("match.lastindex:",match.lastindex)
print("match.lastgroup:",match.lastgroup)
print('\n')

print("match.group():",match.group())
print("match.group(1,2):",match.group(1,2))
print("match.groupdict():",match.groupdict())
print("match.start(2):",match.start(2))
print("match.end(2):",match.end(2))
print("match.span(2):",match.span(2))
print("match.expand('\\2 \\1 \\3'):",match.expand(r'\2 \1 \3'))

match.sting: I Love You !
match.re: re.compile('(\\w+) (\\w+) (?P<word>.*)')
match.pos: 0
match.endpos: 12
match.lastindex: 3
match.lastgroup: word


match.group(): I Love You !
match.group(1,2): ('I', 'Love')
match.groupdict(): {'word': 'You !'}
match.start(2): 2
match.end(2): 6
match.span(2): (2, 6)
match.expand('\2 \1 \3'): Love I You !
