## Python正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。  

Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。  
re 模块使 Python 语言拥有全部的正则表达式功能。  
compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。  
re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。  
本章节主要介绍Python中常用的正则表达式处理函数。  

[正则表达式语法](http://www.runoob.com/regexp/regexp-syntax.html)

## 字符匹配---元字符使用
**元字符完整列表**
> . ^ $ * + ? { [ ] \ | ( ) 


### 1、"[" 和 "]”方括号
> 常用来指定一个字符类别，所谓字符类别就是你想匹配的一个字符集。字符可以单个列出，也可用“-”号分隔的两个给定字符来表示一个字符区间   

例如：
* [akm\$]就表示字符‘a’，‘k’，‘m’，或‘\$’，在这里$也变身为普通字符了
* [a-z]将匹配小写字母
* [a-zA-Z0-9]匹配任意一个字母或数字
* 如果你要匹配‘]’或‘-’本身，你需要加反斜杆'\'转义

**字符集合取反匹配**：匹配任意不在这个字符集合里的字符，例如[^5]将匹配任意不是'5'的字符；[^^]将匹配任意不是'^'的字符。

In [2]:
import re

In [2]:
s='cat ckt cpt cmm'
re.findall('c[akp]t',s)

['cat', 'ckt', 'cpt']

In [3]:
ru=r'c[akp]t'
re.findall(ru,s)

['cat', 'ckt', 'cpt']

In [4]:
re.findall('c[^p]t',s)

['cat', 'ckt']

In [5]:
b='123456'
re.findall('[^5]',b)

['1', '2', '3', '4', '6']

### 2、‘^’ 尖尖号
> 匹配一个字符串的开始,在 MULTILINE 模式下，也将匹配任意一个新行的开始。

In [2]:
s='cat ckt cpt cat cmm'
ru=r'cat'
re.findall(ru,s)

['cat', 'cat']

In [3]:
ru=r'^cat' 
re.findall(ru,s)

['cat']

### 3、‘\$’ 美元符号
> 匹配一个字符串的结尾或者字符串最后面的换行符，在 MULTILINE 模式下，也匹配任意一行的行尾。

In [4]:
s='cat cmm ckt cpt cat cmm'
ru=r'cmm$'
re.findall(ru,s)

['cmm']

### 4、‘\’ 反斜杆
> 转义‘*’，‘?’等特殊字符，即可以用来取消元字符，例如'\['；  

> 或者指定一个特殊序列:
> * \d     数字，            相当于 [0-9]
> * \D     ⾮数字字符，        相当于 [^0-9]
> * \s     空白字符，         相当于 [ \t\r\n\f\v]
> * \S     ⾮空白字符，        相当于 [^ \t\r\n\f\v]
> * \w     字⺟或数字，        相当于 [0-9a-zA-Z]
> * \W     ⾮字母或数字，      相当于 [^0-9a-zA-Z] 
> * \b     单词边界
> * \B     ⾮单词边界，         这里的“单词”，是指连续的字母、数字和下划线组成的字符串

In [3]:
s='^cat ckt ^cat cat cmm'
ru=r'^cat'
re.findall(ru,s)

[]

In [10]:
s='^cat ckt ^cat cat cmm'
ru=r'\^cat'
re.findall(ru,s)

['^cat', '^cat']

In [11]:
s='x1 cat x2 ^cat x3 cat x4 cmm'
ru=r'x\d'
re.findall(ru,s)

['x1', 'x2', 'x3', 'x4']

### 5、*  +  ？   星号加号问号---表示重复
> * '*’星号，指定将前面的RE重复0次或者任意多次，而且总是试图尽量多次地匹配。
> * '+’加号，指定将前面的RE重复1次或者任意多次，而且总是试图尽量多次地匹配。
> * '?’问号，指定将前面的RE重复0次或者1次，如果有的话，也尽量匹配1次。
> * \*?， +?， ??，从前面的描述可以看到'\*'，‘+’和‘?’都是贪婪的，但这也许并不是我们所要的，所以，以在后面加个问号，将策略改为非贪婪，只匹配尽量少的RE

In [6]:
s='021-62232333 Depart1 021-54344958  Dep2'
ru=r'^021-[0-9]'
re.findall(ru,s)

['021-6']

In [7]:
ru=r'^021-\d'
re.findall(ru,s)

['021-6']

In [8]:
s='021-62232333 Depart1 021-54344958  Dep2'
ru=r'^021-\d\d\d\d\d\d\d\d'
re.findall(ru,s)

['021-62232333']

In [9]:
ru=r'021-\d*'
re.findall(ru,s)

['021-62232333', '021-54344958']

In [10]:
ru=r'ab*'
re.findall(ru,'a')

['a']

In [11]:
s='021-62232333 02154344958 021--54344958 '
ru=r'021-*\d*'
re.findall(ru,s)

['021-62232333', '02154344958', '021--54344958']

In [12]:
ru=r'021-?\d*'
re.findall(ru,s)

['021-62232333', '02154344958', '021-']

In [13]:
s= 'abbbbbbbbbbbbbb'
ru=r'ab+?'                ## 贪婪算法与非贪婪算法
re.findall(ru,s)

['ab']

In [14]:
ru=r'ab+'
re.findall(ru,s)

['abbbbbbbbbbbbbb']

In [15]:
ru=r'ab*'
re.findall(ru,s)

['abbbbbbbbbbbbbb']

In [22]:
re.findall(ru,'a')

['a']

### 6、{m}、{m,n}、 {m,n}？---表示重复
> {m}，m 是一个数字，指定将前面的RE重复m 次  

> {m,n}，m 和n都是数字，指定将前面的RE重复m 到n次，例如a{3,5}匹配3到5个连续的a。注意，如果省略m，将匹配0到n个前面的RE；如果省略n，将匹配n到无穷多个前面的RE；当然中间的逗号是不能省略的

> {m,n}?，前面说的{m,n}，也是贪婪的，a{3,5}如果有5个以上连续a的话，会匹配5个，这个也可以通过加问号改变。a{3,5}?如果可能的话，将只匹配3个a。

** {0,}等同于\*， {1,}等同于+ ， {0，1}等同于？，同样情况下建议用\* + ？**

In [16]:
s='021-62232333 Depart1 021-54344958  Dep2'
ru=r'^021-\d{8}'
re.findall(ru,s)

['021-62232333']

### 7、. 点号
点号，在普通模式，它匹配除换行符外的任意一个字符；如果指定了 DOTALL 标记，
匹配包括换行符以内的任意一个字符。

In [24]:
re.findall('<(.*)>', '<H1>title</H1>')

['H1>title</H1']

In [25]:
a = re.match('<(.*)>','<H1>title</H1>').group()
print(a)

<H1>title</H1>


## 常用函数

In [17]:
import re

### re.compile函数

In [18]:
pattern = re.compile(r'(\w+) (\w+)(?P<sign>.*)', re.DOTALL)  ## re.DOTALL=re.S,使'.'匹配包括换行在内的所有字符
print("pattern:", pattern)                           
print("pattern.pattern:", pattern.pattern)          ## pattern: 编译时用的表达式字符串
print("pattern.groups:", pattern.groups)            ## groups: 表达式中分组的数量

pattern: re.compile('(\\w+) (\\w+)(?P<sign>.*)', re.DOTALL)
pattern.pattern: (\w+) (\w+)(?P<sign>.*)
pattern.groups: 3


In [19]:
pattern1 = r'(\w+) (\w+)(?P<sign>.*)'       ## Pattern不能直接实例化，必须使用re.compile()进行构造
print(pattern1)
print(pattern1.groups)                     ##会出错

(\w+) (\w+)(?P<sign>.*)


AttributeError: 'str' object has no attribute 'groups'

### re.match函数
re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

![re参数](http://d.pr/i/mrNV.jpg)

### 正则表达式修饰符 - 可选标志
正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：
![可选标志](http://d.pr/i/XfD.jpg)

匹配成功re.match方法返回一个匹配的对象，否则返回None。  
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

![1](http://d.pr/i/DnLb.jpg)
> * group():       返回匹配的完整字符串。
> * start():         匹配的开始位置。
> * end():          匹配的结束位置。
> * span():        包含起始、结束位置的元组。
> * groups():     返回分组信息。
> * groupdict(): 返回命名分组信息。

In [29]:
print(re.match('www', 'www.runoob.com'))         # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

<_sre.SRE_Match object; span=(0, 3), match='www'>
None


In [30]:
print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配    span() 返回一个元组包含匹配 (开始,结束) 的位置
print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

(0, 3)
None


In [20]:
line = "Cats are smarter than dogs"                             ## re.I = re.IGNORECASE,让正则表达式忽略大小写，这样，[A-Z]也可以匹配小写字母
                                                                ## re.M = re.MULTILINE,影响'^'和'$'的行为，指定了以后，'^'会增加匹配每行的开始（也就是换行符后的位置）；'$'会增加匹配每行的结束（也就是换行符前的位置）。
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)     ## '.'匹配除换行符 \n之外的任何单字符。要匹配 .，请使用 \.
                                                                ## '*'匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*
if matchObj:                                                    ## '.*'匹配除换行符 \n之外的所有字符
    print("matchObj.group() : ", matchObj.group())               ## '.*?'是懒惰匹配，一旦匹配到第一个就不往下走了
    print("matchObj.group(1) : ", matchObj.group(1))             ## '?'匹配前面的子表达式零次或一次，或指明一个非贪婪限定符
    print("matchObj.group(2) : ", matchObj.group(2))    
    print("matchObj.groups() : ", matchObj.groups() ) 
else:
    print("No match!!")

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter
matchObj.groups() :  ('Cats', 'smarter')


### re.match与re.search的区别
re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

In [21]:
line = "Cats are smarter than dogs";

matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
    print("match --> matchObj.group() : ", matchObj.group())
else:
    print("No match!!")

matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
    print("search --> matchObj.group() : ", matchObj.group())
else:
    print("No match!!")

No match!!
search --> matchObj.group() :  dogs


### re.split函数

In [22]:
pattern = re.compile(r'\d+')               ## '\d'匹配任意数字，等价于[0-9]
string = 'one1two2three3four4'
print(re.split(pattern,string) )

['one', 'two', 'three', 'four', '']


### re.findall函数

In [34]:
pattern = re.compile(r'\d+')
string = 'one1two2three3four4'
print(re.findall(pattern,string))

['1', '2', '3', '4']


### re.finditer函数

In [35]:
pattern = re.compile(r'\d+')
string = 'one1two2three3four4'
for m in re.finditer(pattern, string):
    print(m.group(),)

1
2
3
4


In [36]:
m.group?

### 检索和替换
### re.sub函数
Python 的re模块提供了re.sub用于替换字符串中的匹配项。

返回的字符串是在字符串中用 RE 最左边不重复的匹配来替换。如果模式没有发现，字符将被没有改变地返回。  
可选参数 count 是模式匹配后替换的最大次数；count 必须是非负整数。缺省值是 0 表示替换所有的匹配。

In [24]:
phone = "2004-959-559 # This is Phone Number"

# Delete Python-style comments
num = re.sub(r'#.*$', "", phone)                     ## $匹配输入字符串的结尾位置。
print("Phone Num : ", num)

# Remove anything other than digits
num = re.sub(r'\D', "", phone)                       ## '\D'匹配一个非数字字符。等价于 [^0-9]。
print("Phone Num : ", num)

Phone Num :  2004-959-559 
Phone Num :  2004959559


In [38]:
pattern = re.compile(r'(\w+) (\w+)')                   ##'\w'匹配字母、数字和下划线
s = 'i say, hello world!'
 
print(re.sub(pattern,r'\2 \1', s))                     ## '\1…\9'匹配第n个分组的子表达式

say i, world hello!


### re.subn函数

In [39]:
pattern = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'
 
print(re.subn(pattern,r'\2 \1', s))

('say i, world hello!', 2)


### 正则表达式模式
模式字符串使用特殊的语法来表示一个正则表达式：  
字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。  
多数字母和数字前加一个反斜杠时会拥有不同的含义。  
标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。  
反斜杠本身需要使用反斜杠转义。  
由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'/t'，等价于'//t')匹配相应的特殊字符。  
下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。  

![正则模式](http://d.pr/i/jInF.jpg)
![正则模式](http://d.pr/i/Tsjj.jpg)