# 正则表达式
正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。
该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

## re.match()

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。


In [2]:
import re
print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

(0, 3)
None


## group()和groups()
group(num) 或 groups() 匹配对象函数来获取匹配表达式。

group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。

groups()	返回一个包含所有小组字符串的元组，从 1 到 所含的小组号。

In [3]:
line = "Cats are smarter than dogs"
# .* 表示任意匹配除换行符（\n、\r）之外的任何单个或多个字符
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
 
if matchObj:
   print ("matchObj.group() : ", matchObj.group())
   print ("matchObj.group(1) : ", matchObj.group(1))
   print ("matchObj.group(2) : ", matchObj.group(2))
   print ("matchObj.groups() :",matchObj.groups())
else:
   print ("No match!!")

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter
matchObj.groups() : ('Cats', 'smarter')


## re.search()

re.search 扫描整个字符串并返回第一个成功的匹配。

In [4]:
print(re.search('www', 'www.runoob.com').span())
print(re.search('com', 'www.runoob.com').span())
print(re.search('com', 'www.runoob.com.com').span())

(0, 3)
(11, 14)
(11, 14)


## re.sub()

re.sub用于替换字符串中的匹配项。

`re.sub(pattern, repl, string, count=0, flags=0)`
+ pattern : 正则中的模式字符串。
+ repl : 替换的字符串，也可为一个函数。
+ string : 要被查找替换的原始字符串。
+ count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。
+ flags : 编译时用的匹配模式，数字形式。

In [5]:
phone = "2004-959-559 # 这是一个电话号码"
 
# 删除注释
num = re.sub(r'#.*$', "", phone)
print ("电话号码 : ", num)
 
# 移除非数字的内容
num = re.sub(r'\D', "", phone)
print ("电话号码 : ", num)

电话号码 :  2004-959-559 
电话号码 :  2004959559


In [6]:
# 将匹配的数字乘于 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

A46G8HFD1134


## re.compile

compile函数用于编译正则表达式,生成一个正则表达式(Pattern)对象,供match()和search()这两个函数使用。
`re.compile(pattern[, flags])`
+ pattern : 一个字符串形式的正则表达式
+ flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
  + re.I 忽略大小写
  + re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
  + re.M 多行模式
  + re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符）
  + re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
  + re.X 为了增加可读性，忽略空格和' # '后面的注释

In [7]:
pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
m = pattern.match('one12twothree34four')        # 查找头部，没有匹配
print("从头部开始匹配",m)
m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配
print(m)                                       # 返回一个 Match 对象
print(m.group())

从头部开始匹配 None
<re.Match object; span=(3, 5), match='12'>
12


## re.findall()
在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

`re.findall(string[, pos[, endpos]])`
+ string 待匹配的字符串。
+ pos 可选参数，指定字符串的起始位置，默认为 0。
+ endpos 可选参数，指定字符串的结束位置，默认为字符串的长度。

In [8]:
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
 
print(result1)
print(result2)

['123', '456']
['88', '12']


## re.finditer()
和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。


In [9]:
it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )

12
32
43
3


## re.split
split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

`re.split(pattern, string[, maxsplit=0, flags=0])`
+ pattern	匹配的正则表达式
+ string	要匹配的字符串。
+ maxsplit	分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。
+ flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

In [10]:
re.split('\W+', 'runoob, runoob, runoob.')

['runoob', 'runoob', 'runoob', '']

当匹配成功时返回一个 Match 对象，其中：

+ group(\[group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
+ start(\[group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
+ end(\[group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
+ span(\[group]) 方法返回 (start(group), end(group))。


| 模式         | 描述                                                         |
| :----------- | :----------------------------------------------------------- |
| ^            | 匹配字符串的开头                                             |
| $            | 匹配字符串的末尾。                                           |
| .        | 匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。 |
| \[...]        | 用来表示一组字符,单独列出：\[amk] 匹配 'a'，'m'或'k'          |
|\[^...]       | 不在[]中的字符：\[^abc] 匹配除了a,b,c之外的字符。             |
| re*          | 匹配0个或多个的表达式。                                      |
| re+          | 匹配1个或多个的表达式。                                      |
| re?          | 匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式         |
| re{ n}     | 匹配n个前面表达式。例如，"o{2}"不能匹配"Bob"中的"o"，但是能匹配"food"中的两个o。 |
| re{ n,}      | 精确匹配n个前面表达式。例如，"o{2,}"不能匹配"Bob"中的"o"，但能匹配"foooood"中的所有o。"o{1,}"等价于"o+"。"o{0,}"则等价于"o*"。 |
| re{ n, m}    | 匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式         |
| a\| b        | 匹配a或b                                                     |
| (re)         | 匹配括号内的表达式，也表示一个组                             |
| (?imx)       | 正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。 |
| (?-imx)      | 正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。     |
| (?: re)      | 类似 (...), 但是不表示一个组                                 |
| (?imx: re)   | 在括号中使用i, m, 或 x 可选标志                              |
| (?-imx: re)  | 在括号中不使用i, m, 或 x 可选标志                            |
| (?#...)      | 注释.                                                        |
| (?= re)      | 前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。 |
| (?! re)      | 前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功。 |
| (?> re)      | 匹配的独立模式，省去回溯。                                   |
| \w           | 匹配数字字母下划线                                           |
| \W           | 匹配非数字字母下划线                                         |
| \s           | 匹配任意空白字符，等价于 \[\t\n\r\f]。                        |
| \S           | 匹配任意非空字符                                             |
| \d           | 匹配任意数字，等价于 \[0-9]。                                 |
| \D           | 匹配任意非数字                                               |
| \A           | 匹配字符串开始                                               |
| \Z           | 匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。 |
| \z           | 匹配字符串结束                                               |
| \G           | 匹配最后匹配完成的位置。                                     |
| \b           | 匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。 |
| \B           | 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。 |
| \n, \t, 等。 | 匹配一个换行符。匹配一个制表符, 等                           |
| \1...\9      | 匹配第n个分组的内容。                                        |
| \10          | 匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。 |


|实例|	描述|
|:---|:---|
|\[Pp]ython|	匹配 "Python" 或 "python"|
|rub\[ye]|	匹配 "ruby" 或 "rube"|
|\[aeiou]|	匹配中括号内的任意一个字母|
|\[0-9]|	匹配任何数字。类似于 \[0123456789]|
|\[a-z]|	匹配任何小写字母|
|\[A-Z]|	匹配任何大写字母|
|\[a-zA-Z0-9]|	匹配任何字母及数字|
|\[^aeiou]|	除了aeiou字母以外的所有字符|
|\[^0-9]	|匹配除了数字外的字符|
| .   | 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象\[.\n]的模式。 |
| \d   | 匹配一个数字字符。等价于\[0-9]。                             |
| \D   | 匹配一个非数字字符。等价于\[^0-9]。                          |
| \s   | 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 \[\f\n\r\t\v]。 |
| \S   | 匹配任何非空白字符。等价于\[^\f\n\r\t\v]。                  |
| \w   | 匹配包括下划线的任何单词字符。等价于\[A-Za-z0-9_]。         |
| \W   | 匹配任何非单词字符。等价于\[^A-Za-z0-9_]。                 |