# python正则表达式

2017.03.26
本段内容参考<http://www.runoob.com/python/python-reg-expressions.html>.\\
re模块从Python 1.5开始，具备全部的正则表达式功能， compile函数根据模式串生成正则表达式对象，该对象有一系列的方法用于正则表达式匹配和替换。re模块也提供与这些功能一致的函数，下面就详细记录一下Python中常用的正则表达式处理函数。
### re.match函数
re.match尝试从字符串起始位置匹配一个模式，如果匹配失败就返回none。
```python
# pattern: 匹配的正则表达式
# string:  待匹配的字符串
# flags:   标志位，用于控制正则表达式的匹配方式，如是否区分大小写、多行匹配等
re.match(pattern, string, flags=0)
# group() # 返回匹配到的整个字符串
# groups() # 返回一个包含所有小组字符串的元组
```
我们可以用group或groups方法来获取匹配到的表达式。关于match函数的几个示例如下：
```python
# 示例 1
import re
print(re.match('www', 'www.biaidu.com').span()) # >> (0, 3)
print(re.match('com', 'www.baidu.com')) # >> None
\end{lstlisting}
\begin{lstlisting}[language={Python}]
# 示例 2
import re
s = 'how are you ?'
mobj = re.match(r'(.*) are (.*?) .*', str, re.M|re.I)
if mobj:
	print 'mobj.group() = ', mobj.group()
	print 'mobj.group(1) = ', mobj.group(1)
	print 'mobj.group(2) = ', mobj.group(2)
	print 'mobj.groups() = ', mobj.groups()
else:
	print 'No match!!'
# >> mobj.group() =  how are you ?
# >> mobj.group(1) =  how
# >> mobj.group(2) =  you
# >> mobj.groups() = ('how', 'you')
```

### re.search函数
re.search函数用扫描整个字符串并返回第一个成功的匹配
```python
# pattern: 匹配的正则表达式
# string:  待匹配的字符串
# flags:   标志位，用于控制正则表达式的匹配方式，如是否区分大小写、多行匹配等
re.search(pattern, string, flags=0)
# group() # 返回匹配到的整个字符串
# groups() # 返回一个包含所有小组字符串的元组
```
关于search函数的几个示例如下：
```python
# 示例 1
import re
print(re.search('www', 'www.biaidu.com').span()) # >> (0, 3)
print(re.search('com', 'www.baidu.com').span()) # >> (10, 13)
\end{lstlisting}
\begin{lstlisting}[language={Python}]
# 示例 2
import re
s = 'how are you ?'
mobj = re.search(r'(.*) are (.*?) .*', s, re.M|re.I)
if mobj:
	print 'mobj.group() = ', mobj.group()
	print 'mobj.group(1) = ', mobj.group(1)
	print 'mobj.group(2) = ', mobj.group(2)
	print 'mobj.groups() = ', mobj.groups()
else:
	print 'No match!!'
# >> mobj.group() =  how are you ?
# >> mobj.group(1) =  how
# >> mobj.group(2) =  you
# >> mobj.groups() = ('how', 'you')
```
match函数与search函数的区别在于：match函数必须从开头开始匹配，欧泽匹配失败返回None; search函数匹配整个字符串直到找到一个匹配。

### re.sub函数
re.sub函数用于替换字符串的匹配项
```python
# pattern: 模式字符串
# repl: 替换成的字符串，也可以为函数
# string: 待查找的原始字符串
# count: 模式匹配后替换的最大次数， 默认为0表示替换全部匹配
re.sub(pattern, repl, string, count=0, flags=0)
```
下面展示几个示例：
```python
# repl 为固定字符串的示例
import re
phone = '029-8266-1100 # 这是西安电话号码'
# 删除注释
num = re.sub(r'#.*$', '', phone)
print 'num = ', num  # >> num =  029-8266-1100
# 删除 '-'
num = re.sub(r'\D', '', num)
print 'num = ', num # >> num =  02982661100
```
```python
# repl 为函数的示例
import re
def double(m):
	value = int(m.group('value'))
	return str(value*2)
s = 'A123B456C'
print re.sub('(?P<value>\d+)', double, s) # >> A246B912C
```

### 可选标志
|      |                                          |
| ---- | ---------------------------------------- |
| re.I | 使匹配对大小写不敏感                               |
| re.L | 做本地化识别匹配                                 |
| re.M | 多行匹配， 影响^和$                              |
| re.S | 使.匹配包括行在内的所有字符                           |
| re.U | 根据Unicode字符集解析字符，影响\w,\W, $\backslash$b, \B |
| re.X | 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解           |



### 正则表达式模式
模式字符串使用特殊的语法来表示一个正则表达式：
字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。
多数字母和数字前加一个反斜杠时会拥有不同的含义。
标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。
反斜杠本身需要使用反斜杠转义。
由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'/t'，等价于'//t')匹配相应的特殊字符。
下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。
             
|                      |                                     |
| -------------------- | ----------------------------------- |
| ^{}                  | 匹配字符串开始                             |
| \$                   | 匹配字符串结束                             |
| .                    | 匹配任意字符串，除了换行符                       |
| $[...]$              | 用于匹配一组字符中的任意一个                      |
| $[\textbf{\^{}}...]$ | 匹配除括号中的字符之外的字符                      |
| *                    | 匹配0个或多个                             |
| +                    | 匹配1个或多个                             |
| ?                    | 匹配0个或1个                             |
| \{n\}                | 匹配n个                                |
| \{n,\}               | 精确匹配前n个                             |
| \{n, m\}             | 匹配n到m个                              |
| a                    | b                                   |
| ()                   | 匹配括号中的表达式                           |
| (?imx)               | 正则表达式包括3个可选标志：i，m或x。只影响括号内的区域       |
| (?-imx)              | 正则表达式关闭3个可选标志：i，m或x。只影响括号内的区域       |
| {?:}                 | 类似(...)，但是不表示1个组                    |
| (?imx:)              | 使用可选标志：i，m或x                        |
| (?-imx:)             | 不使用可选标志：i，m或x                       |
| (?\#...)             | 注释                                  |
| (?=)                 | 前向肯定界定符                             |
| (?!)                 | 前向否定界定符                             |
| (?>)                 | 匹配的独立模式，省去回溯                        |
| \w                   | 匹配字母数字及下划线                          |
| \W                   | 匹配非字母数字及下划线                         |
| \s                   | 匹配任意空白字符                            |
| \S                   | 匹配任意非空白字符                           |
| \d                   | 匹配任意数字                              |
| \D                   | 匹配任意非数字                             |
| \A                   | 匹配字符串开始                             |
| \Z                   | 匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串       |
| \z                   | 匹配字符串结束                             |
| \G                   | 匹配最后匹配完成的位置                         |
| \b                   | 匹配一个单词边界，也就是指单词和空格间的位置              |
| \B                   | 匹配非单词边界                             |
| \n,\t,               | 匹配一个换行符。匹配一个制表符                     |
| \1...\9              | 匹配第n个分组的子表达式                        |
| \10                  | 匹配第n个分组的子表达式，如果它经匹配。否则指的是八进制字符码的表达式 |