# 正则表达式(regular expression)

In [1]:
import re
source = 'Young Frankenstein'

### 使用match()进行开头准确匹配

In [3]:
m = re.match('You', source)
if m:
    print m.group()

You


In [4]:
m = re.match('^You' source)  # 此处的起始锚点的作用是什么？
if m:
    print m.group()

You


In [5]:
m = re.match('Frank', source)
if m:
    print m.group()

match()只能检测以模式串作为开头的源字符串。

In [6]:
m = re.match('.*Frank', source)
if m:
    print m.group()

Young Frank


.代表任何单一字符。<br>
\*代表任意一个它之前的字符。<br>
.\*代表任意多个字符（包括0个）

### 使用search()寻找首次匹配

In [8]:
m = re.search('Frank', source)
if m:
    print m.group()

Frank


### 使用findall()寻找所有匹配

In [9]:
m = re.findall('n', source)  # findall()返回的是列表
print m 

['n', 'n', 'n', 'n']


将模式改为'n.?',表示n及其紧跟的一个字母,其后的?代表n后面的字符是可有可无的。

In [10]:
m = re.findall('n.', source)
n = re.findall('n.?', source)
print m
print n

['ng', 'nk', 'ns']
['ng', 'nk', 'ns', 'n']


### 使用split()按匹配切分

In [11]:
m = re.split('n', source)
print m

['You', 'g Fra', 'ke', 'stei', '']


### 使用sub()替换匹配

In [12]:
m = re.sub('n', '?', source)  # 返回的是字符串
print m

You?g Fra?ke?stei?


### 模式：特殊的字符

使用 . 代表任意除了 \n 外的字符<br>
使用 * 代表任意多个字符（包括0个）<br>
使用 ? 表示可选字符（0个或1个）<br>
\d 代表一个数字字符<br>
\D 代表一个非数字字符<br>
\w 一个字母或数字字符<br>
\W 一个非字母非数字字符<br>
\s 空白符<br>
\S 非空白符<br>
\b 单词边界（一个 \w 与 \W 之间的范围，顺序可逆）
\B 非单词边界

可以使用python的string模块进行测试

In [14]:
import string
printable = string.printable
print len(printable)
print printable[0:50]
print printable[50:]

100
0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMN
OPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



In [15]:
re.findall('\d', printable)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [17]:
print re.findall('\w', printable)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_']


In [18]:
re.findall('\s', printable)

[' ', '\t', '\n', '\r', '\x0b', '\x0c']

正则表达式也能匹配Unicode字符

### 模式：使用标识符

In [19]:
source = """I wish I may, I wish I might
Have a dish of fish tonight."""

In [20]:
re.findall('wish|fish', source)

['wish', 'wish', 'fish']

In [21]:
re.findall('^wish', source)

[]

In [22]:
re.findall('fish$', source)

[]

^ 和 \$ 叫做锚点(anchor)：\^ 将搜索域定位到源字符串的开头， \$ 则定位到末尾

查询以w或f开头，后面紧跟着ish的匹配：

In [23]:
re.findall('[wf]ish', source)

['wish', 'wish', 'fish']

查询以若干个w、s或h组合的匹配：

In [24]:
re.findall('[wsh]+',source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

查询以ght开头，后面紧跟一个非数字非字母字符的匹配：

In [25]:
re.findall('ght\W', source)

['ght\n', 'ght.']

查询后面紧跟wish的I的匹配：

In [28]:
re.findall('I (?=wish)', source)

['I ', 'I ']

查询以以I开头的wish的匹配：

In [29]:
re.findall('(?<=I) wish', source)

[' wish', ' wish']

有时，正则表达式的语法可能域Python本身的语法冲突。因此，在任何使用正则表达式的地方都急着在模式串的前面添加字符r：

In [30]:
re.findall(r'\bfish', source)

['fish']

In [32]:
re.findall('\bfish', source)  # \b是字符串的退格，
                              # 但在正则表达式中代表一个单词的开头位置

[]

表：模式标识符

|模式|匹配|
|:-------------------------------:|:----------------------------:|
|abc|文本abc|
|(*expr*)|*expr*|
|*expr* 1 竖杠 *expr* 2|*expr* 1 或 *expr* 2|
|.|除\n外的任何字符|
| ^ |源字符串的开头|
|/$|源字符串的结尾|
|*prev*?|0或1个*prev*|
|*prev*\*|0或多个*prev*,尽可能多地匹配|
|*prev*\*?|1个或多个*prev*,尽可能少地匹配|
|*prev*+|1个或多个*prev*，尽可能多地匹配|
|*prev*+?|1个或多个*prev*，尽可能少地匹配|
|*prev*(m)|m个连续地*prev*|
|*prev*(m,n)|m到n个连续的*prev*，尽可能多地匹配|
|*prev*\{m,n\}|m到n个连续的*prev*，尽可能少地匹配|
|[abc]|a或b或c（和a竖杠b竖杠c一样）|
|[^ abc]|非（a或b或c）|
|*prev*(?=*next*)|如果后面为*next*，返回*prev*|
|*prev*(?!*next*)|如果后面非*next，返回*prev*|
|(?<=*prev*)*next*|如果前面为*prev*，返回*nextv*|
|(?<!prev)*next*|如果前面非*prev*，返回*next*|

### 模式：定义匹配地输出

当使用match()或search()时，所有地匹配会以m.group()地形式返回到对象m中。如果你用括号将某一模式包裹起来，括号中模式匹配得到地结果归入自己的group（无名称）中，而调用m.groups()可以得到包含这些匹配地元组：

In [35]:
m = re.search(r'(. dish\b).*(\bfish)', source)
print m.group()
print m.groups()

a dish of fish
('a dish', 'fish')


In [37]:
m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)', source)
print m.group()
print m.groups()
print m.group('DISH')
print m.group('FISH')

a dish of fish
('a dish', 'fish')
a dish
fish
