### 案例研究：街道地址

In [3]:
s = '100 NORTH MAIN ROAD'

In [5]:
s.replace('ROAD', 'RD.')

'100 NORTH MAIN RD.'

In [15]:
s = '100 NORTH BROAD ROAD' # 两个ROAD，繁琐

In [14]:
s[:-4]+s[-4:].replace('ROAD', 'RD.') # 果然繁琐

'100 NORTH BROAD RD.'

In [2]:
import re

In [17]:
re.sub('ROAD$', 'RD.', s) 
# $表示字符串结尾。匹配‘ROAD’仅仅出现在字符串结尾
# ^匹配字符串开始

'100 NORTH BROAD RD.'

In [41]:
s = '100 BROAD'

In [42]:
re.sub('ROAD$', 'RD.', s)

'100 BRD.'

In [59]:
s = '100 B ROAD'

In [60]:
re.sub('\\bROAD$', 'RD.', s) # \b的意思是“在右（应该是左）边必须有一个分隔符”

'100 B RD.'

In [4]:
s = '100 BROAD'

In [5]:
re.sub(r'\bROAD$', 'RD.', s) # 原始字符串r（代表接下来的字符串中，没有任何字符需要转义）
# ROAD左边没有分隔符（即不是单独的单词） 重

'100 BROAD'

In [83]:
# ROAD 不是单词结尾了，$不再能够直接使用
s = '100 BROAD ROAD APT. 3'

In [78]:
re.sub(r'\bROAD', 'RD.', s) # Got it

'100 BROAD RD. APT. 3'

In [80]:
s = '100 BROAD ROAD APT. 3'

In [81]:
re.sub(r'\bROAD\b', 'RD.', s) # Can do, too


'100 BROAD RD. APT. 3'

### 案例研究：罗马数字（略）

### Using The {n,m} Syntax（略）

### 松散正则表达式 Verbose Regular Expressions
------
到目前为止，你只是处理了一些小型的正则表达式。就像你所
看到的，他们难以阅读，甚至你不能保证半年后，你还能理解
这些东西，并指出他们是干什么的。所以你需要在正则表达式
内部添加一些说明信息。

### 将上述紧凑正则表达式改写成松散正则表达式（罗马数字案例） 略

### 案例研究：解析电话号码 Case study: Parsing Phone Numbers
-----
1. \d 匹配所有 0‐9 的数字
2. \D 匹配除了数字外的所有字符.

800‐555‐1212(如果还有分机号那就再加上1234)

In [85]:
phonePattern = re.compile(r'^(\d{3})-(\d{3})-(\d{4})$')

In [87]:
phonePattern.search('800-555-1212').groups()

('800', '555', '1212')

In [91]:
phonePattern.search('800-555-1212-1234').groups()

# 这是为什么你不能在产品代码中链式调用 search()和 groups() 的原因。
# 如果 search()方法匹配不成功，也就是返回 None，
# 这 就不是返回的一个正则表达式匹配对象。
# 它没有 groups()方 法，所以调用 None.groups()将会抛出一个异常。

AttributeError: 'NoneType' object has no attribute 'groups'

In [96]:
phonePattern = re.compile(r'^(\d{3})-(\d{3})-(\d{4})-(\d+)$')
phonePattern.search('800-555-1212-1234').groups() # 问题是不含分机号的又不能查了

('800', '555', '1212', '1234')

In [98]:
phonePattern.search('800 555 1212 1234').groups() # 没有分隔符也不能查了

AttributeError: 'NoneType' object has no attribute 'groups'

 ##### 下面的例子展示了正则表达式中怎么处理电话号码中各个部分之间使用了不同分隔符的情况。

In [100]:
phonePattern = re.compile(r'^(\d{3})\D+(\d{3})\D+(\d{4})\D+(\d+)$')

In [101]:
phonePattern.search('800 555 1212 1234').groups()

('800', '555', '1212', '1234')

In [102]:
phonePattern.search('80055512121234').groups() # Can not, either

AttributeError: 'NoneType' object has no attribute 'groups'

In [105]:
phonePattern.search('800‐555‐1212').groups() # Can not, either

AttributeError: 'NoneType' object has no attribute 'groups'

下面的例子展示用正则表达式处理电话号码没有分隔符的情况。

1. *有（可以多个）或没有 +一个或多个
2.  最后的(\d*) 分机号可以没有

In [109]:
phonePattern = \
re.compile(r'^(\d{3})\D*(\d{3})\D*(\d{4})\D*(\d*)$')

In [110]:
phonePattern.search('80055512121234').groups() # okay

('800', '555', '1212', '1234')

In [111]:
phonePattern.search('800.555.1212 x1234').groups()

('800', '555', '1212', '1234')

In [113]:
phonePattern.search('800‐555‐1212').groups()

('800', '555', '1212', '')

In [116]:
phonePattern.search('(800)5551212 x1234') 
# No way like this- -
# 区域码前还可能有其他字符

下面的例子展示怎么处理电话号码前面还有其他字符的情况。

使用 0 个或更多的非数字字符串来跳过区位码前面的字符(即\D*)

In [117]:
phonePattern = \
re.compile(r'^\D*(\d{3})\D*(\d{3})\D*(\d{4})\D*(\d*)$')

In [118]:
phonePattern.search('(800)5551212 ext. 1234').groups()

('800', '555', '1212', '1234')

In [120]:
phonePattern.search('work 1‐(800) 555.1212 #1234') # No way like this for now

In [121]:
# 像上面这种不明确匹配字符串开始的方法
phonePattern = re.compile(r'(\d{3})\D*(\d{3})\D*(\d{4})\D*(\d*)$')

In [127]:
phonePattern.search('work 1‐(800) 555.1212 #1234').groups() 
# 注意正则表达式没有^。不会再匹配字符串开始位置了。
# 正则表达式不会匹配整个字符串，
# 而是试图找到一个字符串开始匹 配的位置，然后从这个位置开始匹配。

# 可以正确的解析出字符串开头有不需要的字符、数字或者其他分隔符的情况了。

('800', '555', '1212', '1234')

In [125]:
phonePattern.search('800‐555‐1212').groups() # 全面性检查，同样正常工作了。

('800', '555', '1212', '')

In [131]:
phonePattern.search('80055512121234').groups() # It works, too

('800', '555', '1212', '1234')

你看到了最终的答案(这就是最终答案!如果你发现还有它不 能正确处理的情况，我也不想知道了--作者还挺幽默)。在你忘掉它之前，我们来把它改写成松散正则表达式吧。

In [132]:
phonePattern = re.compile(r'''
                # don't match beginning of string, number can start anywhere
    (\d{3})     # area code is 3 digits (e.g. '800')
    \D*         # optional separator is any number of non-digits
    (\d{3})     # trunk is 3 digits (e.g. '555')
    \D*         # optional separator
    (\d{4})     # rest of number is 4 digits (e.g. '1212')
    \D*         # optional separator
    (\d*)       # extension is optional and can be any number of digits
    $           # end of string
    ''', re.VERBOSE)

In [133]:
phonePattern.search('work 1‐(800) 555.1212 #1234').groups()

('800', '555', '1212', '1234')

# 总结
----------
• ^ 匹配字符串开始位置。

• $ 匹配字符串结束位置。

• \b 匹配一个单词边界。

• \d 匹配一个数字。

• \D 匹配一个任意的非数字字符。

• x?匹配可选的 x 字符。换句话说，就是 0 个或者 1 个 x 字
符。

• x*匹配0个或更多的x。

• x+匹配1个或者更多x。

• x{n,m}匹配n到m个x，至少n个，不能超过m个。

• (a|b|c) 匹配单独的任意一个 a 或者 b 或者 c。

• (x) 这是一个组，它会记忆它匹配到的字符串。你可以用

• 补充：[sxz]的意思是：“s、x或z”,只匹配其中之一。


re.search 返回的匹配对象的 groups()函数来获取到匹配的值。