# Regular Expression  (正则表达式)

- [Python Docs-Regular Expression HOWTO](https://docs.python.org/2.7/howto/regex.html)
- [Python正则表达式操作指南(该链接已经失效)](http://wiki.ubuntu.org.cn/Python%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%93%8D%E4%BD%9C%E6%8C%87%E5%8D%97)
- [Python正则表达式操作指南](http://www.cdadata.com/4231)
- 正则表达式（或 RE）是一种小型的、高度专业化的编程语言，它内嵌在Python中，并通过 re 模块实现。
    - 有关正则表达式底层的计算机科学上的详细解释（**确定性和非确定性有限自动机**），你可以查阅编写编译器相关的任何教科书。
- 以下是一个元字符的完整列表
    - [], 用来指定字符类别，字符类别是你想匹配的一个字符集。```[akm$]```，注：在字符类别里，$的特性消失，恢复成普通字符
    -  `*`，前一个字符可以被匹配零次或更多次，而不是只有一次，因此`*`是“贪婪的”。
    - +，表示匹配一或更多次
    -  ?， 匹配一次或零次
    - `{m,n}`，注意m,n之间不能有空格。默认下边界为0，上边界为无穷大。
    - `*` 相当于 `{0,}`, `+ `相当于 `{1,}`, `?` 相当于 `{0,1}`
    

```
. ^ $ * + ? { [ ] \ | ( )

```

|特殊字符 |	描述 |
|:----------:|:-------------|------:|
|. | 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符： '[.\n]'
|\d  |匹配任何十进制数； [0-9]
|\D  |匹配任何非数字字符； [^0-9]
|\s  |匹配任何空白字符； [ \t\n\r\f\v]
|\S  |匹配任何非空白字符； [^ \t\n\r\f\v]
|\w  |匹配任何字母数字字符； [a-zA-Z0-9_]
|\W  |匹配任何非字母数字字符； [^a-zA-Z0-9_]

## Python正则表达式操作指南

- [Python 正则表达式-菜鸟教程](http://www.runoob.com/python/python-reg-expressions.html)
- 正则表达式被编译成RegexObject实例，可以为不同的操作提供方法
- 使用Python的raw字符串表示，解决反斜杠的麻烦。在字符串前加r，反斜杠就不会被任何特殊方式处理。
- RegexObject实例有一些方法**[Python的面向对象的特点]**和属性

|RegexObject方法 |	作用 |
|:----------:|:-------------|------:|
|match()| 	决定 RE 是否在字符串刚开始的位置匹配
|search() | 扫描字符串，找到这个 RE 匹配的位置
|findall()  | 找到 RE 匹配的所有子串，并把它们作为一个列表返回
|finditer()  | 找到 RE 匹配的所有子串，并把它们作为一个迭代器返回

- match() & search()
    - 匹配失败，返回None。
    - 匹配成功，返回一个MatchObject实例，包括匹配的开始/结束位置以及匹配的子串等信息
    - 在实际程序中，最常见的作法是将 `MatchObject` 保存在一个变量里，然后检查它是否为 None
- MatchObject实例的几个方法和属性

|方法 |	作用 |
|:----------:|:-------------|------:|
|group()| 	返回被RE匹配的字符串
|start() | 返回匹配开始的位置
|end()  | 返回匹配结束的位置
|span()  | 返回一个元组包含匹配开始和结束的位置

- 编译标志

|标志 | 单词 | 含义 |
|:---:|:------:|:------|
|I| IGNORECASE | 使匹配对大小写不敏感，[A-Z]也可以匹配小写字母
|L | LOCALE | 影响\w,\W,\b和\B等本地化识别匹配，这取决于当前的本地化设置
|M  | MULTILINE | 多行匹配，影响^和$
|S | DOTALL | 使 . 匹配包括换行在内的所有字符
|X | VERBOSE | 暂时不懂

### re.match
- 从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，返回None
- re.match(pattern, string, flags=0)
- 可以使用group(num)或groups
- group()    匹配的整个表达式的字符串

|方法 |	作用 |
|:----------:|:-------------|------:|
|group() |	返回被 RE 匹配的字符串 |
|start() |	返回匹配开始的位置 |
|end()	| 返回匹配结束的位置 |
|span()	| 返回一个元组包含匹配 (开始,结束) 的位置 |

In [15]:
import re
m = re.match('www', 'www.runoob.com')
print(m.group())
print m.start(), m.end()
print(m.span())

print(re.match('com', 'www.runoob.com'))  

www
0 3
(0, 3)
None


### re.search
- 扫描整个字符串，并返回第一个成功匹配的对象，否则返回None

In [16]:
m = re.search('www', 'www.runoob.com')
print(m.group())
print m.start(), m.end()
print(m.span())

print(re.search('com', 'www.runoob.com')) 
print(re.search('com', 'www.runoob.com').group()) 

www
0 3
(0, 3)
<_sre.SRE_Match object at 0x7f3b0041c578>
com


### re.sub

```
re.sub(pattern, repl, string, count=0, flags=0)
```
- 用于替换字符串中的匹配项
- repl : 替换的字符串，也可为一个函数
`

In [17]:
phone = "2004-959-559 # 这是一个国外电话号码"
 
# 删除字符串中的 Python注释 
num = re.sub(r'#.*$', "", phone)
print "电话号码是: ", num
 
# 删除非数字(-)的字符串 
num = re.sub(r"\D", "", phone)
print "电话号码是 : ", num

电话号码是:  2004-959-559 
电话号码是 :  2004959559


### re.compile

```
re.compile(pattern[, flags])
```
- 编译正则表达式，生成一个正则表达式Pattern对象，供match()和search()两个函数使用


In [18]:
pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)    # re.I 表示忽略大小写
m = pattern.match('Hello World Wide Web')
print m.group(0)  # 返回匹配成功的整个子串
print m.span(0)   # 返回匹配成功的整个子串的索引
print m.groups()  # 等价于 (m.group(1), m.group(2), ...), 第一个和第二个分组匹配成功的子串
print "m.group(1):", m.group(1)
print "m.group(2):", m.group(2)

Hello World
(0, 11)
('Hello', 'World')
m.group(1): Hello
m.group(2): World


### findall

```
pattern.findall(string[, pos[, endpos]])
re.findall(pattern, string ,flag=0)

```
- 找到匹配的所有子串，并返回一个列表。如果没有找到匹配的，则返回空列表
- 与match/search的区别是：match/search只匹配一次，findall匹配所有的

### finditer

- 与findall类似，但返回的是一个迭代器


In [19]:
pattern = re.compile(r'\d+')  # 查找数字
rst1 = pattern.findall('abc 123 456 mnt 666')
print rst1
rst1 = pattern.findall('abc 我')
print rst1

['123', '456', '666']
[]


In [20]:
m = re.finditer(r'\d+', 'abc 123 456 mnt 666')
for item in m:
    print(item.group())
    

123
456
666


In [21]:
print(re.split('\W+', 'runoob, runoob, runoob.'))  # 非字母数字字符，作为分隔符
# 找不到匹配的字符串，则不会对字符串分割。其中下划线也属于[字母数字字符]
print(re.split('\W+', 'runoob_runoob_runoob'))  

['runoob', 'runoob', 'runoob', '']
['runoob_runoob_runoob']


In [22]:
# example & notes
import re
line = "Cats are smarter than dogs"
# 正则表达式中的空格和模式很重要，Details count
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
if matchObj:
    print "matchObj.group() : ", matchObj.group()
    print "matchObj.group(1) : ", matchObj.group(1)
    print "matchObj.group(2) : ", matchObj.group(2)
else:
    print "No match!!"

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter


```r'(.*) are (.*?) .*'```
- 前面的一个 r 表示字符串为非转义的原始字符串，让编译器忽略反斜杠
- `(.*)` 第一个匹配分组，`.*` 代表匹配除换行符之外的所有字符
- `(.*?)` 第二个匹配分组，`.*?` 后面多个问号，代表非贪婪模式，也就是说只匹配符合条件的最少字符
- 后面的一个 `.*` 没有括号包围，所以不是分组，匹配效果和第一个一样，但是不计入匹配结果中。

### 分组
- 组是通过 "(" 和 ")" 元字符来标识的。 "(" 和 ")" 有很多在数学表达式中相同的意思；它们一起把在它们里面的表达式组成一组。
- 组可以被嵌套。小组是从左向右计数的，从1开始，按照括号数来确定。
- 扩展语法。用来解决的问题是：追踪组号比较困难
    - `(?P<name>...)` 定义一个命名组，`(?P=name)` 则是对命名组的逆向引用。
    - 无捕获组 `(?:...)`,对组的内容不感兴趣


In [23]:
p = re.compile('(ab)*')
print p.match('abababc').group(0)

ababab


In [24]:
p = re.compile('(a(b)c)d')
m = p.match('abcd')
print m.group(0)
print m.group(1)
print m.group(2)

abcd
abc
b


In [25]:
# 逆向引用，允许指定先前捕获组的内容
p = re.compile(r'(\b\w+)\s+\1')
print p.search('Paris in the the spring').group()

the the


In [26]:
# 无捕获组
m = re.match(r"([abc]+)", "abc")  # +号在命名组内
print m.group()
print m.groups()

m = re.match(r"([abc])+", "abc")  # +号在命名组外
print m.group()
print m.groups()

m = re.match("(?:[abc])+", "abc")
print m.group()
print m.groups()

abc
('abc',)
abc
('c',)
abc
()


In [27]:
p = re.compile(r'(?P<word>\b\w+\b)')
m = p.search( '(((( Lots of punctuation )))' )
print m.group(0)
print m.group('word')

m = p.findall( '(((( Lots of punctuation )))' )
print m

p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
print p.search('Paris in the the spring').group()

Lots
Lots
['Lots', 'of', 'punctuation']
the the


In [28]:
#前向界定符