# Regular Expression  (正则表达式)
------

### 参考资料
- [正则表达式必知必会（修订版）](https://book.douban.com/subject/26285406/)  
- [Python Docs-Regular Expression HOWTO](https://docs.python.org/2.7/howto/regex.html)

### Tips
- 把必须匹配的情况考虑周全并写出一个匹配结果符合预期的正则表达式很容易，但把不需要匹配的情况也考虑周全并确保它们都被排除在匹配结果以外，往往要困难得多。
- 元字符包括： `.  *  ?  +  \  |  ^  $  {  }  [  ]  (  ) `
- 学习正则表达式的关键是： 实践、实践、再实践!


------
### 第1章 正则表达式入门
正则表达式(regular expression, 简称regex)是一些用来匹配和处理文本的**字符串**，有特定的语法和指令。  
正则表达式的用途：搜索 & 替换，是文本处理方面功能最强大的工具之一。  
- 人们常用模式（pattern）表示实际的正则表达式。
- 对正则表达式的测试是有技巧的，一方面，验证某个模式有预期的匹配结果，另一方面，验证不会匹配到不想要的东西，相对更难一些。

#### Tips
正则表达式起源于20世纪50年代在数学领域的一些研究工作。几年后，计算机领域借鉴那些研究成果和思路，开发出了Unix中的Perl语言和grep等工具。  

------
### 第2章 匹配单个字符
正则表达式是区分字母大小写的。  
- `"."` 字符可以**匹配任意一个字符**（换行符之外）。  
- `"\"` 是一个元字符，meta character，表示"这个字符有特殊含义，不是字符本身的含义"。 用来**匹配特殊字符**。

如果要匹配`"."`字符本身(而不是在正则表达式中的特殊含义)，需要用反斜杠对其转义： `"\."`


------
### 第3章 匹配一组字符 
- 用元字符`"["`和`"]"`定义一个字符集合。用来**匹配多个字符中的某一个**。  
- **字符集合区间**, 比如字母和数字区间： `"[a-z]"`， `"[0-9]"`， `"[a-zA-Z0-9]"`
- **取非匹配**, 元字符`"^"`。"^"将作用于字符集合里的所有字符，而不仅限于紧跟在^字符后的那一个字符。

#### Tips
连字符"-"， 是一个特殊的元字符，只有在"[" 和 "]"之间时是元字符，在其他地方只是一个普通字符，不需要转义。


### 以下列出了第2~3章，书中出现的所有正则表达式(模式)

In [1]:
## 测试文本
#coding:utf-8
import io
with io.open("./test/single.txt") as fin:
    testlst = fin.readlines()
    for i in range(len(testlst)):
        testlst[i] = testlst[i].strip("\n")
        print testlst[i]

sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
na1.xls
na2.xls
sa1.xls
ca1.xls



In [2]:
## 第2～3章，所有的模式
## 第2章， 匹配单个字符
# 2.1 匹配纯文本
'''
Ben
my
'''
## 2.2 匹配任意字符，  2.3 匹配特殊字符
'''
sales.
.a.
.a..
.a.\.xls
'''
## example
pattern = "sales."  #匹配任意字符
result = ["sales1", "sales2", "sales3"]
pattern = ".a.\.xls"  #匹配特殊字符
result = ["na1.xls", "na2.xls", "sa1.xls", "ca1.xls"]

## 第3章， 匹配一组字符
# 3.1 匹配多个字符中的某一个
'''
[ns]a.\.xls
[Rr]eg[Ee]x
'''
# 3.2 利用字符集合区间
'''
[ns]a[0123456789]\.xls
[ns]a[0-9]\.xls
#[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f]
'''
# 3.3 取非匹配
'''
[ns]a[^0-9]\.xls
'''
# example
pattern = "[ns]a.\.xls"  #匹配多个字符中的某一个
result = ["na1.xls", "na2.xls", "sa1.xls"]

### 小结
从第2章、第3章的内容，可以看出来作者写这本书的思路和用心之处。
- 并非从知识点出发，而是从需求/用途出发，讲解解决方法对应的知识点，循序渐进，实践为本
- 不需要从一开始就记住不理解的语法，而是Learn by doing/solving

------
### 第4章 使用元字符
- **对特殊字符进行转义**，用反斜杠"\"对元字符转义  
**反斜杠本身也是元字符，匹配其本身时，也需要对其转义： `"\\"`。 在一个完整的正则表达式里，字符"\"的后面永远跟着一个字符，否则正则表达式不完整，会报错。**  

**元字符包括： . * ? +  \ | ^ $ { } [ ] ( ) **  

- **匹配空白字符**  

|字符|说明|
|:----------:|:-------------|
|\r|回车符|
|\n|换行符|
|\t|制表符|
|\f|换页符|
|\v|垂直制表符|

- **匹配特定的字符类别**， 比如：数字、字母、空白字符等

|特殊字符 |	描述 |
|:----------:|:-------------|------:|
|. | 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符： '[.\n]'
|\d  |匹配任何十进制数； [0-9]
|\D  |匹配任何非数字字符； [^0-9]
|\s  |匹配任何空白字符； [ \t\n\r\f\v]
|\S  |匹配任何非空白字符； [^\t\n\r\f\v]
|\w  |匹配任何字母数字字符； [a-zA-Z0-9_]
|\W  |匹配任何非字母数字字符； [^a-zA-Z0-9_]


In [3]:
# 第4章 使用元字符
# 4.1 对特殊字符进行转义
'''
myArray[0]
myArray\[0\]
myArray\[[0-9]\]
\\
'''
# 4.2 匹配空白字符
'''
# 注：\r\n是Windows文本行的结束标签，\r\n\r\n匹配两行之间的空白行
\r\n\r\n
# 注：\n是Linux文本行的结束标签
\n\n
'''
# 4.3 匹配特定的字符类别
'''
myArray\[[\d]\]
\w\d\w\d\w\d
'''
pattern ="myArray[0]"

------
### 第5章 重复匹配
- 有多少个匹配  
  - **`+`， 匹配一个或多个字符**, 贪婪型
  - **`*`， 匹配零个或多个字符**, 即*字符前面的字符或字符集合是可选的， 贪婪型
  - **`?`， 匹配零个或一个字符**, 相当于{0, 1}
- **匹配的重复次数， {}**， 控制重复次数
  - 设定一个精确的值， {3}
  - 设定一个区间，最大值和最小值， {2, 4}， {0, 3}
  - 至少重复多少次， {3,}
- 懒惰型， 防止过度匹配
  - `*` → `*?`
  - `+` → `+?`

#### Tips
- "a+"， 一个或多个连续出现的a
- `"[\w.]"`和`"[\w\.]"`是一样的。当"."或者"+"这样的元字符出现在字符集合里的时候，被认为是普通字符，不需要转义。


In [4]:
## 第5章 重复匹配
# 5.1 有多少个匹配
'''
\w+@\w+\.\w+
[\w.]+@[\w.]+\.\w+
\w+[\w.]*@[\w.]+\.\w+
http://[\w./]+
# https http这两种情况均可以匹配，同时不会匹配到httpsss
https?://[\w./]+
# 兼容Windows和Linux
[\r]?\n[\r]?\n
'''
# 5.2 匹配的重复次数
'''
#[0-9A-Fa-f]{6}
# 日期格式， 4/8/02, 10-6-2004, \/是/的转义
\d{1,2}[-\/]\d{1,2}[-\/]\d{2,4}
\d+: \$\d{3,}\.\d{2}
'''
# 5.3 防止过度匹配
'''
<[Bb]>.*</[Bb]>
<[Bb]>.*?</[Bb]>

'''
pattern = "#[0-9A-Fa-f]{6}"

------
### 第6章 位置匹配
位置匹配用来解决在什么地方进行匹配操作的问题。 比如想匹配"cat"， 但不想匹配"scatter"。
- 边界
- **单词边界，限定符`"\b"`**，匹配一个单词的开始和结尾。b是英文boundary的首字母  
"\b"匹配且只匹配一个位置，不匹配任何字符
- **字符串边界,`"^"`表示字符串开头， `"$"`表示字符串结尾**
- 分行匹配模式， `"(?m)"`

In [5]:
## 第6章 位置匹配
# 6.2 单词边界
'''
\bcat\b
\bcap
cap\b
'''
# 6.3 字符串边界
'''
<\?xml.*\?>
^\s*<\?xml.*\?>
</[Hh][Tt][Mm][Ll]>\s*$
# 匹配空行
^.*$
# 匹配注释行
（?m）^\s*//.*$
'''
pattern = "\bcat\b"

------
### 第7章 使用子表达式

#### 什么是子表达式？
前面几章提到的+、?、{2}、`*`等表示重复的元字符，只能作用于紧挨着它的前一个字符。  
子表达式， subexpression， 一个更大的表达式的一部分， 从而把子表达式当做一个独立元素来使用。  
- **子表达式必须用小括号括起来： (subexpression)**  
- 子表达式的嵌套  
子表达式允许多重嵌套

In [6]:
## 第7章 使用子表达式
# 7.2 子表达式
'''
# HTML文档中的非换行型空格(non-breaking space)
&nbsp；{2，}
(&nbsp；){2，}
\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}
(\d{1,3}\.){3}\d{1,3}
19|20\d{2}
(19|20)\d{2}
'''
pattern = "(19|20)\d{2}"

------
### 第8章 回溯引用： 前后一致匹配
子表达式的另一个重要用途： 回溯引用(backreference)
#### 回溯引用有什么用
需求： HTML页面中的标题文字 `<H1>...</H1>`，其中数字1可以同时修改为其它数字，但必须是相同的数字。  
`pattern = "<[hH][1-6]>.*?</[hH][1-6]>"`,将会匹配到错误格式的内容：`<H2>...</H3>`。  
可以看出，上述标题中的数字不相同。  
**回溯引用允许正则表达式模式引用前面的匹配结果。**
- 回溯引用匹配  
**可以把回溯引用想象成变量。 回溯引用指的是： 模式的后半部分引用在前半部分中定义的子表达式**。
- 例子， 正则表达式: `[ ]+(\w+)[ ]+\1`
 - `\w+` 匹配一个或多个字母数字下划线字符，等价于[a-zA-Z0-9_]+
 - (\w+) 是一个子表达式，这个子表达式不是用来进行重复匹配的，只是把整个模式的一部分单独划分出来以便在后面引用
 - **\1 到底代表什么，它代表着模式里的第一个子表达式**，\2代表着模式里的第二个子表达式，\3代表着模式里的第三个子表达式；以此类推。
 - `[ ]+(\w+)[ ]+\1`将匹配同一个单词的连续两次重复出现， 比如： `" of of"`、`" are are"`
- 回溯引用的一个不足是依赖位置的顺序，如果相对位置发生变化或者添加、删除子表达式，之前的模式将会出问题。  
一种新的实现 **命名捕获** 可以弥补这一点。命名捕获， named capture， 即给某个子表达式起一个唯一的名字，然后用这个名字（而不是相对位置）来引用这个表达式。这本书没有对此进行讨论。
- 回溯引用在替换操作中的应用  
替换操作需要用到两个正则表达式，一个用来搜索，一个用来替换，回溯引用可以跨模式引用。  

#### 小结
子表达式，除了可以用在重复匹配操作之外，还可以在模式的内部被引用，即回溯引用。回溯引用在文本匹配和替换操作里非常有用。

In [7]:
## 第8章 回溯引用： 前后一致匹配
# 8.1 回溯引用有什么用
'''
<[hH]1>.*</[hH]1>
<[hH][1-6]>.*?</[hH][1-6]>
'''
# 8.2 回溯引用匹配
'''
# 匹配单词重复两次的文本
[ ]+(\w+)[ ]+\1
# 解决上述的HTML标题匹配问题
<[hH]([1-6])>.*?</[hH]\1>
'''
# 8.3 回溯引用在替换操作中的应用
# 引用整个匹配到的字符串
pattern = "(\w+[\w\.]*@[\w\.]+\.\w+)"
sub = '<A HREF="mailto:\1"<\1</A'

------
### 第9章 前后查找
前后查找，lookaround，对某一位置的前、后内容进行查找。可以利用子表达式来指定匹配操作的位置，并起到只匹配不消费的效果。  
前面提到了HTML页面中的标题，`<H1>...</H1>`，如果我们想匹配标题内容，而不包含标记内容`<H1>`、`</H1>`，应该怎么做呢？  
**思路：模式包含的匹配本身并不返回，而是用来确定正确的匹配位置。**
- **向前查找, `(?=)`**, 需要匹配的文本跟着`=`的后面  
在向前查找中，被匹配的文本不包含在最终返回的匹配结构里。  
与之对应的取非操作： **负向前查找， `(?!)`**
- **向后查找， `(?<=)`**  
与之对应的取非操作： **负向后查找， `(?<!)`**
- 向前查找+向后查找，两者结合

In [8]:
## 第9章 前后查找
# 9.2 向前查找
'''
.+(?=:)
.+（：）
'''
# 9.3 向后查找
'''
\$[0-9.]+
(?<=\$)[0-9.]+
(?<=<H1>).*(?=</H1>)
'''
# 9.5 对前后查找取非
'''
(?<=\$)\d+
\b(?<!\$)\d+\b
'''
pattern = "(?<=\$)\d+"

------
### 第10章 嵌入条件
pass

------
### 附录B 常见问题的正则表达式解决方案
可参考书中内容。具体问题具体分析～


(完）