# Regular Expression  (正则表达式)
------

### 参考资料
- [正则表达式必知必会（修订版）](https://book.douban.com/subject/26285406/)  
- [Python Docs-Regular Expression HOWTO](https://docs.python.org/2.7/howto/regex.html)


------
### 第1章 正则表达式入门
正则表达式(regular expression, 简称regex)是一些用来匹配和处理文本的**字符串**，有特定的语法和指令。  
正则表达式的用途：搜索 & 替换，是文本处理方面功能最强大的工具之一。  
- 人们常用模式（pattern）表示实际的正则表达式。
- 对正则表达式的测试是有技巧的，一方面，验证某个模式有预期的匹配结果，另一方面，验证不会匹配到不想要的东西，相对更难一些。

#### Tips
正则表达式起源于20世纪50年代在数学领域的一些研究工作。几年后，计算机领域借鉴那些研究成果和思路，开发出了Unix中的Perl语言和grep等工具。  

------
### 第2章 匹配单个字符
正则表达式是区分字母大小写的。  
- `"."` 字符可以**匹配任意一个字符**（换行符之外）。  
- `"\"` 是一个元字符，meta character，表示"这个字符有特殊含义，不是字符本身的含义"。 用来**匹配特殊字符**。

如果要匹配`"."`字符本身(而不是在正则表达式中的特殊含义)，需要用反斜杠对其转义： `"\."`


------
### 第3章 匹配一组字符 
- 用元字符`"["`和`"]"`定义一个字符集合。用来**匹配多个字符中的某一个**。  
- **字符集合区间**, 比如字母和数字区间： `"[a-z]"`， `"[0-9]"`， `"[a-zA-Z0-9]"`
- **取非匹配**, 元字符`"^"`。"^"将作用于字符集合里的所有字符，而不仅限于紧跟在^字符后的那一个字符。

Tips： 连字符"-"， 是一个特殊的元字符，只有在"[" 和 "]"之间时是元字符，在其他地方只是一个普通字符，不需要转义。


### 以下列出了第2~3章，书中出现的所有正则表达式(模式)

In [22]:
## 测试文本
#coding:utf-8
import io
with io.open("./test/single.txt") as fin:
    testlst = fin.readlines()
    for i in range(len(testlst)):
        testlst[i] = testlst[i].strip("\n")
        print testlst[i]

sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
na1.xls
na2.xls
sa1.xls
ca1.xls



In [23]:
## 第2～3章，所有的模式
## 第2章， 匹配单个字符
# 2.1 匹配纯文本
'''
Ben
my
'''
## 2.2 匹配任意字符，  2.3 匹配特殊字符
'''
sales.
.a.
.a..
.a.\.xls
'''
## example
pattern = "sales."  #匹配任意字符
result = ["sales1", "sales2", "sales3"]
pattern = ".a.\.xls"  #匹配特殊字符
result = ["na1.xls", "na2.xls", "sa1.xls", "ca1.xls"]

## 第3章， 匹配一组字符
# 3.1 匹配多个字符中的某一个
'''
[ns]a.\.xls
[Rr]eg[Ee]x
'''
# 3.2 利用字符集合区间
'''
[ns]a[0123456789]\.xls
[ns]a[0-9]\.xls
#[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f]
'''
# 3.3 取非匹配
'''
[ns]a[^0-9]\.xls
'''
# example
pattern = "[ns]a.\.xls"  #匹配多个字符中的某一个
result = ["na1.xls", "na2.xls", "sa1.xls"]

### 小结
从第2章、第3章的内容，可以看出来作者写这本书的思路和用心之处。
- 并非从知识点出发，而是从需求/用途出发，讲解解决方法对应的知识点，循序渐进，实践为本
- 不需要从一开始就记住不理解的语法，而是Learn by doing/solving

------
### 第4章 使用元字符
- **对特殊字符进行转义**，用反斜杠"\"对元字符转义  
**反斜杠本身也是元字符，匹配其本身时，也需要对其转义： `"\\"`。 在一个完整的正则表达式里，字符"\"的后面永远跟着一个字符，否则正则表达式不完整，会报错。**
- **匹配空白字符**  

|字符|说明|
|:----------:|:-------------|
|\r|回车符|
|\n|换行符|
|\t|制表符|
|\f|换页符|
|\v|垂直制表符|

- **匹配特定的字符类别**， 比如：数字、字母、空白字符等

|特殊字符 |	描述 |
|:----------:|:-------------|------:|
|. | 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符： '[.\n]'
|\d  |匹配任何十进制数； [0-9]
|\D  |匹配任何非数字字符； [^0-9]
|\s  |匹配任何空白字符； [ \t\n\r\f\v]
|\S  |匹配任何非空白字符； [^\t\n\r\f\v]
|\w  |匹配任何字母数字字符； [a-zA-Z0-9_]
|\W  |匹配任何非字母数字字符； [^a-zA-Z0-9_]


In [36]:
# 第4章 使用元字符
# 4.1 对特殊字符进行转义
'''
myArray[0]
myArray\[0\]
myArray\[[0-9]\]
\\
'''
# 4.2 匹配空白字符
'''
# 注：\r\n是Windows文本行的结束标签，\r\n\r\n匹配两行之间的空白行
\r\n\r\n
# 注：\n是Linux文本行的结束标签
\n\n
'''
# 4.3 匹配特定的字符类别
'''
myArray\[[\d]\]
\w\d\w\d\w\d
'''
pattern ="myArray[0]"

### 第5章 重复匹配
