### 正则表达式(Regular Expression)是一种文本模式
包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符" metacharacter）。<br>
正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。

### Python提供re模块，包含所有正则表达式的功能

#### 常用元字符

|代码	|说明|
|-----|----|
|.	|匹配除换行符以外的任意字符|
|\w	|匹配字母或数字或下划线或汉字|
|\s	|匹配任意的空白符|
|\d	|匹配数字|
|\b	|匹配单词的开始或结束|
|^	|匹配字符串的开始|
|$	|匹配字符串的结束|

#### 精确匹配
要做更精确地匹配，可以用[]表示范围，比如：

    [0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线；
    [0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如'a100'，'0_Z'，'Py3000'等等；
    [a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量；
    [a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。
    
    A|B可以匹配A或B，所以(P|p)ython可以匹配'Python'或者'python'。

    ^表示行的开头，^\d表示必须以数字开头。

    $表示行的结束，\d$表示必须以数字结束。

#### 常用限定符

|代码/语法	|说明|
|-----------|----|
|\*	|匹配前面的子表达式重复零次或更多次|
|+	|匹配前面的子表达式重复一次或更多次|
|?	|匹配前面的子表达式重复零次或一次|
|{n}	|匹配前面的子表达式重复n次|
|{n,}	|匹配前面的子表达式重复n次或更多次|
|{n,m}	|匹配前面的子表达式重复n到m次|

### 强烈建议使用Python的r前缀，就不用考虑转义的问题

<br>
#### re模块——匹配字符串

In [1]:
#!use/bin/env python3
# -*- coding: utf-8 -*-

import re

re.match(r'^\d{3}\-\d{3,8}$', '010-12345')# match()方法判断是否匹配，如果匹配成功，返回一个Match对象，否则返回None

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

#### 注:``\d{3,8}``的{}中不能使用空格。
``re.match(r'^\d{3}\-\d{3, 8}$', '010-12345')``<br>
返回None

In [2]:
re.match(r'^\d{3}\-\d{3,8}$', '010 12345')# 匹配失败，返回None

<br>
#### re模块——切分字符串

正则表达式来把不规范的输入转化成正确的数组。

In [3]:
'a b   c'.split(' ')# 无法识别连续的空格

['a', 'b', '', '', 'c']

In [4]:
re.split(r'\s+', 'a b   c')

['a', 'b', 'c']

In [5]:
re.split(r'[\s\,]+', 'a, b,    c')

['a', 'b', 'c']

In [6]:
re.split(r'[\s\,\;]+', 'a;;b,,      c')

['a', 'b', 'c']

<br>
#### re模块——分组
group()提取分组

In [7]:
m = re.match(r'(\d{3})-(\d{3,8})$', '010-12345')# 在正则表达式中加()来表示的就是要提取的分组，例如：(\d{3}) 和 (\d{3,8})
m

<_sre.SRE_Match object; span=(0, 9), match='010-12345'>

In [8]:
m.group(0)# 永远表示字符串本身

'010-12345'

In [9]:
m.group(1)

'010'

In [10]:
m.group(2)

'12345'

<br>
#### re模块——贪婪匹配
正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符

In [11]:
re.match(r'(\d+)(0*)$', '123000').groups()

('123000', '')

由于\d+采用贪婪匹配，直接把后面的0全部匹配了，结果0\*只能匹配空字符串了。<br><br>
加个?就可以让\d+采用非贪婪匹配：

In [12]:
re.match(r'(\d+?)(0*)$', '123000').groups()

('123', '000')

<br>
#### re模块——编译
当我们在Python中使用正则表达式时，re模块内部会干两件事情：

1. 编译正则表达式，如果正则表达式的字符串本身不合法，会报错；
2. 用编译后的正则表达式去匹配字符串。

In [13]:
import re

re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
re_telephone.match('010-12345').groups()

('010', '12345')

In [14]:
re_telephone.match('020-33020').groups()

('020', '33020')

### re模块方法
#### RegexObject 实例的一些常见方法

|方法|说明|参数说明|
|----|----|--------|
|compile(pattern, flag=0)|生成正则表达式对象|pattern描述正则表达式的字符串，flag专门为需要这一项参数提供一个特殊的标示(不重要的细节，下同)|
|math(pattern, string, flag=0)|检查string是否存在一个与pattern匹配的前缀|string目标字符串|
|search(pattern, string, flag=0)|在string里检索与pattern匹配的字符串||
|split(pattern, string, maxsplit=0, flags=0)|以pattern作为分割串将string分割|maxsplit指明最大分割数，默认参数为0，表示处理完整个string|
|findall(pattern, string, flag=0)|找到RE匹配的所有子串，并把它们作为一个列表返回||
|finditer(pattern, string, flag=0)|找到RE匹配的所有子串，并把它们作为一个迭代器返回|如果sting只是常规字符，这种匹配模式的价值不大|

在 re 模块中， re.match 和 re.search 是常用的两个方法：
```
re.match(pattern, string[, flags])
re.search(pattern, string[, flags])
```
如果没有匹配成功的话，match()和search()将返回None。
如果匹配成功的话，就会返回一个'MatchObject'实例。


#### MatchObject 实例方法

|方法|说明|
|----|----|
|group()|返回RE匹配的字符串|
|start()|返回RE匹配开始的位置|
|end()|返回RE匹配结束的位置|
|span()|返回一个元组，包含RE匹配(开始，结束)的位置|