### 匹配电话号码
* \d 是一个正则表达式，表示一个数字字符，即任何一位 0 到 9 的数字。
* 在一个模式后加上花括号包围的3 -> {3}就是说，“匹配这个模式3次”
* 向re.compile()传入一个正则表达式字符串，返回一个Regex 对象
* Regex对象的search 方法查找传入的字符串，寻找该正则表达式的所有匹配，如果没有匹配，返回None，如果找到了匹配，返回一个Match对象。match对象有一个group 方法，它返回被查找字符串中实际匹配的文本。

In [21]:
import re

example = "my number is 444-231-4321,and his number is 454-213-8765,and her number is 1111-666-9999"
phoneNumberRegex = re.compile(r'\d{3}-\d{3}-\d{4}')# 传入原始字符串，反斜杠不会被转译
mo = phoneNumberRegex.search(example)
if mo :
    print(mo.group()) #只返回一个匹配结果
else:
    print("没有找到")

444-231-4321


### 添加括号将在正则表达式中创建“分组” ：（\d{3})-(\d{3})-(\d{4}) ->创建了3个分组
* 向 group()传入整数 1 -> 返回第一分组
* 传入0或不传入 ->  返回整个匹配的文本 
* 如果想要一次就获取所有的分组，使用groups()方法，复数形式。
* 括号在正则表达式中有特殊的含义，如果想要匹配括号就需要用反斜杠转译

In [5]:
import re

example = "my number is 444-231-4321,and his number is 454-213-8765,and her number is 1111-666-9999"
phoneNumberRegex = re.compile(r'(\d{3})-(\d{3}-\d{4})')# 分成两组
mo = phoneNumberRegex.search(example)
if mo :
    print(mo.group(1),mo.group(2),mo.group(),sep=';') #分组
    print(mo.groups())  #一次性获取所有的分组，但是也只返回一个匹配的结果
else:
    print("没有找到")

444;231-4321;444-231-4321
('444', '231-4321')


### 使用管道匹配多个分组，作用同"或"

In [6]:
import re
heroRegex = re.compile(r'Batman|Superman')
mo1 = heroRegex.search('Batman and Superman are very good man!')
print(mo1.group())
mo2 = heroRegex.search('Superman and Batman are very nice man!')
print(mo2.group())

Batman
Superman


### 当前缀一样的时候，可以使用括号来分割


In [22]:
import re
manRegex = re.compile(r'(Super|Bat|Iron|Spider)man')
mo = manRegex.search('Spiderman is very cute!')
print(mo.group(),mo.group(1),sep=";")

Spiderman;Spider


### ?   *   +
？是在说，“匹配这个问好之前的分组零次或一次”   * 意味着 “匹配零次或多次”  + 意味着  “匹配1次或多次”
### 使用花括号匹配特定的次数
* (ha){3}  ->  匹配 'hahaha'
* 也可以制定一个范围  (ha){3,5}-> 匹配"hahaha","hahahaha","hahahahaha"
* 也可以不写花括号中的第一个或第二个数字，不限定最大自和最小值

## 贪心与非贪心匹配
>python 的正则表达式默认是“贪心”的，这表示在有二义的情况下，它们会尽可能匹配最长的字符串。花括号的“非贪心”版本匹配尽可能最短的字符串，即在结束的花括号后跟着一个问号。
注意：
问号 在正则表达式中可能有两种含义：声明非贪心匹配或表示可选的分组。这两种含义是完全无关的。

In [29]:
import re
haRegex = re.compile(r'(ha){3,5}')#贪心版本
haRegex2 = re.compile(r'(ha){3,5}?') #非贪心版本
mo = haRegex.search('he is laughing,hahahahahaha')
if mo:
    print(mo.group(),mo.group().count('ha'))
mo2 = haRegex2.search('he is laughing,hahahahahaha')
if mo2:
    print(mo2.group(),mo2.group().count('ha'))

hahahahaha 5
hahaha 3


## findall()方法
除了 search 方法外，Regex对象也有一个findall()方法。
* search 将返回一个Match对象，包含被查找字符串中的“第一次”匹配的文本，
* findall()方法将返回一组字符串，包含被查找字符串中的所有匹配。
* findall()方法返回一个列表。

In [33]:
import re

example = "my number is 444-231-4321,and his number is 454-213-8765,and her number is 1111-666-9999"
phoneNumberRegex = re.compile(r'\d{3}-\d{3}-\d{4}')# 没有分组
phoneNumberRegex2 = re.compile(r'(\d{3})-(\d{3}-\d{4})')#有分组
results = phoneNumberRegex.findall(example)
results2 = phoneNumberRegex2.findall(example)
print(results,results2,sep=";")

['444-231-4321', '454-213-8765', '111-666-9999'];[('444', '231-4321'), ('454', '213-8765'), ('111', '666-9999')]


## 字符分类
* \d ->   0 到 9 的任意数字 
* \D ->   除0 到 9 以外的任何字符
* \w ->   任何字母、数字或下划线，可以认为是匹配“单词”字符
* \W ->   除字母、数字、下划线以外的任何字符
* \s ->   空格、制表符、或换行符，可以认为是匹配“空白” 字符
* \S ->   除空格、制表符和换行符以外的任何字符
## 使用方括号定义自己的字符分类
* 字符分类 [0-5] 只匹配 0 到 5
* [aeiouAEIOU] -> 匹配所有元音字母，不区分大小写
* [a-zA-Z0-9]  ->  匹配所有小写字母，大写字母和数字
### 通过在字符分类的左方括号后加上一个插入字符(^)，将可以得到“非字符类”，作用同取反
* [^aeiouAEIOU]  ->  匹配所有非元音

In [10]:
import re

example = 'I have a dream!'

regex1 = re.compile(r'[aeiouAEIOU]')
regex2 = re.compile(r'[^aeiouAEIOU\s\W]')
print(regex1.findall(example))
print(regex2.findall(example))

['I', 'a', 'e', 'a', 'e', 'a']
['h', 'v', 'd', 'r', 'm']


### 插入字符和美元字符
* 可以在正则表达式的开始处使用插入符号(^)，表明匹配必须发生在查找文本的开始处。
* 类似的，可以在正则表达式的末尾加上美元符号,表示该字符串必须在这个正则表达式的模式结束。
* 可以同时使用两个符号，表明整个字符串必须匹配该模式，也就是说，只匹配该字符串的某个子集是不够的。

In [42]:
import re
regex = re.compile(r'^hello')
print(regex.findall('hello,world'))
regex = re.compile(r'\d$')
print(regex.findall('I have 42'))
regex = re.compile(r'^\d+$') #匹配从开始到结束都是数字的字符串
print(regex.findall('344441k'))
print(regex.findall('a33434'))
print(regex.findall('68787er899898'))
print(regex.findall('123787'))

['hello']
['2']
[]
[]
[]
['123787']


## 通配字符
* 在正则表达式中， "."  （句点） 字符称为通配符
* 它匹配除了换行之外的所有字符。
* 句点字符只匹配一个字符，要匹配真正的句点，使用转译。

In [44]:
import re
regex = re.compile(r'.at')
print(regex.findall('The cat in the hat sat on the flat mat.'))

['cat', 'hat', 'sat', 'lat', 'mat']


# 点 -星（.* ）匹配任意文本
其默认是贪婪匹配，非贪婪模式加问号

In [45]:
import re
example = '<To serve man> for dinner.>'
regex1 = re.compile(r'<.*>')
regex2 = re.compile(r'<.*?>') #非贪婪模式
print(regex1.findall(example))
print(regex2.findall(example))

['<To serve man> for dinner.>']
['<To serve man>']


## 不区分大小写的匹配
要让正则表达式不区分大小写
* 可以向re.compile()传入 re.IGNORECASE 
* 或 re.I,作为第二个参数

In [48]:
import re
example = 'This is an APPLE'
regex = re.compile(r'apple',re.I)
print(regex.findall(example))

['APPLE']


## 用 sub()方法替换字符串
* Regex 对象的sub() 方法需要传入两个参数。
* 第一个参数是一个字符串，用于取代发现的匹配。
* 第二个参数是一个字符串，即需要被替换的字符串。
* sub()方法返回替换完成后的字符串。

In [56]:
import re
example = 'Harry potter is very clever.'
regex = re.compile(r'Harry \w+')
print(regex.sub('Mr.potter',example))

Mr.potter is very clever.


### 在sub()的第一参数中，可以输入 \1  \2   \3  .....。表示“在替换找那个输入分组1、2、3...”

In [58]:
import re
example = 'Harry potter is very clever.'
regex = re.compile(r'Harry (\w)\w*')
print(regex.sub(r'\1****',example))

p**** is very clever.


## 文件重命名案例

Cloudbabies.S01E01.Fly.Away.Home[www.lxwc.com.cn].avi   --->    Cloudbabies.S01E01.Fly.Away.Home.avi

In [89]:
import re
fileName = 'Cloudbabies.S01E01.Fly.Away.Home[www.lxwc.com.cn].avi'
renameRegex = re.compile(r'(.*)(\[www.lxwc.com.cn\])(\.avi)')
mo = renameRegex.search(fileName)
if mo:
    print(mo.groups())
else:
    print("未找到匹配")

('Cloudbabies.S01E01.Fly.Away.Home', '[www.lxwc.com.cn]', '.avi')


In [11]:
namesRegex = re.compile(r'Agent \w+')
namesRegex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

#### 如果要匹配的文本模式很简单，正则表达式就很好。
#### 但匹配复杂的文本模式，可能需要长的、费解的正则表达式。
>你可以告诉re.compile()，忽略正则表达式字符串中的空白符和注释，从而缓解这一点。要实现这种详细模式，可以向re.compile()传入变量re.VERBOSE，作为第二个参数。

In [12]:
phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?               # area code
    (\s|-|\.)?                       # separator
    \d{3}                            # first 3 digits
    (\s|-|\.)                        # separator
    \d{4}                            # last 4 digits
    (\s*(ext|x|ext.)\s*\d{2,5})?     # extension
    )''', re.VERBOSE)
# 请注意，前面的例子使用了三重引号(''' ''')，创建了一个多行字符串。这样就可以将正则表达式定义放在多行中，让它更可读。