# <center> Ch1-模式匹配与正则表达式

## 1. 不用正则表达式来查找文本模式
- isPhoneNumber:414-222-1313

In [1]:
def isPhoneNumber(text):
    if len(text) != 12:
        return False
    for i in range(0,3):
        if not text[i].isdecimal():
            return False
    if text[3] != '-':
        return False
    for i in range(4,7):
        if not text[i].isdecimal():
            return False
    if text[7] != '-':
        return False
    for i in range(8,12):
        if not text[i].isdecimal():
            return False
    return True

print(isPhoneNumber('123-343-4232'))
print(isPhoneNumber('2332-121-121'))

True
False


In [3]:
# 在文本中查找
message = 'Call me at 422-343-2323 tomorrow. 424-343-2322 is my office.'

for i in range(len(message)):
    chunk = message[i:i+12]      # 切片
    if isPhoneNumber(chunk):
        print('Phone number found: ' + chunk)
        
print('Done')

Phone number found: 422-343-2323
Phone number found: 424-343-2322
Done


## 2. 用正则表达式查找文本模式
- 正则表达式，regex，是文本模式的描述方法

### 创建正则表达式对象
- 所有正则表达式的函数都需要re模块
- re.compile()传入一个字符串值，表示正则表达式，它将返回一个Regex模式对象(regex对象)

In [5]:
import re
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')  # \d --- 一个数字   传入原始字符串

### 匹配Regex对象
- Regex对象的search()方法查找传入的字符串，寻找该正则表达式的所有匹配。
- 如果不存在匹配，返回None；如果存在，返回Match对象
- Match对象有group()方法，返回被查找字符串中实际匹配的文本

- 正则表达式匹配步骤：
    - 用import re导入正则表达式模块
    - 用re.compile()函数创建一个Regex对象(记得使用原始字符串)
    - 向Regex对象的search()方法传入想查找的字符，它返回一个Match对象
    - 调用Match对象的group()方法，返回实际匹配文本的字符串

In [6]:
mo = phoneNumRegex.search('My number is 223-343-2323.')   # mo --- Match对象的通用名称
print('Phone Number Found: ' + mo.group())

Phone Number Found: 223-343-2323


## 3. 用正则表达式匹配更多模式

### 利用括号分组
- 添加括号将在Regex中创建分组，可以使用group()匹配对象方法，从一个分组中获取匹配的文本
- 向group()方法传入参数0或者不传入参数，将返回整个匹配的文本
- groups():依次获得所有的分组,返回多个值的元组
- 可用\对特殊字符进行转义

In [11]:
import re
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('My number is 233-232-2321')
print(mo.group())
print(mo.group(0))
print(mo.group(1))    # 开始下标为1
print(mo.group(2))

# 依次获得所有的分组,返回多个值的元组
print(mo.groups())

# 多重赋值
areaCode, mainNumber = mo.groups()
print(areaCode)
print(mainNumber)

233-232-2321
233-232-2321
233
232-2321
('233', '232-2321')
233
232-2321


### 用管道匹配多个分组
- | -- 管道：匹配多个表达式中一个。同时出现时，匹配第一次出现作为Match对象返回
- findall() -- 找出所有匹配
- 匹配多个模式中的一个

In [12]:
heroRegex = re.compile(r'Batman | Tina Fey')
mo1 = heroRegex.search('Batman and Tina Fey')
print(mo1.group())

Batman 


In [14]:
# 只指定依次前缀
batRegex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = batRegex.search('Batman and Batmobile lost a wheel.')
print(mo.group())
print(mo.group(1))  # 只返回括号分组内的值

Batman
man


### 用问号实现可选匹配
- (content)？--- 出现零次或一次
- \\? 转义

In [16]:
batRegex = re.compile(r'Bat(wo)?man')
mo1 = batRegex.search('The Adventures of Batman.')
print(mo1.group())

mo2 = batRegex.search('The Adventures of Batwoman.')
print(mo2.group())

Batman
Batwoman


In [18]:
# 电话号码匹配 --- 区号是可选的

phoneRegex = re.compile(r'(\d\d\d-)?\d\d\d-\d\d\d\d')
mo1 = phoneRegex.search('My number is 232-234-2323')
print(mo1.group())

mo2 = phoneRegex.search('My number is 234-2323')
print(mo2.group())

232-234-2323
234-2323


### 用*匹配零次或多次

In [20]:
batRegex = re.compile(r'Bat(wo)*man')
mo1 = batRegex.search('The Adventures of Batman.')
print(mo1.group())

mo2 = batRegex.search('The Adventures of Batwowowoman.')
print(mo2.group())

mo3 = batRegex.search('The Adventures of Batwoman.')
print(mo3.group())

Batman
Batwowowoman
Batwoman


### 用+匹配一次或多次

In [25]:
batRegex = re.compile(r'Bat(wo)+man')
mo1 = batRegex.search('The Adventures of Batman.')
if mo1 != None:                    # 需要判断是否存在
    print(mo1.group())

mo2 = batRegex.search('The Adventures of Batwowowoman.')
print(mo2.group())

mo3 = batRegex.search('The Adventures of Batwoman.')
print(mo3.group())

Batwowowoman
Batwoman


### 用{}匹配特定次数
- (ha){3}:特定次数
- (ha){1,3}:匹配次数范围
- (ha){2,}:至少两次
- (ha){,3}:至多3次
- 贪心和非贪心匹配
    - 贪心：尽可能匹配最长的字符串，默认贪心
    - 非贪心：尽可能匹配最短的字符串，(ha){3,5}? 非贪心
    - ？二义性：声明非贪心匹配或表示可选分组

In [44]:
batRegex = re.compile(r'Bat(wo){,3}man')   # 匹配0，1，2，3次    ！！！！ 注意符号中英文
mo1 = batRegex.search('The Adventures of Batman.')
if mo1 != None:                    # 需要判断是否存在
    print(mo1.group())

mo2 = batRegex.search('The Adventures of Batwowowoman.')
print(mo2.group())

mo3 = batRegex.search('The Adventures of Batwoman.')
print(mo3.group())

Batman
Batwowowoman
Batwoman


## 4.findall()方法
- Regex对象方法：
    -  search():返回第一次匹配的Match对象
    - findall():返回一组字符串列表，包含所有匹配
- findall()返回值：
    - 如果调用没有分组的Regex,返回字符串的列表
    - 如果调用分组的Regex,返回字符串的元组的列表

In [50]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phoneNumRegex.search('Cell:132-232-2323 Work:123-332-2344')  # Match对象
print(mo.group())

print(phoneNumRegex.findall('Cell:132-232-2323 Work:123-332-2344'))   # 字符串列表

NewPhoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
print(NewPhoneNumRegex.findall('Cell:132-232-2323 Work:123-332-2344'))  # 字符串的元组列表

132-232-2323
['132-232-2323', '123-332-2344']
[('132', '232', '2323'), ('123', '332', '2344')]


## 5. 字符分类
- \\d --- 0-9任意数字
- \\D --- 除0-9外任何字符
- \\w --- 任何字母、数字、下划线
- \\W --- 除字母、数字、下划线外任何字符
- \\s --- 空格、制表符、换行符
- \\S --- 除空格、制表符、换行符外任何字符
- [0-5] --- 只匹配0-5数字

In [52]:
xmasRegex = re.compile(r'\d+\s\w+')   # 一个或多个数字 一个空白字符 一个或多个单词字符
print(xmasRegex.findall('12 drummers, 11 pipers, 10 lords'))

['12 drummers', '11 pipers', '10 lords']


## 6.建立自己的字符分类
- []-- 定义字符分类
- [-] -- 短横表示字母或数字范围 
- 在[]中，普通的正则表达式符号不会被解释，不需要转义
- [^] -- 取逆操作:只在[]中是该含义

In [54]:
# 匹配所有元音字母
vowelRegex = re.compile(r'[aeiouAEIOU]')
vowelRegex.findall('Roll Bob Cnady China')

['o', 'o', 'a', 'i', 'a']

In [55]:
# 匹配所有字母、数字
digitPhaReget = re.compile(r'[a-zA-Z0-9]')
digitPhaReget.findall('hella @ # 0q83  $ % asas34%')

['h', 'e', 'l', 'l', 'a', '0', 'q', '8', '3', 'a', 's', 'a', 's', '3', '4']

In [59]:
# 不匹配所有字母、数字
digitPhaReget = re.compile(r'[^a-zA-Z0-9]')
print(digitPhaReget.findall('hella @ # 0q83  $ % asas34%'))

# 不匹配所有元音字母
vowelRegex = re.compile(r'[^aeiouAEIOU]')
print(vowelRegex.findall('Roll Bob Cnady China'))

[' ', '@', ' ', '#', ' ', ' ', ' ', '$', ' ', '%', ' ', '%']
['R', 'l', 'l', ' ', 'B', 'b', ' ', 'C', 'n', 'd', 'y', ' ', 'C', 'h', 'n']


## 7. 开始结束字符
- Regex开始处使用插入符号(^) --- 匹配字符必须在被查找文本的开始处
- Regex结尾处使用美元符号(\$) --- 该字符串必须以该正则表达式模式结束
- 同时使用^和$ --- 整个字符串必须匹配该模式

In [5]:
import re
beginsWithHello = re.compile(r'^Hello')
mo = beginsWithHello.search('Hello World')
print(mo.group())

Hello


In [8]:
endsWithNumber = re.compile(r'\d$')
mo = endsWithNumber.search('Hello World9503')
print(mo.group())

3


In [10]:
beginEndsWithNumber = re.compile(r'^\d+$')
mo = beginEndsWithNumber.search('9503')
print(mo.group())

9503


## 8. 通配字符
- .(句点) --- 匹配除行外所有字符
- 一个句点匹配一个字符

In [11]:
atRegex = re.compile(r'.at')
atRegex.findall('cat hcat sat on the flat')

['cat', 'cat', 'sat', 'lat']

### 用.*匹配所有字符
- 除换行外所有字符
- 贪心模式：匹配尽可能多的文本
- 非贪心模式：尽可能少的文本   ?

In [14]:
nameRegex = re.compile(r'First Name: (.*) Last Name: (.*)')
mo = nameRegex.search('First Name: AI Last Name: Sweight')
print(mo.group())
print(mo.group(1))
print(mo.group(2))

First Name: AI Last Name: Sweight
AI
Sweight


In [16]:
# 贪心模式
greedyRegex = re.compile(r'<.*>')
mo = greedyRegex.search('<To serve man> for dinner.>')
print(mo.group())

# 非贪心模式
nongreedyRegex = re.compile(r'<.*?>')
mo = nongreedyRegex.search('<To serve man> for dinner.>')
print(mo.group())

<To serve man> for dinner.>
<To serve man>


### 用句点字符匹配换行
- 通过传入re.DOTALL作为re.compile()的第二个参数，可以让句点字符匹配所有字符，包括换行符

In [19]:
noNewlineRegex = re.compile(r'.*')   # 不匹配换行符
mo = noNewlineRegex.search('Serve the public trust. \nProtect the innocent.\n')
print(mo.group())

newlineRegex = re.compile(r'.*', re.DOTALL)
mo1 = newlineRegex.search('Serve the public trust. \nProtect the innocent.\n')
print(mo1.group())

Serve the public trust. 
Serve the public trust. 
Protect the innocent.



## 9. 正则表达式符号复习
- () --- 分组
- ？ --- 匹配零次或一次前面的分组
- * ---- 匹配零次或多次前面的分组
- + ---- 匹配一次或多次前面的分组
- {n} -- 匹配n次前面的分组
- {n,} - 匹配n次或更多次前面的分组
- {,m} - 匹配零次到m次前面的分组
- {n,m}- 匹配至少n次、至多m次前面的分组
- {n,m}?或*?或+？ --- 对前面分组进行非贪心匹配
- ^spam --- 字符串必须以spam开头
- spam$ --- 字符串必须以spam结尾
- . --- 匹配除换行符外所有字符
- \d \w \s --- 匹配数字、单词、空格
- \D \W \S --- 匹配除数字、字母、空格外所有字符
- [abc] --- 匹配[]中任意字符
- [^abc] --- 匹配不在[]中任意字符

## 10. 不区分大小写的匹配
- 向re.compile()传入re.IGNORECASE或re.I作为第二个参数

In [20]:
robocop = re.compile(r'robocop', re.I)
robocop.search('RoboCop is part man').group()

'RoboCop'

## 11. 用sub()替换字符串
- 将Regex找出的文本模式进行替换
- Regex对象的sub()方法两个参数 --- 第一个是字符串，用于取代发现的匹配；第二个是字符串，是用Regex表达式匹配的内容
- sub()返回替换完后的字符串
- 在sub()第一个参数输入\1,\2,\3表示在替换中输入分组1,2,3的文本

In [22]:
# 替换字符
namesRegex = re.compile(r'Agent \w+')
namesRegex.sub('CENSORED', 'Agent Alice gave the secret document to Agent Bob.')

'CENSORED gave the secret document to CENSORED.'

In [24]:
# 隐藏文本中姓名，只显示第一个字符
agentNamesRegex = re.compile(r'Agent (\w)\w*')
agentNamesRegex.sub(r'\1****', 'Agent Alice gave the secret document to Agent Bob.')  # \1将由分组1匹配的文本替换

'A**** gave the secret document to B****.'

## 12. 复杂与多参数
- Regex放多行，并添加注释
- re.compile()只接受一个作为第二参数，可以使用管道符(|)连接多个变量 --- 按位或
- re.compile()参数：
    - re,IGNORECASE:忽略大小写
    - re.DOTALL:让句点字符匹配所有字符，包括换行符
    - re.VERBOSE:在Regex中编写注释

In [None]:
# 不区分大小写，并且句点字符匹配所有字符和换行符
someRegexValue = re.compile(r'foo', re.IGNORECASE | re.DOTALL)

In [None]:
# 使用所有参数
someRegexValue = re.compile(r'foo', re.IGNORECASE | re.DOTALL | re.VERBOSE)

## 13. 项目：电话号码和E-mail地址提取程序
- 将网页文本赋值到剪贴板，提取其中所有的电话号码和E-mail
- 先关注大框架：
    - 从剪贴板取得文本
    - 找出文本中所有phone和E-mail
    - 将它们粘贴到剪贴板
- 思考代码细节实现：
    - 使用pyperclip模块复制和粘贴字符串
    - 创建两个正则表达式，一个匹配电话号码，一个匹配E-mail地址
    - 对两个正则表达式，找到所有的匹配，而不只是第一次匹配
    - 将匹配的字符串整理好格式，放在一个字符串中，用于粘贴
    - 如果文本中没有找到匹配，显示某种消息

In [5]:
# 第1步：为电话号码创建一个正则表达式

# phoneAndEmail.py -- Finds phone numbers and emial addresses on the clipboard

import pyperclip, re

phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?      # area code  415 (415)  -- 可选
    (\s|-|\.)?              # separator -- \s  -  .
    (\d{4})                 # first 4 digits
    (\s|-|\.)               # separator
    (\d{4})                 # last 4 digits
    (\s*(ext|x|ext\.)\s*(\d{2,5}))? # extension   可选分机号
    )''', re.VERBOSE)
# TODO:Create email regex

# TODO:Find matches in the clipboard text

# TODO:Copy results to the clipboard

In [6]:
# 第2步：为E-mail地址创建一个正则表达式

# Create email regex
emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+       # username
    @                       # @ symbol
    [a-zA-Z0-9.-]+          # domain name 
    (\.[a-zA-Z]{2,4})       # dot-something
    )''', re.VERBOSE)


# TODO:Find matches in the clipboard text

# TODO:Copy results to the clipboard

In [7]:
# 第3步：在剪贴板文本中找到所有匹配

# Find matches in the clipboard text
text = str(pyperclip.paste())
matches = []
for groups in phoneRegex.findall(text):
    phoneNum = '-'.join([groups[1], groups[3], groups[5]])  # 122-121-2323
    if groups[8] != '':
        phoneNum += ' x' + groups[8]            # 分机号
    matches.append(phoneNum)
    
for groups in emailRegex.findall(text):
    matches.append(groups[0])
    
# TODO:Copy results to the clipboard

In [8]:
# 第4步：所有匹配连接成一个字符串，复制到剪贴板

# Copy results to the clipboard
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard')
    print('\n'.join(matches))
else:
    print('No phone number or email address found.')

Copied to clipboard
852-2277-1088
852-2277-1188
852-2811-6122
612-9271-2629
852-2277-2150
852-8206-8301
852-8206-8302
852-2568-3359
852-2277-1088
852-2277-1095
852-2811-2414
852-2277-1096
852-2811-2414
casthongkong@aexp.com
BTAHongKong@aexp.com


**第5步: test text**
24-hour Customer Service Hotline

Corporate Cardmember: +852 2277 1088

Business Cardmember: +852 2277 1188

24-hour Emergency Card Replacement

Phone: +852 2811 6122


Travellers Cheques Refund (Please request call collect)

Phone: 800 962 403 (from Hong Kong)

Phone: +612 9271 2629 (International)

 
Membership Rewards® Hotline

Phone: +852 2277 2150

Operating Hours: 9:00am - 5:30pm Hong Kong time

Monday to Friday (except Public Holidays)

Global Assist (Please request call collect)

Phone: +852 8206 8301 (English)

Phone: +852 8206 8302 (Cantonese)

Travel Protector Plan (Provided by Chubb Insurance Hong Kong Limited)

Phone: +852 2568 3359

Website: Travel Insurance Claim Center

Asia Miles

Website: www.asiamiles.com

American Express® Cathay Pacific Corporate Card Program

Cardmember Servicing (including Asia Miles accrual) 

Phone: +852 2277 1088

Programme Administrator Corporate Support Team
Phone: +852 2277 1095

Fax: +852 2811 2414

Email: casthongkong@aexp.com

Operating Hours: 8:30am - 7:00pm Hong Kong time
Monday to Friday (except Public Holidays)

 

Business Travel Account Servicing Team

Phone: +852 2277 1096

Fax: +852 2811 2414

Email: BTAHongKong@aexp.com

Operating Hours: 8:30am - 5:30pm Hong Kong time
Monday to Friday (except Public Holidays)

**result**
852-2277-1088
852-2277-1188
852-2811-6122
612-9271-2629
852-2277-2150
852-8206-8301
852-8206-8302
852-2568-3359
852-2277-1088
852-2277-1095
852-2811-2414
852-2277-1096
852-2811-2414
casthongkong@aexp.com
BTAHongKong@aexp.com

**第6步：类似程序的构想**
- 寻找网站的URL，它们以http://或https://开头
- 整理不同格式的日期(3/14/2014,03-14-2019,2019-5-12),用唯一的标准格式替换
- 删除敏感信息，如社会保险号、身份证号等
- 寻找常见打字错误，如单词间多个空格、不小心重复的单词、句子末尾多个感叹号等

## 14. 实践项目

### 强口令检测
- 强口令：长度不少于8个字符，同时包含大写和小写字符，至少有一位数字
- 可以用多个正则表达式测试其强度

In [None]:
import re 

def strongPasswd(passwd):
    # 长度不少于8个字符
    if len(passwd) < 8:
        return False
    
    # 大写
    upperRegex = re.compile(r'[A-Z]{1,}')
    mo = upperRegex.search(passwd)
    if mo == None:
        return False
    
    # 小写
    lowerRegex = re.compile(r'[a-z]{1,}')
    mo = lowerRegex.search(passwd)
    if mo == None:
        return False
    
    # 数字
    decimalRegex = re.compile(r'[0-9]{1,}')
    mo = decimalRegex.search(passwd)
    if mo == None:
        return False
     
    return True
    
# test
while True:        
    passwd = input()
    if passwd == '':
        break
    print(strongPasswd(passwd))

aD2323113
True
dhsdllsdaa
False
1355645
False
dsjaa
False
dsjs;
False
Adsds324#
True


### strip()的正则表达式版本
- 接受字符串参数，如果无第二个参数，去除首尾空白字符；传入第二个参数，指定从字符串中去除的字符

In [None]:
def Strip():