In [3]:
"""
利用正则表达式在字符串中查找电话号码的函数
author@jiangchuan 20190717
"""

"""
Python 中使用正则表达式的几个步骤：
1. 用import re导入正则表达式模块
2. 用re.compile（）函数创建一个Regex对象（记得使用原始字符串）
3. 向Regex对象的search()方法传入想查找的字符串。返回一个Match对象
4. 调用Match对象的group()方法，返回实际匹配文本的字符串
"""
import re
phoneNumRegex01 = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')

mo = phoneNumRegex01.search('My number is 415-555-4242.')
print('Phone number found:' + mo.group())




Phone number found:415-555-4242


In [6]:
"""
利用括号分组
author@jiangchuan 20190717

group()或group(0)表示整个匹配的字符串
如果需要匹配括号，则需注意使用转义符 \( \)
"""
import re
phoneNumRegex02 = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phoneNumRegex02.search('my number is 415-555-4242.')
print('我的电话号码是' + mo.group(0))
print('My number is ' + mo.group())
print('区号是' + mo.group(1))
print('第二个分组是' + mo.group(2))


我的电话号码是415-555-4242
My number is 415-555-4242
区号是415
第二个分组是555-4242


In [10]:
"""
用管道匹配多个分组
author@jiangchuan 20190717

|成为管道，希望匹配多个表达式中的一个时，可以使用管道   例如，正则表达式r'Batman|Tina Fey‘ 将匹配Batman或者Tina Fey
如果，Batman 和 Tina Fey都出现在被查找的字符串中，第一次出现的匹配文本将作为Match对象返回
"""
import re
batRegex01 = re.compile(r'Bat(man|mobile|copter|bat)')
mo = batRegex01.search('Batmobile lost a wheel')
mo.group()
mo.group(1)

'mobile'

In [27]:
"""
用问号实现可选匹配
author@jiangchuan 20190717

想匹配的模式是可选的，即不论这段文本在与不在，正则表达式都会认为匹配
字符？表示在它前面的分组在这个模式中是可选的
可以认为？是在说，匹配这个问号之前的分组零次或者一次
"""
import re
batRegex02 = re.compile(r'Bat(wo)?man')

mo = batRegex02.search('The Adventures of Batman')
print(mo.group())

mo1 = batRegex02.search('The Adventures of Batwoman')
print(mo1.group())

Batman
Batwoman


In [28]:
"""
用星号匹配零次或多次
author@jiangchuan 20190717

*之前的分组，可以在文本中出现任意次。它可以完全不存在或在一次次地重复
"""
import re
batRegex03 = re.compile(r'Bat(wo)*man')

mo = batRegex03.search('The Adventures of Batman')
print(mo.group())

mo1 = batRegex03.search('The Adventures of Batwoman')
print(mo1.group())

mo2 = batRegex03.search('The Adventures of Batwowowowoman')
print(mo2.group())

Batman
Batwoman
Batwowowowoman


In [30]:
"""
用加号匹配一次或者多次
author@jiangchuan 20190717

*意味着匹配零次或者多次
+意味着匹配一次或者多次
*不要求分组出现在匹配的字符串中
+前面的分组必须至少出现一次
"""
import re
batRegex04 = re.compile(r'Bat(wo)+man')

mo = batRegex04.search('The Adventures of Batwoman')
print(mo.group())

mo1 = batRegex04.search('The Adventures of Batwowowowowoman')
print(mo1.group())

mo2 = batRegex04.search('The Adventures of Batman')
print(mo2 == None)

Batwoman
Batwowowowowoman
True


In [35]:
"""
用花括号匹配特定次数
author@jiangchuan 20190717

如果想要一个分组重复特定次数，就在正则表达式中该分组的后面，跟上花括号包围的数字
（Ha){3}将匹配‘HaHaHa’，但不会匹配‘HaHa’，因为后者只重复了Ha两次
"""
import re
haRegex = re.compile(r'(Ha){3}')
mo1 = haRegex.search('HaHaHaHa')
print(mo1.group())

mo2 = haRegex.search('Ha')
print(mo2 == None)

HaHaHa
True


In [38]:
"""
贪心和非贪心匹配
author@jiangchuan 20190717

如果想要一个分组重复特定次数，就在正则表达式中该分组的后面，跟上花括号包围的数字
（Ha){3}将匹配‘HaHaHa’，但不会匹配‘HaHa’，因为后者只重复了Ha两次
"""
import re
greedyHaRegex = re.compile(r'(ha){3,5}')
mo1 = greedyHaRegex.search('hahahahaha')
print(mo1.group())

# 在字符串hahahahaha中，因为(ha){3,5}会匹配3个、4个或5个实例
# python正则表达式默认是“贪心”的，在二义情况下，会尽可能匹配最长的字符串。
# 非贪心的花括号尽可能匹配最短的字符串，在结束的花括号后面紧跟一个问号即可

nogreedyHaRegex = re.compile(r'(ha){3,5}?')
mo2 = nogreedyHaRegex.search('hahahahaha')
print(mo2.group())

hahahahaha
hahaha


In [47]:
"""
findall()方法
author@jiangchuan 20190717


"""
import re
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # 没有分组
mo = phoneNumRegex.search('Cell: 415-555-9999 Work:212-555-0000')
print(mo.group())

mo1 = phoneNumRegex.findall('Cell: 415-555-9999 Work:212-555-0000')
print(mo1)

# 如果正则表达式中有分组，那么findall将返回元组的列表，。每个元组表示一个找到的匹配，其中的项就是正则表达式中每个分组的匹配字符串
phoneNumRegex1 = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
mo2 = phoneNumRegex1.findall('Cell: 415-555-9999 Work:212-555-0000')
print(mo2)

415-555-9999
['415-555-9999', '212-555-0000']
[('415', '555', '9999'), ('212', '555', '0000')]


In [49]:
"""
字符分类
author@jiangchuan 20190717

\d 0-9任意数字
\D 除0-9外的任何字符
\w 任何字母、数字或者下划线字符（可认为是匹配“单词”字符）
\W 除字母、数字和下划线以外的任何字符
\s 空格、制表符或换行符（可以认为是匹配“空白”字符）
\S 除空格、制表符和换行符以外的任何字符
"""

'\n字符分类\nauthor@jiangchuan 20190717\n\n\\d 0-9任意数字\n\\D 除0-9外的任何字符\n\\w 任何字母、数字或者下划线字符（可认为是匹配“单词”字符）\n\n\n'

In [52]:
"""
创建自己的字符分类
author@jiangchuan 20190717

方括号[]自定义自己的字符分类
[aeiouAEIOU]将匹配所有的元音字符，不论大小写
[^aeiouAEIOU]则表示非元音字符（除元音字符外的所有字符）
[a-zA-Z0-9]则将匹配所有的小写字母、大写字母和数字

"""
import re
vowelRegex = re.compile(r'[aeiouAEIOU]') # [aeiouAEIOU]将匹配所有的元音字符，不论大小写
mo1 = vowelRegex.findall('RoboCop eats baby food. BABY FOOD.')
print(mo1)

consonantRegex = re.compile(r'[^aeiouAEIOU]') # ^表示非，^aeiouAEIOU则表示非元音字符（除元音字符外的所有字符）
mo2 = consonantRegex.findall('RoboCop eats baby food. BABY FOOD.')
print(mo2)


['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']
['R', 'b', 'C', 'p', ' ', 't', 's', ' ', 'b', 'b', 'y', ' ', 'f', 'd', '.', ' ', 'B', 'B', 'Y', ' ', 'F', 'D', '.']


In [1]:
"""
插入字符和美元字符
author@jiangchuan 20190717

正则表达式的开始处使用插入符号^ 表明匹配必须发生在被查找文本开始处
正则表达式的末尾处使用美元符号$ 表明该字符串必须以这个正则表达式的模式结束
同时使用^ 和 $则表明整个字符串必须匹配该模式，只匹配该字符串的某个子集是不够的
"""
import re
beginWithHello = re.compile(r'^hello') # 插入符号^
mo = beginWithHello.search('hello world!')
print(mo)
print(beginWithHello.search('he said hello.') == None)

endsWithNumber = re.compile(r'\d$')
mo1 = endsWithNumber.search('Your number is 43')
print(mo1)
print(endsWithNumber.search('Your number is 43')== None)

<re.Match object; span=(0, 5), match='hello'>
True
<re.Match object; span=(16, 17), match='3'>
False


In [2]:
"""
通配字符
author@jiangchuan 20190718

通配符：句点.   匹配除换行之外的所有字符（注意，句点符号只匹配一个字符）
"""
import re
atRegex = re.compile(r'.at')
mo = atRegex.findall('The cat in the hat sat on the flat mat')
print(mo)

['cat', 'hat', 'sat', 'lat', 'mat']


In [4]:
"""
点-星匹配所有字符
author@jiangchuan 20190718

(.*)表示 任意文本
点星使用“贪心”模式：它总是匹配尽可能多的文本。
使用非贪心模式匹配模式，就使用点星问号

.表示除换行外所有单个字符
*表示前面字符出现零次或多次
.*匹配出换行外所有字符
"""
import re
nameRegex = re.compile(r'First Name:(.*)Last Name:(.*)')
mo = nameRegex.search('First Name: AI Last Name:Sweigart')
print(mo.group(1))
print(mo.group(2))

nongreedyRegex = re.compile(r'AI.*?AI')  # 非贪心模式
mo1 = nongreedyRegex.search('AI is this AI,not that AI')
print(mo1.group())

greedyRegex = re.compile(r'AI.*AI')   # 贪心模式
mo2 = greedyRegex.search('AI is this AI,not that AI')
print(mo2.group())

 AI 
Sweigart
AI is this AI
AI is this AI,not that AI


In [7]:
"""
句点字符匹配换行
author@jiangchuan 20190718

.*匹配出换行外所有字符
传入re.DOTALL作为re.compile()的第二个参数，可以让句点字符匹配所有字符，包括换行符
"""
import re
noNewlineRegex = re.compile(r'.*')
mo1 = noNewlineRegex.search('Serve the public trust.\nPretect the innocent.\nUphold the law.').group() # 匹配所有字符直至第一个换行符
print(mo1)

newLineRegex1 = re.compile(r'.*', re.DOTALL)
mo2 = newLineRegex1.search('Serve the public trust.\nPretect the innocent.\nUphold the law.').group() # 匹配所有字符
print(mo2)

Serve the public trust.
Serve the public trust.
Pretect the innocent.
Uphold the law.


In [9]:
"""
不区分大小写的匹配
author@jiangchuan 20190718

向re.compile()传入re.IGNORECASE 或 re.I 作为第二个参数
"""
import re
robocop = re.compile(r'robocop', re.I)
mo1 = robocop.search('RoboCop is part man, part machine, all cop').group()
mo2 = robocop.search('ROBOCOP protects the innocent.').group()
mo3 = robocop.search('AI, why dose your programming book talk about robocop so much?').group()

print(mo1, mo2, mo3)

RoboCop ROBOCOP robocop


In [11]:
"""
sub()方法替换字符串
author@jiangchuan 20190718

sub()方法需要传入两个参数，第一个参数是一个字符串，用于替换发现的匹配；第二个参数是一个字符串，用于正则表达式匹配的内容。
sub()方法返回替换完成后的字符串
在sub()第一个参数中，可以输入\1  \2  \3 ......表示在替换中输入分组1、2、3......的文本

"""
import re
nameRegex = re.compile(r'Agent \w+')
mo1 = nameRegex.sub('CENSORED','Agent Alice gave the secert documents to Agent Bob.')

agentRegex = re.compile(r'Agent(\w)\w*')
mo2 = agentRegex.sub(r'\1****','Agent Alice told Agent Carol that Agent Eve knew Agent BOb was a double agent.')

print(mo1)
print(mo2)

CENSORED gave the secert documents to CENSORED.
Agent Alice told Agent Carol that Agent Eve knew Agent BOb was a double agent.


In [14]:
"""
管理复杂的正则表达式
author@jiangchuan 20190718

向re.compile()传入变量re.VERBOSE 作为第二个参数; 从而可以添加#注释
"""

import re, pyperclip

# 电话号码正则表达式
phoneRegex  = re.compile(r'''(
    (\d{3}|\(\d{3}\))？          # area code
    (\s|-|\.)?                  # separator
    (\d{3})                     # first 3 digits
    (\s|-|\.)                   # separator
    (\d{4})                     # last 4 digits
    (\s*(ext|x|ext\.)\s*(\d{2,5}))?  # extension
    )''', re.VERBOSE)

# 电子邮箱正则表达式
emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+           # username
    @                           # @ symbol
    [a-zA-Z0-9.-]+              # domain name
    (\.[a-zA-Z]{2,4})           # dot-something
    )''', re.VERBOSE)

# 剪贴板文本中找到匹配
text = str(pyperclip.paste())
matches = []                                                     # 所有的匹配保存在matches的列表变量中
for groups in phoneRegex.findall(text):
    phoneNum = '-'.join([groups[1], groups[3], groups[5]])       # phoneNum变量包含一个字符串，由匹配文本的分组1、3、5和8构成（这些分组分别是区号、前3个数字、后4个数字和分机号）
    if groups[8] != '':
        phoneNum += ' x' + groups[8]
    matches.append(phoneNum)
for groups in emailRegex.findall(text):
    matches.append(groups[0])
    
# 所有匹配连接成一个字符串，复制到剪贴板
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))                   # pyperclip.copy()函数只接收一个字符串值，而非字符串列表，故而在matches上使用了join()方法
    print('Copied to clipboard:')
    print('\n'.join(matches))
else:
    print('No phone numbers or email addresses found.')


Copied to clipboard:
info@nostarch.com
media@nostarch.com
academic@nostarch.com
info@nostarch.com
