## 7.1 不用正则表达式来查找文本模式

假设电话号码： 3个数字，一个短横线，3个数字，一个短横线，再是 4 个数字。例如：415-555-4242。

In [5]:
def isPhoneNumber(text):
    if len(text) != 12:
        return False
    for i in range(0,3):
        if not text[i].isdecimal():
            return False
    if text[3] != '-':
        return False
    for i in range(4,7):
        if not text[i].isdecimal():
            return False
    if text[7] != '-':
        return False
    for i in range(8,12):
        if not text[i].isdecimal():
            return False
    return True

In [7]:
isPhoneNumber('415-555-4242')

True

## 7.2 用正则表达式查找文本模式

* \d\d\d-\d\d\d-\d\d\d\d
* \d{3}-\d{3}-\d{4}

### 7.2.1 创建正则表达式对象

In [1]:
import re

In [9]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')

### 7.2.2 匹配Regex对象

In [10]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phoneNumRegex.search('My nunber is 415-555-4242')
print('Phone number found: ' + mo.group())

Phone number found: 415-555-4242


search返回一个Match对象，它有一个group()方法，返回实际文本

In [11]:
mo

<re.Match object; span=(13, 25), match='415-555-4242'>

### 7.2.3 正则表达式匹配复习

有以下几个步骤：
* 用import re导入正则表达式模块
* 用re.compile()函数创建一个Regex对象，记得使用原始字符串（第一个引号前加上r)
* 向Regex对象的search()方法传入想查找的字符串，返回一个Match对象
* 调用Match对象的group()方法，返回实际匹配文本的字符串

In [20]:
print(r'\n')

\n


In [21]:
print('\\n')

\n


## 7.3 用正则表达式匹配更多模式

### 7.3.1 利用括号分组

In [218]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('My number is 415-555-4242.')
mo.group(1)

'415'

In [24]:
mo.group(2)

'555-4242'

In [25]:
mo.group(0)

'415-555-4242'

In [26]:
mo.group()

'415-555-4242'

想要一次获取所有分组，用groups()方法

In [27]:
mo.groups()

('415', '555-4242')

In [28]:
areaCode,mainNumber = mo.groups()

In [29]:
print(areaCode)

415


In [30]:
print(mainNumber)

555-4242


括号在正则表达式中有特殊的含义，如果需要在文本中匹配括号，就要用倒斜杠进行转义

In [31]:
phoneNumRegex = re.compile(r'(\(\d\d\d\))(\d\d\d-\d\d\d\d)')
mo = phoneNumRegex.search('My phone number is (415)555-4242/')
mo.group(1)

'(415)'

In [33]:
mo.group(2)

'555-4242'

### 7.3.2 用管道匹配多个分组

字符|被称为管道，希望匹配许多表达式中的一个时，就可以使用它

In [22]:
heroRegex = re.compile(r'Batman|Tina Fey')
mo1 = heroRegex.search('Batman and Tina Fey.')
mo1.group()

'Batman'

In [None]:
mo2 = heroRegex.search('Tina Fey and Batman')
mo2.group()

也可以用管道匹配多个模式中的一个

In [39]:
batRegex = re.compile(r'Bat(man|mobile|copter|bat)')
mo = batRegex.search('Batmobile lost a wheel')
mo.group()

'Batmobile'

In [40]:
mo.group(1)

'mobile'

如果需要匹配真正的管道字符，需要用倒斜杠

### 7.3.3 用问号实现可选匹配,匹配零次或一次

In [None]:
batRegex = re.compile(r'Bat(wo)?man')
mo1 = batRegex.search('The Adventures of Batman')
mo1.group()

(wo)?是可选的

In [4]:
phoneRegex = re.compile(r'(\d\d\d-)?\d\d\d-\d\d\d\d')
mo1 = phoneRegex.search('My number is 415-555-4242')
mo1.group()

'415-555-4242'

In [5]:
mo2 = phoneRegex.search('My number is 555-4242')
mo2.group()

'555-4242'

### 7.3.4 用星号匹配零次或多次

In [15]:
batRegex = re.compile(r'Bat(wo)*man')
mo1 = batRegex.search('The Adventures of Batman')
mo1.group()

'Batman'

In [7]:
mo2 = batRegex.search('The Adventures of Batwoman')
mo2.group()

'Batwoman'

In [12]:
mo3 = batRegex.search('The Adventures of Batwowowowowoman')
mo3.group()

'Batwowowowowoman'

### 7.3.5 用加号匹配一次或多次

In [10]:
batRegex = re.compile(r'Bat(wo)+man')
mo1 = batRegex.search('The Adventures of Batwoman')
mo1.group()

'Batwoman'

In [11]:
mo2 = batRegex.search('The Adventures of Batwoman')
mo2.group()

'Batwoman'

In [12]:
mo3 = batRegex.search('The Adventures of Batman')
mo3 == None

True

### 7.3.6 用花括号匹配特定次数

In [13]:
haRegex = re.compile(r'(Ha){3}')
mo1 = haRegex.search('HaHaHa')
mo1.group()

'HaHaHa'

In [16]:
mo2 = haRegex.search('Ha')
mo2 == None

True

## 7.4 贪心和非贪心匹配

python的正则表达式默认是贪心的，在有二义的情况下，尽可能匹配最长的字符串。加一个问号就是非贪心版本。

In [27]:
greedyHaRegex = re.compile(r'(Ha){3,5}')
mo1 = greedyHaRegex.search('HaHaHaHaHaHa')
mo1.group()

'HaHaHaHaHa'

In [26]:
nongreedyHaRegex = re.compile(r'(Ha){3,5}?')
mo1 = nongreedyHaRegex.search('HaHaHaHaHaHa')
mo1.group()

'HaHaHa'

## 7.5 findall()方法

search()返回一个match对象，包含被查找字符串第一次匹配的文本，而findall()返回一组字符串，包含所有匹配。

In [28]:
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
mo = phoneNumRegex.search('cell:415-555-9999 work:212-555-0000')
mo.group()

'415-555-9999'

In [30]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
phoneNumRegex.findall('cell:415-555-9999 work:212-555-0000')

[('415', '555', '9999'), ('212', '555', '0000')]

## 7.6 字符分类

In [32]:
xmasRegex = re.compile(r'\d+\s\w+')
xmasRegex.findall('12 drummers,11 pipers,10 lorders,10 ladies,8 maids')

['12 drummers', '11 pipers', '10 lorders', '10 ladies', '8 maids']

## 7.7 建立自己的字符分类

In [33]:
vowelRegex = re.compile(r'[aeiouAEIOU]')
vowelRegex.findall('RoboCop eat baby food.BABY FOOD.')

['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']

也可以用短横表示字母或数字的范围，例如[a-zA-Z0-0]将匹配所有小写字母、大写字母和数字

在方括号内，正则表达式不会被解释，所以不需要倒斜杠转义

**^匹配所有不在这个字符类中的字符**

In [35]:
consonantRegex = re.compile(r'[^aeiouAEIOU]')
consonantRegex.findall('RoboCop eat baby food.BABY FOOD.')

['R',
 'b',
 'C',
 'p',
 ' ',
 't',
 ' ',
 'b',
 'b',
 'y',
 ' ',
 'f',
 'd',
 '.',
 'B',
 'B',
 'Y',
 ' ',
 'F',
 'D',
 '.']

## 7.8 插入字符和美元字符

* 正则表达式开始插入^，表示匹配必须发生在文本开始出
* 正则表达式末尾插入美元符号,表示字符串必须以这个正则表达式的模式结束
* 可以同时用^和美元符号,表示整个字符串必须匹配该模式

In [38]:
beginWithHello = re.compile(r'^Hello')
beginWithHello.search('Hello world.')
beginWithHello.search('He said hello.') == None

True

In [40]:
endWithNumber = re.compile(r'\d$')
endWithNumber.search('Your number is 42')
endWithNumber.search('Your number is forty two') == None

True

In [52]:
wholeStringIsNum = re.compile(r'^\d+$')
wholeStringIsNum.search('12345678')

<re.Match object; span=(0, 8), match='12345678'>

In [53]:
wholeStringIsNum.search('1234xdf124') == None

True

In [54]:
wholeStringIsNum.search('1234  124') == None

True

## 7.9 通配字符

.(句点)被称为通配符，匹配除了换行之外的所有字符。要匹配真正的句点，用到斜杠转义。

In [77]:
atRegex = re.compile(r'.at')
atRegex.findall('The cat in the hat sat on the flat smat at')

['cat', 'hat', 'sat', 'lat', 'mat', ' at']

### 7.9.1 用点-星匹配所有字符

(.*)表示任意文本

In [75]:
nameRegex = re.compile(r'First Name:(.*) Last Name:(.*)')
mo = nameRegex.search('First Name:Al Last Name:Sweigart')

In [76]:
mo.group(0)

'First Name:Al Last Name:Sweigart'

In [72]:
mo.group(1)

'Al'

In [64]:
mo.group(2)

'Sweigart'

In [77]:
x = 'First Name:Al Last Name:Sweigart'

In [78]:
nameRegex.findall(x)

[('Al', 'Sweigart')]

### 7.9.2 用句点字符匹配换行

(.\*)将匹配除换行外所有的字符。  
传入re.DOTALL作为参数，可以让句点字符匹配所有字符，包括换行字符

In [73]:
noNewlineRegex = re.compile('.*')
noNewlineRegex.search('Serve the public trust.\nProtect the innocent.\nUphold the law.' ).group()

'Serve the public trust.'

In [76]:
noNewlineRegex = re.compile('.*',re.DOTALL)
noNewlineRegex.search('Serve the public trust.\nProtect the innocent.\nUphold the law.' ).group()

'Serve the public trust.\nProtect the innocent.\nUphold the law.'

## 7.10 复习

## 7.11 不区分大小写的匹配

In [3]:
robocop = re.compile(r'robocop',re.I)
robocop.search('RoboCop is partman.part machine,all cop.').group()

'RoboCop'

In [5]:
robocop.search('ROBOCOP protects the innocent.').group()

'ROBOCOP'

## 7.12 用sub()方法替换字符串

In [194]:
namesRegex = re.compile(r'Agent \w+')

In [195]:
namesRegex.search('Agent Alice gave the secret documents to Agent Bob.').group()

'Agent Alice'

In [196]:
namesRegex.findall('Agent Alice gave the secret documents to Agent Bob.')

['Agent Alice', 'Agent Bob']

In [197]:
namesRegex.sub('CENSORED','Agent Alice gave the secret documents to Agent Bob.')

'CENSORED gave the secret documents to CENSORED.'

有时候需要使用匹配的文本本身，作为替换的一部分，输入\1、\2、\3表示替换分组1、2、3的文本.  \1相当于group(1)

In [217]:
agentNamesRegex = re.compile(r'Agent (\w)\w')
agentNamesRegex.sub(r'\1****','Agent Alice tode Agent Carol that Agent Eve knew Agent Bob was a double agent')

'A****ice tode C****rol that E****e knew B****b was a double agent'

In [33]:
nameRegex = re.compile(r'First Name:(.*) Last Name:(.*)')
mo = nameRegex.search('First Name:Al Last Name:Sweigart')

In [34]:
mo.group(1)

'Al'

In [35]:
nameRegex.sub(r'\1* \2*','First Name:Al Last Name:Sweigart')

'Al* Sweigart*'

## 7.13 管理复杂的正则表达式

In [47]:
phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?  # area code
    (\s|-|\.)?          # separator
    \d{3}               # first 3 digits
    (\s|-|\.)           # separator
    \d{4}               # last 4 digits
    (\s*(ext|x|ext.)\s*\d{2,5})? #extension
    )''',re.VERBOSE)

插入注释

## 7.14 组合使用IGNOREC ASE、DOTALL、VERBOSE

In [48]:
somRegexValue = re.compile('foo',re.I|re.DOTALL|re.VERBOSE)

## 7.15 项目：电话号码和e-mail地址提取程序

先草拟计划，弄清楚程序要做什么，暂时不考虑真正的代码
* 使用pyperclip模块复制和粘贴字符串
* 创建两个正则表达式，找到所有匹配，而不是第一次匹配
* 将匹配好的字符串整理好格式，放在一个字符串中，用于粘贴
* 如果文本中没有找到匹配，显示某种信息

### 第一步：为电话号码创建一个正则表达式

In [183]:
import pyperclip,re

phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?  # area code
    (\s|-|\.)?          # separator
    (\d{3})               # first 3 digits
    (\s|-|\.)           # separator
    (\d{4})              # last 4 digits
    (\s*(ext|x|ext.)\s*(\d{2,5}))? #extension
    )''',re.VERBOSE)

r后面整个加了个括号，匹配的第一个元素就是完整号码

### 第二步：为email地址创建一个正则表达式

In [259]:
emailRegex = re.compile(r'''(
    [a-zA-Z0-9._%+-]+   # username,+表示多个字符
    @                   # @
    [a-zA-Z0-0.-]+      # domin name
    (\.[a-zA-Z]{2,4})  # dot-something
    )''',re.VERBOSE)

### 第三步：在剪贴板文本中找到所有匹配

In [191]:
text = '222-222-3435'
matches = []

for groups in phoneRegex.findall(text):
    phoneNum = '-'.join([groups[1],groups[3],groups[5]])
    if groups[8] != '':
        phoneNum += ' x' + groups[8]
    matches.append(phoneNum)

for groups in emailRegex.findall(text):
    matches.append(groups[0])

In [192]:
matches

['222-222-3435']

（findall)对应一个列表，列表中每个元组包含正则表达式中每个分组的字符串。

第四步：所有匹配连接成一个字符串，复制到剪贴板

In [193]:
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('copied to clipboard:')
    print('\n'.join(matches))
else:
    print('not found')

copied to clipboard:
222-222-3435


In [186]:
text1 = '222-222-3333 x 423233333'

In [187]:
phoneRegex.findall(text1)

[('222-222-3333 x 42323',
  '222',
  '-',
  '222',
  '-',
  '3333',
  ' x 42323',
  'x',
  '42323')]

***该结果定义了findall输出的顺序，一个括号表示一个捕获组，先外围捕获组再内部捕获组，先左边捕获组后右边捕获组***

In [257]:
emails = '12213@wee.com'

In [258]:
emailRegex.findall(emails)

[('12213@wee.com', '.com')]

类似程序的构想：
* 寻找网站url
* 整理不同日期格式
* 删除敏感信息
* 寻找常见打字错误

## 7.17 练习

In [222]:
#18
numRex = re.compile(r'\d+')

In [223]:
numRex.sub('X','12 drummers,11 pipers,five rings,3 hens')

'X drummers,X pipers,five rings,X hens'

In [242]:
#20如何写一个正则表达式，匹配每3位就有一个逗号的数字？
numRex_2 = re.compile(r'(^\d{1,3}(,\d{3})*$)')

In [241]:
numRex_2.findall('1234')

[]

In [288]:
#21如何写一个正则表达式，匹配姓Nakamoto的完整姓名？
nameRex = re.compile(r'(^[A-Z][a-z]+\s(Nakamoto)$)')

In [290]:
nameRex.findall('Alice Nakamoto')

[('Alice Nakamoto', 'Nakamoto')]

In [295]:
#21如何写一个正则表达式匹配一个句子
sentenceRegex = re.compile(r'(^(alice|bob|carol)\s(eats|pets|throws)\s(apples|cats|baseballs)$)',re.I)

In [298]:
sentenceRegex.findall('BOB EATS CATS')

[('BOB EATS CATS', 'BOB', 'EATS', 'CATS')]

## 7.18 实践项目

### 7.18.1 强口令检测

写一个函数，它使用正则表达式，确保传入的口令字符串是强口令。强口令的定义是：长度不少于 8 个字符，同时包含大写和小写字符，至少有一位数字。你可能需要用多个正则表达式来测试该字符串，以保证它的强度。

In [330]:
def strong():
    text = input('输入字符：')
    long = re.compile(r'\w{8,}')
    lower = re.compile(r'[a-z]')
    upper = re.compile(r'[A-Z]')
    num = re.compile(r'\d{1}')
    if long.search(text) != None and lower.search(text) != None and upper.search(text) != None and num.search(text) != None:
        return '是强口令'
    else:
        return '不是强口令'

In [331]:
strong()

输入字符：AAAAaaaaa123123


'是强口令'

In [327]:
import re  
  
def is_strong_password(password):  
    # 检查长度  
    if len(password) < 8:  
        return False  
  
    # 检查大写字母  
    if not re.search(r'[A-Z]', password):  
        return False  
  
    # 检查小写字母  
    if not re.search(r'[a-z]', password):  
        return False  
  
    # 检查数字  
    if not re.search(r'\d', password):  
        return False  
  
    # 如果以上条件都满足，返回 True，否则返回 False  
    return True

### 7.18.2 strip()的正则表达式

写一个函数，它接受一个字符串，做的事情和 strip()字符串方法一样。如果只传入了要去除的字符串，没有其他参数，那么就从该字符串首尾去除空白字符。否则，函数第二个参数指定的字符将从该字符串中去除。

In [354]:
def strip_x(text,a = None):
    if a == None:
        return re.search(r'[a-zA-Z0-9].*[a-zA-Z0-9]',text)[0]
    else:
        return re.sub(a,'',text)
    

In [343]:
text = '  sd sd          '

In [346]:
re.findall(r'[a-zA-Z0-9].*[a-zA-Z0-9]',text)

['sd sd']

In [347]:
re.sub(r's','',text)

'  d d          '

In [359]:
strip_x(' sdfsdf         ')

'sdfsdf'