In [2]:
import re

### 正则表达式
正则表达式使用某种预定义的模式去匹配一类**具有共同特征**的字符串，主要用于处理字符串，可以快速、准确地完成复杂的查找、替换等处理要求，在文本编辑与处理、网页爬虫之类的场合中有重要应用。

> - \. : 匹配除换行符以外的任意单个字符,findall的flags参数设为re.S即单行模式时可以匹配换行符
> - \- : 在[]之内用来表示范围
> - [] : 表示范围，匹配位于[]中的任意一个字符
> - [^xyz] : 反向字符集，匹配除x、y、z之外的任何字符
> - [a-z] : 字符范围，匹配指定范围内的任何字符
> - [^a-z] : 反向范围字符，匹配除小写英文字母之外的任何字符
> > 1. '[pjc]ython' : 匹配'python'、'jython'、'cython'
> > 2. '[a-zA-Z0-9]' : 匹配一个任意大小写字母或数字
> > 3. '[^abc]' : 匹配除'a'、'b'、'c'之外的一个字符

> - | :	或，匹配位于|之前或之后的字符
> - ^ : 匹配**行首**，匹配以^后面的字符开头的字符串
> - \$ : 匹配**行尾**，匹配以$之前的字符结束的字符串
> - ? : 匹配位于?之前的**0个或1个**字符。当此字符紧随任何其他限定符（*、+、?、{n}、{n,}、{n,m}）之后时，匹配模式是“**非贪心**的”。
> > - “非贪心的”模式匹配搜索到的、**尽可能短**的字符串
> > - 默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。例如，在字符串“oooo”中，“o+?”只匹配单个“o”，而“o+”匹配所有“o”
> > 1. 'python|perl' : 匹配'python'或'perl'
> > 2. '^http' : 匹配所有以'http'开头的字符串
> > 3. r'(http://)?(www\.)?python\.org' : 匹配'http://www.python.org'、'http://python.org'、
'www.python.org'和'python.org'(子模式后面加上问号表示可选)

> - \* : 匹配位于星号之前的字符 或 子模式的**0次或多次**出现
> - \+	: 匹配位于+之前的字符 或 子模式的**1次或多次**出现
> - () : 将位于()内的内容作为一个**整体**来对待
> - {m,n} : {}前的字符或子模式重复**至少m次，至多n次**
> > - (pattern)* : 模式重复0次或多次
> > - (pattern)+ : 模式重复1次或多次
> > - (pattern){m,n} : 允许模式重复m~n次
> > - '(a|b)*c' : 匹配多个（包含0个）a或b，后面紧跟一个字母c。
> > - 'ab{1,}' : 等价于'ab+'，匹配以字母a开头后面带1个至多个字母b的字符串。
> > - '^[a-zA-Z]{1}([a-zA-Z0-9._]){4,19}$' : 匹配长度为5-20的字符串，必须以字母开头并且可带字母、数字、\_、\.的字符串。
> > - '^[a-zA-Z]+$' : 检查给定字符串是否只包含英文字母大小写。

> - \d : 匹配任何数字，相当于[0-9]
> - \D : 与\d含义相反，等效于[^0-9],匹配除数字0-9外的任意字符
> - \s : 匹配**任何空白字符**，包括空格、制表符、换页符，与 [ \f\n\r\t\v] 等效
> - \S : 与\s含义相反，匹配任何非空白
> - \w : 匹配任何**字母、数字以及下划线**，相当于[a-zA-Z0-9_]
> - \W : 与\w含义相反\w含义相反，与“[^A-Za-z0-9_]”等效
> > - '^(\w){6,20}$' : 匹配长度为6-20的字符串，可以包含字母、数字、下划线。
> > - '^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}$' : 检查给定字符串是否为合法IP地址。
> > - '^(13[0-9]|15[012356789]|17[678]|18[0-9]|14[57])[0-9]{8}$' : 检查给定字符串是否为手机号码。
> > - '^\w+@(\w+\.)+\w+$' ：检查给定字符串是否为合法电子邮件地址
> > - '^(\-)?\d+(\.\d{1,2})?$' : 检查给定字符串是否为最多带有2位小数的正数或负数。
> > - '\d{4}-\d{1,2}-\d{1,2}' : 匹配指定格式的日期，例如2016-1-31

- \	：表示位于\之后的为转义字符
- \num	：此处的num是一个正整数，表示子模式编号。 例如，“(.)\1”匹配**两个连续的相同字符**
- \f ：**换页符**匹配
- \n ：换行符匹配
- \r ：匹配一个**回车符**
- **\b** ：匹配**单词头**或**单词尾**
- \B ：反向非单词边界匹配符，表示匹配不在单词边界处的位置

> - ?= ：**前瞻** exp1(?=exp2) ,exp1后边是exp2就匹配
> - ?<= ：**后顾** (?<=exp2)exp1,exp1前边是exp2就匹配
> - ?! ：**负前瞻** exp1(?!exp2),exp1后边不是exp2就匹配
> - ?<! ：**负后顾** (?<!exp2)exp1,exp1前边不是exp2就匹配
> > 四种类型：(?=pattern)、(?!pattern)、(?<=pattern)、(?<!pattern)

> - 检查给定字符串是否为强密码，必须同时包含英语大写字母、英文小写字母、数字或特殊符号（如英文逗号、英文句号、下划线），并且长度必须至少8位 ：'^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[,._]).{8,}$' 
>(小写字母>1+大写字母>1+数字>1+逗号/点/下划线>1+长度>8)
>
>- 如果给定字符串中包含'、"、/、;、=、%、?则匹配失败:"(?!.*[\'\"\/;=%?]).+"
>
>- 匹配任意字符的两次或多次重复出现 : '(.)\\1+'

> 匹配连续出现两次的单词 : '((?P<f>\b\w+\b)\s+(?P=f))'
>> - (?P<f>\b\w+\b)：一个**命名捕获组**，用于匹配一个完整的单词。\b表示单词的边界，\w+表示匹配一个或多个字母、数字或下划线字符。
>> - \s+：表示匹配一个或多个空白字符。
>> - (?P<pattern>)可以用来标记一些模糊的模式，然后在同一个正则表达式中，我们可以通过(?P=pattern)来复用之前的内容
>> - (?P=f)：这是一个反向引用，用于匹配之前捕获的单词。(?P=f)表示引用前面命名捕获组中匹配的内容。

> 匹配AABB形式的成语或字母组合 : '((?P<f>.)(?P=f)(?P<g>.)(?P=g))'
>
> 匹配连续的数字并且最后一个数字跟着小写字母 ："/d+(?=[a-z]+)"
> 
> 匹配连续的数字，并且最后一个数字后面不能跟小写字母 : "/d+(?![a-z]+)"
> 
> 匹配连续的数字，并且第一个数字的前面是小写字母 : "(?<=[a-z])\d+"
> 
> 连续的数字，并且第一个数字的前面不能小写字母 : "(?<![a-z])\d+"
>
> 匹配三位数字，而且这三位数字的后面不能是数字 : '\d{3}(?!\d)' 
> 
> 匹配不包含连续字符串abc的单词 : '\b ( (?!abc)\w) + \b'
> 
> 匹配前面不是小写字母的七位数字 : '(?<![a-z])\d{7}'

> 匹配"<span> hello world </span>"中的span和hello world : "(?<= <(\w{4})> ) (.*) (?= <\/\1> )"
> \1匹配两个连续相同字符
> - (?<= <(\w{4})> )：这是一个正向肯定预查，用于匹配左侧的标签开始部分。(?<= ... ) 表示正向预查，<(\w{4})> 表示匹配一个四个字母的标签，并将标签名称作为子组捕获。
> - (.*)：表示匹配零个或多个任意字符，也就是要匹配的内容。
> - (?= <\/\1> )：这是一个正向肯定预查，用于匹配右侧的标签结束部分。(?= ... ) 表示正向预查，<\/\1> 表示匹配 </ 后跟着前面捕获的标签名称 \1，然后再跟着一个 >。
> -这个正则表达式的作用是匹配 <tag> content </tag> 这样的标签结构中的内容。它要求标签的名称必须是四个字母的单词，并且标签的开始部分和结束部分要完全匹配。

### re模块主要函数

### findall(pattern, string[, flags])：
返回包含字符串中所有与给定模式匹配的项的列表
flag参数设置：
- 为**re.A**时，(re.ASCII)使得正则表达式中\w、\W、\b、\B、\d、\D、\s和\S等元字符只匹配ASCII字符，不匹配Unicode字符
- 为**re.l**时，忽略大小写
- 为**re.M**时：多行模式，^可以匹配每行开始，$可以匹配每行结束。默认情况下分别匹配字符串的开始和结束。
- 为**re.S**时，单行模式，**圆点可以匹配换行符**
- 为**re.X**：允许正则表达式换行，并忽略其中的空白字符和#注释

In [8]:
print(re.findall('\d+', '123１２３４') )#前者为ASCII字符，后者为全角字符Unicode
print(re.findall('\d+', '123１２３４', re.A)) #只匹配ASCII字符
print(re.findall('\w+', '1a2b3c１d２e３g４', re.A)) #只匹配ASCII字符
print(re.findall('\w+', '1a2b3c１d２e３g４') )#匹配ASCII字符和全角字符

['123１２３４']
['123']
['1a2b3c', 'd', 'e', 'g']
['1a2b3c１d２e３g４']


In [9]:
print(re.findall('[a-z0-9]+', '1a2b3c１D２e３G４'))
print(re.findall('[a-z0-9]+', '1a2b3c１D２e３G４', re.I))#忽略大小写
print(re.findall('[a-z0-9０-９]+', '1a2b3c１D２e３G４', re.I))
print(re.findall('[a-z0-9０-９]+', '1a2b3c１D２e３G４'))

['1a2b3c', 'e']
['1a2b3c', 'D', 'e', 'G']
['1a2b3c１D２e３G４']
['1a2b3c１', '２e３', '４']


In [11]:
text = '''
1a2b3
c１D２e３G４
1234
abc
Python
陈
'''
print(re.findall(r'^\w+$',text))
print(re.findall(r'^.+$',text))
print(re.findall(r'^\w+$',text,re.M)) #多行模式
print(re.findall(r'^.+$',text,re.M))

[]
[]
['1a2b3', 'c１D２e３G４', '1234', 'abc', 'Python', '陈']
['1a2b3', 'c１D２e３G４', '1234', 'abc', 'Python', '陈']


In [13]:
text = '''<p>Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.</p>'''
print(re.findall(r'<p>(.+?)</p>', text))
print(re.findall(r'<p>(.+?)</p>', text, re.S)) #单行模式，.可以匹配换行符

[]
['Beautiful is better than ugly.\nExplicit is better than implicit.\nSimple is better than complex.']


In [15]:
text = '''
good
bad
345a
abc456
'''
print(re.findall(r'\w+', text))
print(re.findall(r'^\w+$', text))         #\w不能匹配换行符，^匹配整个字符串的开始
print(re.findall(r'^.+$', text))          #圆点也不能匹配换行符，$匹配整个字符串的结束
print(re.findall(r'^.+$', text, re.S))    #单行模式，此时圆点可以匹配换行符
print(re.findall(r'^.+$', text, re.M))    #多行模式，^和$可以匹配每一行的开始和结束

['good', 'bad', '345a', 'abc456']
[]
[]
['\ngood\nbad\n345a\nabc456\n']
['good', 'bad', '345a', 'abc456']


In [16]:
text = 'abc123.4dfg8.88888hij9999.9'
pattern = r'''\d+     # 数字
\.                        # 小数点
\d +'''
print(re.findall(pattern, text))
print(re.findall(pattern, text, re.X)) #忽略空白符和注释符

[]
['123.4', '8.88888', '9999.9']


In [17]:
#多个flag可以用+连接
text = '''abc123.4d
fg8.88888hi
j9999.9
000.00
asdf'''
pattern = r'''^\d+     # 数字
\.                         # 圆点
\d +$'''
print(re.findall(pattern, text)) #没有匹配到，因为没有多行模式
print(re.findall(pattern, text, re.M)) #多行模式,^和$可以匹配每一行的开始和结束
print(re.findall(pattern, text, re.X)) #忽略空白符和注释符
print(re.findall(pattern, text, re.X+re.M))

[]
[]
[]
['000.00']


#### escape(string)：将字符串中所有特殊正则表达式字符转义

In [24]:
re.escape('http://www.python.org')  #字符串转义

'http://www\\.python\\.org'

#### search(pattern, string[, flags]):在整个字符串中寻找模式pattern，返回Match对象或None

#### split(pattern, string[, maxsplit=0]):	根据模式匹配项分隔字符串
- pattern: 模式字符串,分割字符   
- string:要匹配的字符串   
- maxsplit:可选参数,是最大的拆分次数   
- flags:可选参数

In [18]:
text = 'alpha. beta....gamma delta'  #测试用的字符串

print(re.split('[\. ]+', text))             #使用指定字符作为分隔符进行分隔

print(re.split('[\. ]+', text, maxsplit=2)) #最多分隔2次,即分割成3个部分
print(re.split('[\. ]+', text, maxsplit=1)) #最多分隔1次，即分割成2个部分

pat = '[a-zA-Z]+'
print(re.findall(pat, text))               #查找所有单词

['alpha', 'beta', 'gamma', 'delta']
['alpha', 'beta', 'gamma delta']
['alpha', 'beta....gamma delta']
['alpha', 'beta', 'gamma', 'delta']


#### **re.sub**(pat, repl, string[, count=0]):	将字符串中所有与pat匹配的项用repl替换，返回**新字符串**.
repl可以是字符串或返回字符串的可调用对象，作用于每个匹配的Match对象

In [19]:
pat = '{name}'
text = 'Dear {name}...'
re.sub(pat, 'Mr.Dong', text)      #字符串替换

Dear Mr.Dong...


In [20]:
s = 'a s d'
re.sub('a|s|d', 'good', s)        #字符串替换

good good good


In [21]:
s = "It's a very good good idea"
re.sub(r'(\b\w+) \1', r'\1', s)    #处理连续的重复单词

It's a very good idea


#### **re.subn**(pat, repl, string[, count=0]):	将字符串中所有pat的匹配项用repl替换，返回包含新字符串和替换次数的**二元元组**.
repl可以是字符串或返回字符串的可调用对象，作用于每个匹配的Match对象

In [22]:
re.subn('a', 'dfg', 'aaa abc abde') 
#所有‘a’替换成‘dfg’，返回新字符串和替换次数

('dfgdfgdfg dfgbc dfgbde', 5)

In [23]:
re.sub('a', 'dfg', 'aaa abc abde')
#所有‘a’替换成‘dfg’，返回新字符串

'dfgdfgdfg dfgbc dfgbde'

In [25]:
example = 'Beautiful is better than ugly.'
print(re.findall('\\bb.+?\\b', example))  
#\b表示单词边界，能匹配到句末
#以字母b开头的完整单词
#此处问号?表示非贪心模式，只找一个单词

print(re.findall('\\bb.+\\b', example))   
#贪心模式的匹配结果
#匹配到句末

print(re.findall('\\bb\w*\\b', example))  
#不匹配空格，因此不会搜索到句末
#\w匹配字母数字下划线，*表示匹配0次或多次

print(re.findall('\\Bh.+?\\b', example))
#\B:反向非单词边界匹配符，表示匹配不在单词边界处的位置
#找到所有以字母"h"开头的且"h"不是单词边界的子串
#.+?:非贪心模式，表示匹配一个或多个任意字符，但尽可能少地匹配

print(re.findall('\\b\w.+?\\b', example)) 
#所有单词

['better']
['better than ugly']
['better']
['han']
['Beautiful', 'is', 'better', 'than', 'ugly']


## 正则化表达式对象

#### **re.compile()**:将正则表达式编译生成正则表达式对象
使用编译后的正则表达式对象可以提高字符串处理速度，也提供了更强大的文本处理功能

#### **match**(string[, pos[, endpos]])方法：用于在字符串**开头**或**指定位置**进行搜索,返回Match对象
模式必须出现在字符串开头或指定位置

In [14]:
example = 'ShanDong Institute of Business and Technology'
pattern = re.compile(r'\bB\w+\b')  #查找以B开头的单词
print(pattern.match(example))          #从字符串开头开始匹配，失败返回空值
print(pattern.search(example))         #在整个字符串中搜索，成功

None
<re.Match object; span=(22, 30), match='Business'>


#### **findall**(string[, pos[, endpos]])方法：用于在字符串指定范围中查找所有符合正则表达式的字符串并返回列表

In [28]:
example = 'ShanDong Institute of Business and Technology'
pattern = re.compile(r'\bB\w+\b')  #查找以B开头的单词
pattern.findall(example) #使用正则表达式对象的findall()方法

['Business']

In [29]:
pattern = re.compile(r'\w+g\b')    #查找以字母g结尾的单词
pattern.findall(example)

['ShanDong']

In [30]:
pattern = re.compile(r'\b[a-zA-Z]{3}\b') #查找3个字母长的单词
pattern.findall(example)

['and']

#### **search**(string[, pos[, endpos]])方法：在**整个字符串**或**指定范围**中进行搜索,返回第一个成功的匹配（Match对象）

#### .*?：非贪婪匹配模式，表示匹配任意数量的任意字符，尽可能少地匹配。

In [12]:
line = "Cats are smarter than dogs";
 
searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)
 
if searchObj:
   print("searchObj.group() : ", searchObj.group())
   print("searchObj.group(1) : ", searchObj.group(1)) # (.*)表示第一个匹配的字符串
   print("searchObj.group(2) : ", searchObj.group(2)) # (.*?)表示第二个匹配的字符串
   # print("searchObj.group(3) : ", searchObj.group(3)) #IndexError: no such group
   print("searchObj.groups() : ", searchObj.groups())
else:
   print("Nothing found!!")

searchObj.group() :  Cats are smarter than dogs
searchObj.group(1) :  Cats
searchObj.group(2) :  smarter
searchObj.groups() :  ('Cats', 'smarter')


**Match对象**方法：
- group()：返回匹配的一个或多个子模式内容
- groups()：返回一个包含匹配的所有子模式内容的元组
- groupdict()：返回包含匹配的所有命名子模式内容的字典
- start()：返回指定子模式内容的起始位置
- end()：返回指定子模式内容的结束位置的前一个位置
- span()：返回一个包含指定子模式内容起始位置和结束位置前一个位置的元组。

#### 使用()表示一个**子模式**，括号中的内容作为一个整体处理
例如’(red)+’可以匹配’redred’、’redredred‘等多个重复’red’的情况

#### 在s中查找ab的第三次出现

In [13]:
import re
s = 'ab134ab98723jafjweoruiagabababab'
m = re.search(r'((ab).*?){2}.*?(ab)', s) 
#匹配到的整个子串，捕获组 1 的内容，捕获组 2 的内容，捕获组 3 的内容

print(m.group(),m.span()) #匹配到的整个子串
print(m.group(0),m.span(0)) 

print(m.group(1),m.span(1)) 
print(m.group(2),m.span(2)) 
print(m.group(3),m.span(3)) 
print(m.groups()) #返回所有子组的匹配结果

print(s[24:26])

ab134ab98723jafjweoruiagab (0, 26)
ab134ab98723jafjweoruiagab (0, 26)
ab (5, 7)
ab (5, 7)
ab (24, 26)
('ab', 'ab', 'ab')
ab


## Practice

#### 查找字符串中最长的数字子串

In [None]:
def longest1(s):
    '''查找所有连续数字'''
    t = re.findall('\d+', s)
    if t: return max(t, key=len)

def longest2(s):
    '''使用非数字作为分隔符'''
    t = re.split('[^\d]+', s)
    if t: return max(t, key=len)

####  去除标点符号

In [26]:
import string
re.sub('['+string.punctuation+']', '', 'abcd,.e!f/?')  

'abcdef'

In [15]:
example = r'one,two,three.four/five\six?seven[eight]nine|ten'
pattern = re.compile(r'[,./\\?[\]\|]')     #指定多个可能的分隔符
pattern.split(example)

['one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine', 'ten']

In [16]:
example = r'one1two2three3four4five5six6seven7eight8nine9ten'
pattern = re.compile(r'\d+')               #使用数字作为分隔符
pattern.split(example)

['one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine', 'ten']

匹配国内电话号码：'(\d{3,4})-(\d{7,8})'
评注：匹配形式如 0511-4405222 或 021-87888822

匹配腾讯QQ号：'[1-9][0-9]{4,}'
评注：腾讯QQ号从10000开始

匹配中国邮政编码：[1-9]\d{5}(?!\d)
评注：中国邮政编码为6位数字

匹配身份证：\d{15}|\d{18}
评注：中国的身份证为15位或18位

匹配ip地址：\d+.\d+.\d+.\d+

带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})?$

正数、负数、和小数：^(\-|\+)?\d+(\.\d+)?$

有两位小数的正实数：^[0-9]+(.[0-9]{2})?$

有1~3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$

非零的正整数：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

非零的负整数：-^[1-9]\d*$

非负整数：^\d+$  

非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$