# 正则表达式 案例
正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

In [1]:
import re

### 正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为"元字符"）组成的文字模式。
模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配。

In [2]:
example_text = "teet teeeeed ohohoh tete teed teeeeeed every"

In [3]:
#生成正则表表达式对象
pattern = re.compile(r'te*d')
# *号匹配前一个元字符0到多次；注意+号匹配前一个元字符1到多次
result1 = pattern.findall(example_text)
result1

['teeeeed', 'teed', 'teeeeeed']

### 普通字符
普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。
### 特殊字符
所谓特殊字符，就是一些有特殊含义的字符，如 te*d 中的 *，简单的说就是表示任何字符串的意思。字符串前面的r是为了转义，例如可以直接写/n而不用写成//n  
常用的特殊字符并不多，需要记忆，包括^ [] * +等等

In [4]:
pattern_ex1 = re.compile(r'[a-zA-Z0-9]') #匹配任何字母及数字
result_ex1 = pattern_ex1.findall("震惊！某ruby 说 that ，然后 rubb 1  然后 2 3 ")
result_ex1

['r', 'u', 'b', 'y', 't', 'h', 'a', 't', 'r', 'u', 'b', 'b', '1', '2', '3']

In [5]:
pattern_ex2 = re.compile(r'[^0-9]') #匹配除了数字外的字符，包括空格
result_ex2 = pattern_ex2.findall("震惊！4523453538 1 然后 2 3")
result_ex2

['震', '惊', '！', ' ', ' ', '然', '后', ' ', ' ']

pattern_ex3 = re.compile(r'45.5') # .号匹配任意字符（不包括换行符）
result_ex3 = pattern_ex3.findall("震惊！4523 哈哈哈 453538 1 然后 245353")
result_ex3

In [7]:
pattern_ex4 = re.compile(r'嘤{1,2}') # 匹配前一个元字符m到n次
result_ex4 = pattern_ex4.findall("震惊！45 嘤嘤嘤 453538 1嘤嘤  然后 245353嘤嘤嘤嘤嘤")
result_ex4

['嘤嘤', '嘤', '嘤嘤', '嘤嘤', '嘤嘤', '嘤']

# re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

## 函数语法:re.match(pattern, string, flags=0)

pattern：匹配的正则表达式

string：要匹配的字符串。

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。
        

In [9]:
# -*- coding: UTF-8 -*- 
 
import re
print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

(0, 3)
None


In [24]:
line = "Cats are smarter than dogs"
 
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
 
if matchObj:
    print ("matchObj.group() : ", matchObj.group())
    print ("matchObj.group(1) : ", matchObj.group(1))
    print ("matchObj.group(2) : ", matchObj.group(2))
else:
    print ("No match!")

matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter


# re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。

## 函数语法：re.search(pattern, string, flags=0)

In [22]:
# -*- coding: UTF-8 -*- 
 
print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.search('com', 'www.runoob.com').span())  # 不在起始位置匹配

(0, 3)
(11, 14)


In [25]:
line = "Cats are smarter than dogs";
 
searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)
 
if searchObj:
    print ("searchObj.group() : ", searchObj.group())
    print ("searchObj.group(1) : ", searchObj.group(1))
    print ("searchObj.group(2) : ", searchObj.group(2))
else:
    print ("Nothing found!")

searchObj.group() :  Cats are smarter than dogs
searchObj.group(1) :  Cats
searchObj.group(2) :  smarter


## re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

In [27]:
line = "Cats are smarter than dogs";
 
matchObj = re.match( r'dogs', line, re.M|re.I)

if matchObj:
    print ("match --> matchObj.group() : ", matchObj.group())
else:
    print ("No match!")

matchObj = re.search( r'dogs', line, re.M|re.I)

if matchObj:
    print ("search --> searchObj.group() : ", matchObj.group())
else:
    print ("No match!!")

No match!
search --> searchObj.group() :  dogs


# 检索和替换

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

## 语法：re.sub(pattern, repl, string, count=0, flags=0)

pattern : 正则中的模式字符串。

repl : 替换的字符串，也可为一个函数。

string : 要被查找替换的原始字符串。

count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

In [29]:
phone = "2004-959-559 # 这是一个国外电话号码"
 
# 删除字符串中的 Python注释 
num = re.sub(r'#.*$', "", phone)
print ("电话号码是: ", num)
 
# 删除非数字(-)的字符串 
num = re.sub(r'\D', "", phone)
print ("电话号码是 : ", num)

电话号码是:  2004-959-559 
电话号码是 :  2004959559


 以下实例中将字符串中的匹配的数字乘以 2：

In [31]:
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

A46G8HFD1134


# re.compile 函数

compile函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

## 语法格式为：re.compile(pattern[, flags])

pattern : 一个字符串形式的正则表达式

flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

    re.I 忽略大小写
    re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    re.M 多行模式
    re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
    re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    re.X 为了增加可读性，忽略空格和 # 后面的注释

In [34]:
pattern = re.compile(r'\d+')                    # 用于匹配至少一个数字
m = pattern.match('one12twothree34four')        # 查找头部，没有匹配
print (m)

None


In [35]:
m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配
print (m)

None


In [36]:
m = pattern.match('one12twothree34four', 3, 10)  # 从'1'的位置开始匹配，正好匹配
print (m)                                         # 返回一个 Match 对象

<_sre.SRE_Match object; span=(3, 5), match='12'>


In [37]:
m.group(0)   # 可省略 0

'12'

In [38]:
m.start(0)   # 可省略 0

3

In [39]:
m.end(0)     # 可省略 0

5

In [40]:
m.span(0)    # 可省略 0

(3, 5)

# findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。
注意： match 和 search 是匹配一次 findall 匹配所有。

## 语法格式为：findall(string[, pos[, endpos]])

string : 待匹配的字符串。 

pos : 可选参数，指定字符串的起始位置，默认为 0。 

endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。

In [41]:
pattern = re.compile(r'\d+')   # 查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
 
print(result1)
print(result2)

['123', '456']
['88', '12']


# re.finditer

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

## 语法格式：re.finditer(pattern, string, flags=0)

pattern：匹配的正则表达式

string：要匹配的字符串。

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

In [42]:
it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )

12
32
43
3


# re.split

split方法按照能够匹配的子串将字符串分割后返回列表。

## 语法格式：re.split(pattern, string[, maxsplit=0, flags=0])


pattern：匹配的正则表达式

string：要匹配的字符串。

maxsplit：分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

In [43]:
re.split('\W+', 'runoob, runoob, runoob.')

['runoob', 'runoob', 'runoob', '']

In [44]:
re.split('(\W+)', ' runoob, runoob, runoob.') 

['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']

In [45]:
re.split('\W+', ' runoob, runoob, runoob.', 1) 

['', 'runoob, runoob, runoob.']

In [46]:
 re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割

  return _compile(pattern, flags).split(string, maxsplit)


['hello world']