# RE使用大致步骤
1. 使用compile将表示正则的字符串编译为一个pattern对象
2. 通过pattern对象提供一系列方法对文本进行查找匹配，获得匹配效果，一个Match对象
3. 最后使用Match对象提供的属性和方法获得信息，根据需要进行操作


# RE常用函数
- group(): 获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，直接使用group或者group(0)
- start: 获取分组匹配的子串在整个字符串中的起始位置，参数默认是0
- end: 获取分组匹配的子串在整个字符串中的结束位置，参数默认是0
- span: 返回的结构技术(start(group), end(group))
 

In [11]:
# 导入相关包
import re

# 查找数字
# r表示字符串不转义
p = re.compile(r'\d+')
# 在字符串’one12twothree33456four78‘中进行查找，按照规则p制定的正则进行查找
# 返回结果是None的话表示没有找到，否则会返回match对象
m = p.match("one12twothree33456four78")

print(m)

None


In [12]:
# 导入相关包
import re

# 查找数字
# r表示字符串不转义
p = re.compile(r'\d+')
# 在字符串’one12twothree33456four78‘中进行查找，按照规则p制定的正则进行查找
# 返回结果是None的话表示没有找到，否则会返回match对象
# 参数3和18表示在字符串中查找的范围（3-18）
m = p.match("one12twothree33456four78", 3, 18)

print(m)

# 上述代码说明的问题
# 1. match可以输入参数表示起始位置
# 2. 查找到的结果只包含一个，表示第一次进行匹配成功的内容

<_sre.SRE_Match object; span=(3, 5), match='12'>


In [15]:
print(m[0])
print(m.start(0))
print(m.end(0))

12
3
5


In [27]:
import re

# I表示忽略大小写 
p = re.compile(r'([a-z]+) ([a-z]+)', re.I)

m = p.match("I am really like wangerqing")
print(m)
print(m.groups())
print(m.group(0))
print(m.start(0))
print(m.end(0))

print("*" * 30)

print(m.group(1))
print(m.start(1))
print(m.end(1))

print("*" * 30)

print(m.group(2))
print(m.start(2))
print(m.end(2))

<_sre.SRE_Match object; span=(0, 4), match='I am'>
('I', 'am')
I am
0
4
******************************
I
0
1
******************************
am
2
4


# 查找
- search(str, [, pos[, endpos]]): 在字符串中查找匹配，pos和endpos表示起始和结束位置
- findall: 查找所有
- finditer: 查找，返回一个iter结果

In [31]:
import re

p = re.compile(r'\d+')


m = p.search("one12two34three567four")

print(m.group())

rst = p.findall("one12two34three567four")
print(type(rst))
print(rst)



12
<class 'list'>
['12', '34', '567']


# sub 替换
- sub(rep1, str[, count])

In [33]:
# sub 替换案例
import re

p = re.compile(r'(\w+) (\w+)')

s = "hello 123 wang 456 xiaojing, i love you"

rst = p.sub("hello world", s)
print(type(rst))
print(rst)

<class 'str'>
hello world hello world xiaojing, hello world you


# 匹配中文
- 大部分中文表示范围是[u4e00-u9fa5]，不包括全角标点

In [37]:
import re


title = u'世界 你好，hello moto'

p = re.compile(r'[\u4e00-\u9fa5]+')
rst = p.findall(title)

print(rst)


['世界', '你好']


# 贪婪和非贪婪
- 贪婪：尽可能多的匹配，(*)表示贪婪匹配
- 非贪婪：找到符合条件的最小内容即可，(?)表示非贪婪
- 正则默认使用贪婪匹配

In [48]:
import re


title = u"<div>name</div><div>age</div>"

p1 = re.compile(r"<div>.*</div>")
p2 = re.compile(r"<div>.*?</div>")

m1 = p1.search(title)
print(m1.group())

m2 = p2.search(title)
print(m2.group())


<div>name</div><div>age</div>
<div>name</div>
