# **Python正则表达式**

In [35]:
import re

p = re.compile(r'agbheawr')

print(p.search('aagbheawrdhx').group())
print(p.match('agbheawrsehr').group())
print(p.findall('agbheawrserdh'))
print(p.finditer('agbheawrsgedrhg'))

agbheawr
agbheawr
['agbheawr']
<callable_iterator object at 0x0000018D762133A0>


## **正则表达式基本语法**

### **re.match(pattern, string, flags=0)方法**

**用于从字符串的开始处进行匹配，如果在起始位置匹配成功，则返回Match对象，否则返回None**

参数说明：
- pattern:匹配的正则表达式
- string：被匹配的字符串
- flags:标志位，用于控制正则表达式的匹配方式，如是否区分大小写，是否匹配多行等

In [41]:
pattern = re.compile(r'a', re.I)
string = "Abc"
re.match(pattern, string).group()

'A'

In [43]:
re.match(pattern, 'bac').group()
# 从最开始位置匹配，若不能则报错

AttributeError: 'NoneType' object has no attribute 'group'

| 方法名称	| 作用 |
|:-------| ----  |
| group	| 以str形式返回对象中match的元素 |
| start	| 返回开始位置 |
| end	| 返回结束位置 |
| span	| 以tuple形式返回范围 |

In [106]:
s = "babacdefg"
p=re.compile(r"b(.+)a(.+)e")
m=p.match(s)
print(m)
print(m.groups())
print(m.group())
print(m.group(0), m.group(1),m.group(2))
print('*'*20)
print(m.span(0), m.span(1),m.span(2))
print(s[m.span(0)[0]:m.span(0)[1]])
print(s[m.span(1)[0]:m.span(1)[1]])
print(s[m.span(2)[0]:m.span(2)[1]])
print('*'*20)
print(m.start(1),m.end(1))
print(m.start(2),m.end(2))
print(s[m.start(1):m.end(1)])
print(s[m.start(2):m.end(2)])

<re.Match object; span=(0, 7), match='babacde'>
('ab', 'cd')
babacde
babacde ab cd
********************
(0, 7) (1, 3) (4, 6)
babacde
ab
cd
********************
1 3
4 6
ab
cd


### **re.search(pattern, string, flags=0)方法**

用于在整个字符串中搜索第一个匹配的值，如果匹配成功，则返回Match对象，否则返回None。

参数说明：
- pattern:匹配的正则表达式
- string：被匹配的字符串
- flags:标志位，用于控制正则表达式的匹配方式，如是否区分大小写，是否匹配多行等

In [44]:
re.search(pattern, string).group()

'A'

In [45]:
re.search(pattern, 'bac').group()

'a'

In [50]:
src = 'abcde'

print(re.match(r'(a)', src).group())
print(re.search(r'(a)', src).group())
# print(re.match(r'(b)', src).group()) # 报错z
print(re.search(r'(b)', src).group())
# match 和 search 都成功匹配到了 'a' ，但对于'b' ，match 匹配失败，而 search 匹配成功，说明 match 函数只能从 'a' 这个初始位置开始匹配，如果没有匹配到数据，则不会继续匹配数据
# match 和 search 都是只能返回匹配到的第一个数据，但 match 只能从整个字符串的起始位置进行匹配，而 search 会扫描整个字符串，并不会只局限于起始位置；

a
a
b


In [71]:
add = 'https://www.net.com.edu//action=?asdfsd and other https://www.baidu.com//a=b'
sr = re.search(r'((w{3}\.)(\w+\.)+(com|edu|cn|net))',add)
print(sr.group())
print(sr.group(0))
print(sr.group(1))
print(sr.group(2))
print(sr.group(3))
print(sr.group(4))
print(sr.groups())

www.net.com.edu
www.net.com.edu
www.net.com.edu
www.
com.
edu
('www.net.com.edu', 'www.', 'com.', 'edu')


### **re.findall(pattern, string, flags=0)方法**

用于在整个字符串中查找字符串中所有能匹配的字符串，如果匹配成功，则将结果存于列表中，然后返回该列表；否则返回空列表。特殊的地方在于返回的列表中的内容，取决于正则表达式中圆括号的出现情况，也就是分组情况。

In [51]:
# 1.正则表达式中没有圆括号时，返回列表中的元素由所有成功匹配的子串组成；
re.findall(r"\d+","12ab34cd56ef")

['12', '34', '56']

In [52]:
# 2.当正则表达式中含有多个圆括号()时，返回列表中的元素由所有满足匹配的内容组成
# 每个元素都是由表达式中所有圆括号匹配的内容组成的元组。而且元组中元素个数与括号对数相同，并且字符串排放顺序跟括号出现的顺序一致（一般看左括号‘ (’就行）
re.findall(r"(a)b(c)","abcabcabc")

[('a', 'c'), ('a', 'c'), ('a', 'c')]

In [74]:
add = 'https://www.net.com.edu//action=?asdfsd and other https://www.baidu.com//a=b'
res = re.findall(r'((w{3}\.)(\w+\.)+(com|edu|cn|net))',add)
print(res)

[('www.net.com.edu', 'www.', 'com.', 'edu'), ('www.baidu.com', 'www.', 'baidu.', 'com')]


In [79]:
for i in re.findall(r'.*?(\d+).*?','adsd12343.jl34d5645fd789'):
    print(i)

12343
34
5645
789


In [80]:
for i in re.finditer(r'[A-Za-z]+','one12two34three56four'):
    print(i.group())

one
two
three
four


### **pattern.split(string[, maxsplit \= 0])**
函数作用： 分割字符串，将字符串string用给定的正则表达式匹配的字符串进行分割，并返回分割后的结果list。

参数说明：
- string：被匹配的字符串
- maxsplit：用于指定最大分割次数，可选，默认为0，表示全部分割

In [108]:
pattern=re.compile(r"\d+")
# 不指定分割次数
result=pattern.split("one1two2three3four4")
print (result[:-1])

# 指定分割次数
result1=pattern.split("one1two2three3four4",2)
print (result1)

['one', 'two', 'three', 'four', '']
['one', 'two', 'three3four4']


### **pattern.sub(repl, string[, count \= 0])**
参数说明：
- repl：用于替换的字符串
- string：要被替换的字符串
- count：替换的次数，如果为0表示替换所有匹配到的字串，如果是1表示替换1次，为2替换2次等，该参数必须是非负整数，默认为0

In [121]:
s = "i say, hello world!"
p = re.compile(r'(\w+)\s+(\w+)')
s1 = p.sub(r'\2 \1', s)
print(s1)

def func(match):
    return match.group(2).title() + ' ' + match.group(1).title()
    # return match.group(2) + match.group(2)
s2 = p.sub(func, s)
print(s2)

say i, world hello!
Say I, World Hello!


## **特殊字符**

### **.(点)**

In [15]:
re.match(r".", "abc").group()

'a'

In [16]:
re.match(r"..", "abc").group()

'ab'

In [19]:
re.match(r"....", "abc").group()

In [20]:
re.match(r"..", "a\nc").group()

AttributeError: 'NoneType' object has no attribute 'group'

In [23]:
re.match(r"..", "a\nc", re.DOTALL).group()

'a\n'

In [22]:
re.match(r"..", "a\nc", re.S).group()

'a\n'

### **\A**
非多行匹配的时候等价于^，多行匹配的是\A将整个字符串看作一个整体匹配，而^能够匹配每一行的开头

In [24]:
re.findall(r"\A\d", "12\n34\n565\n")

['1']

In [25]:
re.findall(r"\A\d", "12\n34\n565\n", re.M)

['1']

In [26]:
re.findall(r"\A\d+", "12\n34\n565\n", re.M)

['12']

In [27]:
re.findall(r"^\d+", "12\n34\n565\n", re.M)

['12', '34', '565']

In [28]:
re.findall(r"^\d+", """
ab
12
234
53
""", re.M)

['12', '234', '53']

### **\Z**
非多行匹配时等价于$，多行匹配的是\Z将整个字符串看作一个整体匹配，而$能够匹配每一行的结尾

In [29]:
re.findall(r"\d+$", "abc43")

['43']

In [30]:
re.findall(r"\d+\Z", "abc43")

['43']

In [31]:
re.findall(r"\d+\Z", "abc43\new22\n5")

['5']

In [32]:
re.findall(r"\d+\Z", "abc43\new22\n5", re.M)

['5']

In [33]:
re.findall(r"\d+$", "abc43\new22\n5", re.M)

['43', '22', '5']

In [34]:
re.findall(r"\d+$", "abc43\new22\n5")

['5']

## **题目**

In [100]:
"提取字符串中所有的有效的域名地址"
add = 'https://www.net.com.edu//action=?asdfsd and other https://www.baidu.com//a=b'
result = re.search(r'http(s?)://www.(\w+.)+(\w+)', add)
print(result.group())

result = re.findall(r'(http(s?)://www(\.\w+)+)', add)
print(result)

pattern=re.compile(r'((w{3}\.)(\w+\.)+(com|edu|cn|net))')
result=pattern.findall(add)
print (result)

add = 'https://www.net.com.edu//action=?asdfsd and other https://www.baidu.com//a=b'
pattern=re.compile(r"https://w{3}\.\w+\.\w+\.?\w+")
result=pattern.findall(add)
print (result)

https://www.net.com.edu
[('https://www.net.com.edu', 's', '.edu'), ('https://www.baidu.com', 's', '.com')]
[('www.net.com.edu', 'www.', 'com.', 'edu'), ('www.baidu.com', 'www.', 'baidu.', 'com')]
['https://www.net.com.edu', 'https://www.baidu.com']


In [124]:
# 提取字符串中的ip地址
s = "ip='230.192.168.78',version='1.0.0'"
print(re.search(r'(\d+.)+\d+', s).group())

230.192.168.78


In [128]:
s ="phone,number,15817934235"
result = re.search(r'(?P<type1>\w+),(?P<type2>\w+),(?P<type3>\d+)', s)
print(result)
print(result.group())
print(result.group(1), result.group(2), result.group(3))
print(result.group('type1'), result.group('type2'), result.group('type3'))

<re.Match object; span=(0, 24), match='phone,number,15817934235'>
phone,number,15817934235
phone number 15817934235
phone number 15817934235


In [130]:
s = 'go go go'
res = re.search(r'(?P<name>go)\s+(?P=name)\s+(?P=name)', s)
print (res.group())
print (res.group('name'))
res=re.search(r"(\w+)\s(\1)\s(\2)",s)
print (res.group())

go go go
go
go go go


In [133]:
# #交换.号两边的字符串
s="abc.xyz"
print(re.sub(r'(\w+)\.(\w+)', r'\2.\1', s))
print(re.sub(r'(\w+)\.(\w+)', r'\2.\1', s))

xyz.abc


In [135]:
p=re.compile(r"b(?:.+)a(?:.+)e")
m=p.match("babacdefg")
print(m.group())

babacde


In [154]:
# 文件名必须以exe为后缀print(m)
print(re.search(r'(\w+)\.(?=exe$).+', 'abbcdg_bvsda.exe').group(1))
# $ 后的 .+ 无意义，匹配不到的

abbcdg_bvsda


In [148]:
print(re.search(r'(\w+)\.(?!exe$|txt$).+', 'afe35 hyr.pdf(⊙o⊙)…tsh').group(1))

hyr


In [160]:
print(re.search(r'(?<=www\.)\w+\.\w+', 'www.baidu.com').group())
print(re.search(r'(?<!www\.)\w+\.\w+', 'blog.baidu.com').group())

baidu.com
blog.baidu


In [178]:
# 匹配邮件格式的正则表达式，可以匹配 <user@fishc.com> 和 'user@fishc.com'，但是不会匹配 '<user@fishc.com' 或 'user@fishc.com>'
print(re.fullmatch(r'(?P<start><)?\w+@\w+.(com|edu|cn|net)(?(start)>|$)', '<user@fishc.com>').group())
print(re.fullmatch(r'(?P<start><)?\w+@\w+.(com|edu|cn|net)(?(start)>|$)', 'user@fishc.com').group())

<user@fishc.com>
user@fishc.com


In [177]:
print(re.fullmatch(r'(?P<start><)?\w+@\w+.(com|edu|cn|net)(?(start)>$|$)', '<user@fishc.com'))
print(re.fullmatch(r'(?P<start><)?\w+@\w+.(com|edu|cn|net)(?(start)>$|$)', 'user@fishc.com>'))

None
None


In [176]:
print(re.fullmatch(r'(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)', '<user@fishc.com'))
print(re.fullmatch(r'(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)', 'user@fishc.com>'))

None
None


In [180]:
p = re.compile(r"[\w]")
print(p.findall("adb_a b!c"))

['a', 'd', 'b', '_', 'a', 'b', 'c']


In [181]:
p = re.compile(r"[^^]")
print(p.findall("5a^b512!5"))

['5', 'a', 'b', '5', '1', '2', '!', '5']


In [185]:
p = re.compile('o[gh]')
print(p.fullmatch("ogh"))
print(p.fullmatch("og"))
print(p.fullmatch("oh"))
print(p.fullmatch("dog"))
print(p.fullmatch("dog", 1))

None
<re.Match object; span=(0, 2), match='og'>
<re.Match object; span=(0, 2), match='oh'>
None
<re.Match object; span=(1, 3), match='og'>


In [187]:
p = re.compile(r"b(.+)?(.+)(.+)?")
m = p.match("babacdefg")
print(m)
print(m.groups())
print(m.groups("no"))

<re.Match object; span=(0, 9), match='babacdefg'>
('abacdef', 'g', None)
('abacdef', 'g', 'no')


In [192]:
p = re.compile(r"er\b")
print(p.search("never"))
print(p.search("verb"))

p = re.compile(r"\ba\b")
print(p.search("I have a dog"))

<re.Match object; span=(3, 5), match='er'>
None
<re.Match object; span=(7, 8), match='a'>


In [190]:
p = re.compile(r"er\B")
print(p.search("never"))
print(p.search("verb"))

p = re.compile(r"\Ba\B")
print(p.search("I have a dog"))

None
<re.Match object; span=(1, 3), match='er'>
<re.Match object; span=(3, 4), match='a'>


In [195]:
matchStr = 'adsd12343.jl34d5645fd789'
# pattern=re.compile(r".*?(\d+).*?")
pattern=re.compile(r"(\d+)")
result=pattern.findall(matchStr)
print (result)

['12343', '34', '5645', '789']
