（1）普通字符直接匹配。

（2）元字符 metacharacters 

`.` `*` `+` `?` `\` `[` `]` `^` `$` `{` `}` `|` `(` `)`



## 1.

`.`  匹配除了换行符之外的任何`单个`字符。

In [22]:
import re


content = """
苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的
"""

p = re.compile(r'.色')
print(p.findall(content))   # p.findall(content) -> list

['绿色', '橙色', '黄色', '黑色']


## 2.

`*` 表示匹配前面的子表达式任意次，包括0次。

In [21]:
import re


content = """
苹果,是绿色的
橙子,是橙色的
香蕉,是黄色的
乌鸦,是黑色的
猴子,
天空,
"""

p = re.compile(r',.*')
print(p.findall(content))

[',是绿色的', ',是橙色的', ',是黄色的', ',是黑色的', ',', ',']


## 3.

`+` 表示匹配前面的子表达式一次或多次，不包括0次。

In [19]:
import re


content = """
苹果,是绿色的
橙子,是橙色的
香蕉,是黄色的
乌鸦,是黑色的
猴子,
天空,
"""

p = re.compile(r',.+')
print(p.findall(content))

[',是绿色的', ',是橙色的', ',是黄色的', ',是黑色的']


## 4.

`{ }` 表示前面的字符匹配`指定的次数`。

`s{3,4}` 表示匹配连续的 `s` 至少3次，至多4次

In [20]:
import re


content = """
dss, dsss, dssss,
ds,
"""

p = re.compile(r's{3,4}')
print(p.findall(content))

['sss', 'ssss']


`s{4}` 表示匹配连续的 `s` 4次; `\d` 表示数字

In [22]:
import re


content = """
Ben, 13500344799, 0
Mary, 15900785634, 1
Ken, 13909756432, 1
Ray, 123334, 0
"""

p = re.compile(r'\d{11}')
print(p.findall(content))

['13500344799', '15900785634', '13909756432']


## 5. 贪婪模式与非贪婪模式

加了 `?` 就是尽可能少，不加 `?` 就是尽可能多

In [None]:
import re


source = "<html><head><title>Title</title>"

p = re.compile(r'<.*>') # 贪婪模式
print(p.findall(source))

p = re.compile(r'.*?')  # 非贪婪模式

['<html><head><title>Title</title>']


## 6. 对元字符的转义

使用 `\` 可以将元字符转义

In [3]:
import re


content = """
苹果.是绿色的
橙子.是橙色的
香蕉.是黄色的
"""

p = re.compile(r'.*\.')
print(p.findall(content))

['苹果.', '橙子.', '香蕉.']


## 7.匹配某种字符类型

反斜杠后面接一些字符，表示匹配 `某种类型` 的一个字符。

如：

`\d` 匹配0-9之间任意一个数字字符，等价于表达式 [0-9].  
`\D` 匹配任意一个非0-9数字的字符，等价于表达式 [^0-9].  
`\s` 匹配任意一个空白字符，包括 空格、tab、换行符等，等价于表达式 [\t\n\r\f\v].  
`\S` 匹配任意一个非空白字符，等价于表达式 [^ \t\n\r\f\v].  
`\w` 匹配任意一个文字字符，包括大小写字母、数字、下划线，等价于表达式 [a-zA-Z0-9_].  
`\W` 匹配任意一个非文字字符，等价于表达式 [^a-zA-Z0-9_].  

In [None]:
import re


content = """
王亚辉
tony
刘文武
"""

p = re.compile(r'\w{2,4}', re.A)    # Only match alphabets
print(p.findall(content))

['tony']


## 8. 方括号

方括号表示要匹配指定的几个字符之一。  

`[abc]` 可以匹配 a, b, 或者 c 里面的任意一个字符。等价于 `[a-c]` 。

`[a-c]` 中间的 - 表示一个范围从a 到 c。


如果你想匹配所有的小写字母，可以使用 `[a-z]`  


一些 元字符 在 方括号内 失去了魔法， 变得和普通字符一样了。

比如


`[akm.]` 匹配 a k m . 里面任意一个字符

这里 `.` 在括号里面不在表示 匹配任意字符了，而就是表示匹配 `.` 这个 字符


In [19]:
import re


content = """
王亚辉, 12358439534, 90
徐志摩, 12048170471, 22
周根源, 12423448142, 44
""" 

p = re.compile(r'12[350]\d{8}')
print(p.findall(content))

['12358439534', '12048170471']


如果在方括号中使用 `^` ， 表示 `非` 方括号里面的字符集合。

In [23]:
import re


content = "a1b2c3d4e5"

p = re.compile(r'[^\d]')
print(p.findall(content))

['a', 'b', 'c', 'd', 'e']


## 9.

`^` 表示匹配文本的 `开头` 位置

正则表达式可以设定 `单行模式` 和 `多行模式` 。

如果是 `单行模式` ， 表示匹配整个文本的开头位置  
如果是 `多行模式` ， 表示匹配文本每行的开头位置

In [47]:
import re


content = """001-苹果价格-60
002-橙子价格-70
003-香蕉价格-80
"""

pattern = r'\d+'
p = re.compile(pattern)
print(p.findall(content))

# dotall mode
pattern = r'^\d+'
p = re.compile(pattern)
print(p.findall(content))

# multiline mode -> re.M
pattern = r'^\d+'
p = re.compile(pattern, re.M)
print(p.findall(content))

['001', '60', '002', '70', '003', '80']
['001']
['001', '002', '003']


`$` 表示匹配文本的结束位置

正则表达式可以设定 `单行模式` 和 `多行模式` 。

如果是 `单行模式` ， 表示匹配整个文本的开头位置  
如果是 `多行模式` ， 表示匹配文本每行的开头位置

In [45]:
import re


content = """
001-苹果价格-60
002-橙子价格-70
003-香蕉价格-80
"""

pattern = r'\d+'
p = re.compile(pattern)
print(p.findall(content))

# dotall mode
pattern = r'\d+$'
p = re.compile(pattern)
print(p.findall(content))

# multiline mode -> re.M
pattern = r'\d+$'
p = re.compile(pattern, re.M)
print(p.findall(content))

['001', '60', '002', '70', '003', '80']
['80']
['60', '70', '80']


## 10.括号-组选择

In [53]:
import re


content = """
苹果,是绿色的
橙子,是橙色的
香蕉,是黄色的
乌鸦,是黑色的
猴子,
天空,
"""

pattern = r'.*,'
p = re.compile(pattern, re.M)
print(p.findall(content))

# We do not need the comma.
pattern = r'(.*),.'
p = re.compile(pattern, re.M)
print(p.findall(content))

# We can have several groups.
pattern = r'(.*),(.)'
p = re.compile(pattern, re.M)
print(p.findall(content))

['苹果,', '橙子,', '香蕉,', '乌鸦,', '猴子,', '天空,']
['苹果', '橙子', '香蕉', '乌鸦']
[('苹果', '是'), ('橙子', '是'), ('香蕉', '是'), ('乌鸦', '是')]


In [None]:
import re


content = """
张三, 手机号码15945678901
李四, 手机号码13945677701
王二, 手机号码13845666901
"""

pattern = r'^(.*),.*(\d{11}$)'
p = re.compile(pattern, re.M)
print(p.findall(content))


[('张三', '15945678901'), ('李四', '13945677701'), ('王二', '13845666901')]


## 11. 提取工资具体数字

In [None]:
import re


content = """
Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员
测试开发工程师(C++/python) 上海墨鹍数码科技有限公司上海-浦东新区2.5万/每月02-18未满员
Python3 开发工程师 上海德拓信息技术股份有限公司上海-徐汇区1.3万/每月02-18剩余11人
测试开发工程师(Python) 赫里普(上海)信息科技有限公司上海-浦东新区1.1万/每月02-18剩余5人
"""

pattern = r'([\d.]+)万/每?月'   # 月? <-> 月{0,1}
p = re.compile(pattern)
print(p.findall(content))

['2', '2.5', '1.3', '1.1']


## 12. re.split()

We can use `re.split()` to split a string just like `string.split()`

In [65]:
import re


names = "Ben; Mary, Karry,Wax\tAndy. Candy"

namelist = re.split(r'[;,.\s]\s*', names)
print(namelist)

['Ben', 'Mary', 'Karry', 'Wax', 'Andy', 'Candy']


## 13.re.sub()

`string.replace()` 只适应于简单的替换，有时我们需要更加灵活的字符串替换。

我们需要在下面这段文本中所有的链接中 找到所以 `/avxxxxxx/` 这种 以 `/av` 开头，后面接一串数字， 这种模式的字符串。

然后，这些字符串全部 替换为 /cn345677/ 。

In [66]:
import re

content = '''
下面是这学期要学习的课程：

<a href='https://www.bilibili.com/video/av66771949/?p=1' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是牛顿第2运动定律

<a href='https://www.bilibili.com/video/av46349552/?p=125' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是毕达哥拉斯公式

<a href='https://www.bilibili.com/video/av90571967/?p=33' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是切割磁力线
'''


new_str = re.sub(r'/av\d+/', "/cn345677/", content)
print(new_str)


下面是这学期要学习的课程：

<a href='https://www.bilibili.com/video/cn345677/?p=1' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是牛顿第2运动定律

<a href='https://www.bilibili.com/video/cn345677/?p=125' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是毕达哥拉斯公式

<a href='https://www.bilibili.com/video/cn345677/?p=33' target='_blank'>点击这里，边看视频讲解，边学习以下内容</a>
这节讲的是切割磁力线

