In [1]:
import re

#### 1. 点-匹配任意单个字符
- . 表示要匹配除了 换行符 之外的任何 `单个` 字符。

In [2]:
# 找到所有 以 色 结尾，并且包括前面的一个字符的 词语
content = '''苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的'''


p = re.compile(r'.色')
for one in  p.findall(content):
    print(one)

绿色
橙色
黄色
黑色


#### 2. 星号-重复匹配任意次
- 当 * 跟在一个字符、字符集（[]）或者子表达式之后时，表示这个字符或子表达式可以重复任意次数，包括0次。
- a* 匹配任何包含0个或多个连续 'a' 的字符串，如 '', 'a', 'aa', 'aaa', ...
- [abc]* 匹配任何由'a'、'b'或'c'重复任意次数组成的字符串，如 '', 'a', 'ab', 'abc', 'cba', ...

In [6]:
content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.')
for one in  p.findall(content):
    print(one)

，是
，是
，是
，是


In [7]:
# 逗号后面的 所有字符，包括逗号
content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.*')
for one in  p.findall(content):
    print(one)

，是绿色的
，是橙色的
，是黄色的
，是黑色的
，


#### 3.加号-重复匹配多次
- 表示前面的表达式必须至少出现一次，并且可以重复多次。
- a+：匹配包含一个或多个连续 'a' 的字符串，如 'a', 'aa', 'aaa', ...
- [0-9]+：匹配一个或多个连续的数字字符，如 '123', '45678', '0', ...

In [10]:
# 选择每行逗号后面的字符串内容，包括逗号本身。
content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.+')
for one in  p.findall(content):
    print(one)

，是绿色的
，是橙色的
，是黄色的
，是黑色的


#### 4.问号-匹配0-1次
- 表示前面的元素出现0次或1次
- a? 匹配 'a' 或空字符串
- (abc)? 匹配 'abc' 或空字符串。

In [12]:
content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.?')
for one in  p.findall(content):
    print(one)

，是
，是
，是
，是
，


#### 5.花括号-匹配指定次数
- {min,max} 用于指定前面的元素或字符集重复出现的次数范围,如果省略了 max，则表示匹配至少 min 次。
- a{3}：匹配连续出现三次的 'a'，即 'aaa'。
- a{2,4}：匹配连续出现2到4次的 'a'，可以匹配 'aa', 'aaa', 或 'aaaa'。
- 0{5}：匹配连续出现五次的数字 '0'，如 '00000'。

In [14]:
content = '''红彤彤，绿油油，黑乎乎，绿油油油油'''

p = re.compile(r'油{2,4}')
for one in  p.findall(content):
    print(one)

油油
油油油油


#### 6. 贪婪模式和非贪婪模式
- 在贪婪模式下，正则表达式的量词（如 *、+ 或 {n,m}）会尽可能多地匹配字符。这意味着它会尝试匹配最长的可能字符串片段，直到不能再匹配更多的字符为止。`在表达式 a.*b 中，当面对 "abcdebc" 这样的字符串时，贪婪模式会匹配整个 "abcdebc"，因为 .* 能够匹配到最长的前缀 "abcde" 后跟一个 'b'。`
- 而在非贪婪模式下，同样类型的量词会尽可能少地匹配字符，即只要满足整体表达式的匹配条件就立即停止匹配更多的字符。`对于同样的表达式 a.*?b，非贪婪版本的 .*? 在遇到第一个 'b' 时就会停止匹配，因此它在 "abcdebc" 字符串中只会匹配到 "ab"。`

In [15]:
# 贪婪模式
source = '<html><head><title>Title</title>'

p = re.compile(r'<.*>')

print(p.findall(source))

['<html><head><title>Title</title>']


In [16]:
# 非贪婪模式
source = '<html><head><title>Title</title>'

# 注意多出的问号
p = re.compile(r'<.*?>')

print(p.findall(source))

['<html>', '<head>', '<title>', '</title>']
