# <div style="text-align: center"><font color='#dc2624' face='微软雅黑'>Python 基础系列</font></div>
## <div style="text-align: center"><font color='#dc2624' face='微软雅黑'>格式化和正则化</font></div>

## <font color='#dc2624' face='微软雅黑'>目录</font><a name='toc'></a>
### 1. [**<font color='#dc2624' face='微软雅黑'>格式化</font>**](#1)
1. [<font color='#2b4750' face='微软雅黑'>四种方法</font>](#1.1)
2. [<font color='#2b4750' face='微软雅黑'>`f-string`</font>](#1.2)

### 2. [**<font color='#dc2624' face='微软雅黑'>元字符</font>**](#2)
1. [<font color='#2b4750' face='微软雅黑'>原始字符串</font>](#2.1)
2. [<font color='#2b4750' face='微软雅黑'>集合字符</font>](#2.2)
3. [<font color='#2b4750' face='微软雅黑'>次数字符</font>](#2.3)
4. [<font color='#2b4750' face='微软雅黑'>并列字符</font>](#2.4)
5. [<font color='#2b4750' face='微软雅黑'>提取字符</font>](#2.5)
6. [<font color='#2b4750' face='微软雅黑'>转义字符</font>](#2.6)

### 3. [**<font color='#dc2624' face='微软雅黑'>RE 函数</font>**](#3)
1. [<font color='#2b4750' face='微软雅黑'>`match` 函数</font>](#3.1)
2. [<font color='#2b4750' face='微软雅黑'>`search` 函数</font>](#3.2)
3. [<font color='#2b4750' face='微软雅黑'>`findall` 函数</font>](#3.3)
4. [<font color='#2b4750' face='微软雅黑'>`finditer` 函数</font>](#3.4)
5. [<font color='#2b4750' face='微软雅黑'>`split` 函数</font>](#3.5)
6. [<font color='#2b4750' face='微软雅黑'>`sub` 函数</font>](#3.6)
7. [<font color='#2b4750' face='微软雅黑'>`compile` 函数</font>](#3.7)

### 4. [**<font color='#dc2624' face='微软雅黑'>习题</font>**](#4)
---

# <font color='#dc2624' face='微软雅黑'>1. 格式化</font><a name='1'></a>
[<font color='black' face='微软雅黑'>回到目录</font>](#toc)
### <font color='#2b4750' face='微软雅黑'>1.1 四种方法</font><a name='1.1'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#1)

在 Python 中格式化字符串有四种方法：

- 用 % 字符
- 用 $ 字符
- 用 `format()` 函数
- 用 f-string

本小节中都以下面这句话举例，即“在 2020 年 3 月 4 日，阿里巴巴的市值为 553789 百万美元”。

In [2]:
s = 'On 04 Mar 2020, the market cap of Alibaba is 553789 mio USD.'
s

'On 04 Mar 2020, the market cap of Alibaba is 553789 mio USD.'

In [4]:
from datetime import datetime
(date, stock, Mcap, unit, curr) = (datetime(2020,3,4), 'Alibaba', 553789, 'mio', 'USD')

In [44]:
(name, amount) = ('Steven', 123.456)
print( 'It costs %s %.2f' %(name, amount) )
print( 'It costs {0:s} {1:.2f}'.format(name, amount) )
print( f'It costs {name:s} {amount:.2f}' )

It costs Steven 123.46
It costs Steven 123.46
It costs Steven 123.46


### 用 % 字符

范式：

1. 写句子，再用 % 加小括号，里面列出要被格式化的变量名
2. 在句子一一对应变量名的地方写出 **%x** (d 代表数字，s 代表字符串，等等)

In [5]:
'The market cap of Alibaba is %d mio %s.' %(Mcap, curr)

'The market cap of Alibaba is 553789 mio USD.'

### 用 $ 字符

范式：

1. 将变量名和变量值作为键和值，创建一个字典
2. 要调用 `Template` 库函数并将句子传给它，再把字典传入 `substitute()` 函数
3. 在句子一一对应变量名的地方写出 **$k** (k 代表字典中的键)

In [6]:
from string import Template

info = dict(Mcap=Mcap, curr=curr)
Template('The market cap of Alibaba is $Mcap mio $curr.').substitute(info)

'The market cap of Alibaba is 553789 mio USD.'

### 用 `format()` 函数

范式：

1. 写句子，再用 `format()` 函数，里面列出要被格式化的变量名
2. 在句子一一对应变量名的地方只用写出 `{}`。

In [7]:
'The market cap of Alibaba is {} mio {}.'.format(Mcap, curr)

'The market cap of Alibaba is 553789 mio USD.'

### 用 f-string

范式：

1. 写句子，以 `f'   '` 或 `F'   '` 的形式
2. 在句子中标出 `{v}`，其中 `v` 是要被格式化的变量

In [8]:
f'The market cap of Alibaba is {Mcap} mio {curr}.'

'The market cap of Alibaba is 553789 mio USD.'

由上所知，用 f-string 比其他三个用起来更简单更自然，而且它还是最快的。

当决定用哪种格式化时，通常我们评估它是否简单直观而且符合自己的习惯，比如

- 那些有 C 语言背景的使用者就偏向用 "%" 字符
- 那些偏好标准化的使用者就偏向用 "$" 字符
- 那些偏好个性化的使用者就偏向用 `format` 函数

下面就来细看 f-string 方法。

### <font color='#2b4750' face='微软雅黑'>1.2 `f-string`</font><a name='1.2'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#1)

f-string 的核心范式就是在句中加：**`{element : format}`**

其中 **`element`** 可以是

- 元素型的整数、浮点数
- 容器型的字典、列表
- 类
- 日期

其中 **`format`** 包含

- 加分隔符
- 做计算
- 保留小数点
- 各种日期显示

### 字典型数据

In [9]:
info = dict(Mcap=Mcap, curr=curr)
info

{'Mcap': 553789, 'curr': 'USD'}

In [10]:
f'The market cap of Alibaba is {info['Mcap']} mio {info['curr']}.'

SyntaxError: invalid syntax (<ipython-input-10-1b50e8c7dcf6>, line 1)

In [11]:
f"The market cap of Alibaba is {info['Mcap']} mio {info['curr']}."

'The market cap of Alibaba is 553789 mio USD.'

### 列表型数据

In [12]:
info = [Mcap, curr]
info

[553789, 'USD']

In [13]:
f"The market cap of Alibaba is {info[0]} mio {info[1]}."

'The market cap of Alibaba is 553789 mio USD.'

### 类数据

In [14]:
class Info():
    def __init__(self, Mcap, curr):
        self.Mcap = Mcap
        self.curr = curr

In [17]:
info = Info(Mcap, curr)
info

<__main__.Info at 0x2b23ed570b8>

In [18]:
f"The market cap of Alibaba is {info.Mcap} mio {info.curr}."

'The market cap of Alibaba is 553789 mio USD.'

### 加分隔符 - 每三位数加逗号 ,

In [19]:
info = dict(Mcap=Mcap, curr=curr)
info

{'Mcap': 553789, 'curr': 'USD'}

In [20]:
f"The market cap of Alibaba is {info['Mcap']:,} mio {info['curr']}."

'The market cap of Alibaba is 553,789 mio USD.'

### 计算 - 换算单位，保留小数点位数

In [21]:
info = dict(Mcap=Mcap, curr=curr, unit='bio')
info

{'Mcap': 553789, 'curr': 'USD', 'unit': 'bio'}

In [22]:
f"The market cap of Alibaba is {info['Mcap']/1000:,} {info['unit']} {info['curr']}."

'The market cap of Alibaba is 553.789 bio USD.'

In [None]:
f"The market cap of Alibaba is {info['Mcap']/1000:,.0f} {info['unit']} {info['curr']}."

### 处理日期

In [23]:
info = dict(date=datetime(2020,3,4), Mcap=Mcap, curr=curr, unit='bio')
info

{'date': datetime.datetime(2020, 3, 4, 0, 0),
 'Mcap': 553789,
 'curr': 'USD',
 'unit': 'bio'}

In [29]:
f"On {info['date']}, the market cap of Alibaba is \
{info['Mcap']/1000:,.0f} {info['unit']} {info['curr']}."

'On 2020-03-04 00:00:00, the market cap of Alibaba is 554 bio USD.'

调整日期格式可参考 https://strftime.org/

    %Y - 年的全称 (如 2020)
    %b - 月份的简称 (如 Mar)
    %d - 天数 (如果是个位数用零填充，如 03)
    %a - 日期的简称 (Wed)

In [28]:
f"On {info['date']:%b %d, %Y (%a)}, the market cap of Alibaba is \
{info['Mcap']/1000:,.0f} {info['unit']} {info['curr']}."

'On Mar 04, 2020 (Wed), the market cap of Alibaba is 554 bio USD.'

# <font color='#dc2624' face='微软雅黑'>2. 元字符</font><a name='2'></a>
[<font color='black' face='微软雅黑'>回到目录</font>](#toc)
### <font color='#2b4750' face='微软雅黑'>2.1 原始字符串</font><a name='2.1'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2)

原始字符串（raw string）是所有的字符串都是直接按照字面的意思来使用，没有转义特殊或不能打印的字符，通常简称为 r-string，使用时候在普通字符串前加一个 `r` 即可。

如果没有转义字符，原始字符串和普通字符串是一样的，比如

In [30]:
print('hello')
print(r'hello')

hello
hello


如果有转义字符，原始字符串和普通字符串是不一样的，比如

In [31]:
print('\blake')
print(r'\blake')

lake
\blake


元字符 (meta symbol) 就是一种自带特殊含义的字符，也叫特殊字符。比如 `[] * + ? {} | () . ^ $ \`，原字符按用途可分五类：

- 集合： `[]`
- 次数： `* + ? {}`
- 并列： `|`
- 提取： `()`
- 转义： `. ^ $ \`

首先定义一个函数，当在句子（是个字符串 str）没有发现模式 pat 时，返回“没有找到”，反之打印出所有符合模式的子字符串。

In [34]:
import re

def look_for(pat, str):
    return '没有找到' if re.search(pat, str) is None else re.findall(pat, str)

### <font color='#2b4750' face='微软雅黑'>2.2 集合字符</font><a name='2.2'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2)

### <font color='blue'>中括号，方括号（square bracket）`[]:`</font>
匹配中括号里指定字符集中的一个字符

**明确字符**

In [5]:
pat = r'[abc]'

In [6]:
print( look_for(pat, 'a') )
print( look_for(pat, 'ac') )
print( look_for(pat, 'cba') )
print( look_for(pat, 'steven') )

['a']
['a', 'c']
['c', 'b', 'a']
没有找到


**范围字符**

使用 `[-]` 即可

 - `[a-e]` 就是 `[abcde]`
 - `[1-4]` 就是 `[1234]`
 - `[a-ep]` 就是 `[abcdep]`
 - `[0-38]` 就是 `[01238]`

In [7]:
print( look_for(r'[a-ep]', 'person') )
print( look_for(r'[0-38]', '666') )

['p', 'e']
没有找到


**补集字符**

使用 `[^]` 即可

 - `[^abc]` 就是非 a, b, c 的字符
 - `[^123]` 就是非 1, 2, 3 的字符 

In [8]:
print( look_for(r'[^abc]', 'baba') )
print( look_for(r'[^abc]', 'steven') )
print( look_for(r'[^123]', '456') )
print( look_for(r'[^123]', '1+2=3') )

没有找到
['s', 't', 'e', 'v', 'e', 'n']
['4', '5', '6']
['+', '=']


### <font color='#2b4750' face='微软雅黑'>2.3 次数字符</font><a name='2.3'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2)

### <font color='blue'>星号（asterisk）`*`</font>
检查 `*` 左边的字符串是否出现零次或多次

In [9]:
pat = r'colou*r'

In [10]:
print( look_for(pat, 'color') )
print( look_for(pat, 'colour') )
print( look_for(pat, 'colouuuuuur') )

['color']
['colour']
['colouuuuuur']


### <font color='blue'>加号（plus sign）`+`</font>
检查 `+` 左边的字符串是否出现一次或多次

In [11]:
pat = r'colou+r'

In [12]:
print( look_for(pat, 'color') )
print( look_for(pat, 'colour') )
print( look_for(pat, 'colouuuuuur') )

没有找到
['colour']
['colouuuuuur']


In [13]:
pat = r'([a-zA-Z]+(?:ed|ing))'

In [14]:
print( look_for(pat, 'going') )
print( look_for(pat, 'waited') )
print( look_for(pat, 'waiting') )

['going']
['waited']
['waiting']


### <font color='blue'>问号（question mark）`?`</font>
检查 `?` 左边的字符串是否出现零次或一次

In [15]:
pat = r'colou?r'

In [16]:
print( look_for(pat, 'color') )
print( look_for(pat, 'colour') )
print( look_for(pat, 'colouuuuuur') )

['color']
['colour']
没有找到


贪婪模式 (greedy) 和非贪婪模式 (non-greedy)

- 贪婪模式，即在整个表达式匹配成功的前提下，**尽可能多**的匹配。
- 非贪婪模式，就是在整个表达式匹配成功的前提下，**尽可能少**的匹配。

In [17]:
heading  = r'<h1>TITLE</h1>'

In [18]:
pat = r'<.+>'
print( look_for(pat, heading) )

['<h1>TITLE</h1>']


In [19]:
pat =  r'<.+?>'
print( look_for(pat, heading) )

['<h1>', '</h1>']


### <font color='blue'>大括号，花括号（curly bracket）`{}`</font>
- `{n}` 左边的字符串是否出现 n 次
- `{n, }` 左边的字符串是否出现大于等于 n 次
- `{, n}` 左边的字符串是否出现小于等于 n 次
- `{n, m}` 左边的字符串是否出现在 n 次和 m 次之间

In [96]:
s = 'a11bbb2222ccccc'

In [97]:
print( look_for(r'[a-z]{1}', s) )
print( look_for(r'[0-9]{2,}', s) )
print( look_for(r'[a-z]{,5}', s) )
print( look_for(r'[0-9]{2,4}', s) )

['a', 'b', 'b', 'b', 'c', 'c', 'c', 'c', 'c']
['11', '2222']
['a', '', '', 'bbb', '', '', '', '', 'ccccc', '']
['11', '2222']


### <font color='#2b4750' face='微软雅黑'>2.4 并列字符</font><a name='2.4'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2)

### <font color='blue'>垂线（vertical line）`|`</font>
匹配用 `|` 分隔的任何一个字符串

In [22]:
pat = r'like|love'

In [23]:
print( look_for(pat, 'like you') )
print( look_for(pat, 'love you') )

['like']
['love']


### <font color='#2b4750' face='微软雅黑'>2.5 提取字符</font><a name='2.5'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2)

### <font color='blue'>小括号，圆括号（round bracket）`()`</font>
创建子模式，或便于匹配后提取

In [24]:
pat = r'beat(s|ed|en|ing)'

In [25]:
print( look_for(pat, 'beats') )
print( look_for(pat, 'beated') )
print( look_for(pat, 'beaten') )
print( look_for(pat, 'beating') )

['s']
['ed']
['en']
['ing']


In [26]:
pat = r'(beat(s|ed|en|ing))'

In [27]:
print( look_for(pat, 'beats') )
print( look_for(pat, 'beated') )
print( look_for(pat, 'beaten') )
print( look_for(pat, 'beating') )

[('beats', 's')]
[('beated', 'ed')]
[('beaten', 'en')]
[('beating', 'ing')]


In [28]:
pat = r'(beat(?:s|ed|en|ing))'

In [29]:
print( look_for(pat, 'beats') )
print( look_for(pat, 'beated') )
print( look_for(pat, 'beaten') )
print( look_for(pat, 'beating') )

['beats']
['beated']
['beaten']
['beating']


### <font color='#2b4750' face='微软雅黑'>2.6 转义字符</font><a name='2.6'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2)

### <font color='blue'>点（dot）`.`</font>
匹配任何除换行符 `\n` 的字符，一个通配符

In [30]:
pat = r'.+'

In [31]:
print( look_for(pat, 'a') )
print( look_for(pat, 'b1') )
print( look_for(pat, 'C@9') )
print( look_for(pat, '$ 9_fZ') )
print( look_for(pat, '9z_\t\r\n') )

['a']
['b1']
['C@9']
['$ 9_fZ']
['9z_\t\r']


### <font color='blue'>托字符（Carat）`^`</font>

- 匹配文本行的开头字符
- 和 `[]` 一起用表示补集

In [32]:
pat = r'^s[\w]*'

In [33]:
print( look_for(pat, 'son') )
print( look_for(pat, 'shot') )
print( look_for(pat, 'come') )

['son']
['shot']
没有找到


### <font color='blue'>美元符（Dollar Sign）`$`</font>
匹配文本行的结尾字符

In [34]:
pat = r'[\w]*s$'

In [35]:
print( look_for(pat, 'yes') )
print( look_for(pat, 'mess') )
print( look_for(pat, 'come') )

['yes']
['mess']
没有找到


### <font color='blue'>反斜杠（Backslash）`\`</font>

- 将特殊字符转成自身含义：用 `\` 作用在 `^ . \` 等身上，代表次方 `\^`、小数点 `\.` 和除号 `\\`  
- 将自身字符转成特殊含义：用 `\` 作用在 `w d n` 等身上，代表字母 `\w`、数字 `\d` 和新行 `\n` 

**特殊 --> 自身**

In [36]:
pat = r'\$[0-9.]+'

In [37]:
print( look_for(pat, 'it costs $99.99') )

['$99.99']


In [38]:
pat = r'(\\|\/|\^|\.)'

In [39]:
print( look_for(pat, '(5/2)^2=6.25') )

['/', '^', '.']


In [40]:
pat = r'(\|/|^|.)'

In [41]:
print( look_for(pat, '(5/2)^2=6.25') )

['', '(', '5', '/', '2', ')', '^', '2', '=', '6', '.', '2', '5']


In [42]:
pat = r'[/^\.]'

In [43]:
print( look_for(pat, '(5/2)^2=6.25') )

['/', '^', '.']


**自身 --> 特殊**

- `\b`：匹配空字符串，但仅适用于单词的“**首尾**”
- `\B`：匹配空字符串，但仅适用于单词的“**非首尾**”
- `\d`：匹配任何“**数字**”字符，等价于 `[0-9]`
- `\D`：匹配任何“**非数字**”字符，等价于 `[^0-9]`
- `\s`：匹配任何“**空白**”字符，等价于 `[ \t\n\r]`
- `\S`：匹配任何“**非空白**”字符，等价于 `[^ \t\n\r]`
- `\w`：匹配任何“**字母数字下划线**”字符，等价于 `[a-zA-Z0-9_]`
- `\W`：匹配任何“**非字母数字下划线**”字符，等价于 `[^a-zA-Z0-9_]`
- `\A`：匹配句子的“**开头**”字符，等价于 `^`
- `\Z`：匹配句子的“**结尾**”字符，等价于 `$`
- `\t`：匹配句子的“**制表键 (tab)**”字符
- `\r`：匹配句子的“**回车键 (return)**”字符
- `\n`：匹配句子的“**换行键 (newline)**”字符

### `\b`: 匹配空字符串，但仅适用于单词的“首尾”
### `\B`：匹配空字符串，但仅适用于单词的“非首尾”

In [44]:
pat = r'\blearn\b'

print( look_for(pat, 'learn Python') )
print( look_for(pat, 'relearn Python') )
print( look_for(pat, 'learning Python') )
print( look_for(pat, 'relearning Python') )

['learn']
没有找到
没有找到
没有找到


In [45]:
pat = r'\Blearn\B'

print( look_for(pat, 'learn Python') )
print( look_for(pat, 'relearn Python') )
print( look_for(pat, 'learning Python') )
print( look_for(pat, 'relearning Python') )

没有找到
没有找到
没有找到
['learn']


In [46]:
pat = r'\blearn\B'

print( look_for(pat, 'learn Python') )
print( look_for(pat, 'relearn Python') )
print( look_for(pat, 'learning Python') )
print( look_for(pat, 'relearning Python') )

没有找到
没有找到
['learn']
没有找到


In [47]:
pat = r'\Blearn\b'

print( look_for(pat, 'learn Python') )
print( look_for(pat, 'relearn Python') )
print( look_for(pat, 'learning Python') )
print( look_for(pat, 'relearning Python') )

没有找到
['learn']
没有找到
没有找到


### `\d`：匹配任何“数字”字符，等价于 `[0-9]`
### `\D`：匹配任何“非数字”字符，等价于 `[^0-9]`

In [48]:
pat = r'\d+'

print( look_for(pat, '12+ab34-cd56*ef78/gh90%ij') )

['12', '34', '56', '78', '90']


In [49]:
pat = r'\D+'

print( look_for(pat, '12+ab34-cd56*ef78/gh90%ij') )

['+ab', '-cd', '*ef', '/gh', '%ij']


### `\s`：匹配任何“空白”字符，等价于 `[ \t\n\r]`
### `\S`：匹配任何“非空白”字符，等价于 `[^ \t\n\r]`

In [50]:
pat = r'\s+'
s = '''please  don't
leave  me
    alone'''
print( look_for(pat, s) )

['  ', '\n', '  ', '\n    ']


In [51]:
pat = r'\S+'
print( look_for(pat, s) )

['please', "don't", 'leave', 'me', 'alone']


### `\w`：匹配任何“字母数字下划线”字符，等价于 `[a-zA-Z0-9_]`
### `\W`：匹配任何“非字母数字下划线”字符，等价于 `[^a-zA-Z0-9_]`

In [52]:
pat = r'\w+'

print( look_for(pat, '12+ab_34-cd56_ef78') )

['12', 'ab_34', 'cd56_ef78']


In [53]:
pat = r'\W+'

print( look_for(pat, '12+ab_34-cd56_ef78') )

['+', '-']


### `\A`：匹配句子的“开头”字符，等价于 `^`
### `\Z`：匹配句子的“结尾”字符，等价于 `$`

In [54]:
pat1 = r'^y[\w]*'
pat2 = r'\Ay[\w]*'
str1 = 'you rock'
str2 = 'rock you'

print( look_for(pat1, str1) )
print( look_for(pat2, str1) )

print( look_for(pat1, str2) )
print( look_for(pat2, str2) )

['you']
['you']
没有找到
没有找到


In [55]:
pat1 = r'[\w]*k$'
pat2 = r'[\w]*k\Z'
str1 = 'you rock'
str2 = 'rock you'

print( look_for(pat1, str1) )
print( look_for(pat2, str1) )

print( look_for(pat1, str2) )
print( look_for(pat2, str2) )

['rock']
['rock']
没有找到
没有找到


# <font color='#dc2624' face='微软雅黑'>3. RE 函数</font><a name='3'></a>
[<font color='black' face='微软雅黑'>回到目录</font>](#toc)

- `match(pat, str)`：检查**字符串的开头**是否符合某个模式
- `search(pat, str)`：检查**字符串中**是否符合某个模式
- `findall(pat, str)`：返回所有符合某个模式的字符串，以列表形式输出
- `finditer(pat, str)`：返回所有符合某个模式的字符串，以迭代器形式输出
- `split(pat, str)`：以某个模式为分割点，拆分整个句子为一系列字符串，以列表形式输出
- `sub(pat, repl, str)`：句子 str 中找到匹配正则表达式模式的所有子字符串，用另一个字符串 repl 进行替换
- `compile(pat)`：将某个模式编译成对象，供之后使用

### <font color='#2b4750' face='微软雅黑'>3.1 `match` 函数</font><a name='3.1'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#3)

判断模式是否在字符串开头位置匹配。如果匹配，返回对象，如果不匹配，返回 `None`.

In [56]:
s = 'Kobe Bryant'

print( re.match(r'Kobe', s) )
print( re.match(r'Kobe', s).group() )
print( re.match(r'Bryant', s) )

<re.Match object; span=(0, 4), match='Kobe'>
Kobe
None


### <font color='#2b4750' face='微软雅黑'>3.2 `search` 函数</font><a name='3.2'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#3)

在字符串中查找匹配正则表达式模式的位置。如果匹配，返回对象，如果不匹配，返回 `None`.

In [57]:
s = 'Kobe Bryant'

print( re.search(r'Kobe', s) )
print( re.search(r'Kobe', s).group() )
print( re.search(r'Bryant', s) )
print( re.search(r'Bryant', s).group() )

<re.Match object; span=(0, 4), match='Kobe'>
Kobe
<re.Match object; span=(5, 11), match='Bryant'>
Bryant


In [58]:
s = 'Kobe Bryant loves Gianna Bryant'

print( re.search(r'Bryant', s) )
print( re.search(r'Bryant', s).group() )
print( re.search(r'Bryant', s) )

<re.Match object; span=(5, 11), match='Bryant'>
Bryant
<re.Match object; span=(5, 11), match='Bryant'>


### <font color='#2b4750' face='微软雅黑'>3.3 `findall` 函数</font><a name='3.3'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#3)

在字符串中找到正则表达式所匹配的所有子串，并组成一个列表返回。

In [59]:
s = 'Kobe Bryant loves Gianna Bryant'

print( re.findall(r'Kobe', s) )
print( re.findall(r'Bryant', s) )
print( re.findall(r'Gigi', s) )

['Kobe']
['Bryant', 'Bryant']
[]


### <font color='#2b4750' face='微软雅黑'>3.4 `finditer` 函数</font><a name='3.4'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#3)

和 `findall` 类似，在字符串中找到正则表达式所匹配的所有子串，并组成一个迭代器返回。

In [60]:
s = 'Kobe Bryant loves Gianna Bryant'

print( [i for i in re.finditer(r'Kobe', s)] )
print( [i for i in re.finditer(r'Bryant', s)] )
print( [i for i in re.finditer(r'Gigi', s)] )

[<re.Match object; span=(0, 4), match='Kobe'>]
[<re.Match object; span=(5, 11), match='Bryant'>, <re.Match object; span=(25, 31), match='Bryant'>]
[]


### <font color='#2b4750' face='微软雅黑'>3.5 `split` 函数</font><a name='3.5'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#3)

将字符串匹配正则表达式的部分割开并返回一个列表。

In [61]:
s = 'Kobe Bryant loves Gianna Bryant'
print( re.split(r'\s', s) )

['Kobe', 'Bryant', 'loves', 'Gianna', 'Bryant']


### <font color='#2b4750' face='微软雅黑'>3.6 `sub` 函数</font><a name='3.6'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#3)

句子 str 中找到匹配正则表达式模式的所有子字符串，用另一个字符串 repl 进行替换。如果没有找到匹配模式的串，则返回未被修改的句子 str，其中 repl 既可以是字符串也可以是一个函数。

In [62]:
s = 'Kobe Bryant loves Gianna Bryant'
print( re.sub(r'\s', '-', s) )

Kobe-Bryant-loves-Gianna-Bryant


In [63]:
print( re.sub(r'Gianna', 'Gigi', s) )

Kobe Bryant loves Gigi Bryant


In [64]:
print( re.sub(r'\d+', '_', s) )

Kobe Bryant loves Gianna Bryant


In [65]:
print( re.sub(r'\d*', '_', s) )

_K_o_b_e_ _B_r_y_a_n_t_ _l_o_v_e_s_ _G_i_a_n_n_a_ _B_r_y_a_n_t_


### <font color='#2b4750' face='微软雅黑'>3.7 `compile` 函数</font><a name='3.7'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#3)

把正则表达式的模式转化成正则表达式对象，供其他 6 个函数使用。

In [66]:
email = '''Shengyuan Personal: quantsteven@gmail.com
Shengyuan Work: shengyuan@octagon-advisors.com
Shengyuan School: g0700508@nus.edu.sg
Obama: barack.obama@whitehouse.gov'''
print(email)

Shengyuan Personal: quantsteven@gmail.com
Shengyuan Work: shengyuan@octagon-advisors.com
Shengyuan School: g0700508@nus.edu.sg
Obama: barack.obama@whitehouse.gov


In [67]:
pat = r'[\w.-]+@[\w.-]+'
obj = re.compile(pat)
obj

re.compile(r'[\w.-]+@[\w.-]+', re.UNICODE)

In [68]:
print( obj.match(email), '\n')
print( obj.search(email), '\n' )
print( obj.findall(email), '\n' )
print( [i for i in obj.finditer(email)])

None 

<re.Match object; span=(20, 41), match='quantsteven@gmail.com'> 

['quantsteven@gmail.com', 'shengyuan@octagon-advisors.com', 'g0700508@nus.edu.sg', 'barack.obama@whitehouse.gov'] 

[<re.Match object; span=(20, 41), match='quantsteven@gmail.com'>, <re.Match object; span=(58, 88), match='shengyuan@octagon-advisors.com'>, <re.Match object; span=(107, 126), match='g0700508@nus.edu.sg'>, <re.Match object; span=(134, 161), match='barack.obama@whitehouse.gov'>]


In [69]:
print( obj.sub('---@---.---', email), '\n' )

Shengyuan Personal: ---@---.---
Shengyuan Work: ---@---.---
Shengyuan School: ---@---.---
Obama: ---@---.--- 



In [70]:
for addr in obj.findall(email):
    print( re.split(r'@', addr))

['quantsteven', 'gmail.com']
['shengyuan', 'octagon-advisors.com']
['g0700508', 'nus.edu.sg']
['barack.obama', 'whitehouse.gov']


In [71]:
obj1 = re.compile(r'@')
for addr in obj.findall(email):
    print( obj1.split(addr))

['quantsteven', 'gmail.com']
['shengyuan', 'octagon-advisors.com']
['g0700508', 'nus.edu.sg']
['barack.obama', 'whitehouse.gov']


# <font color='#dc2624' face='微软雅黑'>4. 习题</font><a name='4'></a>
[<font color='black' face='微软雅黑'>回到目录</font>](#toc)

从下面一段话中，提取**姓名、买卖动作、股票数量、股票代码、买卖时间、股价**这 6 个关键信息。

**信息摘选**

In [76]:
news = """
Jack Black sold 15,000 shares in AMZN on 2019-03-06 at a price of $1044.00.
David V.Love bought 811 shares in TLSA on 2020-01-19 at a price of $868.75.
Steven exercised 262 shares in AAPL on 2020-02-04 at a price of $301.00.
"""

In [None]:
## 提示

pat = r'设计姓名的模式' \
        '设计买卖动作的模式' \
        '设计股票数量的模式' \
        '设计股票代码的模式' \
        '设计买卖时间的模式' \
        '设计股价的模式'

re.findall( pat, news )

## 思考一下做不出来再看答案。

In [77]:
pat = r'([a-zA-Z. ]*)' \
        '\s(sold|bought|exercised)' \
        '\s*([\d,]+)' \
        '.*in\s([A-Z]{,5})' \
        '.*(\d{4}-\d{2}-\d{2})' \
        '.*price of\s(\$\d*.\d*)'

re.findall( pat, news )

[('Jack Black', 'sold', '15,000', 'AMZN', '2019-03-06', '$1044.00'),
 ('David V.Love', 'bought', '811', 'TLSA', '2020-01-19', '$868.75'),
 ('Steven', 'exercised', '262', 'AAPL', '2020-02-04', '$301.00')]