# Re(正则表达式)库入门

In [1]:
import re

|操作符| 说明| 实例|
|:----:|:-----|:-----|
|. |表示任何单个字符||
|[ ]| 字符集，对单个字符给出取值范围 |[abc]表示a、b、c，[a‐z]表示a到z单个字符|
|[^ ] |非字符集，对单个字符给出排除范围| [^abc]表示非a或b或c的单个字符|
|\* |前一个字符0次或无限次扩展 |abc\* 表示 ab、abc、abcc、abccc等|
|+ |前一个字符1次或无限次扩展 |abc+ 表示 abc、abcc、abccc等|
|? |前一个字符0次或1次扩展 |abc? 表示 ab、abc|
| 竖线 |左右表达式任意一个 |abc竖线def 表示 abc、def|
|{m}| 扩展前一个字符m次 |ab{2}c表示abbc|
|{m,n}| 扩展前一个字符m至n次（含n）| ab{1,2}c表示abc、abbc|
|`^` |匹配字符串开头| ^abc表示abc且在一个字符串的开头|
|`$`| 匹配字符串结尾 |abc$表示abc且在一个字符串的结尾|
|( )| 分组标记，内部只能使用 ‘竖线’ 操作符 |(abc)表示abc，(abc竖线def)表示abc、def|
|\d |数字，等价于[0‐9]||
|\w |单词字符，等价于[A‐Za‐z0‐9\_]||

## Re库的使用

### 正则表达式的表示类型

** raw string类型 （原生字符串类型）**

- re库采用raw string类型表达正则表达式，表示为：r‘text’
> raw string是不包含对转义符再次转义的字符串

- re库也可以采用string类型表示正则表达式，但更繁琐

```python
'[1‐9]\\d{5}'
'\\d{3}‐\\d{8}|\\d{4}‐\\d{7}'
```

### Re库的主要功能函数

|函数| 说明|
|:------:|:-----|
|re.search() |在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象|
|re.match() |从一个字符串的开始位置起匹配正则表达式，返回match对象|
|re.findall()| 搜索字符串，以列表类型返回全部能匹配的子串|
|re.split() |将一个字符串按照正则表达式匹配结果进行分割，返回列表类型|
|re.finditer()| 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象|
|re.sub()| 在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串|

** re.search(pattern, string, flags=0) **

- 在一个字符串中搜索匹配正则表达式的第一个位置返回match对象
- pattern : 正则表达式的字符串或原生字符串表示
- string : 待匹配字符串
- flags : 正则表达式使用时的控制标记

flags

|常用标记 |说明|
|:------:|:-----|
|re.I re.IGNORECASE |忽略正则表达式的大小写，[A‐Z]能够匹配小写字符|
|re.M re.MULTILINE |正则表达式中的^操作符能够将给定字符串的每行当作匹配开始|
|re.S re.DOTALL |正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符|

In [5]:
match = re.search(r'[1-9]\d{5}', 'BIT 100081')

In [6]:
if match:
    print(match.group(0))

100081


** re.match(pattern, string, flags=0) **

- 从一个字符串的开始位置起匹配正则表达式返回match对象
- pattern : 正则表达式的字符串或原生字符串表示
- string : 待匹配字符串
- flags : 正则表达式使用时的控制标记

In [7]:
match = re.match(r'[1-9]\d{5}', 'BIT 100081')

In [8]:
if match:
    match.group(0)

In [11]:
match = re.match(r'[1-9]\d{5}', '100081 BIT 100081')

In [14]:
if match:
    print(match.group(0))

100081


** re.findall(pattern, string, flags=0) **

- 搜索字符串，以列表类型返回全部能匹配的子串
- pattern : 正则表达式的字符串或原生字符串表示
- string : 待匹配字符串
- flags : 正则表达式使用时的控制标记

In [15]:
ls = re.findall(r'[1-9]\d{5}', 'BIT100081 TSU100084')

In [17]:
ls

['100081', '100084']

** re.split(pattern, string, maxsplit=0, flags=0) **

- 将一个字符串按照正则表达式匹配结果进行分割返回列表类型
- maxsplit: 最大分割数，剩余部分作为最后一个元素输出
- pattern : 正则表达式的字符串或原生字符串表示
- string : 待匹配字符串
- flags : 正则表达式使用时的控制标记

In [18]:
re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084')

['BIT', ' TSU', '']

In [19]:
re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084', maxsplit = 1)

['BIT', ' TSU100084']

** re.finditer(pattern, string, flags=0) **

- 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
- pattern : 正则表达式的字符串或原生字符串表示
- string : 待匹配字符串
- flags : 正则表达式使用时的控制标记

In [20]:
for m in re.finditer(r'[1-9]\d{5}', 'BIT100081 TSU100084'):
    if m:
        print(m.group(0))

100081
100084


** re.sub(pattern, repl, string, count=0, flags=0) **

- 在一个字符串中替换所有匹配正则表达式的子串返回替换后的字符串
- pattern : 正则表达式的字符串或原生字符串表示
- repl : 替换匹配字符串的字符串
- string : 待匹配字符串
- count : 匹配的最大替换次数
- flags : 正则表达式使用时的控制标记

In [21]:
re.sub(r'[1-9]\d{5}', ':zipcode', 'BIT100081 TSU100084')

'BIT:zipcode TSU:zipcode'

- 使用面向对象的方法

In [22]:
pat = re.compile(r'[1-9]\d{5}')
rst = pat.search('BIT 100081')

In [24]:
rst.group(0)

'100081'

## Re库的match对象

In [28]:
m = re.search(r'[1-9]\d{5}', 'BIT 100081')

In [29]:
if m:
    print(m.group(0))

100081


In [30]:
type(m)

_sre.SRE_Match

- match对象的属性

|属性| 说明|
|:-----:|:-----|
|.string |待匹配的文本|
|.re |匹配时使用的patter对象（正则表达式）|
|.pos| 正则表达式搜索文本的开始位置|
|.endpos |正则表达式搜索文本的结束位置|

- Match对象的方法

|方法 |说明|
|:----:|:----|
|.group(0)| 获得匹配后的字符串|
|.start()| 匹配字符串在原始字符串的开始位置|
|.end()| 匹配字符串在原始字符串的结束位置|
|.span()| 返回(.start(), .end())|

In [31]:
m.string

'BIT 100081'

In [32]:
m.re

re.compile(r'[1-9]\d{5}', re.UNICODE)

In [33]:
m.pos

0

In [34]:
m.endpos

10

In [35]:
m.group(0)

'100081'

In [37]:
m.start()

4

In [38]:
m.end()

10

In [39]:
m.span()

(4, 10)

## Re库的贪婪匹配和最小匹配

- 加问号

In [40]:
match = re.search(r'PY.*N', 'PYANBNCNDN')
match.group(0)

'PYANBNCNDN'

In [41]:
match = re.search(r'PY.*?N', 'PYANBNCNDN')
match.group(0)

'PYAN'