# 正则表达式

## 正则表达式概念
### regular expression RE regex
### 正则表达式是用来简洁表达一组字符串的表达式

### 优势：简洁

### 通用的字符串表达框架
### 简洁表达一组字符串的表达式
### 针对字符串表达‘简洁’和‘特征’思想的工具
### 判断某字符串的特征

## 正则表达式在文本处理中十分常用
### 表达文本类型的特征
### 同时查找或替换一组字符串
### 匹配字符串的全部或部分

## 正则表达式的使用
### 编译：将符合正则表达式语法的字符串转化成正则表达式特征

## 正则表达式语法

### 常用操作符

In [1]:
### .(点)  表示任何单个字符
###  []    字符集      [abc]表示a、b、c [a-z]表示a到z单个字符
### [^]    非字符集    [^abc]表示非a或非b或非c的单个字符
### *      前一个字符0次或无限次扩展  abc*表示 ab，abcc，abccc等
### +      表示前一个字符1次或无限次扩展  abc+表示abc，abcc，abccc等
### ？     表示前一个字符0次或1次扩展  abc表示ab，abc
### |      表示左右表达式任意一个  abc|def 表示abc或def
### {m}    表示扩展前一个字符m次   ab{2}c 表示abbc
### {m,n}  表示扩展前一个字符m至n次   ab{1,2}c 表示abc或abbc
### ^      表示匹配字符串开头         ^abc表示abc且在一个字符串的开头
### $      表示匹配字符串结尾         abc$表示abc且在一个字符串的结尾
### ()     分组标记，内部只能使用|操作符 (abc)表示abc (abc|def)表示abc、def
### \d     数字  等价于[0-9]
### \w     单词字符 等价于[A-Za-z0-9_]

### 经典正则表达式实例

In [2]:
# ^[A-Za-z]+$              由26个字母组成的字符串
# ^[A-Za-z0-9]+$           由26个字母和数字组成的字符串
# ^-?\d+$                  整数形式的字符串
# ^[0-9]*[1-9][0-9]*$      正整数形式的字符串
# [1-9]\d{5}               中国境内邮政编码 6位
# [\u4e00-\ufa5]           匹配中文字符
# \d{3}-\{8}|\d{4}-\d{7}   国内电话号码

### IP地址字符串形式的正则表达式
###  (([0-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([0-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

## re库基本使用
### 正则表达式的表示类型
#### raw string 类型 原生字符串类型 即r'    ' 避免转义符
#### string 类型 更繁琐

### re库主要功能函数

### re.search()   在一个字符串中搜索匹配正则表达式的第一个位置 返回match对象
### re.match()   从一个字符串的开始位置匹配正则表达式 返回match对象
### re.findall()   搜索字符串 以列表形式返回全部能匹配的子串
### re.split()      将一个字符串按照正则表达式匹配结果进行分割 返回列表类型
### re.finditer() 搜索字符串 返回一个匹配结果的迭代类型 每个迭代元素是match对象
### re.sub()       在一个字符串中替换所有正则表达式的子串 返回替换后的字符串

In [5]:
# re.I 忽略正则表达式的大小写
# re.M 正则表达式中的^操作符能够给定字符串的每行当作匹配开始
# re.S 正则表达式中的.操作符能够匹配所有字符 默认匹配除换行外的所有字符
# re.search(pattern, string, flags=0)
# re.search() 在一个字符串中搜索匹配正则表达式的第一个位置 返回match对象
import re
match = re.search(r'[1-9]\d{5}', 'BIT 100081') # 一个字符串的全部
if match:
    print(match.group(0))

100081


In [8]:
# re.match() 从一个字符串的开始位置匹配正则表达式 返回match对象
import re
match = re.match(r'[1-9]\d{5}', 'BIT 100081') # 只匹配开头 判断开头是否存在
if match:
    print(match.group(0))

100081


In [11]:
# re.findall()搜索字符串 以列表形式返回全部能匹配的子串
import re
al = re.findall(r'[1-9]\d{5}', 'BIT100081 TSU100084') # 一个字符串中的所有符合正则表达式的子串
al 

['100081', '100084']

In [14]:
# re.split()将一个字符串按照正则表达式匹配结果进行分割 返回列表类型
# re.split(pattern, string, maxsplit=0, flags=0)
# maxsplit 最大分割数 剩余部分作为最后一个元素输出
import re
re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084')
re.split(r'[1-9]\d{5}', 'BIT100081 TSU100084', maxsplit=1)

['BIT', ' TSU100084']

In [17]:
# re.finditer()
for m in re.finditer(r'[1-9]\d{5}', 'BIT100081 TSU100084'):
    if m:
        print(m.group(0))

100081
100084


In [19]:
# re.sub()
# re.sub(pattern, repl, string, count=0, flags=0)
# repl:替换匹配字符串的字符串
# count:匹配的最大替换次数
import re
re.sub(r'[1-9]\d{5}',':zipcode', 'BIT100081 TSU100084')


'BIT:zipcode TSU:zipcode'

### re库的另一种等价用法
#### 函数式用法：一次性操作
#### rst = re.search(r'[1-9]\d{5}', 'BIT 100081')
#### 面向对象用法：编译后的多次操作
#### pat  = re.compile(r'[1-9]\d{5}')
#### rst = pat.search('BIT 100081')

### regex = re.compile(pattern, flags=0)
### 将正则表达式的字符串形式编译成正则表达式对象

## re库的match对象

In [21]:
import re
match = re.search(r'[1-9]\d{5}', 'BIT 100081') # 一个字符串的全部
if match:
    print(match.group(0))
type(match)

100081


_sre.SRE_Match

### Match对象的属性

In [27]:
## .string   待匹配的文本
## .re       匹配时使用的pattern对象
## .pos      正则表达式搜索文本的开始位置
## .enpos    正则表达式搜索文本的结束位置

### Match对象的方法

In [28]:
# .group() 获得匹配后的字符串
# .start() 匹配字符串在原始字符串的开始位置
# .end()   匹配字符串在原始字符串的结束位置
# .span()  返回(.start().end())

In [23]:
match.string

'BIT 100081'

In [24]:
match.re

re.compile(r'[1-9]\d{5}', re.UNICODE)

In [26]:
match.pos

0

In [29]:
match.endpos

10

In [30]:
match.group(0)

'100081'

In [33]:
match.start()

4

In [34]:
match.end()

10

In [35]:
match.span()

(4, 10)

## re库的贪婪匹配和最小匹配
###  re库默认采用贪婪匹配， 即输出匹配最长的子串

In [39]:
match = re.search(r'PY.*N', 'PYANBNCNDN')
match.group(0)

'PYANBNCNDN'

### 最小匹配

In [40]:
match = re.search(r'PY.*?N', 'PYANBNCNDN')
match.group(0)

'PYAN'

## 最小匹配操作符

In [41]:
# *? 前一个字符0次或无限次扩展 最小匹配
# +? 前一个字符1次或无限次扩展 最小匹配
# ?? 前一个字符0次或1次扩展 最小匹配
# {m,n}? 扩展前一个字符m至n次  最小匹配