# 正则表达式

+ `.` 匹配任意字符（除\n换行）
  + a.c -> abc
+ `\` 转义字符
+ `[]` 字符集

## Python正则表达式
+ 制定好匹配的模式 pattern
+ 选择相应的方法 match, search等
+ 得到匹配结果 group

In [1]:
import re

In [7]:
input = '自然语言处理很重要 。 12abc789'

In [3]:
pattern = re.compile(r'.')

In [4]:
re.findall(pattern,input)

['自',
 '然',
 '语',
 '言',
 '处',
 '理',
 '很',
 '重',
 '要',
 ' ',
 '。',
 ' ',
 '1',
 '2',
 'a',
 'b',
 'c',
 '7',
 '8',
 '9']

## 字符集合
+ `[abc]` 指定包含字符abc
+ `[a-zA-Z]` 指定所有英文字母的大小写
+ `[^a-zA-Z]` 指定不匹配所有英文单词 (非, 除了)

In [5]:
pattern = re.compile(r'[abc]')
re.findall(pattern,input)

['a', 'b', 'c']

In [10]:
pattern = re.compile(r'[a-zA-Z]')
re.findall(pattern,input)

['a', 'b', 'c']

In [11]:
pattern = re.compile(r'[^a-zA-Z]')
re.findall(pattern,input)

['自',
 '然',
 '语',
 '言',
 '处',
 '理',
 '很',
 '重',
 '要',
 ' ',
 '。',
 ' ',
 '1',
 '2',
 '7',
 '8',
 '9']

## 或
两个规则并列起来，以`|`连接，表示只要满足其中之一就可以匹配
+ `[a-zA-Z]|[0-9]` 匹配数字和字母， 等价于 `[a-zA-Z0-9]`

In [13]:
pattern = re.compile(r'[a-zA-Z]|[0-9]')
re.findall(pattern,input)

['1', '2', 'a', 'b', 'c', '7', '8', '9']

## 预定字符集
+ `\d` 数字 `[0-9]`
+ `\D` 非数字 `[^\d]`
+ `\s` 空白字符：`[<空格>\t\r\n\f\v]`
+ `\S` 非空白字符
+ `\w` 单词字符 `[A-Za-z0-9_]`
+ `\W` 非单词字符

In [14]:
# \W 匹配非字母和数字
pattern = re.compile(r'\W')
re.findall(pattern,input)

[' ', '。', ' ']

In [15]:
# \s 匹配间隔符
pattern = re.compile(r'\s')
re.findall(pattern,input)

[' ', ' ']

## 重复
+ `*` 0或是多次匹配

In [16]:
pattern = re.compile(r'\d*')
re.findall(pattern,input)

['', '', '', '', '', '', '', '', '', '', '', '', '12', '', '', '', '789', '']

+ `+` 1次或多次匹配

In [17]:
pattern = re.compile(r'\d+')
re.findall(pattern,input)

['12', '789']

+ `?` 0 或 1次匹配

In [18]:
pattern = re.compile(r'\d?')
re.findall(pattern,input)

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '1',
 '2',
 '',
 '',
 '',
 '7',
 '8',
 '9',
 '']

## 精确匹配和最小匹配
+ `{m}` 精确匹配m次

In [19]:
# 只匹配 789
pattern = re.compile(r'\d{3}')
re.findall(pattern,input)

['789']

+ `{m,n}` 匹配最少m次，最多n次 (n>m)

In [20]:
pattern = re.compile(r'\d{1,3}')
re.findall(pattern,input)

['12', '789']

## match 与 search
返回的不是简单的字符串列表，**而是MatchObject**
如果匹配不成功，回返回一个 **NoneType**。 先判断是否匹配成功再执行操作。
+ match 从字符串开头开始匹配，在开头位置没有匹配成功就失败
+ search 会跳过开头 继续向后寻找

In [21]:
input2 = '123自然语言处理'

In [25]:
pattern = re.compile(r'\d{2}')
m = re.match(pattern, input2)
m.group()

'12'

## 字符串替换和修改
在目标字符串中规则查找匹配的字符串，替换成指定字符串。可以指定最多替换次数，否则将替换所有匹配的字符串。
sub (pattern, replace, target, \[,count])
subn (pattern, replace, target, \[,count])
参数：正则规则，用于替换的指定字符串，目标字符串，最多替换次数
`sub` 返回一个被替换的字符串
`subn` 返回一个元组，第一个元素是被替换的字符串，第二个元素是一个数字，表明产生了多少次替换

In [26]:
pattern = re.compile(r'\d')
re.sub(pattern, '数字', input2)

'数字数字数字自然语言处理'

In [27]:
re.subn(pattern, '数字', input2)

('数字数字数字自然语言处理', 3)

## split 切片函数
使用正则规则在目标字符串中查找匹配的字符串，用它们作为分界，把字符串切片。
split(pattern, target, [,maxsplit])
参数：正则规则，目标字符串，最多切片字数
返回：一个被切完的子字符串的列表

In [28]:
input3 = '自然语言处理123机器学习456深度学习'
pattern = re.compile(r'\d+')
re.split(pattern,input3)

['自然语言处理', '机器学习', '深度学习']

## '(?P<...>)' 命名组
`...` 里面是这个组的名字

In [35]:
pattern = re.compile(r'(?P<OW>\d+)(?P<YJ>\D+)')
m = re.search(pattern, input3)
m.group('OW')

'123'

In [36]:
m.group('YJ')

'机器学习'

## 模式案例

In [37]:
input4 = 'number 338-343-220'
pattern = re.compile(r'(\d\d\d-\d\d\d-\d\d\d)')
m = re.search(pattern, input4)
print(m.group())

338-343-220
