## 正则表达式语法

https://www.runoob.com/regexp/regexp-syntax.html

## Python 正则表达式
* 指定好匹配的模式：pattern
* 选择相应的方法：match, search等
* 得到匹配结果：group

* re.match # 从开始位置开始匹配，如果开头没有则无
* re.search # 搜索整个字符串
* re.findall # 搜索整个字符串，返回一个list

In [5]:
input = '自然语言处理很重要 。12abc789'

In [8]:
import re

In [9]:
pattern = re.compile(r'.')

In [10]:
re.findall(pattern, input)

['自',
 '然',
 '语',
 '言',
 '处',
 '理',
 '很',
 '重',
 '要',
 ' ',
 '。',
 '1',
 '2',
 'a',
 'b',
 'c',
 '7',
 '8',
 '9']

## 字符集合
* [abc]指定包含字符
* [a-zA-Z]来指定所有英文字母的大小写
* [^a-zA-Z]来指定不匹配所有英文字母

In [11]:
pattern = re.compile(r'[abc]')
re.findall(pattern, input)

['a', 'b', 'c']

In [12]:
pattern = re.compile(r'[a-zA-Z]')
re.findall(pattern, input)

['a', 'b', 'c']

In [13]:
pattern = re.compile(r'[^a-zA-Z]')
re.findall(pattern, input)

['自',
 '然',
 '语',
 '言',
 '处',
 '理',
 '很',
 '重',
 '要',
 ' ',
 '。',
 '1',
 '2',
 '7',
 '8',
 '9']

## 或方法
将两个规则并列起来，以|连接，表示只要满足其中之一就可匹配
* [a-zA-Z]|[0-9]表示满足数字或字母就可匹配，等价于[a-zA-Z0-9]

In [15]:
pattern = re.compile(r'[a-zA-Z]|[0-9]')
re.findall(pattern, input)

['1', '2', 'a', 'b', 'c', '7', '8', '9']

## 匹配数字'\d'等价于[0-9]

In [16]:
pattern = re.compile(r'\d')
re.findall(pattern, input)

['1', '2', '7', '8', '9']

## '\D'匹配非数字

In [17]:
pattern = re.compile(r'\D')
re.findall(pattern, input)

['自', '然', '语', '言', '处', '理', '很', '重', '要', ' ', '。', 'a', 'b', 'c']

## '\w'匹配字母和数字

In [18]:
pattern = re.compile(r'\w')
re.findall(pattern, input)

['自',
 '然',
 '语',
 '言',
 '处',
 '理',
 '很',
 '重',
 '要',
 '1',
 '2',
 'a',
 'b',
 'c',
 '7',
 '8',
 '9']

## '\W'匹配非字母和数字

In [19]:
pattern = re.compile(r'\W')
re.findall(pattern, input)

[' ', '。']

## '\s'匹配间隔符

In [20]:
pattern = re.compile(r'\s')
re.findall(pattern, input)

[' ']

## 重复
正则表达式可以匹配不定长的字符串
'*': 0或多次匹配
'+': 1次或多次匹配
'?': 0或1次匹配

In [22]:
pattern = re.compile(r'\d*')
re.findall(pattern, input)

['', '', '', '', '', '', '', '', '', '', '', '12', '', '', '', '789', '']

In [24]:
pattern = re.compile(r'\d+')
re.findall(pattern, input)

['12', '789']

In [25]:
pattern = re.compile(r'\d?')
re.findall(pattern, input)

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '1',
 '2',
 '',
 '',
 '',
 '7',
 '8',
 '9',
 '']

## 精确匹配和最小匹配
'{m}'精确匹配m次
'{m,n}' 匹配最少m次，最多n次 (n>m)

In [26]:
pattern = re.compile(r'\d{3}')
re.findall(pattern, input)

['789']

In [27]:
pattern = re.compile(r'\d{1,3}')
re.findall(pattern, input)

['12', '789']